Ngay những ngày đầu năm mới, một mô hình trí tuệ nhân tạo (AI) của Trung Quốc xuất hiện đang khiến giới công nghệ toàn cầu phải kinh ngạc về sự thông minh, tính hiệu quả. Đáng chú ý chi phí đầu tư và vận hành mô hình này được cho là rẻ hơn nhiều so với nhiều sản phẩm AI đang hiện hành.
DEEPSEEK LÀ GÌ?
Mô hình AI đột phá này được phát triển bởi DeepSeek, một công ty khởi nghiệp chỉ mới thành lập cách đây một năm. Tuy tuổi đời còn non trẻ, DeepSeek đã chứng minh được năng lực đáng kinh ngạc, sức mạnh của mô hình AI này có thể sánh ngang, thậm chí vượt trội so với những tên tuổi lớn trong ngành như ChatGPT của OpenAI, Gemini của Google, CoPilot của Microsoft hay Llama của Meta.
DeepSeek có “quốc tịch Trung Quốc bởi Công ty trí tuệ nhân tạo DeepSeek được thành lập vào năm 2023 tại thành phố Hàng Châu, Trung Quốc. Người sáng lập công ty này là Lương Văn Phong, sinh năm 1985, tốt nghiệp cử nhân và thạc sĩ ngành kỹ thuật điện tử và thông tin tại Đại học Chiết Giang.
Nắm bắt xu hướng bùng nổ của AI, giống như nhiều startup được thành lập trong thời gian gần đây, DeepSeek cũng khát khao tìm kiếm ánh hào quang trong lĩnh vực này. Lương Văn Phong đã được ví như Sam Altman (nhà sáng lập OpenAI, cha đẻ của ChatGPT) của Trung Quốc, khi đưa DeepSeek trở thành một công cụ AI nổi tiếng trên toàn cầu, thay vì chỉ giới hạn trong phạm vi người dùng tại Trung Quốc.
Trước đó, trong thời gian khởi nghiệp, DeepSeek cũng đã phát triển và thử nghiệm nhiều mô hình AI khác nhau, nhưng không thực sự tạo được sự chú ý. Chỉ đến khi ra mắt mô hình AI mang tên R1 vào cuối năm ngoái và chính thức phát hành đến người dùng từ ngày 20/1 vừa qua, DeepSeek mới tạo được tiếng vang và gây sốt trên toàn cầu nhờ vào trí thông minh và khả năng xử lý ấn tượng của nó.
Các chuyên gia và người dùng thậm chí còn đánh giá DeepSeek R1 đưa ra câu trả lời thông minh, chính xác và phản hồi nhanh hơn so với các công cụ AI khác như ChatGPT, Gemini hay Llama…
Công ty chưa công bố chi tiết, nhưng chi phí đào tạo và phát triển các mô hình của DeepSeek có vẻ chỉ bằng một phần nhỏ so với OpenAI hay Meta. Hiệu suất cao và chi phí thấp của R1 đặt ra câu hỏi về việc có cần đầu tư hàng tỷ USD để mua các bộ tăng tốc AI mạnh nhất từ Nvidia hay không.
Mô hình AI “sinh sau đẻ muộn này còn khiến giới công nghệ kinh ngạc bởi giá thành đầu tư và vận hành khi cơ quan chủ quản chỉ mất 5,6 triệu USD để đưa DeepSeek đến với người dùng trong khi các hãng công nghệ của Mỹ đang chi ra hàng trăm, thậm chí hàng tỷ đô la để phát triển và vận hành mô hình AI của riêng họ.
Một điểm khác khiến DeepSeek thu hút sự chú ý của giới công nghệ đó là công cụ AI này được ra đời và phát triển vào thời điểm chính phủ Mỹ đang áp dụng các lệnh trừng phạt, ngăn chặn nguồn cung cấp chip AI hiệu suất cao cho các công ty Trung Quốc. Điều đó có nghĩa là DeepSeek được phát triển và hoạt động dựa trên các chip AI hiệu suất thấp, nhưng vẫn thể hiện được sức mạnh đáng nể.
Ứng dụng DeepSeek trên kho ứng dụng App Store dành cho các thiết bị iOS đã có sự nhảy vọt về số lượng tải, vượt qua ChatGPT khi trở thành ứng dụng AI được tải về nhiều nhất trong thời gian gần đây.
DEEPSEEK CÓ GÌ KHIẾN CÁC “ÔNG LỚN” CÔNG NGHỆ PHẢI DÈ CHỪNG?
DeepSeek là mô hình ngôn ngữ lớn sử dụng kỹ thuật "tính toán thời gian suy luận", nghĩa là mô hình này chỉ kích hoạt những phần liên quan nhất của hệ thống để đưa ra câu trả lời cho mỗi truy vấn, thay vì truy xuất toàn bộ thông tin từ cơ sở dữ liệu khổng lồ của hệ thống.
Chính công nghệ này đã giúp DeepSeek có tốc độ phản hồi nhanh và tiết kiệm chi phí vận hành.
DeepSeek cũng là mô hình ngôn ngữ lớn mã nguồn mở, nghĩa là các công ty khác có thể sử dụng DeepSeek trong các sản phẩm của mình, đồng thời DeepSeek cũng có thể được phát triển nhờ vào sự đóng góp của cộng đồng.
DeepSeek cho biết R1 có hiệu suất ngang bằng hoặc vượt trội so với các mô hình đối thủ trên nhiều bảng đánh giá quan trọng. Nó đạt kết quả cao trên AIME 2024 cho bài toán, MMLU cho kiến thức tổng quát và AlpacaEval 2.0 cho khả năng hỏi đáp. R1 cũng nằm trong nhóm dẫn đầu trên bảng xếp hạng Chatbot Arena do UC Berkeley quản lý.
David Sacks, một nhà đầu tư mạo hiểm được tân Tổng thống Donald Trump chỉ định nhiệm vụ giám sát chính sách phát triển AI và tiền điện tử của chính phủ Mỹ, cũng đã phải thốt lên rằng DeepSeek sẽ khiến cuộc đua AI trở nên rất cạnh tranh.
Thực tế, sản phẩm AI này đã chính thức tác động trực tiếp đến quyền lợi của các tập đoàn công nghệ hàng đầu thế giới. Theo đó, sau khi DeepSeek công bố “AI giá rẻ”, vốn hóa Nvidia sụt gần 600 tỷ USD, còn Meta lập "phòng chiến tranh" để giải mã mô hình đang thay đổi cuộc chơi của Trung Quốc.
Cụ thể, theo Fortune, trong ngày 27/1, "sự hoảng loạn của các nhà đầu tư Nvidia" khiến cổ phiếu của công ty giảm gần 17% và xóa sổ gần 600 tỷ giá trị, đưa vốn hóa công ty xuống dưới mốc 3.000 tỷ USD.
Đợt bán tháo được kích hoạt bởi DeepSeek. Ngày 20/1, công ty khởi nghiệp Trung Quốc công bố mô hình AI V3 miễn phí và đặc biệt R1 "được đào tạo trên các chip cũ của Nvidia, mã nguồn mở 100%, rẻ hơn 96,4% so với OpenAI o1 trong khi vẫn mang lại hiệu suất tương tự". Công ty cho biết họ chỉ mất hai tháng và chi phí dưới 6 triệu USD để xây dựng mô hình AI sử dụng chip H800 kém tiên tiến của Nvidia. Phiên bản V3 thậm chí vượt ChatGPT trở thành ứng dụng được tải nhiều nhất trên App Store tại Mỹ ngày 27/1.
Hệ quả này khiến các tập đoàn công nghệ hàng đầu thế giới không thể ngồi yên trước một đối thủ “trẻ và khỏe” hơn. Trong báo cáo tài chính ngày 29/1, CEO Mark Zuckerberg tái khẳng định kế hoạch đầu tư hơn 60 tỷ USD riêng trong năm 2025 vào trí tuệ nhân tạo, chủ yếu cho việc xây dựng trung tâm dữ liệu. Về lâu dài, Meta sẽ chi "hàng trăm tỷ USD" cho hạ tầng AI.
Nói về tác động của DeepSeek, Zuckerberg cho biết việc chi mạnh vào cơ sở hạ tầng AI tiếp tục là "lợi thế chiến lược" cho Meta. Họ coi DeepSeek là đối thủ cạnh tranh mới và đang học hỏi từ công ty Trung Quốc này, nhưng "còn quá sớm" để xác định liệu nhu cầu về chip có ngừng tăng hay không vì chúng rất quan trọng trong đào tạo AI. Zuckerberg cũng lưu ý rằng Meta đang có hàng tỷ người dùng. Mục tiêu của Meta là biến Llama 4 trở thành mô hình AI cạnh tranh nhất thế giới, kể cả khi so sánh với các mô hình đóng như ChatGPT.
Theo the Information, Mark Zuckerberg đã đưa ra tình trạng báo động cao và tập hợp kỹ sư vào bốn "phòng chiến tranh" để xác định cách High-Flyer, một trong những quỹ đầu tư hàng đầu Trung Quốc, tài trợ toàn phần cho DeepSeek để phát hành một công cụ thay đổi cuộc chơi AI
Sự trỗi dậy của AI tạo sinh như ChatGPT đã châm ngòi cho cuộc chạy đua vũ trang giữa các gã khổng lồ công nghệ như Meta, Microsoft và Google. Họ tin rằng chìa khóa thành công nằm trong việc sở hữu nguồn lực điện toán khổng lồ để vận hành các mô hình AI tối tân. Tuy nhiên, quan niệm này đang bị lung lay dữ dội khi DeepSeek, một công ty khởi nghiệp từ Trung Quốc, trình làng những mô hình AI mới với chi phí đào tạo thấp đến bất ngờ.