Với vóc dáng mảnh khảnh và phong thái trầm lặng, Liang Wenfeng dễ tạo ấn tượng là một người rụt rè. Trong các cuộc họp, nhà sáng lập DeepSeek thường nói chuyện ngắt quãng, thi thoảng im lặng khá lâu như thể đang lạc giữa dòng suy nghĩ riêng.
Tuy nhiên, các nhân viên mới nhanh chóng nhận ra rằng sự trầm lặng ấy không phải dấu hiệu của sự dè dặt. Một khi Liang nắm bắt đầy đủ những điểm mấu chốt trong cuộc thảo luận, ông sẽ bất ngờ đưa ra những câu hỏi sắc bén, khó nhằn liên quan đến kiến trúc mô hình, chi phí vận hành và hàng loạt chi tiết kỹ thuật tinh vi trong hệ thống AI của DeepSeek.
Trong nội bộ, ông thường được gọi “ông chủ” - một cách xưng hô phổ biến tại Trung Quốc. Song điều khiến người đàn ông này trở nên khác biệt chính là việc ông sẵn sàng trao quyền cho các nhà nghiên cứu trẻ, thậm chí cả thực tập sinh, tin tưởng giao họ phụ trách những dự án thử nghiệm quy mô mà ở nơi khác có lẽ chỉ dành cho các kỹ sư kỳ cựu.
Liang thường đích thân ghé qua bàn làm việc của các thành viên trong nhóm để nắm bắt tiến độ, đồng thời khuyến khích họ mở rộng tư duy theo những hướng kỹ thuật phi truyền thống.
“Một ‘mọt sách công nghệ’ đúng nghĩa. Nhiều lúc tôi có cảm giác ông ấy nắm bắt nghiên cứu tốt hơn cả các nhà nghiên cứu trong nhóm”, cựu nhân viên DeepSeek nhận xét.
Liang và startup non trẻ của ông bất ngờ thu hút sự chú ý toàn cầu vào tháng 1 năm nay, khi DeepSeek ra mắt mô hình AI mang tên R1 - một bước đột phá khiến giới chuyên môn không khỏi sửng sốt.
R1 đã vượt qua nhiều đối thủ phương Tây trên các bài kiểm tra tiêu chuẩn vốn được sử dụng rộng rãi để đánh giá hiệu suất của các mô hình trí tuệ nhân tạo.
Tuy nhiên, điều gây chấn động không kém là tuyên bố từ DeepSeek: họ đã xây dựng mô hình nền tảng này với chi phí chỉ bằng khoảng 5% so với mức chi phí ước tính để phát triển GPT-4, mô hình đứng sau ChatGPT của OpenAI.
Và rồi…
Kết quả thử nghiệm của R1 đã gây ra một cú sốc thực sự trên thị trường tài chính Mỹ, góp phần khiến 1.000 tỷ USD giá trị “bốc hơi” và buộc giới hoạch định chính sách phải đối mặt với những câu hỏi gai góc về hiệu quả của các biện pháp kiểm soát xuất khẩu nhằm kìm hãm đà tiến của AI Trung Quốc.
Trong khi Washington còn đang loay hoay với chiến lược ứng phó, các ông lớn công nghệ như Amazon và Microsoft lập tức hành động: Họ nhanh chóng tích hợp mô hình của DeepSeek vào nền tảng điện toán đám mây, bên cạnh các đối tác khác như Meta và Mistral AI.
“Sự quan tâm đến DeepSeek đã tăng vọt chỉ trong một cuối tuần, buộc chúng tôi phải vào cuộc ngay”, Atul Deo, người phụ trách thị trường mô hình ngôn ngữ tại Amazon.com Inc., cho biết.
Có thể nói rằng, chính DeepSeek đã làm tan biến “làn sương mù” dày đặc bao phủ cách người Mỹ nhìn nhận ngành trí tuệ nhân tạo của Trung Quốc - một lĩnh vực từng bị xem là bí hiểm, có phần “yếu thế” nhưng thực chất có thể đang tiến xa hơn nhiều so với những gì họ sẵn sàng thừa nhận.
Tại Hàng Châu, nơi DeepSeek đặt đại bản doanh và nhiều trung tâm công nghệ cao khác trên khắp Trung Quốc, hệ sinh thái AI đang bùng nổ với sự hiện diện ngày càng dày đặc của các “tiểu long AI” - biệt danh phổ biến dành cho các startup trí tuệ nhân tạo đầy tham vọng.
Những chatbot tiên tiến do các công ty nội địa như MiniMax và Moonshot AI phát triển đang nhanh chóng chiếm lĩnh thị trường, thậm chí lan sang cả Mỹ.
Trong khi đó, dòng mô hình ngôn ngữ lớn Qwen của Tập đoàn Alibaba liên tục ghi tên mình vào các bảng xếp hạng LLM danh giá, cho thấy khả năng cạnh tranh sòng phẳng với những cái tên đình đám như Google hay Anthropic - vốn lâu nay thống trị sân chơi AI toàn cầu.
Vào tháng 4, CEO Robin Li của Baidu tự tin tuyên bố rằng công ty ông hoàn toàn có thể phát triển các mô hình ngang tầm với DeepSeek nhưng với chi phí thấp hơn đáng kể, nhờ vào siêu máy tính mới được trang bị chip do chính Baidu thiết kế.
Huawei Technologies cũng đang giành được sự công nhận với các dòng sản phẩm AI được phát triển để cạnh tranh trực tiếp với thiết bị của Nvidia - hãng hiện cung cấp GPU cho hầu hết các mô hình AI tiên tiến tại Mỹ và châu Âu.
“Tại Trung Quốc, tinh thần tập thể và ý chí làm việc khẩn trương đã tạo ra lợi thế rõ rệt về khả năng thực thi”, ông nhận định. Ông cũng cho rằng chính sự khan hiếm GPU Nvidia - hệ quả từ các lệnh cấm xuất khẩu - đã trở thành chất xúc tác buộc các công ty AI Trung Quốc phải đổi mới theo những cách chưa từng có.
Dù đang trở thành tâm điểm trong cuộc tranh luận toàn cầu về AI và địa chính trị, DeepSeek vẫn là một ẩn số. Công ty tự hào về việc công khai mã nguồn công nghệ AI của mình, nhưng lại hoàn toàn kín tiếng về cách thức vận hành nội bộ cũng như mục tiêu chiến lược.
Họ sẵn sàng chia sẻ những chi tiết nghiên cứu cực kỳ cụ thể trong các bài báo khoa học công khai, nhưng lại không hé lộ bất kỳ thông tin cơ bản nào như tổng chi phí xây dựng hệ thống AI, cấu hình GPU đang sử dụng hay nguồn gốc dữ liệu huấn luyện.
“Chúng tôi không biết DeepSeek thực sự theo đuổi điều gì. Họ giống như một chiếc hộp đen vậy”, một chuyên gia nhận định.
Trong suốt 10 tháng qua, ông hoàn toàn tránh xa giới truyền thông, không trả lời bất kỳ cuộc phỏng vấn báo chí nào. Hầu hết công chúng thậm chí còn không biết ông trông như thế nào, cho đến khi một bức ảnh chụp ông với gương mặt trẻ trung và cặp kính cận xuất hiện trong một phiên điều trần gần đây với Thủ tướng Trung Quốc Lý Cường.
DeepSeek hiểu rằng công nghệ AI mà họ phát triển có thể gây lo ngại ở bên ngoài Trung Quốc. Trong một buổi thuyết trình trực tuyến Hội nghị nhà phát triển Nvidia vào tháng 3 năm 2024, Deli Chen, một nhà nghiên cứu chuyên về học sâu tại DeepSeek, đã đưa ra một luận điểm đáng chú ý: Các giá trị đạo đức không nên được “gắn cứng” vào mô hình ngôn ngữ lớn (LLM), mà cần được tách rời và điều chỉnh linh hoạt theo từng bối cảnh xã hội.
Trên một slide mang đậm tính kỹ thuật, gần như lạnh lùng, Chen giới thiệu nguyên mẫu một chatbot DeepSeek có khả năng tùy biến đạo đức. Chỉ bằng vài cú nhấp chuột, các nhà phát triển có thể xác định tính hợp pháp cho hàng loạt chủ đề nhạy cảm, từ cờ bạc, mại dâm, quyền sở hữu súng, cần sa cho đến mang thai hộ.
“Tất cả những gì họ cần làm là lựa chọn các thông số phù hợp với hệ giá trị của mình, và họ sẽ được sử dụng một mô hình AI phản ánh đúng chuẩn mực đó”, Chen giải thích.
Tư duy linh hoạt và tinh thần thử nghiệm đã trở thành DNA văn hóa của DeepSeek – một truyền thống bắt nguồn từ thời Liang Wenfeng và nhóm bạn còn là sinh viên kỹ thuật tại Đại học Chiết Giang giữa những năm 2000. Trong bối cảnh khủng hoảng tài chính, họ bắt đầu phát triển hệ thống giao dịch chứng khoán tự động như một cách vừa học, vừa kiếm tiền.
Sau khi tốt nghiệp, Liang gặt hái thành công với các hệ thống giao dịch định lượng, rồi cùng các cộng sự sáng lập High-Flyer Quant vào năm 2015. Công ty nhanh chóng thu hút nhân tài từ các “ông lớn” như Google, Facebook và gây ấn tượng với môi trường làm việc phóng khoáng, đậm chất fintech khởi nghiệp.
High-Flyer nổi tiếng vừa bí ẩn vừa minh bạch. Mỗi thứ 6, công ty đều đăng biểu đồ hiệu suất của 10 quỹ gốc lên WeChat. Trước khi chuyển sang chỉ cho phép nhà đầu tư đăng ký xem dữ liệu hàng tuần vào mùa hè năm 2016, danh mục đầu tư này từng đạt mức lợi nhuận trung bình hàng năm lên tới 35%.
Nhờ đó, dòng tiền đổ về mạnh mẽ, nhân sự tăng lên hơn 100 người.
Từ năm 2019, Liang bắt đầu tuyển đội AI riêng với tham vọng tận dụng kho dữ liệu khổng lồ để phát hiện các cổ phiếu bị định giá thấp, những biến động giá nhỏ phục vụ giao dịch tần suất cao, cũng như tìm ra các xu hướng vĩ mô mà các nhà đầu tư chuyên nghiệp chưa nhận thấy. Khi đại dịch Covid-19 nổ ra, nhóm xây dựng hệ thống tính toán hiệu năng cao, giúp rút thời gian huấn luyện mô hình từ hai tháng xuống còn bốn ngày.
Dù kết quả tài chính sau đó không như kỳ vọng, Liang vẫn nhân đôi canh bạc với AI.
Đến giữa năm 2023, ông chính thức tách DeepSeek thành phòng thí nghiệm độc lập, dứt hẳn khỏi mục tiêu lợi nhuận tài chính để hướng đến giấc mơ lớn hơn: Trí tuệ nhân tạo tổng quát (AGI) – một hệ thống AI có thể suy nghĩ và học hỏi như con người.
Suốt năm 2023, DeepSeek bước vào một cuộc chạy đua không ngừng nghỉ để phát triển ba sản phẩm AI chủ lực: Một trợ lý lập trình, một chatbot kiến thức tổng quát và một công cụ chuyển văn bản thành tác phẩm nghệ thuật 3D.
Liang đưa theo một nhóm kỹ sư từ High-Flyer và chiêu mộ thêm nhân lực từ văn phòng Microsoft tại Bắc Kinh, cùng nhiều công ty công nghệ và trường đại học hàng đầu Trung Quốc.
Bo “Benjamin” Liu, khi đó mới là một thực tập sinh nghiên cứu vào tháng 9, chuẩn bị bắt đầu chương trình Tiến sĩ, kể rằng DeepSeek có cách phân công công việc rất khác thường. Liang thường giao cho thực tập sinh những nhiệm vụ mà ở nơi khác chỉ dành cho kỹ sư dày dạn kinh nghiệm.
“Lấy tôi làm ví dụ: Khi tôi mới vào công ty, chưa có ai xây dựng hạ tầng cho RLHF, thế là ông ấy để tôi làm luôn. Ông ấy sẵn sàng tin tưởng bạn làm những việc chưa ai từng làm trước đó”, Liu kể.
Niềm tin mà Liang dành cho các thực tập sinh không chỉ là động lực tinh thần mà còn mang lại lợi ích kinh tế rõ rệt cho DeepSeek.
Công ty trả cho thực tập sinh mức lương 140 USD mỗi ngày, kèm theo 420 USD trợ cấp nhà ở mỗi tháng - một con số được xem là hào phóng tại Trung Quốc. Tuy vậy, con số này vẫn chỉ bằng khoảng một phần ba thu nhập trung bình của thực tập sinh tại các công ty AI ở Mỹ và chỉ là một phần rất nhỏ so với mức lương kỹ sư toàn thời gian tại Thung lũng Silicon.
Khác với các mô hình như ChatGPT thời kỳ đầu, vốn kích hoạt toàn bộ "bộ não" AI để trả lời mọi câu hỏi, từ phép tính đơn giản như 2 + 2 đến công thức làm bánh, mô hình sparse chỉ kích hoạt phần não phù hợp nhất, giúp tiết kiệm đáng kể tài nguyên tính toán.
Dù mang lại hiệu quả vượt trội về chi phí, phương pháp này lại cực kỳ phức tạp. Nếu truy vấn được chuyển đến sai “vùng não”, hoặc không đủ số “chuyên gia” liên quan được kích hoạt, chất lượng câu trả lời sẽ giảm rõ rệt. (Ví dụ: phần “não toán học” có thể xử lý số π trong công thức, nhưng không biết nguyên liệu làm bánh pie).
Không dừng lại ở đó, Liang thúc giục đội ngũ DeepSeek phát triển các mô hình với số lượng “chuyên gia” ngày càng lớn hơn dù điều này đồng nghĩa với nguy cơ gia tăng “ảo giác” và khiến kiến thức của mô hình có nguy cơ bị phân mảnh. “Điều đó đã làm dấy lên rất nhiều tranh luận nội bộ”, một cựu nhân viên DeepSeek tiết lộ.
Tiếp nối làn sóng cải tiến kỹ thuật, DeepSeek liên tục tung ra những đột phá mới, được công bố công khai và nhanh chóng thu hút sự chú ý từ các đối thủ trong nước. Đến cuối năm 2024, công ty chính thức ra mắt mô hình V3 - một hệ thống AI đa năng có quy mô lớn hơn tới 65% so với mô hình nguồn mở lớn nhất vào thời điểm đó của Meta.
Tuy nhiên, không phải kích thước của mô hình mà chính bài nghiên cứu chuyên sâu đi kèm mới là thứ thực sự khiến giới lãnh đạo tại Google, OpenAI và Microsoft phải giật mình, diễn ra chỉ khoảng một tháng trước khi DeepSeek “gây bão” toàn cầu với mô hình suy luận R1.
Một con số đặc biệt khiến cộng đồng công nghệ chú ý: Trong báo cáo, DeepSeek ám chỉ rằng toàn bộ quá trình phát triển V3 chỉ tiêu tốn vỏn vẹn 5,6 triệu USD.
Dù nhiều chuyên gia cho rằng con số này có thể chỉ phản ánh chi phí của đợt huấn luyện cuối cùng - tức giai đoạn tinh chỉnh mô hình hoàn chỉnh - nó vẫn bị xem là quá thấp đến mức khó tin cho một dự án ở cấp độ như vậy.
Trong khi đó, chi phí để huấn luyện các mô hình AI tiên phong hiện nay thường lên đến 100 triệu USD hoặc hơn. Thậm chí, trước khi DeepSeek nổi lên, CEO Anthropic là Dario Amodei từng dự báo rằng các mô hình thế hệ tiếp theo có thể ngốn từ 10 đến 100 tỷ USD mỗi chiếc để huấn luyện.
Bên cạnh đó, DeepSeek đạt được tốc độ phát triển vượt trội phần lớn nhờ triết lý mã nguồn mở mà Liang xem là cốt lõi trong tư duy công nghệ của mình.
Ông cho rằng việc giữ kín kỹ thuật độc quyền và thu phí các mô hình mạnh - cách làm của nhiều phòng thí nghiệm hàng đầu tại Mỹ như OpenAI hay Google - chỉ mang lại lợi thế ngắn hạn, thay vì thành công bền vững.
Theo Liang, việc công khai toàn bộ mô hình, phần lớn miễn phí, là cách hiệu quả nhất để DeepSeek thúc đẩy tốc độ ứng dụng và khuyến khích cộng đồng khởi nghiệp, nhà nghiên cứu xây dựng các sản phẩm trên nền tảng công nghệ của công ty.
Mục tiêu là tạo ra một vòng lặp phát triển liên tục giữa sản phẩm và phản hồi từ người dùng.
DeepSeek hiện đang là cái tên thu hút nhiều sự chú ý nhất, nhưng thực tế, công ty này chỉ là một mảnh ghép trong bức tranh rộng lớn của hệ sinh thái AI Trung Quốc.
Ngày càng có nhiều “con rồng AI” mạnh mẽ trỗi dậy từ các “Thung lũng Silicon” bản địa - những trung tâm đổi mới công nghệ sôi động trải dài khắp các thành phố như Hàng Châu, Bắc Kinh, Thâm Quyến và Thượng Hải và đang dần khiến thế giới không thể làm ngơ.
Ngay tại Hàng Châu, DeepSeek là một phần của nhóm tinh hoa gồm sáu startup công nghệ hàng đầu, được giới trong ngành gọi bằng cái tên ấn tượng: “Sáu Tiểu Long.”
Tại quận Tây Hồ thơ mộng, nơi thiên nhiên giao hòa với công nghệ, có Game Science - studio đứng sau tựa game hành động đình đám Black Myth: Wukong. Tựa game này gây tiếng vang không chỉ nhờ đồ họa ấn tượng, mà còn bởi việc tích hợp công nghệ machine learning để tạo ra những nhân vật ảo sống động như thật.
Không xa đó là hai công ty robot tiên tiến cùng một startup kỳ lân đang phát triển phần mềm mô phỏng không gian 3D, mở ra tương lai cho ngành công nghiệp kỹ thuật số tương tác.
Cũng tại Hàng Châu là trụ sở của Công ty Công nghệ Qiangnao Chiết Giang (Zhejiang Qiangnao Technology Co.), hay còn được biết đến với tên quốc tế là BrainCo, một phiên bản Trung Quốc của Neuralink.
Do Tiến sĩ người Trung Quốc Bicheng Han sáng lập trong thời gian học tại Đại học Harvard, BrainCo hiện đang phát triển các thiết bị hỗ trợ thần kinh như tay giả điều khiển bằng AI và công nghệ giao tiếp não - máy.
Một trong những cánh tay giả AI tiên tiến nhất của công ty hiện đang được trưng bày tại trung tâm triển lãm thuộc “Thị trấn Trí tuệ Nhân tạo Trung Quốc” - một trung tâm công nghệ đang lên khác ngay tại Hàng Châu, cho thấy rõ tham vọng biến thành phố này thành thủ phủ AI của quốc gia.
Trong những tuần gần đây, các lãnh đạo của BrainCo đã đích thân dẫn khách tham quan khu triển lãm công nghệ của công ty, theo lời kể của một người từng tham dự.
Không ít người trong số đó bày tỏ mong muốn được đầu tư, nhưng rõ ràng các nhà khoa học tại đây không mấy bận tâm đến chuyện gọi vốn.
Và đứng lặng lẽ phía sau tất cả những cái tên đang làm nên cơn sốt khởi nghiệp này là Chính phủ Trung Quốc, dưới sự chỉ đạo trực tiếp của Chủ tịch Tập Cận Bình.
Những lĩnh vực như AI tạo sinh, robot và công nghệ cao đang được đưa lên hàng đầu trong chương trình nghị sự quốc gia, với ưu tiên chiến lược là “tự cường và tự lực”.
Trong một cuộc họp gần đây của Bộ Chính trị, Chủ tịch Tập nhấn mạnh, theo Tân Hoa Xã: “Chúng ta phải nhận thức rõ những khoảng cách và nỗ lực gấp đôi để thúc đẩy toàn diện đổi mới công nghệ, phát triển công nghiệp, và ứng dụng AI vào thực tiễn”.
Những “con rồng” đang lắng nghe và không phải con nào cũng “nhỏ.” Tập đoàn công nghệ khổng lồ Alibaba - với định giá khoảng 300 tỷ USD - đặt trụ sở chính trong một khuôn viên rộng lớn có cả hồ nước riêng, cách Tây Hồ chừng 40 phút lái xe.
Mới đây, Alibaba tuyên bố sẽ đầu tư 53 tỷ USD trong vòng ba năm tới để xây dựng thêm các trung tâm dữ liệu dành riêng cho AI, đồng thời khẳng định rằng dòng mô hình Qwen3 mới nhất của họ có thể cạnh tranh sòng phẳng với DeepSeek cả về hiệu suất lẫn chi phí.
Được biết, Alibaba đang đẩy mạnh chuyển hướng sang lĩnh vực điện toán đám mây và trí tuệ nhân tạo. Đơn vị này đã được tách riêng từ năm 2022, hiện đặt tại một khu công nghệ ở ngoại ô Hàng Châu.
Tinh thần tự hào dân tộc đang trỗi dậy tại Trung Quốc, nơi quyết tâm chứng minh rằng họ có thể vượt qua các rào cản từ phương Tây.
George Chen, Giám đốc điều hành tại công ty tư vấn chính sách Asia Group (trụ sở tại Hồng Kông, Trung Quốc), cho biết nhiều kỹ sư Trung Quốc hàng đầu đang quay về nước sau thời gian làm việc tại Apple, Google, Microsoft và các công ty lớn khác của Mỹ.
Họ thực sự đã cảm thấy “trận địa thực sự” đang chuyển dịch về phía Đông. “Thung lũng Silicon không còn là nơi hấp dẫn để người tài Trung Quốc làm việc”, ông Chen nhận xét.
Kai-Fu Lee, người sáng lập startup kỳ lân Trung Quốc 01.AI và cũng từng làm việc tại Apple, Google và Microsoft, nói rằng thế hệ kỹ sư AI mới sẽ không còn đi theo con đường cũ: Làm việc tại Mỹ rồi mới quay về lập nghiệp.
“Thế hệ kỹ sư AI trẻ này phần lớn được đào tạo trong nước. Thành công của DeepSeek cũng như nhiều startup AI mới khác, đang thúc đẩy một làn sóng nhân tài trẻ tham gia vào cuộc phục hưng AI của Trung Quốc”, ông cho biết.