Công ty khởi nghiệp Trung Quốc DeepSeek gần đây trở thành tâm điểm chú ý trong thế giới công nghệ với mức sử dụng tài nguyên tính toán thấp đáng kinh ngạc cho mô hình AI tiên tiến có tên là R1. Mô hình này được cho là có khả năng cạnh tranh với o1 của Open AI mặc dù công ty tuyên bố rằng DeepSeek chỉ tốn 6 triệu USD và 2.048 GPU để đào tạo.
Tuy nhiên, hãng chuyên phân tích ngành SemiAnalysis cho rằng công ty đứng sau DeepSeek phải chịu 1,6 tỷ USD chi phí phần cứng, có "đội ngũ" đứng sau gồm 50.000 GPU Nvidia Hopper. Nếu điều này được xác nhận, nhận định DeepSeek có thể tái tạo đào tạo suy luận AI với mức đầu tư thấp hơn đáng kể so với các công ty dẫn đầu ngành sẽ phải thay đổi.
Báo cáo phân tích cho rằng DeepSeek vận hành một cơ sở hạ tầng điện toán rộng lớn với khoảng bao gồm 10.000 GPU H800 và GPU 10.000 H100, ngoài ra là GPU H20. Các phần cứng này được phân bổ trên nhiều địa điểm và phục vụ các mục đích như đào tạo AI, nghiên cứu và lập mô hình tài chính. Tổng vốn đầu tư của công ty vào máy chủ là khoảng 1,6 tỷ USD, với ước tính 944 triệu USD chi cho chi phí vận hành, theo SemiAnalysis.
DeepSeek có nguồn gốc từ High-Flyer, một quỹ đầu cơ của Trung Quốc đã áp dụng AI sớm và đầu tư mạnh vào GPU. Vào năm 2023, High-Flyer ra mắt DeepSeek như một liên doanh riêng biệt chỉ tập trung vào AI. Không giống như nhiều đối thủ cạnh tranh, DeepSeek vẫn tự cấp vốn, mang lại cho công ty sự linh hoạt và tốc độ trong việc ra quyết định. Mặc dù tuyên bố rằng đây là một nhánh nhỏ, công ty đã đầu tư hơn 500 triệu USD vào công nghệ của mình, theo SemiAnalysis.
Công ty Trung Quốc cũng tuyển dụng nhân tài từ Trung Quốc đại lục, không có sự săn đón từ nơi khác. Theo SemiAnalysis, DeepSeek tập trung vào các kỹ năng và khả năng giải quyết vấn đề thay vì các bằng cấp chính thức, nỗ lực tuyển dụng từ Đại học Bắc Kinh và Đại học Chiết Giang, cung cấp mức lương rất cạnh tranh. Một số nhà nghiên cứu AI tại DeepSeek được cho là có mức lương vượt quá mức lương tại các công ty AI hàng đầu khác của Trung Quốc như Moonshot.
DeepSeek nhấn mạnh vào hiệu quả và cải tiến thuật toán hơn là mở rộng quy mô, định hình lại kỳ vọng xung quanh quá trình phát triển mô hình AI. Vì nhiều lý do, cách tiếp cận này khiến một số người tin rằng những tiến bộ nhanh chóng của công ty Trung Quốc có thể làm giảm nhu cầu về GPU cao cấp, tác động đến các công ty như Nvidia.
Con số 6 triệu USD như vậy chỉ đề cập đến một phần của tổng chi phí đào tạo, không tính đến chi phí nghiên cứu, tinh chỉnh mô hình, xử lý dữ liệu hoặc chi phí cơ sở hạ tầng nói chung.