Tệp - Ứng dụng điện thoại thông minh DeepSeek được nhìn thấy trên màn hình điện thoại thông minh ở Bắc Kinh, ngày 28 tháng 1 năm 2025. (Ảnh AP/Andy Wong, Tệp)Bản quyền 2025 The Associated Press. Tất cả các quyền được bảo lưuCá voi mà là DeepSeek đã không thể nhìn thấy trước ngày 20 tháng 1 năm 2025. Sau đó, Cá voi Xanh xuất hiện trước mắt toàn thế giới vào ngày 20 tháng 1. Cú đập đó đã gây chấn động toàn cầu.
Việc phát hành DeepSeek-R1 ngay lập tức đã làm sụt giảm giá trị thị trường của một số công ty phần cứng và phần mềm, vốn được nâng đỡ bởi những gì các nhà đầu tư nghĩ là sự xuất sắc của Mỹ. Việc giữ lại các vi mạch mới nhất và sở hữu trí tuệ AI từ Trung Quốc được cho là chiến lược cần theo đuổi. Nhưng đó là sai lầm. Đó chính là những gì tạo nên sự nhảy vọt. Đặc biệt đối với một cường quốc sản xuất và thiết kế như Trung Quốc. Thật nghịch lý, các mẫu mới nhất từ DeepSeek thì miễn phí để sử dụng. Họ thậm chí còn vận hành trên máy chủ của họ miễn phí.
Sự phát triển của các mô hình ngôn ngữ lớn đa năng thông qua việc mở rộng các tham số và dữ liệu đào tạo đã dẫn đến nhiều đột phá. Việc phát hành ChatGPT-3.5 và 4.0 vào năm 2022-23 đã mở ra tiềm năng đa năng của AI cho công chúng. Cách tiếp cận này cũng làm tăng chi phí một cách đáng kể khi nhu cầu về tính toán và dữ liệu thúc đẩy các bộ vi xử lý lớn hơn và tốt hơn. Vào cuối năm 2023 và 2024, thậm chí ngay bây giờ, việc xây dựng các trung tâm dữ liệu tiêu thụ điện năng cao được coi là cách duy nhất để cải thiện hiệu suất của các mô hình. Việc hạn chế quyền truy cập vào tính toán và các chip mới nhất được cho là sẽ kìm hãm Trung Quốc như một nguồn cung cấp các mô hình mạnh mẽ này. Với DeepSeek, mô hình đó đã được thay đổi.
Các công ty như Nvidia, cổ phiếu của họ đã bị ảnh hưởng nặng nề bởi thông báo, đã phục hồi và phát triển kể từ đó. Các bài học đã bị bỏ qua trên thị trường toàn cầu. Điều tồi tệ nhất có thể vẫn chưa đến khi các công ty được hỗ trợ bởi sự gia tăng của AI và việc sử dụng nó bị hạ xuống thực tế bởi sự kết hợp của các phương pháp mới và việc giảm bớt khả năng tính toán cần thiết để thực hiện đào tạo cũng như suy diễn.
Chi phí chìm và chi phí chuyển đổi với những người ủng hộ kinh tế mạnh mẽ của họ ngăn cản cái nhìn dài hạn và giữ cho AI Mỹ bị kẹt trong con đường của họ. Thành công sinh ra sự tự mãn và sự tuân thủ theo mô hình đã tạo ra thành công. Trong AI, một lĩnh vực đang phát triển nhanh chóng, việc mắc kẹt vào các thuật toán, quy trình và thực hành là chết người. DeepSeek đã chỉ ra rằng chỉ đơn giản là tăng cường tính toán và dữ liệu không tạo ra tiến bộ theo cấp số nhân. Đây là một bài học từ nhiều lĩnh vực, thường bị bỏ qua với một câu châm ngôn đã được sử dụng quá mức nhưng sai lầm "Lần này thì khác." Đổi mới theo những mẫu quen thuộc; từ từ rồi sau đó nhanh chóng.
NHIỀU HƠN CHO BẠN## Hiệu suất
Chi phí đào tạo và vận hành DeepSeek thấp hơn nhiều so với các mô hình khác. Tỷ lệ trong một buổi thuyết trình gần đây cho thấy 6 triệu đô la cho DeepSeek so với 600 triệu đô la cho Llama (, mô hình mã nguồn mở từ Meta). Chỉ bằng một phần trăm chi phí. Chi phí cho các mô hình khác, bao gồm cả ChatGPT, còn cao hơn nữa. Sự tiết kiệm chi phí là kết quả của việc triển khai những phát hiện riêng của DeepSeek trong học tăng cường và đào tạo bằng cách sử dụng chưng cất. Hơn nữa, mô hình rất hiệu quả trong việc tạo ra ngôn ngữ Trung Quốc. Tính đến ba tháng trước, một số lượng lớn các công ty Trung Quốc đã tham gia vào cuộc cách mạng AI bằng cách đăng ký sử dụng DeepSeek. Là nhà vô địch quốc gia, chính sách công nghiệp của chính phủ hỗ trợ DeepSeek.
RL như một phương pháp đào tạo được phát minh tại Đại học Amherst. Những người nhận giải thưởng ACM Turing 2024, Andrew Barto và Richard Sutton là những người sáng tạo ra các kỹ thuật học tăng cường cổ điển. Đối với các LLM và các mô hình lớn khác, cách tiếp cận như vậy thuộc về học có giám sát. Mô hình được tinh chỉnh thông qua phản hồi, thường là từ con người, được gọi là RLHF (Học Tăng Cường với Phản Hồi của Con Người). Điều này được gọi là tinh chỉnh có giám sát. Con người là những người giám sát. Bài báo được phát hành bởi các nhà sáng tạo của DeepSeek R1 đi vào chi tiết về cách mà họ đã sửa đổi RL.
Bất cứ điều gì liên quan đến con người trong chu trình quy mô lớn đều cần rất nhiều tiền. Việc loại bỏ con người trong chu trình làm cho việc đào tạo trở nên rẻ hơn. Một phiên bản của mô hình được sử dụng để tinh chỉnh mô hình khác. Nói cách khác, một mô hình hoạt động như người giám sát và mô hình kia được đào tạo. Sự xuất hiện của các công ty mới với các mô hình như MiniMax-M1 càng thể hiện rõ sự chuyển mình này. Những kỹ thuật như vậy sẽ vượt qua các mô hình được tạo ra bằng cách mở rộng theo cách truyền thống.
DeepSeek-R1 đã hiệu quả qua sự tiến hóa của nó bằng cách sử dụng nhiều chiến lược. Sự kết hợp của các phương pháp mới dựa trên các kỹ thuật hiện có đã làm cho việc đào tạo và suy luận trở nên hiệu quả về thời gian và tài nguyên. Thêm chi tiết có thể được tìm thấy trong bài viết này. Tóm lại, tất cả các khía cạnh của việc tạo ra và vận hành các mô hình ngôn ngữ lớn đã được thay đổi, cải thiện hoặc làm lại để tiết kiệm chi phí và thời gian.
MiniMax-M1
MiniMax-M1 tuyên bố đã cắt giảm chi phí đào tạo DeepSeek-R1 tới 90%. Họ đã đào tạo mô hình của mình với chi phí 500K USD. So sánh với chi phí 6 triệu USD cho DeepSeek-R1 và 600 triệu USD cho LLaMa. Có những nghi ngờ về các số liệu được công bố bởi cả DeepSeek và MiniMax.
Các hiệu suất đã được cải thiện thông qua việc tinh chỉnh thêm RL với cái gọi là sự chú ý chớp nhoáng. Điều này chủ yếu dành cho các vấn đề xác định như lý thuyết toán học và logic cũng như các vấn đề ngữ cảnh dài như lập trình. Minimax cũng có sẵn thông qua HuggingFace, nền tảng AI mã nguồn mở.
Quyền riêng tư
Có mối lo ngại rằng DeepSeek đang thu thập dữ liệu cá nhân cho mục đích riêng. Hiện tượng này rất phổ biến trong thế giới AI và mạng xã hội nói chung. Điều làm cho việc chia sẻ dữ liệu cá nhân với DeepSeek hoặc các công ty tư nhân khác trở nên nghiêm trọng là thực tế rằng chúng sẽ được sử dụng để tinh chỉnh các mô hình. Trong trường hợp của DeepSeek hoặc các công ty có trụ sở tại Trung Quốc khác, có nỗi sợ dữ liệu sẽ đến tay chính phủ Trung Quốc. Các công ty AI tư nhân, ngay cả những công ty ở Hoa Kỳ cũng làm điều tương tự, ngoại trừ việc họ sẽ chia sẻ dữ liệu đó với chính phủ Mỹ nếu họ bị buộc phải làm theo pháp luật. Tại thời điểm này, một kịch bản như vậy càng đáng lo ngại hơn. Tu chính án thứ tư sẽ bị bỏ qua, nếu chính phủ có thể tìm kiếm không chỉ cơ thể và ngôi nhà của chúng ta, mà còn cả tâm trí của chúng ta mà không cần lệnh khám.
Để tìm hiểu thêm về các rủi ro của DeepSeek, hãy đọc phân tích này từ Hidden Layer. Vì mô hình kinh doanh của Hidden Layer dựa trên những loại phân tích này, tốt nhất là nên xem xét kỹ lưỡng phân tích và so sánh với công việc của họ trên các mô hình mở khác.
Mô Hình AI Mã Nguồn Mở
Open Source International (OSI) có định nghĩa về Open Source AI. Hiện tại là 1.0, có thể được sửa đổi. Giống như định nghĩa Open Source cho phần mềm, nó cho phép người dùng sử dụng, quan sát, sửa đổi và phân phối mà không có bất kỳ hạn chế nào. Các mô hình AI phụ thuộc rất nhiều vào dữ liệu đào tạo của chúng. Việc sử dụng AI liên quan đến suy diễn, tiêu tốn tài nguyên. Chi phí cho việc đào tạo là riêng biệt với chi phí suy diễn. Trong định nghĩa cổ điển về phần mềm mã nguồn mở, mã nguồn có sẵn cho bất kỳ người dùng nào để sử dụng, quan sát, sửa đổi và phân phối. Trong một cách hiểu nghiêm ngặt về mã nguồn mở AI, mã nguồn nên bao gồm dữ liệu được sử dụng để đào tạo mô hình. Tuy nhiên, điều này có thể không thực tế, cũng như không phải là một phần của định nghĩa OSI về Open Source AI.
Điều này khác biệt đáng kể so với hướng dẫn của OSI về phần mềm mã nguồn mở. Sự khác biệt khác là khả năng quan sát các trọng số và siêu tham số của mô hình. Trong giai đoạn học, các trọng số của mô hình được tinh chỉnh. Trọng số mô hình thể hiện mô hình ở dạng hiện tại của nó, kết tinh tất cả quá trình đào tạo mà mô hình đã trải qua. Siêu tham số kiểm soát cấu hình ban đầu của thiết lập học. Trong một mô hình mở, trọng số mô hình và các tham số mô hình được dự kiến là công khai.
Các mô hình AI mã nguồn mở có thể được gọi là mô hình trọng số mở. Nhiều mô hình từ Trung Quốc là mô hình trọng số mở, bao gồm Qwen ( từ AliBababa). Cuộc thi này cũng đã buộc OpenAI phải phát hành một mô hình trọng số mở. Đây là mô hình gpt-oss cơ bản với hai biến thể.
Tương lai
Chúng tôi chưa đi sâu vào công nghệ đằng sau việc tạo ra các prompt đa phương thức và sinh ra đa phương thức. Bằng đa phương thức, chúng tôi không chỉ có văn bản, mà còn có hình ảnh, âm thanh cũng như video. MiniMax cũng như DeepSeek có những khả năng này. Rõ ràng rằng việc giới hạn quyền truy cập vào phần cứng và kiến thức chuyên môn không thể ngăn cản đổi mới thực sự. Những ràng buộc như vậy cũng tạo ra nhiều sự thay đổi trong các mô hình, làm cho AI trở nên rẻ hơn để phát triển với phần cứng và nguồn tài nguyên điện năng thấp hơn, tạo ra một tương lai dân chủ hóa và phi tập trung, nơi chúng ta có thể tinh chỉnh và chạy các mô hình trên phần cứng thông dụng. Những phát triển này mang lại cho chúng ta hy vọng rằng chúng ta sẽ có thể kiểm soát và uốn nắn những khả năng này để giúp nhân loại thay vì gây hại cho chính mình.
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
DeepSeek: Một Cuộc Cách Mạng, Nó Có Ý Nghĩa Gì Đối Với Nhân Loại
Việc phát hành DeepSeek-R1 ngay lập tức đã làm sụt giảm giá trị thị trường của một số công ty phần cứng và phần mềm, vốn được nâng đỡ bởi những gì các nhà đầu tư nghĩ là sự xuất sắc của Mỹ. Việc giữ lại các vi mạch mới nhất và sở hữu trí tuệ AI từ Trung Quốc được cho là chiến lược cần theo đuổi. Nhưng đó là sai lầm. Đó chính là những gì tạo nên sự nhảy vọt. Đặc biệt đối với một cường quốc sản xuất và thiết kế như Trung Quốc. Thật nghịch lý, các mẫu mới nhất từ DeepSeek thì miễn phí để sử dụng. Họ thậm chí còn vận hành trên máy chủ của họ miễn phí.
Sự phát triển của các mô hình ngôn ngữ lớn đa năng thông qua việc mở rộng các tham số và dữ liệu đào tạo đã dẫn đến nhiều đột phá. Việc phát hành ChatGPT-3.5 và 4.0 vào năm 2022-23 đã mở ra tiềm năng đa năng của AI cho công chúng. Cách tiếp cận này cũng làm tăng chi phí một cách đáng kể khi nhu cầu về tính toán và dữ liệu thúc đẩy các bộ vi xử lý lớn hơn và tốt hơn. Vào cuối năm 2023 và 2024, thậm chí ngay bây giờ, việc xây dựng các trung tâm dữ liệu tiêu thụ điện năng cao được coi là cách duy nhất để cải thiện hiệu suất của các mô hình. Việc hạn chế quyền truy cập vào tính toán và các chip mới nhất được cho là sẽ kìm hãm Trung Quốc như một nguồn cung cấp các mô hình mạnh mẽ này. Với DeepSeek, mô hình đó đã được thay đổi.
Các công ty như Nvidia, cổ phiếu của họ đã bị ảnh hưởng nặng nề bởi thông báo, đã phục hồi và phát triển kể từ đó. Các bài học đã bị bỏ qua trên thị trường toàn cầu. Điều tồi tệ nhất có thể vẫn chưa đến khi các công ty được hỗ trợ bởi sự gia tăng của AI và việc sử dụng nó bị hạ xuống thực tế bởi sự kết hợp của các phương pháp mới và việc giảm bớt khả năng tính toán cần thiết để thực hiện đào tạo cũng như suy diễn.
Chi phí chìm và chi phí chuyển đổi với những người ủng hộ kinh tế mạnh mẽ của họ ngăn cản cái nhìn dài hạn và giữ cho AI Mỹ bị kẹt trong con đường của họ. Thành công sinh ra sự tự mãn và sự tuân thủ theo mô hình đã tạo ra thành công. Trong AI, một lĩnh vực đang phát triển nhanh chóng, việc mắc kẹt vào các thuật toán, quy trình và thực hành là chết người. DeepSeek đã chỉ ra rằng chỉ đơn giản là tăng cường tính toán và dữ liệu không tạo ra tiến bộ theo cấp số nhân. Đây là một bài học từ nhiều lĩnh vực, thường bị bỏ qua với một câu châm ngôn đã được sử dụng quá mức nhưng sai lầm "Lần này thì khác." Đổi mới theo những mẫu quen thuộc; từ từ rồi sau đó nhanh chóng.
NHIỀU HƠN CHO BẠN## Hiệu suất
Chi phí đào tạo và vận hành DeepSeek thấp hơn nhiều so với các mô hình khác. Tỷ lệ trong một buổi thuyết trình gần đây cho thấy 6 triệu đô la cho DeepSeek so với 600 triệu đô la cho Llama (, mô hình mã nguồn mở từ Meta). Chỉ bằng một phần trăm chi phí. Chi phí cho các mô hình khác, bao gồm cả ChatGPT, còn cao hơn nữa. Sự tiết kiệm chi phí là kết quả của việc triển khai những phát hiện riêng của DeepSeek trong học tăng cường và đào tạo bằng cách sử dụng chưng cất. Hơn nữa, mô hình rất hiệu quả trong việc tạo ra ngôn ngữ Trung Quốc. Tính đến ba tháng trước, một số lượng lớn các công ty Trung Quốc đã tham gia vào cuộc cách mạng AI bằng cách đăng ký sử dụng DeepSeek. Là nhà vô địch quốc gia, chính sách công nghiệp của chính phủ hỗ trợ DeepSeek.
RL như một phương pháp đào tạo được phát minh tại Đại học Amherst. Những người nhận giải thưởng ACM Turing 2024, Andrew Barto và Richard Sutton là những người sáng tạo ra các kỹ thuật học tăng cường cổ điển. Đối với các LLM và các mô hình lớn khác, cách tiếp cận như vậy thuộc về học có giám sát. Mô hình được tinh chỉnh thông qua phản hồi, thường là từ con người, được gọi là RLHF (Học Tăng Cường với Phản Hồi của Con Người). Điều này được gọi là tinh chỉnh có giám sát. Con người là những người giám sát. Bài báo được phát hành bởi các nhà sáng tạo của DeepSeek R1 đi vào chi tiết về cách mà họ đã sửa đổi RL.
Bất cứ điều gì liên quan đến con người trong chu trình quy mô lớn đều cần rất nhiều tiền. Việc loại bỏ con người trong chu trình làm cho việc đào tạo trở nên rẻ hơn. Một phiên bản của mô hình được sử dụng để tinh chỉnh mô hình khác. Nói cách khác, một mô hình hoạt động như người giám sát và mô hình kia được đào tạo. Sự xuất hiện của các công ty mới với các mô hình như MiniMax-M1 càng thể hiện rõ sự chuyển mình này. Những kỹ thuật như vậy sẽ vượt qua các mô hình được tạo ra bằng cách mở rộng theo cách truyền thống.
DeepSeek-R1 đã hiệu quả qua sự tiến hóa của nó bằng cách sử dụng nhiều chiến lược. Sự kết hợp của các phương pháp mới dựa trên các kỹ thuật hiện có đã làm cho việc đào tạo và suy luận trở nên hiệu quả về thời gian và tài nguyên. Thêm chi tiết có thể được tìm thấy trong bài viết này. Tóm lại, tất cả các khía cạnh của việc tạo ra và vận hành các mô hình ngôn ngữ lớn đã được thay đổi, cải thiện hoặc làm lại để tiết kiệm chi phí và thời gian.
MiniMax-M1
MiniMax-M1 tuyên bố đã cắt giảm chi phí đào tạo DeepSeek-R1 tới 90%. Họ đã đào tạo mô hình của mình với chi phí 500K USD. So sánh với chi phí 6 triệu USD cho DeepSeek-R1 và 600 triệu USD cho LLaMa. Có những nghi ngờ về các số liệu được công bố bởi cả DeepSeek và MiniMax.
Các hiệu suất đã được cải thiện thông qua việc tinh chỉnh thêm RL với cái gọi là sự chú ý chớp nhoáng. Điều này chủ yếu dành cho các vấn đề xác định như lý thuyết toán học và logic cũng như các vấn đề ngữ cảnh dài như lập trình. Minimax cũng có sẵn thông qua HuggingFace, nền tảng AI mã nguồn mở.
Quyền riêng tư
Có mối lo ngại rằng DeepSeek đang thu thập dữ liệu cá nhân cho mục đích riêng. Hiện tượng này rất phổ biến trong thế giới AI và mạng xã hội nói chung. Điều làm cho việc chia sẻ dữ liệu cá nhân với DeepSeek hoặc các công ty tư nhân khác trở nên nghiêm trọng là thực tế rằng chúng sẽ được sử dụng để tinh chỉnh các mô hình. Trong trường hợp của DeepSeek hoặc các công ty có trụ sở tại Trung Quốc khác, có nỗi sợ dữ liệu sẽ đến tay chính phủ Trung Quốc. Các công ty AI tư nhân, ngay cả những công ty ở Hoa Kỳ cũng làm điều tương tự, ngoại trừ việc họ sẽ chia sẻ dữ liệu đó với chính phủ Mỹ nếu họ bị buộc phải làm theo pháp luật. Tại thời điểm này, một kịch bản như vậy càng đáng lo ngại hơn. Tu chính án thứ tư sẽ bị bỏ qua, nếu chính phủ có thể tìm kiếm không chỉ cơ thể và ngôi nhà của chúng ta, mà còn cả tâm trí của chúng ta mà không cần lệnh khám.
Để tìm hiểu thêm về các rủi ro của DeepSeek, hãy đọc phân tích này từ Hidden Layer. Vì mô hình kinh doanh của Hidden Layer dựa trên những loại phân tích này, tốt nhất là nên xem xét kỹ lưỡng phân tích và so sánh với công việc của họ trên các mô hình mở khác.
Mô Hình AI Mã Nguồn Mở
Open Source International (OSI) có định nghĩa về Open Source AI. Hiện tại là 1.0, có thể được sửa đổi. Giống như định nghĩa Open Source cho phần mềm, nó cho phép người dùng sử dụng, quan sát, sửa đổi và phân phối mà không có bất kỳ hạn chế nào. Các mô hình AI phụ thuộc rất nhiều vào dữ liệu đào tạo của chúng. Việc sử dụng AI liên quan đến suy diễn, tiêu tốn tài nguyên. Chi phí cho việc đào tạo là riêng biệt với chi phí suy diễn. Trong định nghĩa cổ điển về phần mềm mã nguồn mở, mã nguồn có sẵn cho bất kỳ người dùng nào để sử dụng, quan sát, sửa đổi và phân phối. Trong một cách hiểu nghiêm ngặt về mã nguồn mở AI, mã nguồn nên bao gồm dữ liệu được sử dụng để đào tạo mô hình. Tuy nhiên, điều này có thể không thực tế, cũng như không phải là một phần của định nghĩa OSI về Open Source AI.
Điều này khác biệt đáng kể so với hướng dẫn của OSI về phần mềm mã nguồn mở. Sự khác biệt khác là khả năng quan sát các trọng số và siêu tham số của mô hình. Trong giai đoạn học, các trọng số của mô hình được tinh chỉnh. Trọng số mô hình thể hiện mô hình ở dạng hiện tại của nó, kết tinh tất cả quá trình đào tạo mà mô hình đã trải qua. Siêu tham số kiểm soát cấu hình ban đầu của thiết lập học. Trong một mô hình mở, trọng số mô hình và các tham số mô hình được dự kiến là công khai.
Các mô hình AI mã nguồn mở có thể được gọi là mô hình trọng số mở. Nhiều mô hình từ Trung Quốc là mô hình trọng số mở, bao gồm Qwen ( từ AliBababa). Cuộc thi này cũng đã buộc OpenAI phải phát hành một mô hình trọng số mở. Đây là mô hình gpt-oss cơ bản với hai biến thể.
Tương lai
Chúng tôi chưa đi sâu vào công nghệ đằng sau việc tạo ra các prompt đa phương thức và sinh ra đa phương thức. Bằng đa phương thức, chúng tôi không chỉ có văn bản, mà còn có hình ảnh, âm thanh cũng như video. MiniMax cũng như DeepSeek có những khả năng này. Rõ ràng rằng việc giới hạn quyền truy cập vào phần cứng và kiến thức chuyên môn không thể ngăn cản đổi mới thực sự. Những ràng buộc như vậy cũng tạo ra nhiều sự thay đổi trong các mô hình, làm cho AI trở nên rẻ hơn để phát triển với phần cứng và nguồn tài nguyên điện năng thấp hơn, tạo ra một tương lai dân chủ hóa và phi tập trung, nơi chúng ta có thể tinh chỉnh và chạy các mô hình trên phần cứng thông dụng. Những phát triển này mang lại cho chúng ta hy vọng rằng chúng ta sẽ có thể kiểm soát và uốn nắn những khả năng này để giúp nhân loại thay vì gây hại cho chính mình.