DeepSeek: Bir Paradigma Değişimi, İnsanlık İçin Ne Anlama Geliyor

Deepseek Çin GüvenliğiDOSYA - DeepSeek akıllı telefon uygulaması sayfası, 28 Ocak 2025'te Pekin'deki bir akıllı telefon ekranında görülüyor. (AP Fotoğrafı/Andy Wong, Dosya)Telif Hakkı 2025 The Associated Press. Tüm hakları saklıdır. DeepSeek olan balina, 20 Ocak 2025'ten önce görünmezdi. Ardından Mavi Balina, 20 Ocak'ta tüm dünyanın gözleri önüne serildi. O vücut slamı, dünya çapında şok dalgaları gönderdi.

DeepSeek-R1'in piyasaya sürülmesi, yatırımcıların Amerikan istisnasızlığını düşündüğü birkaç donanım ve yazılım şirketinin piyasa değerini hemen düşürdü. Çin'den en son çipleri ve AI Fikri Mülkiyetini saklamak izlenmesi gereken strateji olarak düşünülüyordu. Ancak bu yanlış olduğu ortaya çıktı. Atlayarak ilerlemenin malzemesi işte budur. Özellikle Çin gibi üretim ve tasarım gücü olan ülkeler için. Ironik bir şekilde, DeepSeek'in en son modelleri ücretsiz kullanılabilir. Hatta bunları kendi sunucularında ücretsiz çalıştırıyorlar.

Genel amaçlı büyük dil modellerinin parametrelerin ve eğitim verilerinin ölçeklendirilmesi yoluyla geliştirilmesi birçok atılıma yol açtı. 2022-23'te ChatGPT-3.5 ve 4.0'ın piyasaya sürülmesi, AI'nın genel amaçlı potansiyelini genel kamuya açtı. Bu yaklaşım, bilgisayar ve veri taleplerinin daha büyük ve daha iyi işlemcileri teşvik etmesi nedeniyle maliyetleri de muazzam bir şekilde artırdı. 2023 sonunda ve 2024'te ve hatta şimdi, enerji tüketimi yüksek veri merkezlerinin inşasının, modellerin performansını artırmanın tek yolu olduğu düşünülüyordu. Hesaplama ve en son çiplere erişimin kısıtlanmasının, Çin'i bu güçlü modellerin bir kaynağı olarak sınırlayacağı düşünülüyordu. DeepSeek ile bu paradigma değiştirildi.

Nvidia gibi hisse senetleri açıklama nedeniyle ağır şekilde etkilenen şirketler, o zamandan beri toparlandı ve başarılı oldu. Öğretiler küresel piyasalarda kayboldu. AI'nın yükselişi ve kullanımından desteklenen şirketler, yeni yöntemlerin bir kombinasyonu ve eğitim ile çıkarım yapmak için gereken hesaplama gücünün azalmasıyla yere indirilirken, en kötüsü henüz gelmemiş olabilir.

Batık maliyetler ve güçlü ekonomik destekçileriyle birlikte geçiş maliyetleri, uzun vadeli bir bakış açısını engeller ve Amerikan yapay zekasını yollarında kilitler. Başarı, rahatlık ve başarıyı üreten modele bağlılık getirir. Hızla gelişen bir alan olan yapay zekada, algoritmalarda, süreçlerde ve uygulamalarda takılı kalmak ölümcüldür. DeepSeek, sadece hesaplama ve veri yığmanın eksponansiyel ilerleme sağlamadığını gösterdi. Bu, birçok alandan alınan bir derstir ve sıklıkla “Bu sefer farklı” yanlış deyimiyle göz ardı edilir. Yenilik, tanıdık kalıpları takip eder; önce yavaş, sonra hızlı.

SİZİN İÇİN DAHA FAZLA## Verimlilik

DeepSeek'in eğitim ve çalışma maliyetleri diğer modellere göre çok daha düşüktür. Yakın tarihli bir sunumda, DeepSeek için 6M $ / Meta'dan gelen açık kaynaklı model Llama ( için 600M $ oranı gösterildi. Maliyetlerin yüze biri. ChatGPT dahil diğer modellerin maliyetleri daha da fazladır. Maliyet tasarrufları, DeepSeek'in kendi keşiflerini takviye öğrenimi uygulayarak ve damıtma kullanarak eğitmesinin bir sonucudur. Ayrıca, model Çince dilini üretmede çok etkilidir. Üç ay önce, çok sayıda Çinli şirket DeepSeek'e abone olarak AI devrimine katıldı. Ulusal şampiyon olarak, hükümet sanayi politikası DeepSeek'i desteklemektedir.

RL, bir eğitim yöntemi olarak Amherst Üniversitesi'nde icat edilmiştir. 2024 ACM Turing ödülünün sahipleri, Andrew Barto ve Richard Sutton, klasik pekiştirmeli öğrenme tekniklerinin mucitleridir. LLM'ler ve diğer büyük modeller için, böyle bir yaklaşım denetimli öğrenme kategorisine girer. Model, klasik olarak insanlardan gelen geri bildirimle, RLHF ) İnsan Geri Bildirimi ile Pekiştirmeli Öğrenme ( olarak adlandırılan bir yöntemle geliştirilir. Bu, denetimli ince ayar olarak adlandırılır. İnsanlar denetleyicilerdir. DeepSeek R1'in yaratıcıları tarafından yayınlanan makale, RL'yi nasıl değiştirdikleri konusunda detaylara girmektedir.

İnsanların döngüde olduğu her şey büyük ölçüde çok para gerektirir. Döngüde insanı kaldırmak eğitimi daha ucuz hale getirir. Bir modelin versiyonu diğerini ince ayar yapmak için kullanılır. Başka bir deyişle, bir model denetçi olarak işlev görürken diğeri eğitilir. MiniMax-M1 gibi modellerle yeni şirketlerin ortaya çıkması bu değişimi daha da pekiştiriyor. Bu tür teknikler, geleneksel ölçeklendirme kullanılarak oluşturulan modellerin önüne geçecektir.

DeepSeek-R1, evrimini birden fazla strateji kullanarak etkili bir şekilde gerçekleştirdi. Mevcut tekniklere dayanan yeni yöntemlerin bir kombinasyonu, eğitim ve çıkarım süreçlerini zaman ve kaynak açısından verimli hale getirdi. Daha fazla detay bu makalede bulunabilir. Kısacası, büyük dil modellerinin oluşturulması ve çalıştırılması ile ilgili tüm yönler maliyet ve zaman verimliliği için değiştirildi, geliştirildi veya yeniden çalışıldı.

MiniMax-M1

MiniMax-M1, DeepSeek-R1 eğitim maliyetini %90 oranında azalttığını iddia ediyor. Modellerini 500K $ maliyetle eğittiler. Bunu 6M $ maliyeti olan DeepSeek-R1 ve 600M $ maliyetli LLaMa ile karşılaştırın. Hem DeepSeek hem de MiniMax tarafından yayınlanan rakamlar hakkında şüpheler var.

Verimlilikler, RL'yi 'lightning attention' olarak adlandırılan bir yöntemle daha da rafine etmek için geliştirildi. Bu, genellikle matematiksel ve mantıksal akıl yürütme gibi deterministik problemler ve kodlama gibi uzun bağlam problemleri için geçerlidir. Minimax ayrıca açık kaynaklı AI barındırıcısı HuggingFace aracılığıyla mevcuttur.

Gizlilik

DeepSeek'in özel verileri kendi kullanımı için topladığına dair endişeler var. Bu fenomen, genel olarak AI ve sosyal medya dünyasında yaygındır. Özel verilerin DeepSeek veya diğer özel şirketlerle paylaşılmasının nedeni, bu verilerin modelleri geliştirmek için kullanılacak olmasıdır. DeepSeek veya diğer Çin merkezli şirketler söz konusu olduğunda, verilerin Çin hükümetine ulaşabileceği korkusu vardır. Özel AI şirketleri, ABD'dekiler de dahil olmak üzere, aynı şeyi yapar, tek farkla ki yasa gereği zorlandıklarında bu verileri ABD hükümetiyle paylaşacaklardır. Bu aşamada, böyle bir senaryo daha rahatsız edicidir. Dördüncü değişiklik, hükümetler insanların ve evlerin yanı sıra zorlama olmaksızın zihinlerimizi de arayabiliyorsa, yan geçilecektir.

DeepSeek'in riskleri hakkında daha fazla bilgi edinmek için Hidden Layer'ın bu analizini okuyun. Hidden Layer'ın iş modeli bu tür analizlere dayandığı için, analizi dikkatlice incelemek ve diğer açık modeller üzerindeki çalışmalarıyla karşılaştırmak en iyisidir.

Açık Kaynak AI Modelleri

Açık Kaynak Uluslararası )OSI( Açık Kaynak AI tanımına sahiptir. Şu anda 1.0'dır, revizyona tabi. Yazılım için Açık Kaynak tanımına benzer şekilde, kullanıcıların herhangi bir kısıtlama olmaksızın kullanmasına, gözlemlemesine, değiştirmesine ve dağıtmasına izin verir. AI modelleri, eğitim verilerine büyük ölçüde bağımlıdır. AI kullanımı, çıkarım yapmayı, kaynak tüketimini içerir. Eğitim harcamaları, çıkarım giderlerinden ayrıdır. Açık kaynak yazılımının klasik tanımında, kaynak kodu herhangi bir kullanıcının kullanması, gözlemlemesi, değiştirmesi ve dağıtması için mevcuttur. AI açık kaynaklı bir tanımında ise, kaynak kodunun modelin eğitimi için kullanılan verileri içermesi gerektiği sıkı bir yorumdur. Ancak bu pratik olmayabilir, ayrıca OSI'nin Açık Kaynak AI tanımının bir parçası değildir.

Bu, açık kaynak yazılım için OSI rehberliğinden çok farklıdır. Diğer bir fark, model ağırlıkları ve hiperparametrelerin gözlemlenebilirliğidir. Öğrenme aşamasında model ağırlıkları rafine edilir. Model ağırlıkları, modelin mevcut şekliyle, modelin geçirdiği tüm eğitimleri kristalleştirerek ortaya koyar. Hiperparametreler, öğrenme kurulumunun başlangıç yapılandırmasını kontrol eder. Açık bir modelde, model ağırlıkları ve model parametrelerinin açık olması amaçlanmaktadır.

Açık Kaynak AI modelleri açık ağırlık modelleri olarak adlandırılabilir. Çin'den birçok model açık ağırlık modelleridir, bunlar arasında AliBababa)'den Qwen ( de bulunmaktadır. Bu yarışma ayrıca OpenAI'yi bir açık ağırlık modeli yayınlamaya zorladı. Bu, iki varyanta sahip gpt-oss temel modelidir.

Gelecek

Çok modlu istemlerin ve çok modlu üretimin oluşturulması arkasındaki teknolojiye henüz girmedik. Çok modlu derken, yalnızca metin değil, aynı zamanda görüntüler, ses ve video da kastediyoruz. MiniMax ve DeepSeek bu yeteneklere sahiptir. Donanıma ve bilgiye erişimi sınırlamanın gerçek yeniliği geri tutamayacağı açıktır. Bu tür kısıtlamalar, çok sayıda paradigma değişimine yol açmakta, yapay zekayı daha düşük donanım ve güç kaynakları ile geliştirmeyi daha ucuz hale getirmekte, bizi alışılmış donanımlarda modelleri ince ayar yapabileceğimiz ve çalıştırabileceğimiz demokratikleştirilmiş ve merkeziyetsiz bir geleceğe yönlendirmektedir. Bu gelişmeler, bu yetenekleri insanlığa yardımcı olmak için kontrol edebileceğimiz ve kullanabileceğimiz umudunu veriyor, kendimize zarar vermektense.

H-1.5%
View Original
This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.
  • Reward
  • Comment
  • Share
Comment
0/400
No comments
Trade Crypto Anywhere Anytime
qrCode
Scan to download Gate app
Community
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)