DeepSeek: تحول جذري، ماذا يعني ذلك للبشرية

Deepseek الصين للأمنملف - تُرى صفحة تطبيق الهاتف الذكي DeepSeek على شاشة هاتف ذكي في بكين، 28 يناير 2025. (صورة AP/أندي وونغ، ملف)حقوق الطبع والنشر 2025 أسوشيتد برس. جميع الحقوق محفوظة. الحوت الذي هو DeepSeek كان غير مرئي قبل 20 يناير 2025. ثم يظهر الحوت الأزرق أمام أنظار العالم في 20 يناير. تلك الضربة أرسلت موجات صدمة حول العالم.

أدى إصدار DeepSeek-R1 على الفور إلى تدهور القيمة السوقية للعديد من الشركات المصنعة للبرمجيات والأجهزة التي كانت مدعومة بما اعتقده المستثمرون استثنائية أمريكية. كان يُعتقد أن حجب أحدث الشرائح وحقوق الملكية الفكرية للذكاء الاصطناعي عن الصين هو الاستراتيجية التي يجب اتباعها. باستثناء أنها كانت خطأ. هذا هو ما يصنع القفزات الكبيرة. خاصةً بالنسبة لقوة التصنيع والتصميم مثل الصين. ومن المفارقات، أن النماذج الأخيرة من DeepSeek مجانية للاستخدام. إنهم يقومون بتشغيلها حتى على خوادمهم مجانًا.

تطوير نماذج اللغة الكبيرة ذات الأغراض العامة من خلال زيادة عدد المعلمات وبيانات التدريب أدى إلى العديد من الانفراجات. إطلاق ChatGPT-3.5 و 4.0 في 2022-23 أطلق العنان للإمكانات العامة للذكاء الاصطناعي للجمهور العام. كما زادت هذه الطريقة التكاليف بشكل كبير حيث دفعت متطلبات الحوسبة والبيانات إلى وجود معالجات أكبر وأفضل. في أواخر 2023 و 2024 وحتى الآن، كانت تعتبر إنشاء مراكز بيانات تستهلك الطاقة الطريقة الوحيدة لتحسين أداء النماذج. كان يُعتقد أن تقييد الوصول إلى الحوسبة والشرائح الأحدث سيقيد الصين كمصدر لهذه النماذج القوية. مع DeepSeek، تم تغيير هذا النموذج.

شركات مثل Nvidia التي تأثرت أسهمها بشدة بالإعلان قد تعافت منذ ذلك الحين وازدهرت. الدروس كانت ضائعة على الأسواق العالمية. قد يكون الأسوأ قادمًا حيث أن الشركات المدعومة بارتفاع الذكاء الاصطناعي واستخدامه يتم إعادتها إلى الأرض من خلال مجموعة من الأساليب الجديدة وتقليل الحاجة إلى الحوسبة لإجراء التدريب وكذلك الاستدلال.

تمنع التكاليف الغارقة وتكاليف التحول مع مؤيديهم الاقتصاديين الأقوياء الرؤية على المدى الطويل وتحبس الذكاء الاصطناعي الأمريكي في مساراتهم. النجاح يولد الرضا والالتزام بالنموذج الذي حقق النجاح. في مجال الذكاء الاصطناعي، وهو مجال يتطور بسرعة، يعتبر التوقف عن الخوارزميات والعمليات والممارسات قاتلاً. أظهرت DeepSeek أن مجرد تراكم الحوسبة والبيانات لا يؤدي إلى تقدم أسي. هذه درسة من العديد من المجالات، وغالبًا ما يتم تجاهلها مع قول مفرط الاستخدام ولكنه خاطئ "هذه المرة مختلفة". تتبع الابتكارات أنماطًا مألوفة؛ ببطء ثم بسرعة.

المزيد لك## الكفاءة

تكاليف تدريب وتشغيل DeepSeek أقل بكثير من النماذج الأخرى. أظهر النسبة في عرض تقديمي حديث 6 ملايين دولار لـ DeepSeek مقابل 600 مليون دولار لنموذج Llama ( المصدر المفتوح من Meta). تكلفة أقل بمائة مرة. تكاليف النماذج الأخرى، بما في ذلك ChatGPT، أعلى حتى. تعتبر وفورات التكاليف نتيجة تنفيذ اكتشافات DeepSeek الخاصة في التعلم المعزز والتدريب باستخدام التقطير. علاوة على ذلك، فإن النموذج فعال للغاية في إنتاج اللغة الصينية. قبل ثلاثة أشهر، انضمت عدد كبير من الشركات الصينية إلى ثورة الذكاء الاصطناعي من خلال الاشتراك في DeepSeek. وكبطل وطني، تدعم سياسة الحكومة الصناعية DeepSeek.

تم اختراع التعلم المعزز كطريقة تدريب في جامعة أمهرست. كان الحائزان على جائزة تورينغ ACM لعام 2024، أندرو بارتو وريتشارد ساتون، هما مخترعا تقنيات التعلم المعزز الكلاسيكية. بالنسبة للنماذج الكبيرة مثل LLMs وغيرها، فإن هذا النهج يقع ضمن التعلم المراقب. يتم تحسين النموذج من خلال التغذية الراجعة، تقليديًا من البشر، والتي تُسمى RLHF ( التعلم المعزز مع التغذية الراجعة من البشر ). يُطلق على هذا اسم الضبط الدقيق تحت إشراف. البشر هم المشرفون. الورقة التي أصدرتها منشئو DeepSeek R1 تتناول بالتفصيل الطريقة التي عدلوا بها التعلم المعزز.

أي شيء ينطوي على البشر في الحلقة على نطاق واسع يتطلب الكثير من المال. إزالة الإنسان من الحلقة تجعل التدريب أرخص. تُستخدم نسخة من النموذج لضبط النموذج الآخر. بعبارة أخرى، يعمل نموذج واحد كمشرف بينما يتم تدريب الآخر. إن ظهور شركات جديدة مع نماذج مثل MiniMax-M1 يجسد هذا التحول بشكل أكبر. ستتفوق هذه التقنيات على النماذج التي تم إنشاؤها باستخدام التوسع التقليدي.

كان DeepSeek-R1 فعالاً من خلال تطوره باستخدام استراتيجيات متعددة. جعلت مجموعة من الطرق الجديدة المستندة إلى تقنيات موجودة التدريب والاستدلال فعّالين من حيث الوقت والموارد. يمكن العثور على مزيد من التفاصيل في هذه المقالة. باختصار، تم تغيير جميع جوانب إنشاء وتشغيل نماذج اللغة الكبيرة أو تحسينها أو إعادة العمل عليها من أجل الكفاءة من حيث التكلفة والوقت.

ميني ماكس-M1

تدعي MiniMax-M1 أنها خفضت تكلفة تدريب DeepSeek-R1 بنسبة 90%. لقد دربوا نموذجهم بتكلفة قدرها 500 ألف دولار. قارن هذا بتكلفة 6 مليون دولار لـ DeepSeek-R1 و600 مليون دولار لـ LLaMa. وقد تم التشكيك في الأرقام التي أعلنت عنها كل من DeepSeek وMiniMax.

لقد تمت زيادة الكفاءة من خلال تحسين RL باستخدام ما يسمى الانتباه السريع. هذا ينطبق بشكل أساسي على المشكلات الحتمية مثل الرياضيات والمنطق ومشكلات السياق الطويل مثل البرمجة. كما أن Minimax متاح أيضًا من خلال HuggingFace، المضيف المفتوح المصدر للذكاء الاصطناعي.

الخصوصية

هناك قلق من أن DeepSeek تقوم بجمع البيانات الخاصة لاستخدامها الخاص. هذه الظاهرة شائعة في عالم الذكاء الاصطناعي ووسائل التواصل الاجتماعي بشكل عام. ما يجعل مشاركة البيانات الخاصة مع DeepSeek أو شركات خاصة أخرى هو أنها ستستخدم لتحسين النماذج. في حالة DeepSeek أو شركات أخرى مقرها الصين، هناك خوف من وصول البيانات إلى الحكومة الصينية. تقوم شركات الذكاء الاصطناعي الخاصة، حتى تلك الموجودة في الولايات المتحدة، بنفس الشيء، باستثناء أنها ستشارك تلك البيانات مع الحكومة الأمريكية إذا تم إجبارها بموجب القانون. في هذه المرحلة، مثل هذا السيناريو أكثر إزعاجًا. سيسقط التعديل الرابع إذا تمكنت الحكومة من البحث ليس فقط في أشخاصنا ومنازلنا، ولكن في عقولنا دون إذن.

لقراءة المزيد عن مخاطر DeepSeek، اقرأ هذا التحليل من Hidden Layer. نظرًا لأن نموذج عمل Hidden Layer يعتمد على هذه الأنواع من التحليلات، فمن الأفضل النظر بعناية في التحليل ومقارنته بعملهم على نماذج مفتوحة أخرى.

نماذج الذكاء الاصطناعي مفتوحة المصدر

المصدر المفتوح الدولي (OSI) لديه تعريف للذكاء الاصطناعي مفتوح المصدر. إنه 1.0 الآن، ويخضع للمراجعة. مثل تعريف المصدر المفتوح للبرامج، فإنه يسمح للمستخدمين باستخدامه ومشاهدته وتعديله وتوزيعه دون أي قيود. تعتمد نماذج الذكاء الاصطناعي كثيرًا على بيانات التدريب الخاصة بها. يتضمن استخدام الذكاء الاصطناعي الاستدلال، مما يستهلك الموارد. النفقات على التدريب منفصلة عن نفقات الاستدلال. في التعريف الكلاسيكي لبرامج المصدر المفتوح، يكون الكود المصدر متاحًا لأي مستخدم لاستخدامه ومشاهدته وتعديله وتوزيعه. في تفسير صارم للذكاء الاصطناعي مفتوح المصدر، يجب أن يتضمن الكود المصدر البيانات المستخدمة لتدريب النموذج. ومع ذلك، قد لا يكون هذا عمليًا، كما أنه ليس جزءًا من تعريف OSI للذكاء الاصطناعي مفتوح المصدر.

هذا يختلف اختلافًا جذريًا عن إرشادات OSI للبرمجيات مفتوحة المصدر. الفرق الآخر هو قابلية ملاحظة أوزان النموذج والهايبر بارامترات. خلال مرحلة التعلم، يتم تنقيح أوزان النموذج. أوزان النموذج تجسد النموذج في شكله الحالي، ملتقطة جميع التدريب الذي خضع له النموذج. تتحكم الهايبر بارامترات في التكوين الأولي لإعداد التعلم. في نموذج مفتوح، من المفترض أن تكون أوزان النموذج ومعلمات النموذج مفتوحة.

يمكن أن تُسمى نماذج الذكاء الاصطناعي مفتوحة المصدر نماذج الأوزان المفتوحة. العديد من النماذج من الصين هي نماذج أوزان مفتوحة، بما في ذلك Qwen ( من AliBababa ). لقد أجبرت هذه المنافسة أيضًا OpenAI على إصدار نموذج أوزان مفتوحة. هذا هو نموذج gpt-oss الأساسي مع نوعين.

المستقبل

لم نتعمق في التكنولوجيا وراء إنشاء الموجهات متعددة الأنماط والتوليد متعدد الأنماط. وبالمصطلح متعدد الأنماط، نعني ليس فقط النص، ولكن الصور، والصوت وكذلك الفيديو. تمتلك MiniMax وDeepSeek هذه القدرات. من الواضح أن الحد من الوصول إلى الأجهزة والمعرفة لا يمكن أن يمنع الابتكار الحقيقي. هذه القيود تخلق أيضًا تحولًا في النماذج، مما يجعل الذكاء الاصطناعي أرخص في التطوير مع موارد أقل من الأجهزة والطاقة، مما يخلق مستقبلًا ديمقراطيًا وموزعًا حيث يمكننا ضبط النماذج وتشغيلها على الأجهزة العادية. تمنحنا هذه التطورات الأمل في أننا سنكون قادرين على التحكم في هذه القدرات واستخدامها لمساعدة البشرية بدلاً من إيذاء أنفسنا.

H-1.14%
شاهد النسخة الأصلية
قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.
  • أعجبني
  • تعليق
  • مشاركة
تعليق
0/400
لا توجد تعليقات
  • تثبيت