ФАЙЛ - Сторінка програми DeepSeek на смартфоні видно на екрані смартфона в Пекіні, 28 січня 2025 року. (AP Фото/Енді Вонг, Файл)Авторські права 2025 року The Associated Press. Усі права захищеніКит, яким є DeepSeek, був невидимим до 20 січня 2025 року. Тоді Блакитний Кит з'явився на очах у всього світу 20 січня. Цей удар вразив світ.
Випуск DeepSeek-R1 негайно знизив ринкову капіталізацію кількох апаратних і програмних компаній, які підтримувалися тим, що інвестори вважали американським ексепціоналізмом. Утримання останніх чіпів та інтелектуальної власності в галузі штучного інтелекту від Китаю вважалося стратегією, якою слід дотримуватися. Однак це було неправильно. Саме з цього складається стрибок попереду. Особливо для виробничих та дизайнерських гігантів, таких як Китай. Іронічно, що останні моделі від DeepSeek безкоштовні для використання. Вони навіть запускають їх на своїх серверах безкоштовно.
Розробка універсальних великих мовних моделей шляхом масштабування параметрів і навчальних даних призвела до багатьох проривів. Випуск ChatGPT-3.5 та 4.0 у 2022-23 роках розкрив потенціал штучного інтелекту загального призначення для широкої аудиторії. Цей підхід також значно підвищив витрати, оскільки вимоги до обчислень і даних спонукали до створення більших і кращих процесорів. Наприкінці 2023 року та в 2024 році, а навіть і зараз, будівництво енергомістких дата-центрів вважалося єдиним способом покращення продуктивності моделей. Обмеження доступу до обчислень та останніх чипів вважалося таким, що стримує Китай як джерело цих потужних моделей. Завдяки DeepSeek ця парадигма була змінена.
Компанії, такі як Nvidia, акції яких були сильно під впливом оголошення, з тих пір відновилися і процвітають. Уроки були втрачені для світових ринків. Найгірше може ще попереду, оскільки компанії, підтримувані зростанням ШІ та його використанням, будуть знижені до реальності поєднанням нових методів і зменшенням обчислень, необхідних для навчання та інференції.
Затоплені витрати та витрати на перехід з їхніми власними потужними економічними прихильниками заважають довгостроковому погляду та блокують американський ІІ на їхніх шляхах. Успіх приносить самозадоволення та дотримання моделі, яка принесла успіх. У ІІ, швидко розвивається галузь, застрягти на алгоритмах, процесах та практиках — це смертельно небезпечно. DeepSeek показав, що просто накопичення обчислювальних потужностей та даних не призводить до експоненційного прогресу. Це урок з багатьох галузей, який часто ігнорується з надмірно вживаним, але неправильним висловом "Цього разу все інакше." Інновації слідують знайомим патернам; спочатку повільно, потім швидко.
БІЛЬШЕ ДЛЯ ВАС## Ефективність
Витрати на навчання та роботу DeepSeek значно нижчі, ніж у інших моделей. Співвідношення в нещодавній презентації показало 6 млн доларів для DeepSeek / проти 600 млн доларів для Llama (, відкритої моделі від Meta). Одна сотня вартості. Витрати на інші моделі, включаючи ChatGPT, ще більші. Заощадження коштів є результатом впровадження власних відкриттів DeepSeek у підкріплювальному навчанні та навчання за допомогою дистиляції. Крім того, модель дуже ефективна у генеруванні китайської мови. Станом на три місяці тому, велика кількість китайських компаній приєдналася до революції ШІ, підписавшись на DeepSeek. Як національний чемпіон, державна промислова політика підтримує DeepSeek.
RL як метод навчання був винайдений в Університеті Амхерст. Лауреати премії Тюрінга ACM 2024, Ендрю Барто та Річард Саттон, були винахідниками класичних методів підкріплювального навчання. Для LLM та інших великих моделей такий підхід потрапляє під категорію навчання з учителем. Модель вдосконалюється за рахунок зворотного зв'язку, класично від людей, що називається RLHF ( Reinforcement Learning with Human Feedback ). Це називається супервізованим тонким налаштуванням. Люди є супервізорами. У статті, випущеній творцями DeepSeek R1, детально описується спосіб, яким вони модифікували RL.
Все, що передбачає залучення людей у процес на великому масштабі, вимагає багато грошей. Видалення людини з процесу знижує витрати на навчання. Одна версія моделі використовується для доопрацювання іншої. Іншими словами, одна модель виконує функцію наглядача, а інша проходить навчання. Поява нових компаній з моделями, такими як MiniMax-M1, ще більше підкреслює цей зсув. Подібні техніки перевершать моделі, які створюються за допомогою традиційного масштабування.
DeepSeek-R1 був ефективним завдяки своїй еволюції, що використовує кілька стратегій. Комбінація нових методів на основі існуючих технік зробила навчання та інференцію ефективними за часом та ресурсами. Більше деталей можна знайти в цій статті. Коротко кажучи, всі аспекти створення та роботи великих мовних моделей були змінені, покращені або перероблені для економії коштів та часу.
МініМакс-М1
MiniMax-M1 стверджує, що йому вдалося зменшити вартість навчання DeepSeek-R1 на 90%. Вони навчили свою модель за вартістю $500K. На противагу цьому, вартість навчання DeepSeek-R1 становила $6M, а LLaMa - $600M. Існують сумніви щодо цифр, опублікованих як DeepSeek, так і MiniMax.
Ефективність була підвищена шляхом подальшого вдосконалення RL за допомогою так званої блискавичної уваги. Це в основному стосується детермінованих завдань, таких як математичні та логічні міркування, а також завдань з довгим контекстом, таких як програмування. Minimax також доступний через HuggingFace, відкритий хост AI.
Конфіденційність
Існує занепокоєння, що DeepSeek збирає приватні дані для власного використання. Це явище поширене у світі ШІ та соціальних мереж загалом. Що робить обмін приватними даними з DeepSeek або іншими приватними компаніями, так це те, що вони будуть використані для вдосконалення моделей. У випадку DeepSeek або інших китайських компаній існує страх, що дані потраплять до китайського уряду. Приватні компанії ШІ, навіть ті, що в Сполучених Штатах, роблять те ж саме, тільки вони поділяться цими даними з урядом США, якщо їх змусить закон. На даному етапі такий сценарій є більш тривожним. Четверта поправка залишиться без уваги, якщо уряд зможе перевіряти не лише наші особи та наші домівки, а й наші думки без ордера.
Щоб дізнатися більше про ризики DeepSeek, прочитайте цей аналіз від Hidden Layer. Оскільки бізнес-модель Hidden Layer ґрунтується на таких аналізах, найкраще уважно ознайомитися з аналізом і порівняти з їхньою роботою над іншими відкритими моделями.
Відкриті джерела AI моделей
Відкрите Джерело Міжнародна (OSI) має визначення Відкритого Джерела Штучного Інтелекту. Зараз це 1.0, підлягає перегляду. Як і визначення Відкритого Джерела для програмного забезпечення, це дозволяє користувачам використовувати, спостерігати, модифікувати та розповсюджувати без будь-яких обмежень. Моделі Штучного Інтелекту значною мірою залежать від своїх навчальних даних. Використання Штучного Інтелекту передбачає інференцію, що споживає ресурси. Витрати на навчання окремі від витрат на інференцію. У класичному визначенні програмного забезпечення з відкритим кодом вихідний код доступний будь-якому користувачеві для використання, спостереження, модифікації та розповсюдження. У строгому тлумаченні відкритого коду Штучного Інтелекту вихідний код має містити дані, що використовуються для навчання моделі. Однак це може бути не практично, і це не є частиною визначення OSI Відкритого Джерела Штучного Інтелекту.
Це радикально відрізняється від рекомендацій OSI щодо відкритого програмного забезпечення. Інша різниця полягає в спостережуваності ваг моделі та гіперпараметрів. Під час навчальної фази ваги моделі уточнюються. Ваги моделі втілюють модель у її поточній формі, кристалізуючи все навчання, яке модель пройшла. Гіперпараметри контролюють початкову конфігурацію навчальної установки. У відкритій моделі ваги моделі та параметри моделі повинні бути відкритими.
Відкриті моделі штучного інтелекту можна назвати моделями з відкритими вагами. Багато моделей з Китаю є моделями з відкритими вагами, включаючи Qwen ( з AliBababa). Ця конкуренція також змусила OpenAI випустити модель з відкритими вагами. Це базова модель gpt-oss з двома варіантами.
Майбутнє
Ми ще не заглиблювалися в технологію створення багатошарових запитів і багатошарової генерації. Під багатошаровим ми маємо на увазі не тільки текст, а й зображення, аудіо та відео. MiniMax та DeepSeek мають ці можливості. Очевидно, що обмеження доступу до апаратного забезпечення та ноу-хау не можуть стримати справжні інновації. Такі обмеження також призводять до численних змін парадигм, роблячи розробку ШІ дешевшою з нижчими вимогами до апаратного забезпечення та споживання енергії, створюючи демократичне та децентралізоване майбутнє, де ми зможемо налаштовувати та запускати моделі на звичайному апаратному забезпеченні. Ці розробки дають нам надію, що ми зможемо контролювати та використовувати ці можливості для допомоги людству, а не для заподіяння шкоди.
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
DeepSeek: Парадигмальний зсув, що це означає для людства
Випуск DeepSeek-R1 негайно знизив ринкову капіталізацію кількох апаратних і програмних компаній, які підтримувалися тим, що інвестори вважали американським ексепціоналізмом. Утримання останніх чіпів та інтелектуальної власності в галузі штучного інтелекту від Китаю вважалося стратегією, якою слід дотримуватися. Однак це було неправильно. Саме з цього складається стрибок попереду. Особливо для виробничих та дизайнерських гігантів, таких як Китай. Іронічно, що останні моделі від DeepSeek безкоштовні для використання. Вони навіть запускають їх на своїх серверах безкоштовно.
Розробка універсальних великих мовних моделей шляхом масштабування параметрів і навчальних даних призвела до багатьох проривів. Випуск ChatGPT-3.5 та 4.0 у 2022-23 роках розкрив потенціал штучного інтелекту загального призначення для широкої аудиторії. Цей підхід також значно підвищив витрати, оскільки вимоги до обчислень і даних спонукали до створення більших і кращих процесорів. Наприкінці 2023 року та в 2024 році, а навіть і зараз, будівництво енергомістких дата-центрів вважалося єдиним способом покращення продуктивності моделей. Обмеження доступу до обчислень та останніх чипів вважалося таким, що стримує Китай як джерело цих потужних моделей. Завдяки DeepSeek ця парадигма була змінена.
Компанії, такі як Nvidia, акції яких були сильно під впливом оголошення, з тих пір відновилися і процвітають. Уроки були втрачені для світових ринків. Найгірше може ще попереду, оскільки компанії, підтримувані зростанням ШІ та його використанням, будуть знижені до реальності поєднанням нових методів і зменшенням обчислень, необхідних для навчання та інференції.
Затоплені витрати та витрати на перехід з їхніми власними потужними економічними прихильниками заважають довгостроковому погляду та блокують американський ІІ на їхніх шляхах. Успіх приносить самозадоволення та дотримання моделі, яка принесла успіх. У ІІ, швидко розвивається галузь, застрягти на алгоритмах, процесах та практиках — це смертельно небезпечно. DeepSeek показав, що просто накопичення обчислювальних потужностей та даних не призводить до експоненційного прогресу. Це урок з багатьох галузей, який часто ігнорується з надмірно вживаним, але неправильним висловом "Цього разу все інакше." Інновації слідують знайомим патернам; спочатку повільно, потім швидко.
БІЛЬШЕ ДЛЯ ВАС## Ефективність
Витрати на навчання та роботу DeepSeek значно нижчі, ніж у інших моделей. Співвідношення в нещодавній презентації показало 6 млн доларів для DeepSeek / проти 600 млн доларів для Llama (, відкритої моделі від Meta). Одна сотня вартості. Витрати на інші моделі, включаючи ChatGPT, ще більші. Заощадження коштів є результатом впровадження власних відкриттів DeepSeek у підкріплювальному навчанні та навчання за допомогою дистиляції. Крім того, модель дуже ефективна у генеруванні китайської мови. Станом на три місяці тому, велика кількість китайських компаній приєдналася до революції ШІ, підписавшись на DeepSeek. Як національний чемпіон, державна промислова політика підтримує DeepSeek.
RL як метод навчання був винайдений в Університеті Амхерст. Лауреати премії Тюрінга ACM 2024, Ендрю Барто та Річард Саттон, були винахідниками класичних методів підкріплювального навчання. Для LLM та інших великих моделей такий підхід потрапляє під категорію навчання з учителем. Модель вдосконалюється за рахунок зворотного зв'язку, класично від людей, що називається RLHF ( Reinforcement Learning with Human Feedback ). Це називається супервізованим тонким налаштуванням. Люди є супервізорами. У статті, випущеній творцями DeepSeek R1, детально описується спосіб, яким вони модифікували RL.
Все, що передбачає залучення людей у процес на великому масштабі, вимагає багато грошей. Видалення людини з процесу знижує витрати на навчання. Одна версія моделі використовується для доопрацювання іншої. Іншими словами, одна модель виконує функцію наглядача, а інша проходить навчання. Поява нових компаній з моделями, такими як MiniMax-M1, ще більше підкреслює цей зсув. Подібні техніки перевершать моделі, які створюються за допомогою традиційного масштабування.
DeepSeek-R1 був ефективним завдяки своїй еволюції, що використовує кілька стратегій. Комбінація нових методів на основі існуючих технік зробила навчання та інференцію ефективними за часом та ресурсами. Більше деталей можна знайти в цій статті. Коротко кажучи, всі аспекти створення та роботи великих мовних моделей були змінені, покращені або перероблені для економії коштів та часу.
МініМакс-М1
MiniMax-M1 стверджує, що йому вдалося зменшити вартість навчання DeepSeek-R1 на 90%. Вони навчили свою модель за вартістю $500K. На противагу цьому, вартість навчання DeepSeek-R1 становила $6M, а LLaMa - $600M. Існують сумніви щодо цифр, опублікованих як DeepSeek, так і MiniMax.
Ефективність була підвищена шляхом подальшого вдосконалення RL за допомогою так званої блискавичної уваги. Це в основному стосується детермінованих завдань, таких як математичні та логічні міркування, а також завдань з довгим контекстом, таких як програмування. Minimax також доступний через HuggingFace, відкритий хост AI.
Конфіденційність
Існує занепокоєння, що DeepSeek збирає приватні дані для власного використання. Це явище поширене у світі ШІ та соціальних мереж загалом. Що робить обмін приватними даними з DeepSeek або іншими приватними компаніями, так це те, що вони будуть використані для вдосконалення моделей. У випадку DeepSeek або інших китайських компаній існує страх, що дані потраплять до китайського уряду. Приватні компанії ШІ, навіть ті, що в Сполучених Штатах, роблять те ж саме, тільки вони поділяться цими даними з урядом США, якщо їх змусить закон. На даному етапі такий сценарій є більш тривожним. Четверта поправка залишиться без уваги, якщо уряд зможе перевіряти не лише наші особи та наші домівки, а й наші думки без ордера.
Щоб дізнатися більше про ризики DeepSeek, прочитайте цей аналіз від Hidden Layer. Оскільки бізнес-модель Hidden Layer ґрунтується на таких аналізах, найкраще уважно ознайомитися з аналізом і порівняти з їхньою роботою над іншими відкритими моделями.
Відкриті джерела AI моделей
Відкрите Джерело Міжнародна (OSI) має визначення Відкритого Джерела Штучного Інтелекту. Зараз це 1.0, підлягає перегляду. Як і визначення Відкритого Джерела для програмного забезпечення, це дозволяє користувачам використовувати, спостерігати, модифікувати та розповсюджувати без будь-яких обмежень. Моделі Штучного Інтелекту значною мірою залежать від своїх навчальних даних. Використання Штучного Інтелекту передбачає інференцію, що споживає ресурси. Витрати на навчання окремі від витрат на інференцію. У класичному визначенні програмного забезпечення з відкритим кодом вихідний код доступний будь-якому користувачеві для використання, спостереження, модифікації та розповсюдження. У строгому тлумаченні відкритого коду Штучного Інтелекту вихідний код має містити дані, що використовуються для навчання моделі. Однак це може бути не практично, і це не є частиною визначення OSI Відкритого Джерела Штучного Інтелекту.
Це радикально відрізняється від рекомендацій OSI щодо відкритого програмного забезпечення. Інша різниця полягає в спостережуваності ваг моделі та гіперпараметрів. Під час навчальної фази ваги моделі уточнюються. Ваги моделі втілюють модель у її поточній формі, кристалізуючи все навчання, яке модель пройшла. Гіперпараметри контролюють початкову конфігурацію навчальної установки. У відкритій моделі ваги моделі та параметри моделі повинні бути відкритими.
Відкриті моделі штучного інтелекту можна назвати моделями з відкритими вагами. Багато моделей з Китаю є моделями з відкритими вагами, включаючи Qwen ( з AliBababa). Ця конкуренція також змусила OpenAI випустити модель з відкритими вагами. Це базова модель gpt-oss з двома варіантами.
Майбутнє
Ми ще не заглиблювалися в технологію створення багатошарових запитів і багатошарової генерації. Під багатошаровим ми маємо на увазі не тільки текст, а й зображення, аудіо та відео. MiniMax та DeepSeek мають ці можливості. Очевидно, що обмеження доступу до апаратного забезпечення та ноу-хау не можуть стримати справжні інновації. Такі обмеження також призводять до численних змін парадигм, роблячи розробку ШІ дешевшою з нижчими вимогами до апаратного забезпечення та споживання енергії, створюючи демократичне та децентралізоване майбутнє, де ми зможемо налаштовувати та запускати моделі на звичайному апаратному забезпеченні. Ці розробки дають нам надію, що ми зможемо контролювати та використовувати ці можливості для допомоги людству, а не для заподіяння шкоди.