Яо Цянь: Деякі міркування про екологічне будівництво великомасштабних моделей

2023-07-10 03:28:57

Автор｜Яо Цянь «Директор технологічного наглядового бюро Комісії з регулювання цінних паперів Китаю»

Джерело｜ «Китайські фінанси», випуск 13, 2023 р.

Джерело зображення: створено Unbounded AI‌

На початку 2023 року орієнтовані на створення контенту програми штучного інтелекту, такі як ChatGPT, GPT4 і Midjourney, викликали хвилі інновацій. Деякі люди навіть думають, що велика модель ітеративно розвивається в одиницях днів. Будучи новим виробничим фактором, щадний і стійкий розвиток даних для навчання великих моделей має вирішальне значення для розвитку галузей великих моделей і штучного інтелекту. Будучи важливою сферою застосування великих даних і штучного інтелекту, фінансова індустрія повинна приділяти пильну увагу останнім розробкам технологій, пов’язаних із навчанням великих моделей. У цьому документі спочатку аналізується еволюція та шлях оновлення великих моделей, а потім обговорюються можливі методи взаємодії між великими моделями та малими та середніми моделями, а також пояснюється екологія даних та модельна екологічна конструкція великих моделей.Стійкий розвиток великомасштабної моделі екологія дає актуальні ідеї.

Оновлення та аналіз шляху еволюції великих моделей

З довгострокової перспективи еволюція великих моделей має багато гілок. Останнім часом швидкість ітерації великих моделей не тільки прискорилася, але й збільшилася кількість учасників, які в основному охоплюють усі великі технологічні компанії, і спочатку з’явилася різноманітність і складність екології.

Наразі в ітераційному процесі оновлення великої моделі немає суттєвих змін у базовій структурі алгоритму. Вхідна обчислювальна потужність і велика кількість навчальних даних все ще є ключем до її швидкої еволюції, але останній GPT4 представляє деякі нові особливості.

**Одним з них є те, що алгоритм більше підходить для конкретних завдань нинішнього потоку. **GPT3 і GPT3.5 — великі моделі зі 175 мільярдами параметрів. Наразі GPT4 не оголосив про конкретні параметри, але деякі люди припускають, що його параметри сягатимуть трильйонів рівнів. Водночас він також матиме значне покращення в навчанні з підкріпленням і вирішенні конкретних завдань. Більш популярним є термін «вирівнювання». . Якщо моделі серії GPT3 доводять усім, що штучний інтелект може виконувати кілька завдань в одній моделі, то GPT4 досяг або навіть перевершив людський рівень у багатьох завданнях.

**По-друге, це мати більш стандартизовані можливості керування навчальними даними та підтримувати мультимодальність. **GPT4 має мультимодальну здатність, «порівняну з людським мозком», яка мало чим відрізняється від мультимодального механізму, описаного в багатьох поточних статтях, але вона може поєднувати можливість обробки кількох зразків текстової моделі з ланцюг думок (Chain of Thought) , CoT) комбінований. Управління та надання навчальних даних GPT4 невіддільні від маркування даних, керування та оцінки даних, автоматизації та синтезу даних.

По-третє, створити потужніший кластер обчислювальної потужності, щоб відповідати більшій кількості наборів навчальних даних і більшим вхідним параметрам. ** Наприклад, корпорація Майкрософт присвятила більше половини своїх хмарних ресурсів додаткам для навчання великих моделей і контенту, створеного штучним інтелектом (AIGC). Nvidia навіть об’єднала зусилля з TSMC, ASML і Synopsys, щоб створити нову обчислювальну платформу та більш потужний графічний процесор.

Створіть екосистему, де різні моделі взаємопов’язані

Великі моделі, схожі на GPT, є потужними і в майбутньому стануть однією з важливих інфраструктур у багатьох галузях, таких як Інтернет, фінанси та медицина. Наприклад, у фінансовій сфері після навчання з відповідними професійними даними велика модель може мати здатність розуміти знання фінансового бізнесу та може пропонувати рішення для конкретних сценаріїв, підтримуючи фінансові установи для автоматизації маркетингу, аналізу відносин з клієнтами, інтелектуального визначення ризиків, інтелектуальне обслуговування клієнтів, розумне інвестиційне дослідження тощо.

Однак у процесі реалізації конкретних додатків великі моделі, подібні до GPT, зіткнуться з рядом проблем. Один із них полягає в тому, як забезпечити кількість і якість навчальних даних. Загалом кажучи, навчальний корпус великих моделей є корпусом загального призначення з багатьох сфер, тоді як збір професійного корпусу зазвичай займає багато часу та трудомісткість, а також є проблеми з конфіденційністю. Як наслідок, великі моделі можуть здаватися професійними в певних сферах. індивідуальні сфери застосування сексуальна неадекватність. По-друге, як зменшити витрати на експлуатацію та обслуговування великих моделей. Великі моделі вимагають підтримки величезної обчислювальної потужності та суворого керування даними.Звичайним установам і відділам прикладних програм часто важко підтримувати роботу та ітераційне оновлення великих моделей. З цією метою необхідно створити екологію здорової взаємодії та спільної еволюції різних моделей, щоб гарантувати, що індустрія штучного інтелекту, пов’язана з великими моделями, може бути успішно реалізована в різних сферах застосування.

З технічної точки зору, еволюція великих моделей ґрунтується на навчанні з підкріпленням із зворотним зв’язком людини (Reinforcement Learning from Human Feedback, RLHF). Позначення даних, яке використовується, відрізняється від простого маркування даних, яке виконується за допомогою недорогої праці в Дуже професійні люди напишуть записи та дадуть якісні відповіді, що відповідають людській логіці та виразам на відповідні запитання та вказівки. Однак через розрив між взаємодією людини та машини ідеальним режимом є навчання з підкріпленням через взаємодію між моделями, тобто навчання з підкріпленням на основі зворотного зв’язку моделі (Reinforcement Learning from Model Feedback, RLMF). На основі взаємодії різних моделей дані та модельну екологію всієї великої моделі можна об’єднати в структуру.

У минулому, згідно з децентралізованою моделлю розробки моделі, кілька завдань в одному прикладному сценарії штучного інтелекту мали підтримуватися декількома моделями, і кожна конструкція моделі мала проходити через процес розробки алгоритму, обробки даних, навчання моделі та налаштування. Попередньо навчена велика модель покращує універсальність і узагальнення штучного інтелекту. На основі великої моделі точне налаштування з нульовими або малими вибірками може досягти кращих результатів у різних завданнях. Модель великої моделі «попереднє навчання + тонке налаштування» привнесла нову стандартизовану парадигму в дослідження та розробку штучного інтелекту, дозволяючи моделям штучного інтелекту досягати великомасштабного виробництва в більш уніфікований і стислий спосіб. Зосереджуючись на технологічних інноваціях і реалізації додатків, дані та промислову екологію великих моделей можна розділити на інфраструктуру (включаючи загальний корпус і платформи обчислювальної потужності), базові великі моделі та послуги великих моделей (включаючи синтетичні дані, постачання моделей і плагін додатків). -ins). У низхідних додатках користувачі можуть розгортати власні малі моделі, щоб підвищити продуктивність за допомогою різних служб великої моделі, і в той же час надавати відповідні послуги зворотного зв’язку великій моделі у зворотному напрямку, щоб допомогти ітеративно розвивати велику модель (див. рисунок 1).

Основна велика модель є основним двигуном промислової екології великої моделі. Її переваги полягають у її базовості та універсальності. Вона орієнтована на типові завдання, такі як обробка природної мови, комп’ютерне бачення та крос-модальні завдання. Крім того, вона поєднує характеристики завдань. , оптимізує алгоритми моделі та вивчає пов’язані дані та знання, щоб великі моделі могли показувати кращі результати та навіть застосовуватися безпосередньо з нульовими вибірками.

Мала модель має характеристики невеликого розміру (зазвичай на рівні десятків мільярдів параметрів), легкого навчання та обслуговування, тому вона підходить для різних вертикальних полів і внутрішнього розвитку та використання в різних галузях промисловості. Загалом маленькі моделі менш дорогі для навчання, але набагато менш продуктивні, ніж великі моделі. Завдяки інтерактивному застосуванню великих і малих моделей, мала модель може отримати частину можливостей великої моделі або реалізувати деякі функції, так що продуктивність малої моделі може бути значно покращена без збільшення витрат на експлуатацію та технічне обслуговування, і відповідати конкретним вимоги до заявки. Способи взаємодії великої та малої моделі можна розділити на три категорії: взаємодія даних, взаємодія моделі та взаємодія додатків (див. рис. 2).

* Взаємодія даних

Взаємодія даних означає, що великі та малі моделі не беруть безпосередньої участі в процесі навчання або міркування одна одної, а взаємодіють опосередковано через дані, створені одна одною. Навчання великих моделей зазвичай потребує великомасштабного корпусу загального призначення. Наприклад, навчальний корпус GPT3 досягає 753 ГБ, який надходить із багатьох джерел даних, таких як Вікіпедія. Корпус загального призначення відноситься до корпусу, що охоплює кілька галузей, і охоплення знань у деяких конкретних галузях може бути недостатнім. Після завершення навчання великої моделі за допомогою інструкцій можна створити певний предметно-спеціальний синтетичний корпус, а потім через локалізоване розгортання малу модель можна навчити разом із виділеним корпусом галузі або приватним корпусом галузі. Область навчального корпусу малих моделей є відносно концентрованою, тому знання в цій галузі можна систематично освоювати, щоб результат моделі був більш професійним, детальнішим і точнішим. Роль великої моделі в цьому процесі полягає у створенні великомасштабного високоякісного синтетичного корпусу, щоб навчання малої моделі могло бути більш адекватним і запобігти переобладнанню моделі через малий розмір спеціального корпусу. або приватний корпус. Навпаки, професійний корпус, створений малою моделлю, також можна використовувати як доповнення до навчального корпусу великої моделі, підвищуючи професійні можливості великої моделі в різних сферах, щоб велика модель могла продовжувати ітераційно розвиватися.

Щоб досягти взаємодії даних між великими та малими моделями, окрім опори на організацію керування джерелами даних, також необхідно розглянути можливість створення організації зберігання та торгівлі даними, щоб можна було контролювати навчальні дані великих та малих моделей. і протікає впорядковано, а відповідний розподіл для всіх сторін є розумним.прав та інтересів.

Взаємодія моделі

Окрім непрямої взаємодії даних, великі та малі моделі також можуть взаємодіяти на рівні моделі. Беручи участь у процесі навчання одна одної, обидві сторони можуть отримати вигоду одна від одної та підвищити ефективність ітерації великих моделей. З одного боку, великі моделі можуть керувати навчанням маленьких моделей, і зазвичай використовуваним методом є дистиляція знань. У режимі дистиляційного навчання навчену велику модель можна використовувати як модель вчителя, а маленьку модель, яку потрібно навчити, можна використовувати як модель учня.Для того самого пакету навчальних даних, розробляючи розумну функцію втрат, м’яка мітки, згенеровані великою моделлю, і самі навчальні дані Жорсткі мітки спільно керують навчанням малих моделей. Подібним чином мала модель також може виконувати зворотну дистиляцію на великій моделі та використовувати малу модель для оцінки вибірки, щоб допомогти великій моделі прискорити конвергенцію — після подальшого тонкого налаштування навченої малої моделі на наборі даних нижче за течією, вибірка отримано модель оціночного судження.

Взаємодія з програмою

Типовим способом взаємодії великих і малих моделей на рівні програми є режим плагіна, який інкапсулює програму, створену моделлю, у службу плагіна для виклику інших моделей. Режим plug-in має дві переваги: одна полягає в зручності та ефективності, і модель не потребує перенавчання; інша — це хороша ізоляція, яка дозволяє уникнути витоку деталей моделі, тим самим краще захищаючи права та інтереси тренерів моделей. і користувачів.

З одного боку, велика модель в основному використовує метод попереднього навчання, а продуктивність у реальному часі не висока. Викликаючи плагін прикладної програми малої моделі, програма великої моделі може не тільки покращити ефективність вихідних результатів у реальному часі, але й розширити брак знань у певних галузях. З іншого боку, додатки, створені з малими моделями, також можуть безпосередньо отримати потужні можливості генерації та міркування великих моделей, викликаючи плагіни, надані GPT-подібними великими моделями. Цей метод взаємодії додатків може позбавити невелику модель від процесу навчання загальних знань і зосередитися на створенні контенту для конкретних областей за нижчою ціною.Користувачі також можуть відчути «хімічну» реакцію, спричинену взаємозв’язком різних моделей.

Плагіни нового продукту ChatGPT, нещодавно випущені компанією Open AI (Open AI), можуть підключати ChatGPT до програм сторонніх розробників через плагіни програм. Ці програми сторонніх розробників можна створювати з невеликих моделей одного домену. Таким чином, мала модель може виконувати різноманітні розширені функції у великій моделі, подібній до ChatGPT, наприклад отримання інформації в реальному часі або інформації бази знань і заміна користувачів «інтелектуальним плануванням» реального світу.

Стандартизація та контроль безпеки даних навчання великих моделей і ланцюга інструментів моделей

Продуктивність великої моделі залежить від якості навчальних даних.В той же час базові технічні характеристики, необхідні для моделі в різних сценаріях посадки, також відрізняються. Тому, щоб побудувати хорошу промислову екологію зі сталим розвитком і здоровою взаємодією великих моделей, необхідно сприяти стандартизації даних навчання великих моделей і базових технологій, а також прискорити ітерацію та впровадження моделей.

З одного боку, сам навчальний набір даних великої моделі та визначений інтерфейс служби даних (API) стануть галузевим стандартом де-факто, і різні програми, які отримують доступ до великої моделі, повинні відповідати цьому стандарту. На даний момент модель «попереднє навчання + тонке налаштування» стала уніфікованим стандартним процесом і парадигмою в галузі. На цій основі, у поєднанні з конкретними прикладними сценаріями та професійними даними, малі моделі в різних галузях і галузях можна додатково налаштувати та оптимізувати. Певною мірою навчальні дані великої моделі та стандарти інтерфейсу служби даних стануть одним із основних міжнародних стандартів наступного покоління.

З іншого боку, ланцюжок інструментів, необхідний базовій технології для обробки великих навчальних даних моделі, також має бути створений і стандартизований. Завдяки потужній підтримці стандартизованих технічних служб велика модель може виводити такі технічні рішення, як апаратна адаптація, дистиляція та стиснення моделі, розподілене навчання та прискорення моделі, векторна база даних, база даних графів та взаємозв’язок моделей, забезпечуючи обробку природної мови, комп’ютерне бачення, Різноманітні можливості, такі як крос-модальність і графіки знань, дозволяють більшій кількості компаній і розробників застосовувати великі моделі до власного бізнесу та створювати галузеві вертикальні моделі з низьким порогом, тим самим сприяючи широкому впровадженню штучного інтелекту в різних сферах.

Варто зазначити, що хоча розробка та застосування великих моделей принесе величезні дивіденди промисловому та економічному розвитку, якщо не контролювати належним чином, це також створить ризики для національної та промислової безпеки. Одним з них є ризик витоку даних. Навчання та впровадження великих моделей мають підтримуватися величезними обсягами даних, у тому числі галузевою чи особистою конфіденційною інформацією. Якщо немає розумного механізму десенсибілізації даних і зберігання даних, це може спричинити витік даних і завдати збитків галузі та окремим особам. Другий – ризик безпеки моделі. Наприклад, плагіни можуть бути імплантовані зі шкідливим вмістом і стати інструментом для шахрайства та «отруєння» злочинцями, що ставить під загрозу соціальну та промислову безпеку.

Пов'язані пропозиції

**Використовуючи навчальні дані великої моделі як відправну точку, стандартне формулювання та керування даними є подвійними. ** Сприяти стандартизованому розвитку галузі шляхом формулювання специфікацій прикладних моделей та уніфікації стандартів інтерфейсу. Можна розглянути можливість розміщення синтетичних даних моделі для посилення нагляду та забезпечення відповідності вмісту даних, чітких прав та інтересів і безперебійної циркуляції. Водночас удосконалюйте закони та нормативні акти, оптимізуйте політику та системи, сформуйте спільну регулятивну силу різними способами та методами та суворо запобігайте зловмисному втручанню в моделі та проникненню шкідливих даних.

**Побудуйте велику модель ринку елементів навчальних даних. ** Уточніть промисловий ланцюжок між збором і обробкою навчальних даних, службами синтетичних даних, взаємозв’язком між великими та малими моделями та прикладними API. Прискорення створення ринку елементів даних, забезпечення ринково орієнтованих цін на навчальні дані та полегшення розподілу та стимулювання прав та інтересів.

** Побудуйте хорошу екологію симбіотичного розвитку та взаємного просування великих і малих моделей. **Загалом немає різниці між поколіннями на рівні алгоритму основних великих моделей у країні та за кордоном, але є прогалина в обчислювальній потужності та даних. Рекомендується рішуче підтримувати вітчизняні провідні технологічні компанії для розробки незалежних і керованих вітчизняних великомасштабних моделей у загальній сфері.Водночас заохочувати всі вертикальні галузі використовувати інструменти з відкритим кодом для створення стандартизованих і керованих незалежних ланцюжків інструментів на основі великих моделей, щоб досліджувати «великі та сильні». Він також розробляє «маленьку та красиву» модель вертикальної промисловості, щоб побудувати гарну екологію інтерактивного симбіозу та ітеративної еволюції між основною великою моделлю та професійною малою моделлю.

(Відповідальний редактор Чжан Лінь)

Переглянути оригінал

Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.

Нагородити
подобається
Прокоментувати
Поділіться

Прокоментувати

0/400

Немає коментарів

Тема
#Gate & WLFI USD1 Points Program
7k Популярність
#Show My Alpha Points
67k Популярність
#ETH Whales Accumulate
13k Популярність
#SOL Futures Reach New High
22k Популярність
#ETH ETF Sees 12 Weeks of Inflows
7k Популярність

Закріпити

карта сайту