Промислова модель, відкрийте книгу!

Джерело: Titanium Media, автор: Чжан Шуай

Джерело зображення: створено Unbounded AI‌

«Здається, що Wenxinyiyan запускають поспішно. Я думаю, що ця річ зовсім не для того, щоб заробляти гроші, а для того, щоб наздогнати бум ChatGPT. Велика модель галузі — це те, що справді може створити комерційну цінність.» Незабаром після випуску Baidu Wenxinyiyan, колишній співробітник Baidu, сказав Titanium Media: «Коли OpenAI не був таким популярним минулого року, пан Ван (технічний директор Baidu Ван Хайфен) очолив команду для створення 10 великомасштабних моделей, у тому числі великомасштабних промислових моделей. У той час , не було особливої уваги за межами галузі, але якщо ви подивитеся на макет Baidu зараз, велика промислова модель насправді є перспективним макетом, ранішим за OpenAI та Microsoft».

Сьогодні, після суєти великомасштабних моделей загального призначення, промислові моделі поступово набувають популярності, що також підтверджує цю реальність: базові великомасштабні моделі, такі як ChatGPT, заробляють «плачучи», що значною мірою відіграє роль у навчанні ринок і формування пізнання. Штучний інтелект дійсно буде впроваджено та зароблятиме поточні гроші, але також залежить від великої моделі галузі.

Навіть на закордонних ринках ChatGPT, як частина атрибутів продуктів C-end, поступово слабшає. Згідно з даними SimilarWeb, швидкість зростання відвідувань ChatGPT на ранній стадії була вражаючою. Темп зростання за місяць становив 131,6 % у січні та 62,5% у лютому, у березні він становив 55,8%, у квітні суттєво сповільнився, приріст у місячному обчисленні становив 12,6%, до травня цей показник змінився до 2,8%, а очікується, що місячні темпи зростання в червні можуть бути негативними.

«Я вважаю, що багато хто з нас пробували ChatGPT, і я вважаю, що багато людей відклали його після того, як спробували його, тому що він в основному відокремлений від нашої роботи на даний момент, тому ми відмовляємося від нього після використання. Але я все ще сподіваюся що всі не будуть «вставати рано і ловити пізній епізод», тому що це революція парадигми, яка спричинить підривні зміни», — сказав раніше головний технічний директор Microsoft (Китай) Вей Цін.

Рішення на стороні B, засноване на ChatGPT або великих моделях, є хорошим способом вирішення проблеми поділу між великими моделями та сценами.

На міжнародному рівні такі великі компанії, як Microsoft і Amazon, також почали шукати шляхи комерціалізації послуг корпоративного рівня та почали досліджувати численні галузі; усередині країни Baidu, Alibaba, Tencent і Huawei прискорюють інвестиції у великомасштабну промисловість. моделі. Крім того, багато галузевих лідерів і стартап-компаній у всьому світі також досліджують перспективи великомасштабних промислових моделей.Нещодавно Пекінська муніципальна науково-технічна комісія та Комітет з управління Чжунгуаньцунь також випустили першу партію з 10 випадків застосування масштабні індустріальні моделі штучного інтелекту в Пекіні. Крім того, кількість злиттів і поглинань пов’язаних технологічних маршрутів також досягла нових максимумів...

Але траса великомасштабного моделювання далеко не переповнена — із швидким розвитком технологічних ітерацій усі сфери життя заново накопичують технічні знання та формують бізнес-моделі, і все тільки почалося.

Upgrade: Thousand Models War

Якщо базова модель — це «війна сотень моделей», то масштабна галузева модель — це «війна тисяч моделей». Подібно до того, як стовбур відрощує гілки, кожен базовий виробник великомасштабних моделей може інкубувати кілька промислових великомасштабних моделей .одноголосно.

«Хоча всі покладають великі очікування на широкомасштабну модель загального призначення, вона не обов’язково є оптимальним рішенням для задоволення потреб галузевих сценаріїв». Про це заявили президент Tencent Group, Cloud і Тан Даошен, генеральний директор Smart Industry Business Group.

У випадку, якщо Hunyuan Assistant не оприлюднив його для громадськості, Tencent взяла на себе лідерство у випуску великомасштабних промислових моделей. Покладаючись на платформу Tencent Cloud TI для створення вибору великомасштабних промислових моделей, вона надає клієнтам одну- зупиняє послуги MaaS і допомагає корпоративним клієнтам створювати ексклюзивні великомасштабні моделі та розумні програми. Від Tencent стало відомо, що Tencent оприлюднить офіційну інформацію про загальну модель C-end у майбутньому.

Цю серію заходів можна розуміти так, що, незалежно від ефекту та прогресу базової великомасштабної моделі Хуньюань, пріоритетний випуск промислової великомасштабної моделі є необхідним кроком для Tencent, щоб забезпечити власну репутацію та захопити ринкових клієнтів, коли клієнти терміново потребують.

Раніше Тянь Ці, головний науковий співробітник Huawei Cloud у галузі штучного інтелекту, зазначив, що Huawei ділить велику модель на три рівні: L0, L1, L2 і L0 – це те, що всі називають базовою загальною моделлю, як GPT-3. , у базовій моделі L0. На основі , а також галузевих даних, велика модель галузі, отримана шляхом змішаного навчання, є L1.

Потім L1 розгортається для конкретних сценаріїв підрозділу тисяч галузей нижче за течією, і отримується модель завдання L2 сценаріїв підрозділу.Щоб скоротити виробничі витрати та підвищити ефективність якнайшвидше, як швидко створити моделі L2 із великих промислова модель L1 і розгортання моделі L2 на стороні пристрою, периферії та хмари є дуже важливим питанням.

У порядку денному майбутньої конференції розробників Huawei у липні можна побачити, що Huawei Cloud проведе серію інтерпретацій і випусків про те, як модель Pangu була вдосконалена від базової моделі до промислової.

На цьогорічному саміті Alibaba Cloud Summit технічний директор Alibaba Cloud Чжоу Джінгрен також сказав: «Сьогодні не всім компаніям потрібно починати навчання з нуля, а також не потрібно всім починати з нуля, щоб створити різноманітні корпуси, включаючи велику кількість обчислювальних потужностей. Ми сподіваємося, що на основі сучасної моделі Tongyi Qianwen, у поєднанні зі сценарієм підприємства, системою знань підприємства та особливими потребами підприємства в галузі, кожна модель підприємства буде бути згенерованим».

Microsoft також створює власну галузеву модель. У квітні в Китаї міжнародна версія Microsoft Azure OpenAI Service випустила перші три набори сценаріїв глобальної інноваційної індустрії Azure для роздрібної електронної комерції, виробництва та цифрових сфер, інтегруючи GPT-3 і GPT-4 для локальних корпоративних користувачів, що збираються за кордоном. , Codex, DALL-E та ChatGPT на рівні підприємства, п’ять широкомасштабних модельних служб, щоб допомогти китайським закордонним корпоративним клієнтам прискорити їхню експансію на світовий ринок.

"Війна тисяч моделей" ось-ось спалахне, але ще занадто рано по-справжньому входити в стадію великих хвиль, що вимивають пісок. Загалом масштабні моделі все ще знаходяться на відносно ранній стадії розробки. Хоча великомасштабні моделі в галузі зосереджені, очевидно, що для цього треку є більше місця.

Якщо взяти як приклад велику модель фінансової індустрії, то вона розділена на різні сфери, такі як компанії з цінними паперами, страхування, банки та нові фінанси. Наступні завдання кожної сфери поділені на десятки чи сотні підзавдань.

«Найважливішим моментом є те, коли на основі базової моделі SFT та інші механізми та структури можуть бути ефективно адаптовані до подальших завдань, а також коли подальші завдання фінансової індустрії чи інші галузеві моделі мають ефект масштабу». Чень Хайцін, керівник інноваційного бізнес-центру Moyuan, це лише початок великих галузевих моделей і сценаріїв безперервного навчання за допомогою деяких універсальних неструктурованих даних.

Розумний і реалістичний вибір

Якщо підприємство хоче створити базову великомасштабну модель із сотнями мільярдів параметрів, йому потрібна обчислювальна потужність понад 10 000 карт у кластері з однією машиною, не лише карта GPU, але й використання ресурсів кластера GPU. , чого не можуть зробити більшість компаній.

Модель великої галузі, очевидно, легше реалізувати, і вона також має ширшу перспективу застосування.

«Великі моделі можуть розширити можливості тисяч галузей, але ви повинні добре розуміти сценарії тисяч галузей, і ви не можете розраховувати на навчання сотень мільярдів або трильйонів великих моделей, якими можуть легко користуватися корпоративні користувачі, – сказав Чжоу Мін, засновник Lanzhou Technology. «Від загальної моделі до промислової моделі необхідно пройти останню милю для сценарію користувача».

Оцінивши інвестиції, необхідні для базової великомасштабної моделі, і зваживши плюси і мінуси, вигоди та втрати, корпоративні клієнти швидко звернулися до великомасштабної моделі промисловості, а виробники приділили їй більше енергії.

Тан Даошен відверто сказав, що поточні великомасштабні моделі загального призначення, як правило, навчаються на основі великої загальнодоступної літератури та мережевої інформації. Інформація в Інтернеті може містити помилки, чутки та упередження. Багато професійних знань і галузевих даних накопичено недостатньо, що призводить до моделі, специфічної для галузі. Точність і точність недостатні, а "шум" даних занадто великий.

Однак у багатьох промислових сценаріях користувачі висувають високі вимоги до професійних послуг, що надаються підприємствами, а їхня відмовостійкість низька. Коли компанія надає неправильну інформацію, це може спричинити величезну юридичну відповідальність або кризу зв’язків з громадськістю. Таким чином, великомасштабні моделі, які використовуються підприємствами, мають бути контрольованими, відстежуваними та коригованими, а також мають бути неодноразово та повністю перевірені, перш ніж їх можна буде запустити.

«Ми вважаємо, що клієнтам потрібні більш специфічні галузеві моделі в поєднанні з власними даними компанії для навчання або тонкої настройки, щоб створювати дуже практичні інтелектуальні послуги. Компанії потребують справжнього вирішення проблеми в реальних сценаріях. певну проблему замість вирішення 70%-80% проблеми в 100 сценах", - сказав Тан Даошен.

Чжу Йонг, віце-президент Baidu Smart Cloud, також сказав: «З ситуації вдома та за кордоном ми бачимо, що існує не так багато моделей загального призначення. Деякі виробники на ринку насправді виготовляють відносно невеликі моделі. Навпаки , моделі предметної області є особливо важливими, оскільки загальна модель має лише здатність загальних знань, модель предметної області може бути узгоджена з очікуваннями завдань конкретних галузей і доменів і вирішувати фактичні проблеми бізнесу. Цей процес дуже важливий, але вартість і ресурси, необхідні для цього процесу, набагато менші, ніж починати з нуля. Створіть базову загальну модель».

У той же час він також вирішив, що в майбутньому може існувати лише кілька базових моделей (базових загальних моделей), але в поєднанні з професійними даними та галузевими ноу-хау на них виросте багато різних типів моделей домену. Ці моделі доменів будуть дуже процвітаючими в майбутньому та підтримуватимуть верхній рівень.

На прикладі великої моделі енергетичної промисловості «State Grid-Baidu Wenxin», створеної Baidu Smart Cloud і State Grid, Baidu Smart Cloud разом із експертами State Grid представили зразки, накопичені State Grid в енергетичному бізнесі. загальна широкомасштабна модель Дані та унікальні знання, а під час навчання поєднати досвід обох сторін у алгоритмі попереднього навчання та бізнесі та алгоритмі в сфері влади, алгоритми розробки, такі як розрізнення сутностей у сфері влади та розрізнення документів у сфері електроенергетики як завдання попереднього навчання, щоб велика модель Wenxin могла глибоко вивчати потужність Професійні знання, щоб справді вирішувати практичні бізнес-проблеми в галузі енергетики та досягати мети зниження витрат і підвищення ефективності.

Чжу Юн сказав, що різницю між загальною моделлю та моделлю домену можна порівняти з людиною з широким спектром знань, яка навчалася в університеті. Вона може знати деякі медичні знання, але не може діагностувати пацієнтів і не є професійним лікарем . Модель домену полягає в тому, щоб поглиблено вивчати медичні знання на основі сильних загальних здібностей і стати професійним лікарем, який може зробити свій внесок у медичну сферу.

Від загальної моделі з широким спектром знань до професійної медичної моделі вартість ресурсів, необхідних для цього процесу, набагато менша, ніж вартість створення загальної великої моделі з нуля, але це підкреслює, що існують професійні дані, повинні бути Його спонукають завдання в професійній сфері, щоб стимулювати його до розвитку таких здібностей.

Як створити галузеву модель

Велика модель сама по собі є новою річчю, яка змінила попередню парадигму розробки програмного забезпечення. Виробникам потрібен новий ланцюжок інструментів і платформа, щоб допомогти клієнтам відшліфувати промислову велику модель раніше та швидше.

З настанням ери великих моделей ефективність «останньої милі» буде значно покращена. Чжоу Мін зазначив, що формується нове покоління парадигми розробки програмного забезпечення, головним чином засноване на тому факті, що підприємства надають багато функціональних механізмів, а користувачі тепер є помічниками для підвищення ефективності. На цій основі легко створити нову програму.

Візьмемо для прикладу платформу великомасштабної моделі Wenxin Qianfan, це універсальна платформа для розробки великомасштабної моделі та обслуговування для корпоративних розробників. Він не лише надає базову модель (ERNIE-Bot) і сторонні великі моделі з відкритим вихідним кодом, але також надає різні інструменти розробки ШІ та повне середовище розробки, щоб полегшити клієнтам легке використання та розробку великих модельних додатків.

Для управління даними, автоматизованого моделювання SFT і хмарного розгортання служб аргументації виробники сподіваються реалізувати універсальні послуги налаштування великомасштабної моделі. Можливості платформ великомасштабного моделювання різних виробників в основному схожі, а відмінність полягає в простоті використання, якості ефекту, підтримуваному програмному та апаратному забезпеченні.

«Створити велику модель справді недешево, але є лише дві причини, чому врешті-решт можна просувати послугу великої моделі: перша полягає в тому, що ефект від моделі кращий, а ефект від моделі не хороший. Зайве говорити, що друге — це вартість», — сказав Байду Сінь Чжоу, генеральний менеджер Smart Cloud AI and Big Data Platform.

По суті, галузева модель повинна спиратися на загальну модель. Наприклад, у загальній освіті, якщо немає кращої загальної моделі, неможливо говорити про ефект застосування в конкретній галузі. Прикладом є Bloomberg GPT, спільно запущений Bloomberg і Johns Hopkins. У розподілі даних загальні базові дані моделі становлять половину, публічні дані фінансової індустрії — половину, а власні дані Bloomberg — 0,6%.

«Для того, щоб будь-яка модель досягла кращого рівня інтелекту або базових можливостей, вона повинна навчити базову модель із відносно достатньою кількістю параметрів, а потім інтегрувати деякі галузеві професійні дані в базову модель, щоб створити галузеву модель». Чжоу сказав.

Ідея Baidu полягає в тому, щоб запустити «великого хлопця» (Wenxin Yiyan) і дуже повну інструментальну платформу (Wenxin Qianfan), а потім надавати послуги диференційованої моделі відповідно до фактичних потреб клієнтів, щоб допомогти клієнтам зробити найбільш економічно ефективний вибір. Вважаю, що ціна не стане вузьким місцем для компаній, щоб прийняти великі моделі.

Крім витрат на виклик моделі та витрат на навчання, Baidu також допомагає компаніям ще більше зменшити витрати.Якщо компанії зосереджуються лише на своїх відносно вузьких галузях, Baidu також має версію з відносно низькими параметрами, так що, забезпечуючи ефект моделі, використовувати або Вартість навчання моделей різко впаде.

Насправді не існує універсального стандарту вартості створення великої промислової моделі.

Перш за все, різні базові великі моделі мають різні специфікації параметрів, а інвестиції в програмне та апаратне забезпечення повинні динамічно змінюватися відповідно до основних параметрів і можливостей моделі. Якщо параметр дорівнює десяткам мільярдів, карта A100 також може працювати та запускати наступні завдання.

Поточні відносно зосереджені вимоги до сценаріїв додатків належать до цієї категорії, як-от інтелектуальні відповіді на запитання, інтелектуальне написання та інтелектуальне створення в управлінні знаннями, а також сценарії пан-Інтернет-маркетингу та вимоги до генерації коду.

По-друге, вартість пов’язана з обсягом даних і напрямком застосування. Поточна глобальна ціна великомасштабної моделі базується на 1000 жетонах як базовій одиниці. Якщо подальші завдання підприємства дуже прості і їх можна виконати лише за допомогою десятків тисяч токенів, то його вартість дуже низька, і для нього потрібно дуже мало графічних карт. Обсяг даних, необхідний для побудови великої галузевої моделі, зазвичай становить G або навіть T, тому вартість офлайн-навчання буде дуже високою.

**Хто бере участь у перегонах? **

Гравці зібралися на масштабну модельну трасу, цього разу до неї приєдналися не лише першокласні інтернет-компанії, а й інші лідери індустрії та стартапи.

Які галузі можуть лідирувати в прориві? Можливо, це видно з галузі, в якій знаходиться кейс співпраці.Як показано в таблиці на початку статті, часто використовуються фінанси, медичне обслуговування, освіта, автономне водіння та інші сфери.

Наприклад, коли Alibaba Cloud випустила велику модель Tongyi у квітні, вона оголосила, що розпочала спільне дослідження з низкою компаній. Перша партія спільних компаній включає OPPO Andes Smart Cloud, Geely Automobile, Zhiji Automobile, Chery New Energy, Momo Zhixing, Swire Coca-Cola, Bosideng, Palm Technology тощо. Відповідно до звітів, фінансова індустрія, індустрія роздрібної торгівлі та деякі масштабні сценарії та галузі, орієнтовані на споживача, накопичили багато загальнодоступних даних і даних сценаріїв, що зручно для створення корпоративних або галузевих моделей.

Згідно з загальнодоступною інформацією, кількість великомасштабних промислових моделей Baidu Wenxin досягла 11, охоплюючи енергетику та електрику, фінанси, аерокосміку, медіа, кіно та телебачення, автомобілі, міське управління, газ, страхування, виробництво електроніки та соціальні науки.

27 червня в Пекіні оприлюднена перша партія з десяти великомасштабних прикладних прикладних моделей в індустрії штучного інтелекту, які стосуються енергетики та електрики, медицини, фінансів, автономного водіння, будівництва, наукових досліджень, життя та полів запитань і відповідей. Повідомляється, що в період з 27 червня по 30 липня Пекінська комісія з науки і технологій і Комітет з управління Чжунгуаньцунь також зосередяться на таких ключових сферах, як міське управління, медичне здоров'я, наукові дослідження, розумні фінанси, розумне життя та розумне життя. міст та цільових інноваційних суб’єктів у місті. , зберуть понад 80 галузевих широкомасштабних прикладних прикладних проектів.

Але все більше клієнтів стикаються з новою хвилею накопичення знань і процесу навчання.

«Коли ми спілкувалися з клієнтами, ми виявили, що багато клієнтів не знають багато про галузеві моделі, але вони проявлять ініціативу, щоб запитати галузеві моделі Baidu.» Лі Цзінцю, заступник генерального директора Baidu Smart Cloud AI Platform, сказав, що у цей час він буде спеціально поєднаний із фактичним використанням підприємств. Проаналізуйте потреби продуктів і клієнтів, наприклад, які можливості ви хочете мати в галузевій моделі, які системи чи програми використовувати, хто використовуватиме ці програми та яких ефектів ви сподіваєтеся досягти... Поставивши ці запитання, ви справді знайдете клієнтів. Потрібна велика модель на основі ланцюжка інструментів Wenxin Qianfan SFT або попередньо навчена модель для галузі. Останньому потрібно щонайменше кілька місяців або навіть минулого року, щоб створити та розгорнути — від технічних питань, таких як обробка даних, розподіл ресурсів на рівні обчислювальної потужності, до тривалого навчання загальним даним у галузі.

Від метушні базової великомасштабної моделі до початку великомасштабної моделі галузі, вступаючи в другу половину 2023 року, справжня трансформація бізнесу прискориться.

Також цікаво порівняти шляхи вітчизняних виробників, таких як Baidu та OpenAI/Microsoft, у сфері великомасштабних моделей. Коли ChatGPT продемонстрував популярність глобального явища, деякі голоси сумнівалися, чому Китай не може виробляти ChatGPT. Звичайно, там Зрештою, багато людей все ще мають поверхневий консенсус: «Китайський штучний інтелект більше налаштований на бізнес-додатки та можливості комерціалізації». Відверто кажучи, китайський штучний інтелект має менше терпіння та хоче заробляти гроші.

Але з іншого боку, ринок є найбільшою рушійною силою технологічного розвитку, і розуміння часу та ритму дало інші результати. Візьмемо як приклад модель великої індустрії. Microsoft або чекає подальшої зрілості технології, або відчуває, що час ще не настав, і це занадто пізно. Вітчизняні виробники швидко переходять від основної великої від масштабної моделі до великомасштабної промислової моделі.

Загублені на сході, зібрані в шовковиці, з точки зору результатів, непогано, що великі моделі вітчизняної промисловості бігають швидко.

Переглянути оригінал
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
  • Нагородити
  • Прокоментувати
  • Репост
  • Поділіться
Прокоментувати
0/400
Немає коментарів
  • Закріпити