Автор|Яо Цянь «Директор Бюро технического надзора Комиссии по регулированию ценных бумаг Китая»
Источник| "China Finance", выпуск 13, 2023 г.
Источник изображения: сгенерировано Unbounded AI
В 2023 году приложения искусственного интеллекта, ориентированные на создание контента, такие как ChatGPT, GPT4 и Midjourney, вызвали волну инноваций. Некоторые люди даже думают, что большая модель итеративно развивается в течение нескольких дней. Доброкачественное и устойчивое развитие данных для обучения больших моделей как нового фактора производства имеет решающее значение для развития индустрии больших моделей и искусственного интеллекта. В качестве важной области применения больших данных и искусственного интеллекта финансовая отрасль должна уделять пристальное внимание последним разработкам в технологиях, связанных с обучением больших моделей. В этой статье сначала анализируется эволюция и модернизация больших моделей, а затем обсуждаются возможные методы взаимодействия между большими моделями и малыми и средними моделями, а также излагается экология данных и экологическое построение больших моделей. экология дает соответствующие идеи.
Анализ путей обновления и эволюции больших моделей
В долгосрочной перспективе эволюция больших моделей имеет много направлений. В последнее время скорость итерации больших моделей не только ускорилась, но и увеличилось количество участников, в основном охватывающих все крупные технологические компании, и изначально проявились разнообразие и сложность экологии.
В настоящее время нет существенных изменений в базовой структуре алгоритма в итеративном процессе обновления большой модели.Ввод вычислительной мощности и обилие обучающих данных по-прежнему являются ключом к ее быстрой эволюции, но последний GPT4 представляет некоторые новые функции.
**Одним из них является то, что алгоритм больше подходит для конкретных последующих задач. **GPT3 и GPT3.5 — большие модели со 175 миллиардами параметров. В настоящее время GPT4 не объявляет о конкретных параметрах, но некоторые предполагают, что его параметры достигнут триллионов уровней.В то же время он также будет иметь значительное улучшение в обучении с подкреплением и решении конкретных задач.Более популярный термин — «выравнивание». . Если модели серии GPT3 доказывают всем, что искусственный интеллект может выполнять несколько задач в рамках одной модели, то GPT4 достигла или даже превзошла человеческий уровень во многих задачах — первые 10% или около того.
** Во-вторых, иметь более стандартизированные возможности управления обучающими данными и поддерживать мультимодальность. ** GPT4 обладает многомодальной способностью, «сравнимой с человеческим мозгом», которая не сильно отличается от многомодального механизма, описанного во многих текущих статьях, но она может сочетать в себе возможности обработки нескольких выборок текстовой модели с цепочка мыслей (Chain of Thought), CoT) вместе взятые. Управление и предоставление обучающих данных GPT4 неотделимо от маркировки данных, управления данными и их оценки, автоматизации данных и синтеза данных.
В-третьих, создать более мощный кластер вычислительной мощности, чтобы соответствовать большему количеству обучающих наборов данных и большим входным параметрам. ** Например, Microsoft выделила более половины своих облачных ресурсов для обучения больших моделей и приложений, созданных с помощью искусственного интеллекта (AIGC). Nvidia даже объединила усилия с TSMC, ASML и Synopsys для создания новой вычислительной платформы и более мощного графического процессора.
Создайте экосистему, в которой различные модели взаимосвязаны
Большие модели, подобные GPT, являются мощными и в будущем станут одной из важных инфраструктур во многих отраслях, таких как Интернет, финансы и медицина. Например, в финансовой сфере после обучения на соответствующих профессиональных данных крупная модель может обладать способностью понимать знания финансового бизнеса и предлагать решения для конкретных сценариев, поддерживая финансовые учреждения для автоматизации маркетинга, анализа взаимоотношений с клиентами, интеллектуальных идентификация рисков, интеллектуальное обслуживание клиентов, интеллектуальное инвестиционное исследование и т. д.
Однако в процессе реализации конкретных приложений большие модели, подобные GPT, столкнутся с рядом проблем. Во-первых, как обеспечить количество и качество обучающих данных. Вообще говоря, учебный корпус больших моделей представляет собой корпус общего назначения из нескольких областей, в то время как сбор профессионального корпуса обычно занимает много времени и труда, а также возникают проблемы с конфиденциальностью. В результате большие модели могут выглядеть профессиональными в конкретных областях. индивидуальные области применения сексуальная неадекватность. Во-вторых, как снизить затраты на эксплуатацию и техническое обслуживание больших моделей. Большие модели требуют огромной вычислительной мощности и строгого управления данными.Обычным учреждениям и отделам приложений часто бывает трудно поддерживать работу и итеративное обновление больших моделей. С этой целью необходимо создать экологию здорового взаимодействия и коэволюции различных моделей, чтобы гарантировать, что индустрия искусственного интеллекта, связанная с большими моделями, может быть успешно реализована в различных областях приложений.
С технической точки зрения, эволюция больших моделей опирается на обучение с подкреплением с обратной связью с человеком (Reinforcement Learning from Human Feedback, RLHF). Используемая им маркировка данных отличается от простой работы по маркировке данных, выполняемой с использованием недорогой рабочей силы в Очень профессиональные люди будут писать записи, и давать качественные ответы, соответствующие человеческой логике и выражениям на соответствующие вопросы и инструкции. Однако из-за разрыва между взаимодействием человека и машины идеальным режимом является проведение обучения с подкреплением через взаимодействие между моделями, то есть обучение с подкреплением, основанное на обратной связи модели (Reinforcement Learning from Model Feedback, RLMF). На основе взаимодействия различных моделей данные и модельная экология всей большой модели могут быть объединены в структуру.
В прошлом в модели разработки децентрализованной модели несколько задач в одном сценарии приложения искусственного интеллекта должны были поддерживаться несколькими моделями, и каждая конструкция модели должна была пройти процесс разработки алгоритма, обработки данных, обучения и настройки модели. Предварительно обученная большая модель повышает универсальность и обобщение искусственного интеллекта.На основе большой модели точная настройка с нулевыми выборками или малыми выборками позволяет добиться лучших результатов в различных задачах. Модель крупной модели «предварительное обучение + тонкая настройка» привнесла новую стандартизированную парадигму в исследования и разработки в области искусственного интеллекта, позволив моделям искусственного интеллекта достичь крупномасштабного производства более унифицированным и кратким образом. Сосредоточив внимание на технологических инновациях и реализации приложений, данные и промышленную экологию больших моделей можно разделить на инфраструктуру (включая общие корпуса и платформы вычислительной мощности), базовые большие модели и службы больших моделей (включая синтетические данные, поставку моделей и подключаемые модули приложений). -ins). В нижестоящих приложениях пользователи могут развертывать свои собственные небольшие модели для повышения производительности с помощью различных служб большой модели и в то же время предоставлять соответствующие службы обратной связи для большой модели в обратном порядке, чтобы способствовать итеративному развитию большой модели (см. рис. 1).
Базовая большая модель является основным двигателем большой модели промышленной экологии.Ее преимущества заключаются в ее базисности и универсальности.Она ориентирована на потребности типовых задач, таких как обработка естественного языка, компьютерное зрение и кросс-модальные задачи. объединяет характеристики задач, оптимизирует алгоритмы моделей и изучает связанные данные и знания, так что большие модели могут показывать лучшие результаты и даже могут применяться напрямую с нулевыми выборками.
Малая модель обладает характеристиками небольшого размера (обычно на уровне десятков миллиардов параметров), простоты обучения и обслуживания, поэтому подходит для различных вертикальных полей и внутренних разработок и использования в различных отраслях. Как правило, маленькие модели менее затратны в обучении, но гораздо менее производительны, чем большие модели. Благодаря интерактивному применению больших и малых моделей маленькая модель может получить часть возможностей большой модели или реализовать некоторые функции, так что производительность маленькой модели может быть значительно улучшена без увеличения затрат на эксплуатацию и техническое обслуживание, а также соответствовать конкретным требованиям. Требования к кандидатам. Способы взаимодействия больших и малых моделей можно разделить на три категории: взаимодействие данных, взаимодействие моделей и взаимодействие приложений (см. рис. 2).
* Взаимодействие с данными
Взаимодействие данных означает, что большие и малые модели не участвуют напрямую в процессе обучения или рассуждений друг друга, а взаимодействуют косвенно через данные, генерируемые друг другом. Для обучения больших моделей обычно требуется крупномасштабный корпус общего назначения.Например, учебный корпус GPT3 достигает 753 ГБ, который поступает из нескольких источников данных, таких как Википедия. Корпус общего назначения относится к корпусу, охватывающему несколько областей, и охват знаний в некоторых конкретных областях может быть недостаточным. После завершения обучения большой модели с помощью инструкций можно создать некоторый синтетический корпус для конкретной предметной области, а затем посредством локализованного развертывания малую модель можно обучить вместе с выделенным корпусом поля или частным корпусом отрасли. Область небольшого учебного корпуса моделей относительно сконцентрирована, поэтому знания в этой области можно систематически осваивать, чтобы выходные данные модели были более профессиональными, более подробными и точными. Роль большой модели в этом процессе заключается в создании крупномасштабного высококачественного синтетического корпуса, чтобы обучение малой модели могло быть более адекватным, и предотвратить переобучение модели из-за небольшого размера специального корпуса. или частный корпус. И наоборот, профессиональный корпус, созданный малой моделью, также можно использовать в качестве дополнения к обучающему корпусу большой модели для расширения профессиональных возможностей большой модели в различных областях, чтобы большая модель могла продолжать развиваться итеративно.
Для обеспечения взаимодействия данных между большими и малыми моделями, помимо опоры на организацию управления источниками данных, также необходимо рассмотреть возможность создания организации хранения и торговли данными, чтобы можно было контролировать данные обучения больших и малых моделей. и протекала упорядоченно, и разумным было соответствующее распределение для всех сторон прав и интересов.
Взаимодействие модели
В дополнение к косвенному взаимодействию данных большие и малые модели также могут взаимодействовать на уровне модели.Участвуя в процессе обучения друг друга, обе стороны могут получать пользу друг от друга и повышать эффективность итерации больших моделей. С одной стороны, большие модели могут направлять обучение маленьких моделей, и широко используемый метод — это дистилляция знаний. В режиме обучения дистилляции обученная большая модель может использоваться в качестве модели учителя, а небольшая модель, которую нужно обучить, может использоваться в качестве модели ученика. метки, созданные большой моделью, и сами обучающие данные Жесткие метки совместно определяют обучение малых моделей. Точно так же малая модель может также выполнять обратную дистилляцию большой модели и использовать малую модель для вынесения суждений о выборочных значениях, чтобы помочь большой модели ускорить сходимость — после дальнейшей тонкой настройки обученной малой модели на нисходящем наборе данных выборка получается модель оценочного суждения.
Взаимодействие с приложением
Типичным способом взаимодействия больших и малых моделей на уровне приложения является режим подключаемого модуля, который инкапсулирует приложение, созданное моделью, в службу подключаемого модуля, которую могут вызывать другие модели. Плагинный режим имеет два преимущества: одно удобно и эффективно, и модель не нужно переобучать, другое — хорошая изоляция, позволяющая избежать утечки деталей модели, тем самым лучше защищая права и интересы инструкторов моделей и пользователи.
С одной стороны, большая модель в основном использует метод предварительной подготовки, а производительность в реальном времени невысока. Вызывая подключаемый модуль приложения для малой модели, приложение для большой модели может не только улучшить производительность выходных результатов в реальном времени, но и увеличить недостаток знаний в конкретных областях. С другой стороны, приложения, созданные с помощью небольших моделей, также могут напрямую получить мощные возможности генерации и рассуждений больших моделей, вызывая подключаемые модули, предоставляемые большими моделями, подобными GPT. Этот метод взаимодействия с приложением может избавить небольшую модель от процесса обучения общим знаниям и сосредоточиться на производстве контента в конкретных областях с меньшими затратами.Пользователи также могут почувствовать «химическую» реакцию, вызванную взаимосвязью различных моделей.
Плагины нового продукта ChatGPT, недавно выпущенные Open AI (Open AI), могут соединять ChatGPT и сторонние приложения через плагины приложений. Эти сторонние приложения могут быть созданы из небольших моделей одного домена. Таким образом, небольшая модель может выполнять множество расширенных функций в большой модели, подобной ChatGPT, например, извлекать информацию в реальном времени или информацию из базы знаний и заменять пользователей «интеллектуальным планированием» реального мира.
Стандартизация и контроль безопасности данных для обучения больших моделей и инструментальной цепочки моделей
Производительность большой модели зависит от качества обучающих данных, в то же время основные технические характеристики, требуемые моделью в разных сценариях посадки, также различны. Поэтому для создания хорошей промышленной экологии с устойчивым развитием и здоровым взаимодействием больших моделей необходимо способствовать стандартизации данных для обучения больших моделей и базовых технологий, а также ускорять итерацию и внедрение моделей.
С одной стороны, обучающий набор данных самой большой модели и определенный интерфейс службы данных (API) станут отраслевым стандартом де-факто, и различные приложения, обращающиеся к большой модели, должны следовать этому стандарту. В настоящее время модель «предварительное обучение + тонкая настройка» стала единым стандартным процессом и парадигмой в отрасли. На этой основе, в сочетании с конкретными сценариями применения и профессиональными данными, небольшие модели в различных областях и отраслях могут быть дополнительно адаптированы и оптимизированы. В какой-то степени стандарты данных для обучения больших моделей и интерфейсов службы данных станут одним из основных элементов международных стандартов следующего поколения.
С другой стороны, цепочка инструментов, требуемая базовой технологией для обработки данных обучения больших моделей, также должна быть произведена и стандартизирована. При сильной поддержке стандартизированных технических услуг большая модель может выводить технические решения, такие как аппаратная адаптация, дистилляция и сжатие модели, распределенное обучение и ускорение модели, векторная база данных, графовая база данных и взаимосвязь моделей, обеспечивающие обработку естественного языка, компьютерное зрение, Различные возможности, такие как кросс-модальность и графы знаний, позволяют большему количеству компаний и разработчиков применять большие модели к собственному бизнесу и строить отраслевые вертикальные модели с низким порогом, тем самым способствуя широкому внедрению искусственного интеллекта в различных областях.
Стоит отметить, что хотя разработка и применение крупных моделей принесет огромные дивиденды промышленному и экономическому развитию, при отсутствии надлежащего контроля они также принесут риски для национальной и промышленной безопасности. Во-первых, это риск утечки данных. Обучение и реализация больших моделей должны поддерживаться огромными объемами данных, включая отраслевую или личную конфиденциальную информацию. Отсутствие разумного механизма десенсибилизации и хранения данных может привести к утечке данных и нанести ущерб отрасли и отдельным лицам. Во-вторых, риск безопасности модели. Например, плагины могут быть имплантированы с вредоносным содержимым и стать инструментом для мошенничества и «отравления» преступниками, ставя под угрозу социальную и промышленную безопасность.
Связанные предложения
** Используя данные обучения большой модели в качестве отправной точки, стандартная формулировка и управление данными имеют два аспекта. ** Содействовать стандартизированному развитию отрасли путем формулирования типовых спецификаций приложений и унификации стандартов интерфейса. Можно рассмотреть возможность размещения синтетических данных модели для усиления надзора и обеспечения соответствия содержания данных, четких прав и интересов и беспрепятственного обращения. В то же время улучшайте законы и правила, оптимизируйте политики и системы, формируйте совместную регулирующую силу различными способами и методами и строго предотвращайте злонамеренное вмешательство в модели и проникновение вредоносных данных.
**Создание крупного рынка элементов данных для обучения модели. ** Уточнить производственную цепочку между сбором и обработкой обучающих данных, сервисами синтетических данных, взаимосвязью между большими и малыми моделями и прикладными API. Ускорить создание рынка элементов данных, обеспечить рыночные цены на обучающие данные и облегчить распределение и стимулирование прав и интересов.
**Построить хорошую экологию симбиотического развития и взаимного продвижения больших и малых моделей. **В целом между поколениями нет различий в уровне алгоритмов основных крупных моделей в стране и за рубежом, но существует разрыв в вычислительной мощности и данных. Рекомендуется активно поддерживать отечественные ведущие технологические компании в разработке независимых и контролируемых отечественных крупномасштабных моделей в общей области. больших моделей, чтобы исследовать «большие и сильные». Он также разрабатывает «маленькую и красивую» вертикальную отраслевую модель, чтобы создать хорошую экологию интерактивного симбиоза и итеративной эволюции между базовой большой моделью и профессиональной маленькой моделью.
(главный редактор Чжан Линь)
Посмотреть Оригинал
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
Яо Цянь: некоторые мысли об экологическом конструировании крупномасштабных моделей
Автор|Яо Цянь «Директор Бюро технического надзора Комиссии по регулированию ценных бумаг Китая»
Источник| "China Finance", выпуск 13, 2023 г.
В 2023 году приложения искусственного интеллекта, ориентированные на создание контента, такие как ChatGPT, GPT4 и Midjourney, вызвали волну инноваций. Некоторые люди даже думают, что большая модель итеративно развивается в течение нескольких дней. Доброкачественное и устойчивое развитие данных для обучения больших моделей как нового фактора производства имеет решающее значение для развития индустрии больших моделей и искусственного интеллекта. В качестве важной области применения больших данных и искусственного интеллекта финансовая отрасль должна уделять пристальное внимание последним разработкам в технологиях, связанных с обучением больших моделей. В этой статье сначала анализируется эволюция и модернизация больших моделей, а затем обсуждаются возможные методы взаимодействия между большими моделями и малыми и средними моделями, а также излагается экология данных и экологическое построение больших моделей. экология дает соответствующие идеи.
Анализ путей обновления и эволюции больших моделей
В долгосрочной перспективе эволюция больших моделей имеет много направлений. В последнее время скорость итерации больших моделей не только ускорилась, но и увеличилось количество участников, в основном охватывающих все крупные технологические компании, и изначально проявились разнообразие и сложность экологии.
В настоящее время нет существенных изменений в базовой структуре алгоритма в итеративном процессе обновления большой модели.Ввод вычислительной мощности и обилие обучающих данных по-прежнему являются ключом к ее быстрой эволюции, но последний GPT4 представляет некоторые новые функции.
**Одним из них является то, что алгоритм больше подходит для конкретных последующих задач. **GPT3 и GPT3.5 — большие модели со 175 миллиардами параметров. В настоящее время GPT4 не объявляет о конкретных параметрах, но некоторые предполагают, что его параметры достигнут триллионов уровней.В то же время он также будет иметь значительное улучшение в обучении с подкреплением и решении конкретных задач.Более популярный термин — «выравнивание». . Если модели серии GPT3 доказывают всем, что искусственный интеллект может выполнять несколько задач в рамках одной модели, то GPT4 достигла или даже превзошла человеческий уровень во многих задачах — первые 10% или около того.
** Во-вторых, иметь более стандартизированные возможности управления обучающими данными и поддерживать мультимодальность. ** GPT4 обладает многомодальной способностью, «сравнимой с человеческим мозгом», которая не сильно отличается от многомодального механизма, описанного во многих текущих статьях, но она может сочетать в себе возможности обработки нескольких выборок текстовой модели с цепочка мыслей (Chain of Thought), CoT) вместе взятые. Управление и предоставление обучающих данных GPT4 неотделимо от маркировки данных, управления данными и их оценки, автоматизации данных и синтеза данных.
В-третьих, создать более мощный кластер вычислительной мощности, чтобы соответствовать большему количеству обучающих наборов данных и большим входным параметрам. ** Например, Microsoft выделила более половины своих облачных ресурсов для обучения больших моделей и приложений, созданных с помощью искусственного интеллекта (AIGC). Nvidia даже объединила усилия с TSMC, ASML и Synopsys для создания новой вычислительной платформы и более мощного графического процессора.
Создайте экосистему, в которой различные модели взаимосвязаны
Большие модели, подобные GPT, являются мощными и в будущем станут одной из важных инфраструктур во многих отраслях, таких как Интернет, финансы и медицина. Например, в финансовой сфере после обучения на соответствующих профессиональных данных крупная модель может обладать способностью понимать знания финансового бизнеса и предлагать решения для конкретных сценариев, поддерживая финансовые учреждения для автоматизации маркетинга, анализа взаимоотношений с клиентами, интеллектуальных идентификация рисков, интеллектуальное обслуживание клиентов, интеллектуальное инвестиционное исследование и т. д.
Однако в процессе реализации конкретных приложений большие модели, подобные GPT, столкнутся с рядом проблем. Во-первых, как обеспечить количество и качество обучающих данных. Вообще говоря, учебный корпус больших моделей представляет собой корпус общего назначения из нескольких областей, в то время как сбор профессионального корпуса обычно занимает много времени и труда, а также возникают проблемы с конфиденциальностью. В результате большие модели могут выглядеть профессиональными в конкретных областях. индивидуальные области применения сексуальная неадекватность. Во-вторых, как снизить затраты на эксплуатацию и техническое обслуживание больших моделей. Большие модели требуют огромной вычислительной мощности и строгого управления данными.Обычным учреждениям и отделам приложений часто бывает трудно поддерживать работу и итеративное обновление больших моделей. С этой целью необходимо создать экологию здорового взаимодействия и коэволюции различных моделей, чтобы гарантировать, что индустрия искусственного интеллекта, связанная с большими моделями, может быть успешно реализована в различных областях приложений.
С технической точки зрения, эволюция больших моделей опирается на обучение с подкреплением с обратной связью с человеком (Reinforcement Learning from Human Feedback, RLHF). Используемая им маркировка данных отличается от простой работы по маркировке данных, выполняемой с использованием недорогой рабочей силы в Очень профессиональные люди будут писать записи, и давать качественные ответы, соответствующие человеческой логике и выражениям на соответствующие вопросы и инструкции. Однако из-за разрыва между взаимодействием человека и машины идеальным режимом является проведение обучения с подкреплением через взаимодействие между моделями, то есть обучение с подкреплением, основанное на обратной связи модели (Reinforcement Learning from Model Feedback, RLMF). На основе взаимодействия различных моделей данные и модельная экология всей большой модели могут быть объединены в структуру.
В прошлом в модели разработки децентрализованной модели несколько задач в одном сценарии приложения искусственного интеллекта должны были поддерживаться несколькими моделями, и каждая конструкция модели должна была пройти процесс разработки алгоритма, обработки данных, обучения и настройки модели. Предварительно обученная большая модель повышает универсальность и обобщение искусственного интеллекта.На основе большой модели точная настройка с нулевыми выборками или малыми выборками позволяет добиться лучших результатов в различных задачах. Модель крупной модели «предварительное обучение + тонкая настройка» привнесла новую стандартизированную парадигму в исследования и разработки в области искусственного интеллекта, позволив моделям искусственного интеллекта достичь крупномасштабного производства более унифицированным и кратким образом. Сосредоточив внимание на технологических инновациях и реализации приложений, данные и промышленную экологию больших моделей можно разделить на инфраструктуру (включая общие корпуса и платформы вычислительной мощности), базовые большие модели и службы больших моделей (включая синтетические данные, поставку моделей и подключаемые модули приложений). -ins). В нижестоящих приложениях пользователи могут развертывать свои собственные небольшие модели для повышения производительности с помощью различных служб большой модели и в то же время предоставлять соответствующие службы обратной связи для большой модели в обратном порядке, чтобы способствовать итеративному развитию большой модели (см. рис. 1).
Малая модель обладает характеристиками небольшого размера (обычно на уровне десятков миллиардов параметров), простоты обучения и обслуживания, поэтому подходит для различных вертикальных полей и внутренних разработок и использования в различных отраслях. Как правило, маленькие модели менее затратны в обучении, но гораздо менее производительны, чем большие модели. Благодаря интерактивному применению больших и малых моделей маленькая модель может получить часть возможностей большой модели или реализовать некоторые функции, так что производительность маленькой модели может быть значительно улучшена без увеличения затрат на эксплуатацию и техническое обслуживание, а также соответствовать конкретным требованиям. Требования к кандидатам. Способы взаимодействия больших и малых моделей можно разделить на три категории: взаимодействие данных, взаимодействие моделей и взаимодействие приложений (см. рис. 2).
Взаимодействие данных означает, что большие и малые модели не участвуют напрямую в процессе обучения или рассуждений друг друга, а взаимодействуют косвенно через данные, генерируемые друг другом. Для обучения больших моделей обычно требуется крупномасштабный корпус общего назначения.Например, учебный корпус GPT3 достигает 753 ГБ, который поступает из нескольких источников данных, таких как Википедия. Корпус общего назначения относится к корпусу, охватывающему несколько областей, и охват знаний в некоторых конкретных областях может быть недостаточным. После завершения обучения большой модели с помощью инструкций можно создать некоторый синтетический корпус для конкретной предметной области, а затем посредством локализованного развертывания малую модель можно обучить вместе с выделенным корпусом поля или частным корпусом отрасли. Область небольшого учебного корпуса моделей относительно сконцентрирована, поэтому знания в этой области можно систематически осваивать, чтобы выходные данные модели были более профессиональными, более подробными и точными. Роль большой модели в этом процессе заключается в создании крупномасштабного высококачественного синтетического корпуса, чтобы обучение малой модели могло быть более адекватным, и предотвратить переобучение модели из-за небольшого размера специального корпуса. или частный корпус. И наоборот, профессиональный корпус, созданный малой моделью, также можно использовать в качестве дополнения к обучающему корпусу большой модели для расширения профессиональных возможностей большой модели в различных областях, чтобы большая модель могла продолжать развиваться итеративно.
Для обеспечения взаимодействия данных между большими и малыми моделями, помимо опоры на организацию управления источниками данных, также необходимо рассмотреть возможность создания организации хранения и торговли данными, чтобы можно было контролировать данные обучения больших и малых моделей. и протекала упорядоченно, и разумным было соответствующее распределение для всех сторон прав и интересов.
В дополнение к косвенному взаимодействию данных большие и малые модели также могут взаимодействовать на уровне модели.Участвуя в процессе обучения друг друга, обе стороны могут получать пользу друг от друга и повышать эффективность итерации больших моделей. С одной стороны, большие модели могут направлять обучение маленьких моделей, и широко используемый метод — это дистилляция знаний. В режиме обучения дистилляции обученная большая модель может использоваться в качестве модели учителя, а небольшая модель, которую нужно обучить, может использоваться в качестве модели ученика. метки, созданные большой моделью, и сами обучающие данные Жесткие метки совместно определяют обучение малых моделей. Точно так же малая модель может также выполнять обратную дистилляцию большой модели и использовать малую модель для вынесения суждений о выборочных значениях, чтобы помочь большой модели ускорить сходимость — после дальнейшей тонкой настройки обученной малой модели на нисходящем наборе данных выборка получается модель оценочного суждения.
Типичным способом взаимодействия больших и малых моделей на уровне приложения является режим подключаемого модуля, который инкапсулирует приложение, созданное моделью, в службу подключаемого модуля, которую могут вызывать другие модели. Плагинный режим имеет два преимущества: одно удобно и эффективно, и модель не нужно переобучать, другое — хорошая изоляция, позволяющая избежать утечки деталей модели, тем самым лучше защищая права и интересы инструкторов моделей и пользователи.
С одной стороны, большая модель в основном использует метод предварительной подготовки, а производительность в реальном времени невысока. Вызывая подключаемый модуль приложения для малой модели, приложение для большой модели может не только улучшить производительность выходных результатов в реальном времени, но и увеличить недостаток знаний в конкретных областях. С другой стороны, приложения, созданные с помощью небольших моделей, также могут напрямую получить мощные возможности генерации и рассуждений больших моделей, вызывая подключаемые модули, предоставляемые большими моделями, подобными GPT. Этот метод взаимодействия с приложением может избавить небольшую модель от процесса обучения общим знаниям и сосредоточиться на производстве контента в конкретных областях с меньшими затратами.Пользователи также могут почувствовать «химическую» реакцию, вызванную взаимосвязью различных моделей.
Плагины нового продукта ChatGPT, недавно выпущенные Open AI (Open AI), могут соединять ChatGPT и сторонние приложения через плагины приложений. Эти сторонние приложения могут быть созданы из небольших моделей одного домена. Таким образом, небольшая модель может выполнять множество расширенных функций в большой модели, подобной ChatGPT, например, извлекать информацию в реальном времени или информацию из базы знаний и заменять пользователей «интеллектуальным планированием» реального мира.
Стандартизация и контроль безопасности данных для обучения больших моделей и инструментальной цепочки моделей
Производительность большой модели зависит от качества обучающих данных, в то же время основные технические характеристики, требуемые моделью в разных сценариях посадки, также различны. Поэтому для создания хорошей промышленной экологии с устойчивым развитием и здоровым взаимодействием больших моделей необходимо способствовать стандартизации данных для обучения больших моделей и базовых технологий, а также ускорять итерацию и внедрение моделей.
С одной стороны, обучающий набор данных самой большой модели и определенный интерфейс службы данных (API) станут отраслевым стандартом де-факто, и различные приложения, обращающиеся к большой модели, должны следовать этому стандарту. В настоящее время модель «предварительное обучение + тонкая настройка» стала единым стандартным процессом и парадигмой в отрасли. На этой основе, в сочетании с конкретными сценариями применения и профессиональными данными, небольшие модели в различных областях и отраслях могут быть дополнительно адаптированы и оптимизированы. В какой-то степени стандарты данных для обучения больших моделей и интерфейсов службы данных станут одним из основных элементов международных стандартов следующего поколения.
С другой стороны, цепочка инструментов, требуемая базовой технологией для обработки данных обучения больших моделей, также должна быть произведена и стандартизирована. При сильной поддержке стандартизированных технических услуг большая модель может выводить технические решения, такие как аппаратная адаптация, дистилляция и сжатие модели, распределенное обучение и ускорение модели, векторная база данных, графовая база данных и взаимосвязь моделей, обеспечивающие обработку естественного языка, компьютерное зрение, Различные возможности, такие как кросс-модальность и графы знаний, позволяют большему количеству компаний и разработчиков применять большие модели к собственному бизнесу и строить отраслевые вертикальные модели с низким порогом, тем самым способствуя широкому внедрению искусственного интеллекта в различных областях.
Стоит отметить, что хотя разработка и применение крупных моделей принесет огромные дивиденды промышленному и экономическому развитию, при отсутствии надлежащего контроля они также принесут риски для национальной и промышленной безопасности. Во-первых, это риск утечки данных. Обучение и реализация больших моделей должны поддерживаться огромными объемами данных, включая отраслевую или личную конфиденциальную информацию. Отсутствие разумного механизма десенсибилизации и хранения данных может привести к утечке данных и нанести ущерб отрасли и отдельным лицам. Во-вторых, риск безопасности модели. Например, плагины могут быть имплантированы с вредоносным содержимым и стать инструментом для мошенничества и «отравления» преступниками, ставя под угрозу социальную и промышленную безопасность.
Связанные предложения
** Используя данные обучения большой модели в качестве отправной точки, стандартная формулировка и управление данными имеют два аспекта. ** Содействовать стандартизированному развитию отрасли путем формулирования типовых спецификаций приложений и унификации стандартов интерфейса. Можно рассмотреть возможность размещения синтетических данных модели для усиления надзора и обеспечения соответствия содержания данных, четких прав и интересов и беспрепятственного обращения. В то же время улучшайте законы и правила, оптимизируйте политики и системы, формируйте совместную регулирующую силу различными способами и методами и строго предотвращайте злонамеренное вмешательство в модели и проникновение вредоносных данных.
**Создание крупного рынка элементов данных для обучения модели. ** Уточнить производственную цепочку между сбором и обработкой обучающих данных, сервисами синтетических данных, взаимосвязью между большими и малыми моделями и прикладными API. Ускорить создание рынка элементов данных, обеспечить рыночные цены на обучающие данные и облегчить распределение и стимулирование прав и интересов.
**Построить хорошую экологию симбиотического развития и взаимного продвижения больших и малых моделей. **В целом между поколениями нет различий в уровне алгоритмов основных крупных моделей в стране и за рубежом, но существует разрыв в вычислительной мощности и данных. Рекомендуется активно поддерживать отечественные ведущие технологические компании в разработке независимых и контролируемых отечественных крупномасштабных моделей в общей области. больших моделей, чтобы исследовать «большие и сильные». Он также разрабатывает «маленькую и красивую» вертикальную отраслевую модель, чтобы создать хорошую экологию интерактивного симбиоза и итеративной эволюции между базовой большой моделью и профессиональной маленькой моделью.
(главный редактор Чжан Линь)