В апреле Ван Сяочуань объявил о своем уходе и учредил крупную модельную компанию «Байчуань Смарт».
В июне Baichuan Intelligent выпустила большую модель с открытым исходным кодом на 7 миллиардов параметров, Baichuan-7B.
В июле Baichuan Intelligent выпустила крупную модель с открытым исходным кодом на 13 миллиардов параметров, Baichuan-13B.
Обе модели хорошо зарекомендовали себя в различных оценках, а также были признаны большим количеством пользователей в стране и за рубежом.
«Открытый исходный код очень прост, каждый может использовать его в своих целях, это не то, чем вы хвастаетесь».
Он движется быстро, быстрее, чем думает большинство людей. Даже сам был удивлен: прогресс будет намного быстрее, чем ожидалось, когда начнешь это делать.
На конференции AGI Playground Ван Сяочуань сообщил, что возможности модели BCI с открытым исходным кодом определенно превзойдут Llama 2. Согласно плану, в будущем Baichuan Intelligent выпустит десятки и сотни миллиардов крупных моделей с закрытым исходным кодом.
Несколько месяцев назад Ван Сяочуань хотел «быть китайским OpenAI» в заголовках различных СМИ.
Это лозунг, который публика любит слышать, но он может быть неточным описанием.
Что именно хочет сделать Ван Сяочуань? Что он собирается делать? После трех месяцев практики и достижения первых результатов, каково его личное понимание предпринимательства в эпоху крупномасштабных моделей?
Следующий контент взят из интервью Чжан Пэна, основателя и президента Geek Park, и Ван Сяочуаня, основателя и генерального директора Baichuan Smart, на конференции AGI Playground под редакцией Founder Park.
Открытый исходный код, чего не сделал OpenAI
Чжан Пэн:
Что вас может больше всего заинтересовать, так это то, что вы очень быстро двигались после того, как начали свой бизнес, и выпустили две модели: одну 7B и одну 13B, и отзывы были очень хорошими.
Всем очень любопытно, потому что вначале они думали, что вы собираетесь стать китайским OpenAI, но, видя, что вы делаете вещи с открытым исходным кодом, является ли открытый исходный код технологическим этапом или он сам по себе является новой моделью вашего мышления в будущем?
Ван Сяочуань:
Открытый исходный код, мы думаем, что это технический этап, на самом деле быть китайским OpenAI не означает полностью копировать его полный путь. При общении с OpenAI в Силиконовой долине они в идеале ушли очень далеко, например, когда они сейчас делают GPT-4, им нужно более 20 000 карт для проведения расчетов, а таких масштабов они в Китае еще не видели.
Они с гордостью сообщают, что разрабатывают вычислительную модель, которая объединяет 10 миллионов графических процессоров.
Какова концепция 10 миллионов карт? Годовой объем производства Nvidia составляет 1 миллион. 10 миллионов копий — это план, который может полететь на Луну (moonshot).
Кроме того, с точки зрения того, как создавать приложения, продукты и даже некоторые более широкие технологии, это может быть недостатком OpenAI, а может быть тем, что их сейчас не особенно волнует.
Так что реализация OpenAI в Китае будет сильно отличаться от экологической среды в США.
После недавнего выпуска Llama 2 с открытым исходным кодом он вызвал ажиотаж в Китае: все чувствовали, что он снова изменит ландшафт, чего OpenAI не удалось сделать. Жаль, что это делает не Гугл, а Фейсбук (Мета), а Гугла по-прежнему нет. Но в Китае мы увидели этот вопрос заранее, и мы считаем, что открытый исходный код и закрытый исходный код будут иметь параллельное состояние в будущем.
Чжан Пэн:
Открытый исходный код и закрытый исходный код будут в параллельном состоянии.
Ван Сяочуань:
Параллелизм немного похож на текущую систему Apple и систему Android. Даже когда больше компаний хотят участвовать, недостаточно использовать вызовы API с закрытым исходным кодом.Эта модель с открытым исходным кодом также должна предоставлять 80% услуг и, наконец, полагаться на службы с закрытым исходным кодом для предоставления услуг для всех, а оставшиеся 20% будут иметь большой спрос на открытый исходный код. У США его раньше не было, а у Китая не было аналогичной модели. Поэтому, как только Llama будет анонсирована, это будет большим шоком для США, но в Китае тоже бум. Фактически, серьезные технические оценки включают в себя несколько основных оценок, таких как SuperClue, а также сравнения между некоторыми крупными производителями и компаниями.Если сравнивать Llama с Baichuan, становится очевидным, что наше качество в китайской области намного выше, чем у Llama.
В области моделей с открытым исходным кодом в Китае, как и в нашей индустрии мобильных телефонов, сначала использовали США, а потом догнали сами.
Чжан Пэн:
Как вы думаете, Llama 2 в последнее время настолько горяча, что Baichuan справится лучше, чем они?
Ван Сяочуань:
Лама - это лама 1 и 2.
Прежде всего, мы выпустили первую модель параметров 7B в июне этого года, а модель параметров 13B — в июле. Среди показателей на английском языке наиболее важным является показатель MMLU (Massive Multitask Language Understanding), по этому ключевому показателю наши две модели лучше Llama (1), а по китайскому значительно опережают.
Мы знаем, что китайская обработка Llama на самом деле недостаточна, по сравнению с Llama (1) английский язык Baichuan может частично соответствовать эталону, а основные показатели превышены, а китайский явно лучше.
После выпуска Llama 2 мы также можем увидеть технический отчет, который содержит около 9 пунктов технических инноваций, 6 из которых были достигнуты в разрабатываемой нами модели.
По сравнению с другими отечественными моделями наше мышление здесь самое близкое на данный момент.Мы уже сделали 6 баллов, а то 2 балла не ожидали, а у нас один невалидный.Поэтому при сравнении с Ламой2 мы не просто занимаемся плагиатом в техническом мышлении, а имеем свое мышление. Мы думаем, что в будущем на этом пути будут наши возможности.
Сегодня я также призываю всех в Китае не только думать, что зарубежные страны хороши, когда они его используют. OpenAI действительно сейчас далеко. Чтобы достичь GPT-3.5 или аналогичного уровня к концу года, потребуется время, но мы уже очень близки в модели с открытым исходным кодом.
Чжан Пэн:
Итак, ваша следующая модель с открытым исходным кодом, как вы думаете, будет ли она лучше, чем Llama 2?
Ван Сяочуань:
По крайней мере на китайском. В области китайского языка он сейчас превзойден. Следующим шагом является голос Китая в области открытого исходного кода на мировом рынке.
Чжан Пэн:
И английский, и китайский должны быть лучше, чем Лама2, это для вас видимо и достижимо.
Ван Сяочуань:
Я думаю, что есть шанс, что это может произойти в обозримом будущем.
Чжан Пэн:
Итак, ваша точка зрения такова: сегодня мы не можем просто сказать, что наша будущая большая модель — двигаться в сторону OpenAI — централизованной модели с закрытым исходным кодом. Открытый исходный код на самом деле имеет большие возможности. То есть это означает, что с одной стороны, это отработка технологий и демонстрация технических возможностей, но это действительно может содержать бизнес-модели и ценности.
В то же время, на основе открытого исходного кода, люди все еще могут рассчитывать на то, что Китай создаст лучшую китайскую модель в мире.
Ван Сяочуань:
Это подводит итог довольно точно.
Является ли поисковый опыт плохой инерцией или хорошим активом?
Чжан Пэн:
В прошлом многие инвесторы считали, что использование опыта поиска для построения масштабной модели точно не увенчается успехом. После этих месяцев практики вы подтвердили свое первоначальное суждение, которое отличалось от их? Как накопление и возможности поиска способствуют созданию более крупных моделей?
Ван Сяочуань:
Поскольку сегодняшнее достижение (ИИ) было достигнуто OpenAI, а не Google, первая мысль инвесторов состоит в том, что эта новая технология является полной противоположностью поиска. Им трудно различить, в чем причина — в технологиях или в организационном управлении.
Причина такого голоса в том, что один не понимает отношения между технологией поиска и ИИ, а второй в том, что познание предыстории поиска принесет негативные последствия.
Поскольку поисковые компании — это в основном Baidu и Google, им не нужно внешнее финансирование, и они не рассказывают инвесторам, что такое поиск. В частности, последняя волна бума ИИ была в основном вызвана изображениями, и всем незнакомы технические коннотации, такие как НЛП в поиске.
Что касается результатов, мы выпустили первую модель в июне. Конкурент заранее сообщил инвесторам, что Baichuan займется производством первой модели в течение полугода, на самом деле мы потратили на это всего 1/3 времени, а затем выпустили вторую. И в ближайшее время мы выпустим модель с закрытым исходным кодом.
Baichuan саморазвивается с первого дня, а холодный старт очень и очень быстрый. В чем причина этого?
Сегодня мы знаем, что высококачественные данные лежат в основе больших моделей, так какая компания имеет широкое понимание языковых данных? На самом деле поисковые компании работают уже 20 лет, каждый день думая о том, как найти такие качественные данные. Например, сначала найдите 100 высококачественных веб-сайтов из 1 триллиона веб-страниц, а затем проведите анализ страниц, включая извлечение информации, дедупликацию, защиту от спама и даже извлечение содержимого на уровне абзацев.
Sogou, Baidu и Google уже давно занимаются такой работой.
Второй момент — с точки зрения кадрового резерва необходимо иметь и алгоритмические возможности, и инженерные возможности, ориентированные на поисковые возможности, такие люди в основном тоже ищут компании. Теперь ByteDance использует поисковую команду для создания моделей, и прогресс Baidu также очень быстрый, в том числе модель, которую делает Шэнь Сянъян, также была создана вице-президентом Bing в прошлом.
Еще одна вещь, чтобы сделать большую модель, это оценка. Оценка того, хороша большая модель или нет, на самом деле болезненная проблема, включающая в себя проблему рассуждений, точных вопросов и ответов, создания... Что-то становится лучше, что-то хуже, как оценивать? Таким образом, эта система оценки также является возможностью, которую поисковые компании накапливали в течение длительного времени, используя оценку для управления итерацией последующих алгоритмов.
Кроме того, организационная эффективность стартап-компаний намного выше, чем у крупных заводов, а при очень гибкой системе принятия решений все эффективности будут максимальными.
Чжан Пэн:
Так вы говорили с инвестором, который думал, что поиск не достаточно хорош для больших моделей?
Ван Сяочуань:
Имя отмечено крестиком и удалено, и я не знаю, кто это. Инвесторы, которые смотрят только на бизнес, но не на технологии, и те, кто особенно любит мелкое свежее мясо, которые возвращаются из Соединенных Штатов, чтобы начать бизнес, эти инвесторы просто растягивают это и не говорят об этом.
Старый Ван прав: «Маленькие инновации зависят от больших заводов, а большие инновации зависят от маленьких заводов».
Чжан Пэн:
Как вы думаете, будет ли у предпринимателей достаточно возможностей на этой волне технологических изменений в будущем? Или основной корпус по-прежнему контролируется великанами? Как предприниматели могут воспользоваться своими возможностями?
Ван Сяочуань:
Хотя Ван Хуэйвэнь мало что знает о технологиях, я думаю, что он сказал очень правильную вещь: маленькие инновации зависят от маленьких фабрик, а большие инновации зависят от больших фабрик.
Хотя у крупного завода есть много преимуществ в людях, деньгах и ресурсах, после роста организации возникнет много внутренних проблем, а организационная эффективность будет сильно ограничена.
Если мы твердо верим в появление ОИИ, то произойдет огромный взрыв новых видов. Эти вещи имеют огромные возможности для работы стартапов. Это можно продемонстрировать с помощью исторической дедукции, поэтому, пока существует ОИИ, в будущем будут новые возможности.
Где трудность посередине?
OpenAI — это компания, ориентированная на исследования, которая реализует продукты в реальном мире. Вы следуете ему, и в области исследований могут быть очень блестящие достижения. Но как применить сегодня, ни OpenAI, ни технологически ориентированные компании в Силиконовой долине в этом не очень хороши. Я уверен, что Китай намного лучше, чем Соединенные Штаты, с точки зрения реализации приложений.
Весь мир достиг переломного момента, и теперь, когда технология на месте, это первая трудность. Применение и требования — это вторая сложность, которая называется модельным сервисом (model service). Итак, проблема сейчас в том, номер один, у вас есть модель? Во-вторых, означает ли наличие модели наличие услуги?
Чжан Пэн:
Является ли продажа API услугой?
Ван Сяочуань:
Я так не думаю.
Это похоже на то, что у вас есть беспилотная технология, но вы действительно можете построить автомобиль? Очевидно нет. Это также требует слияния многих технологий.
Теперь Соединенные Штаты относительно запутались в прикладном уровне, а текущая проблема Китая заключается в отсутствии возможностей модели. Сегодня многие начинающие компании, создающие модели, также ограничивают свое видение крупными моделями и мало знают о других технологических стеках.
Приведу простейший пример: при изготовлении модели вы обязательно столкнетесь с галлюцинациями и своевременностью. И галлюцинации, и своевременность могут быть решены самой большой моделью. Некоторые люди решают иллюзию, расширяя параметры до триллионов и десятков триллионов или используя обучение с подкреплением. Но на самом деле самый прямой путь — привнести в него поиск и поиск информации. Комбинация больших моделей может сформировать более полный стек технологий.
После того, как эта технология была предложена, это уже было чем-то вроде знака. Например, есть что-то, называемое векторной базой данных, которая на самом деле представляет собой гибкий поиск и в основном используется в toB.
Что касается поиска, то после того, как в 2018 году была представлена технология Transformer, в ней уже есть возможность семантического поиска. Возможно, вы слышали об инвертированном индексе, который используется для индексации этой символической сети.
После 2018 года, будь то мы, Baidu или байтовые векторы обратились к семантическому поиску, за этой технологией стоят три огромные векторные базы данных. Сочетание этих технологических стеков и большой модели может способствовать дальнейшему развитию большой модели. Как видите, опыт поисковой группы имеет преимущества для создания моделей.
Второй аспект заключается в том, что технология крупномасштабных моделей постепенно становится практичной. Затем в так называемые вычисления знаний необходимо добавить векторные базы данных и поиск, чтобы сформировать более полные технологии и продукты. В этом вопросе у всех постепенно формируется консенсус.
Говоря о трафике ChatGPT сегодня, все начали беспокоиться о том, может ли он продолжать расти.
Так что нам все еще нужно больше исследований.
Мы считаем, что в индустрии развлечений ролевые игры имеют широкие перспективы, но в этом вопросе требуется выход китайских компаний, чтобы добиться большего успеха.
Другое дело как совмещать большие модели и поиск.Сейчас у Perplexity AI дела идут очень хорошо,но мы находимся в пассивной позиции.Если у США будут возможности,инвесторы будут искать китайские компании сравнения.
Если у этой компании, во-первых, нет большой модели, она только вызывает API, во-вторых, у нее нет технологии поиска, и она может полагаться только на технологии таких компаний, как Google и Bing, что не идеально.
Чжан Пэн:
Только что вы сказали, что количество таких пользователей, как ChatGPT, сокращается, что заставляет всех чувствовать, что новая парадигма, возможно, не сможет прорваться сразу. Является ли это большой проблемой для предпринимателей, чтобы сделать приложения?
Потому что, согласно тому, что вы только что сказали, в среде с незрелыми технологиями стоимость предпринимательского исследования очень высока. А если предприниматель просто использует чужой API как смену парадигмы приложения, это не особо бросается в глаза.
Ван Сяочуань:
Два дня назад OpenAI только что обновил интерпретатор кода, а затем обновил пользовательскую инструкцию. На начинающие компании оказывалось огромное давление.
Американских инвесторов также беспокоит, есть ли еще шанс у стартапов превзойти гигантов на фоне беспокойства, и не заменят ли их крупные компании после половины их работы.
Я не думаю, что в Китае есть такая ведущая компания, как OpenAI, которая идет по пути крупномасштабных моделей. Он все еще находится в стадии «Войны сотен моделей». Сегодня вопрос о том, могут ли компании, производящие крупномасштабные модели, создавать приложения, является вопросом, за которым Китаю следует внимательно следить за Соединенными Штатами.
Догнать GPT-4? Опасно слепо следовать модели межпоколенческого совершенствования
Чжан Пэн:
Тут же возникает вопрос кто в Китае догонит GPT-3.5, а то и GPT-4
Есть также другой голос, говорящий, что GPT-3 достаточно для предприятий, чтобы решить некоторые проблемы с вертикальной сценой.
Я чувствую, что Сяочуань и вы по-прежнему привержены погоне за GPT-3.5 и GPT-4. Труден ли этот процесс погони? Почему вы говорите, что должны догнать уровень GPT-4?
Ван Сяочуань:
Я думаю, это две вещи.
Во-первых, это совершенствование технологий из поколения в поколение, которое может оказать сокрушительное воздействие на экологию последующих продуктов. Независимо от того, с идеальной точки зрения, представьте себе будущее, которое далеко за пределами досягаемости, как три, четыре, пять поколений истребителей, в которых каждое поколение может сыграть важную роль. Поэтому в настоящее время каждый должен стремиться к получению преимущества в высококонкурентной сфере.
Однако в процессе борьбы за преимущества каждый может столкнуться с новой путаницей: на каком поколении мы действительно можем реализовать суперприложения? GPT-3.5 еще не сформировал суперприложение в США, а на одно обучение уходит около 50 млн юаней, не считая стоимости предварительной подготовки и экспериментов. Обучение GPT-4 может стоить 500 миллионов юаней один раз. К поколению GPT-4.5 стоимость может достичь 500 миллионов долларов.
Поэтому, если нет суперприложения, просто заниматься технологическим усовершенствованием очень опасно. Поэтому нам необходимо одновременно улучшать технические возможности четвертого и пятого поколений в этой области и в то же время иметь суперприложения. В противном случае мы можем внезапно столкнуться с необходимостью обновления на двух фронтах, оба из которых должны быть обновлены одновременно, чтобы добиться успеха.
Чжан Пэн:
Следовательно, каждый волновой тип технологии должен иметь возможность создавать ценные приложения.
Ван Сяочуань:
То, что вы только что сказали, совершенно верно.
GPT-3 в основном доступен на стороне B, но я думаю, что причина, по которой он недоступен на стороне C, заключается в том, что времени слишком мало.
Кроме того, все слишком много внимания уделяют OpenAI, это не продуктовая компания и не компания, которая может делать суперприложения.
Умение делать суперприложения требует не только технического наверстывания, но и достаточного понимания продукта. Я думаю, что в конце года правда выйдет на свет.
«Сяочуань подходит для изготовления больших моделей» «После 20 лет поисков никто не сказал, что я подхожу для поиска»
Чжан Пэн:
Все ли могут переоценить OpenAI? Другими словами, мы считаем, что OpenAI трудно превзойти, потому что у него есть маховик данных.Как вы это понимаете?Действительно ли существует маховик данных?
Ван Сяочуань:
В начале этого года я говорил о данных маховике, и я тогда сильно паниковал. Ему передается запрос пользователя, он знает, чего хочет пользователь, и тогда он может лучше обновить модель.
Пока эта проблема не является серьезной.
Например, после запуска Llama 2 все увидели, что на этапе доводки данные надо уточнять и меньше, а не уточнять и больше.Теперь у всех постепенно сформировался консенсус, что секрет технологий не в маховике, а в накоплении технологий с течением времени.
Техническая мощь Anthropic, компании, подобной компании Клода, также быстро росла, и у OpenAI гораздо больше пользователей, чем у нее, что также доказывает фальсификацию концепции маховика данных.
Чжан Пэн:
Или, может быть, действительно ценные данные в нем отражаются в навыках общения с людьми.Я помню, что в самом начале его манера говорить была довольно «тупой», но теперь он чувствует себя более человечным.
Ван Сяочуань:
По ощущениям эта штука не очень, и больше кроется в ее наборе данных.Неважно на этапе предобучения или на этапе доводки, как получить качественные данные? Как соответствовать и так далее, это его основная способность. В частности, я слышал, как они болтали, что, с одной стороны, GPT-4 обучает GPT-3.5, чтобы заставить 3.5 работать более эффективно, и в то же время GPT-4 используется для производства части данных, требуемых GPT-5, и оптимизирует итерационный процесс. Его внутренняя итерация заключается в том, чтобы сделать онлайн-сервисы лучше, а заодно и генерировать какие-то данные в будущем, я думаю, это внутренний маховик.
Чжан Пэн:
Так что, если вы посмотрите на это с точки зрения Llama, также возможно предоставить модель, которая постоянно совершенствует технический уровень с помощью открытого исходного кода. Но с точки зрения OpenAI на определенном этапе может быть достаточно пользователей и данных.
Ван Сяочуань:
Открытый исходный код, закрытый исходный код и приложения, по сути, все делают это и сегодня, и это все еще находится на стадии расширения, как и западная часть Соединенных Штатов.
Чжан Пэн:
Так что сегодня для начинающей компании, такой как Baichuan, непросто просто сказать, что я сотрудничаю только в определенном направлении, хочу ли я сохранить расплывчатую стратегию или назвать ее богатой возможностями, я могу сделать ставку на эти измерения.
Ван Сяочуань:
верно. Мое предпринимательство на этот раз довольно интересное.Многие говорят, что Сяо Чуань особенно подходит для создания крупномасштабных моделей.Я занимаюсь поиском 20 лет, и никто никогда не говорил, что Сяо Чуань особенно подходит для выполнения поиска.
Поиск в Китае на 3 года позже, чем у Baidu, угнаться за ним очень сложно. Смотрятся сегодняшние накопления и опыт, и перед ними никого нет. Думать было сложно, да и с опозданием на несколько лет, но сегодня мне кажется, что возможности есть везде. Поэтому, пока у нас достаточно возможностей, мы можем брать здесь интервью везде, и посмотрим, сможем ли мы сегодня изменить ваше первоначальное впечатление о Сого.
Не поклоняйтесь слепо, у Китая и США будут разные истории ИИ
Чжан Пэн:
Я очень тронут тем, что сказал Огава. Вы, наконец, стоите на ничейной земле.
Что касается большой модели, многие люди могут подумать, что им нужно учиться и догонять OpenAI. Но когда вы действительно сделаете это, вы действительно найдете расстояние и путь.
Ван Сяочуань:
Да, не будь таким благочестивым.
Я помню, что после AlphaGo в 2016 году я упомянул два момента: во-первых, если (AI) может предсказать следующий кадр видео, это появление AGI.
Но это заканчивается после того, как вы закончили говорить, и у вас нет возможности это сделать, у вас нет мотивации, способности или условий. Позже было сказано, что если машина освоит язык, то придет и сильный искусственный интеллект. Теперь проверка фактически началась.
Так что я думаю, что у нас самих много идей, и мы не отстаем. Просто сроки и условия еще не созрели. Типа, учитель сказал, что это дело решаемо, ты же учитель, ты ведь не хочешь переписать за тебя домашнее задание, да?
Другие говорят вам, что это можно решить, или даже дают вам большую идею Я думаю, что мы можем сделать это сами, и нам не нужно смотреть на домашнюю работу других людей и копировать ее.
Чжан Пэн:
Так что ваше настоящее удовольствие здесь состоит не в том, чтобы реализовать и воспроизвести другие, а в том, чтобы исследовать некоторые вещи, которые еще не все уловили в этой ничейной земле.
Ван Сяочуань:
Да, думаю, на этот раз у меня есть возможность возглавить некоторые направления.
Чжан Пэн:
Есть такая возможность, поэтому Китай и США, Байчуань и OpenAI, может быть, это не та же история.
Ван Сяочуань:
Оно действительно будет другим. Китай и США — это не система, система или культура, поэтому то, что в итоге вырастет, будь то техническая проблема или проблема приложения, будет разным.
Основная работа: общение с коллегами, Baichuan Intelligent только что прорвался через 100 человек
Чжан Пэн:
Как вы устраиваете свою обычную работу? Как вы распределяете свое время? Многие говорят, что важна вычислительная мощность и важны таланты, но я думаю, что только те, кто действительно начинает свой бизнес, знают, что важнее всего. Так что я просто хочу спросить, где вы проводите больше всего времени?
Ван Сяочуань:
Сейчас я провожу большую часть своего времени в чате с нашими коллегами.
Чжан Пэн:
чат?
Ван Сяочуань:
Да, в процессе общения на самом деле происходит процесс непрерывного формирования консенсуса, который заключается в том, чтобы собрать все знания, питание и внешнюю информацию, чтобы все могли сформировать один и тот же мозг.
Потому что мы знаем, что Верх-Вниз может сбиться с пути. Например, почему Google не сделал этого? Когда была построена первая штаб-квартира Google, у нее была своя инерция. Данные получить невозможно, после выхода в интернет стоимость вырастет, а конкретных преимуществ для пользователя не будет, поэтому возникает дилемма для начала бизнеса.
В случае с Google Brain это Button-Up. Его исследователи очень свободны и могут делать все, что захотят, или объединять усилия, поэтому многие из них действительно видели большую модель, но не могут сконцентрироваться на ее выполнении, потому что силы рассеяны. Затем Deepmind сверху вниз, что компания просит сделать, и что все делают. Он сделал AlphaGo, AlphaZero, AlphaFold, и теперь он движется к водородной энергетике, ядерному синтезу и квантовым вычислениям, но он далек от большинства из них.
На самом деле Верх-Вниз и Кнопка-Вверх сегодня называются «вверх и вниз с одним и тем же желанием», чтобы каждый мог полностью выровняться от этого идеала к технологии и познанию, и стать единым целым. Поэтому я думаю, что более ежедневное общение с вами сделает вас мозгом, что является моей самой важной работой.
Чжан Пэн:
Хм, интересно. Поэтому, если небольшая команда приложит всю свою энергию, все смогут разделить одни и те же радости и печали, одни и те же желания и стремления.
Ван Сяочуань:
Это очень важно, мы не будем сегодня говорить об организации и управлении, но станем как бы одним человеком. Сейчас в Baichuan 100 человек, а вчера только 100 человек.
Изменения в уверенности, прогресс Baichuan быстрее, чем ожидалось
Чжан Пэн:
В последние несколько месяцев вы посвятили себя масштабному моделированию, ваш энтузиазм не изменился, но изменилась ли ваша уверенность? Это сложнее, чем вы ожидали в начале? Все еще соответствует вашим ожиданиям?
Ван Сяочуань:
Если быть честным, от всего сердца я думаю, что это проще, чем я думал.
Ожидается, что вы знаете много (трудности) в начале, годы накопления за границей, вычислительные мощности, серверы... Но когда вы работаете со своими коллегами, когда все совместно творят, наш реальный прогресс и темп быстрее, чем ожидалось.
Выяснилось, что мы рассчитывали выпустить модель на 50 миллиардов в третьем квартале, а затем выпустить модель на 175 миллиардов в четвёртом квартале.
Но на самом деле эти вещи не изменятся, но в процессе скорость прогресса приложений и скорость моделей с открытым исходным кодом намного быстрее, чем ожидалось.
А также быстрее, сегодня мы можем начать говорить не только о том, чтобы быть лучшими дома, но и с открытым исходным кодом на международной арене.
Открытый исходный код очень прост, каждый может использовать его в своих целях, это не то, чем вы хвастаетесь. После открытия мы уверены, что сможем занять очень хорошие позиции на международной арене.
Чжан Пэн:
Итак, прежде чем прыгнуть в воду, я беспокоился о том, что не знаю глубины, но когда я действительно прыгнул, я обнаружил, что на самом деле могу наступить на нее до самого дна, поэтому я чувствовал себя намного спокойнее? Это действительно так просто?
Ван Сяочуань:
Разделяйте людей.
Я относительно осторожный человек, я все еще наблюдал, а потом наш Ляньчуан пнул меня и сказал, чтобы он начал это делать. Тогда я сказал хорошо, объявил конец и начал работать. В противном случае это может произойти даже позже, прежде чем вы почувствуете себя готовым. Но как только вы сойдете с поля, вы обнаружите, что будете бежать быстрее, чем вы думали.
После безумия последние технологические разработки, вызывающие озабоченность
Чжан Пэн:
Вы обращаете внимание на технический прогресс крупных моделей в последнее время? Какие документы вас волнуют?
Ван Сяочуань:
Во-первых, просто читать газеты сегодня не так уж и важно. Вы не можете закончить это.
Основы - это те вещи. И сегодня OpenAI перестал рассылать хорошие статьи. Рассылаемые бумаги — это все бумаги с небольшим объемом информации, а урожай ограничен.
В то же время, поскольку все входили в исступление (состояние) раньше, мы называем это «проживанием дня, как года», и это кажется годом (технологического прогресса) каждого дня.
Чжан Пэн:
Дни кажутся годами, потому что они бегут быстро.
Ван Сяочуань:
Да, не скучно. Каждый день столько всего нового. Нервы у всех возбуждены до предела, и они немного ослабли.
Сказав это, в последнее время произошло несколько технологических достижений, которые я считаю очень мощными.
Во-первых, около недели назад OpenAI запустил интерпретатор кода, что является крупным прорывом, но, похоже, в Китае нет нового витка безумия в СМИ.
Раньше все наслаждались безумием, но на этот раз прогресс, интерпретатор кода, я думаю, СМИ не обратили на это должного внимания и сообщили об этом.
И небольшой вчерашний апгрейд, настройка собственной инструкцией.
Это означает, что он начинается с модели LLM до агентов.
Он будет описывать «Кто я и каковы мои характеристики?» Какую роль будет играть ваша большая модель и каковы ее характеристики? Формирование такой связи зависит от того, является ли модель Агентом (с точки зрения).
Этих двух областей недостаточно для того, чтобы каждый обратил внимание и сообщил сегодня.
Решение начать бизнес, наконец, дождалось, пока нейтральная полоса не станет «подходящей для Сяочуань».
Чжан Пэн:
Последний вопрос, вы только что упомянули, что вас «пинком» ввели в эту предпринимательскую ситуацию. Я также знаю, что вы являетесь фанатиком ИИ со времен AlphaGo.
В конце концов, вы решили стать предпринимателем в области ОИИ и крупномасштабных моделей.Будь то Лао Ван (Хойвэнь) или волна в Китае, как они повлияли на ваши решения? Пройдя через такой процесс, какие изменения произошли в вашем сердце?
Ван Сяочуань:
Психическое путешествие на самом деле довольно долгое.
Во время Sogou, к более позднему этапу. Во-первых, мы упустили рекомендательный движок и заключили стратегический альянс с Tencent, в этом случае без новых технологических прорывов развитие очень ограничено. Когда Sogou объединилась с Tencent, я поставил перед собой более интересную задачу: превратить жизнь в математическую модель. Как мы уже говорили, Ньютон превращал физику в математическую модель.
Ранее на платформе Geek Park я говорил об обучении у жизни.
что такое жизнь Это то, о чем я думал в течение 20 лет.
Как превратить жизнь в математическую модель? Это то, о чем я забочусь. Даже при изучении китайской медицины, как превратить жизнь в математическую модель, (позже) обнаружил, что этот путь не может быть гладким.
Меня особенно интересует, как сделать новый прорыв в медицине в рамках научной парадигмы. Я читаю гораздо больше медицинских статей, чем компьютерных статей, я читаю тысячи медицинских статей.
Что произошло за 21 год? В 21 год у большой модели стали появляться некоторые возможности. В то время мы сделали модель десятков миллиардов, чтобы решить проблему перехода от поиска к вопросу и ответу.
На самом деле, прежде чем делать метод ввода, я уже занимался "предугадыванием того, что хочет сказать следующее слово", а потом как его переписать, поиск превратился в вопрос-ответ. На самом деле дверь трогали, но прорыва в технологиях на тот момент не было.
Итак, вы знаете, что я очень заинтересован в том, чтобы превратить жизнь в математическую модель, поэтому после появления большой модели моей первой мыслью было не делать большую модель.Я хотел бы спросить, возможно ли сегодня построить Чат Здоровья в области жизни? Здоровый GPT, цифровой доктор?
Чжан Пэн:
Вы думаете с прикладной точки зрения, направленной на решение проблем.
Ван Сяочуань:
Да, думаю об этом. Тогда я подумал, что если вы сделаете вертикальную модель сегодня, она может быть убита большой моделью. Общий интеллект убивает специализированный интеллект, верно?
Но в данном случае мы обнаружили, что недостаточно сделать только один вид HealthGPT или просто цифрового врача.
В конце концов, надо еще сделать большую модель.
(Решение сделать масштабную модель на следующем этапе) пришло из такого круга не потому, что я думал, что накопил раньше.
Но когда мы создаем большую модель, мы обнаруживаем, что (предыдущее накопление) весьма актуально, например, обработка, связанная с языком.
Даже в крайних случаях ChatGPT является третьим, сделавшим языковую модель суперприложением. Первые два, один поиск и один метод ввода.
Чжан Пэн:
Я чувствую, что ты тоже не сделал этого, извини за два, которые ты сделал раньше.
Ван Сяочуань:
Да, так я обнаружил, что предыдущее накопление сегодня действительно полезно, чего я раньше не ожидал.
Так что я очень эмоционален, Бог очень добр к тебе и дал тебе шанс. В конце поиска есть еще один шанс использовать предыдущий опыт, чтобы сделать то, что не удавалось сделать раньше.
Так вот, никто не говорил "Xiaochuan подходит для поиска", но все говорили "Baichuan подходит для масштабных моделей" Для меня это очень удачная вещь.
Чжан Пэн:
Вот почему вы решили сделать это в первую очередь.
Через несколько месяцев всем может показаться, что это сложно: OpenAI еще не стала сверхприбыльной компанией, и многие люди в Силиконовой долине ставят под сомнение ее бизнес-модель. Так что большая модель будет давить на предпринимателей в этом аспекте, вы почувствовали это давление?
Ван Сяочуань:
Я весь гипер.
Потому что раньше я работал в тени Baidu, а теперь это ничейная земля.Для меня это именно то, что я хочу делать, вместо того, чтобы говорить, что передо мной лидер, а потом ты следуешь. Для меня это то, что мне нравится, новое исследование.
Чжан Пэн:
Особая благодарность Сяочуаню за то, что он поделился с нами сегодня, и поздравления с тем, что вы, наконец, открыли вашу ничейную землю. Я надеюсь увидеть здесь более красивые пейзажи. Аплодисменты посвящаются Сяочуаню, давай!
Посмотреть Оригинал
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
Baichuan Intelligent Ван Сяочуань: После 100 дней открытия бизнеса с крупной моделью я подтвердил, что нашел свою «нейтральную зону»
**Источник:**FounderPark
В апреле Ван Сяочуань объявил о своем уходе и учредил крупную модельную компанию «Байчуань Смарт».
В июне Baichuan Intelligent выпустила большую модель с открытым исходным кодом на 7 миллиардов параметров, Baichuan-7B.
В июле Baichuan Intelligent выпустила крупную модель с открытым исходным кодом на 13 миллиардов параметров, Baichuan-13B.
Обе модели хорошо зарекомендовали себя в различных оценках, а также были признаны большим количеством пользователей в стране и за рубежом.
«Открытый исходный код очень прост, каждый может использовать его в своих целях, это не то, чем вы хвастаетесь».
Он движется быстро, быстрее, чем думает большинство людей. Даже сам был удивлен: прогресс будет намного быстрее, чем ожидалось, когда начнешь это делать.
На конференции AGI Playground Ван Сяочуань сообщил, что возможности модели BCI с открытым исходным кодом определенно превзойдут Llama 2. Согласно плану, в будущем Baichuan Intelligent выпустит десятки и сотни миллиардов крупных моделей с закрытым исходным кодом.
Несколько месяцев назад Ван Сяочуань хотел «быть китайским OpenAI» в заголовках различных СМИ.
Это лозунг, который публика любит слышать, но он может быть неточным описанием.
Что именно хочет сделать Ван Сяочуань? Что он собирается делать? После трех месяцев практики и достижения первых результатов, каково его личное понимание предпринимательства в эпоху крупномасштабных моделей?
Открытый исходный код, чего не сделал OpenAI
Чжан Пэн:
Что вас может больше всего заинтересовать, так это то, что вы очень быстро двигались после того, как начали свой бизнес, и выпустили две модели: одну 7B и одну 13B, и отзывы были очень хорошими.
Всем очень любопытно, потому что вначале они думали, что вы собираетесь стать китайским OpenAI, но, видя, что вы делаете вещи с открытым исходным кодом, является ли открытый исходный код технологическим этапом или он сам по себе является новой моделью вашего мышления в будущем?
Ван Сяочуань:
Открытый исходный код, мы думаем, что это технический этап, на самом деле быть китайским OpenAI не означает полностью копировать его полный путь. При общении с OpenAI в Силиконовой долине они в идеале ушли очень далеко, например, когда они сейчас делают GPT-4, им нужно более 20 000 карт для проведения расчетов, а таких масштабов они в Китае еще не видели.
Они с гордостью сообщают, что разрабатывают вычислительную модель, которая объединяет 10 миллионов графических процессоров.
Какова концепция 10 миллионов карт? Годовой объем производства Nvidia составляет 1 миллион. 10 миллионов копий — это план, который может полететь на Луну (moonshot).
Кроме того, с точки зрения того, как создавать приложения, продукты и даже некоторые более широкие технологии, это может быть недостатком OpenAI, а может быть тем, что их сейчас не особенно волнует.
Так что реализация OpenAI в Китае будет сильно отличаться от экологической среды в США.
После недавнего выпуска Llama 2 с открытым исходным кодом он вызвал ажиотаж в Китае: все чувствовали, что он снова изменит ландшафт, чего OpenAI не удалось сделать. Жаль, что это делает не Гугл, а Фейсбук (Мета), а Гугла по-прежнему нет. Но в Китае мы увидели этот вопрос заранее, и мы считаем, что открытый исходный код и закрытый исходный код будут иметь параллельное состояние в будущем.
Чжан Пэн:
Открытый исходный код и закрытый исходный код будут в параллельном состоянии.
Ван Сяочуань:
Параллелизм немного похож на текущую систему Apple и систему Android. Даже когда больше компаний хотят участвовать, недостаточно использовать вызовы API с закрытым исходным кодом.Эта модель с открытым исходным кодом также должна предоставлять 80% услуг и, наконец, полагаться на службы с закрытым исходным кодом для предоставления услуг для всех, а оставшиеся 20% будут иметь большой спрос на открытый исходный код. У США его раньше не было, а у Китая не было аналогичной модели. Поэтому, как только Llama будет анонсирована, это будет большим шоком для США, но в Китае тоже бум. Фактически, серьезные технические оценки включают в себя несколько основных оценок, таких как SuperClue, а также сравнения между некоторыми крупными производителями и компаниями.Если сравнивать Llama с Baichuan, становится очевидным, что наше качество в китайской области намного выше, чем у Llama.
В области моделей с открытым исходным кодом в Китае, как и в нашей индустрии мобильных телефонов, сначала использовали США, а потом догнали сами.
Чжан Пэн:
Как вы думаете, Llama 2 в последнее время настолько горяча, что Baichuan справится лучше, чем они?
Ван Сяочуань:
Лама - это лама 1 и 2.
Прежде всего, мы выпустили первую модель параметров 7B в июне этого года, а модель параметров 13B — в июле. Среди показателей на английском языке наиболее важным является показатель MMLU (Massive Multitask Language Understanding), по этому ключевому показателю наши две модели лучше Llama (1), а по китайскому значительно опережают.
Мы знаем, что китайская обработка Llama на самом деле недостаточна, по сравнению с Llama (1) английский язык Baichuan может частично соответствовать эталону, а основные показатели превышены, а китайский явно лучше.
После выпуска Llama 2 мы также можем увидеть технический отчет, который содержит около 9 пунктов технических инноваций, 6 из которых были достигнуты в разрабатываемой нами модели.
По сравнению с другими отечественными моделями наше мышление здесь самое близкое на данный момент.Мы уже сделали 6 баллов, а то 2 балла не ожидали, а у нас один невалидный.Поэтому при сравнении с Ламой2 мы не просто занимаемся плагиатом в техническом мышлении, а имеем свое мышление. Мы думаем, что в будущем на этом пути будут наши возможности.
Сегодня я также призываю всех в Китае не только думать, что зарубежные страны хороши, когда они его используют. OpenAI действительно сейчас далеко. Чтобы достичь GPT-3.5 или аналогичного уровня к концу года, потребуется время, но мы уже очень близки в модели с открытым исходным кодом.
Итак, ваша следующая модель с открытым исходным кодом, как вы думаете, будет ли она лучше, чем Llama 2?
Ван Сяочуань:
По крайней мере на китайском. В области китайского языка он сейчас превзойден. Следующим шагом является голос Китая в области открытого исходного кода на мировом рынке.
Чжан Пэн:
И английский, и китайский должны быть лучше, чем Лама2, это для вас видимо и достижимо.
Ван Сяочуань:
Я думаю, что есть шанс, что это может произойти в обозримом будущем.
Чжан Пэн:
Итак, ваша точка зрения такова: сегодня мы не можем просто сказать, что наша будущая большая модель — двигаться в сторону OpenAI — централизованной модели с закрытым исходным кодом. Открытый исходный код на самом деле имеет большие возможности. То есть это означает, что с одной стороны, это отработка технологий и демонстрация технических возможностей, но это действительно может содержать бизнес-модели и ценности.
В то же время, на основе открытого исходного кода, люди все еще могут рассчитывать на то, что Китай создаст лучшую китайскую модель в мире.
Ван Сяочуань:
Это подводит итог довольно точно.
Является ли поисковый опыт плохой инерцией или хорошим активом?
Чжан Пэн:
В прошлом многие инвесторы считали, что использование опыта поиска для построения масштабной модели точно не увенчается успехом. После этих месяцев практики вы подтвердили свое первоначальное суждение, которое отличалось от их? Как накопление и возможности поиска способствуют созданию более крупных моделей?
Ван Сяочуань:
Поскольку сегодняшнее достижение (ИИ) было достигнуто OpenAI, а не Google, первая мысль инвесторов состоит в том, что эта новая технология является полной противоположностью поиска. Им трудно различить, в чем причина — в технологиях или в организационном управлении.
Причина такого голоса в том, что один не понимает отношения между технологией поиска и ИИ, а второй в том, что познание предыстории поиска принесет негативные последствия.
Поскольку поисковые компании — это в основном Baidu и Google, им не нужно внешнее финансирование, и они не рассказывают инвесторам, что такое поиск. В частности, последняя волна бума ИИ была в основном вызвана изображениями, и всем незнакомы технические коннотации, такие как НЛП в поиске.
Что касается результатов, мы выпустили первую модель в июне. Конкурент заранее сообщил инвесторам, что Baichuan займется производством первой модели в течение полугода, на самом деле мы потратили на это всего 1/3 времени, а затем выпустили вторую. И в ближайшее время мы выпустим модель с закрытым исходным кодом.
Baichuan саморазвивается с первого дня, а холодный старт очень и очень быстрый. В чем причина этого?
Сегодня мы знаем, что высококачественные данные лежат в основе больших моделей, так какая компания имеет широкое понимание языковых данных? На самом деле поисковые компании работают уже 20 лет, каждый день думая о том, как найти такие качественные данные. Например, сначала найдите 100 высококачественных веб-сайтов из 1 триллиона веб-страниц, а затем проведите анализ страниц, включая извлечение информации, дедупликацию, защиту от спама и даже извлечение содержимого на уровне абзацев.
Sogou, Baidu и Google уже давно занимаются такой работой.
Второй момент — с точки зрения кадрового резерва необходимо иметь и алгоритмические возможности, и инженерные возможности, ориентированные на поисковые возможности, такие люди в основном тоже ищут компании. Теперь ByteDance использует поисковую команду для создания моделей, и прогресс Baidu также очень быстрый, в том числе модель, которую делает Шэнь Сянъян, также была создана вице-президентом Bing в прошлом.
Еще одна вещь, чтобы сделать большую модель, это оценка. Оценка того, хороша большая модель или нет, на самом деле болезненная проблема, включающая в себя проблему рассуждений, точных вопросов и ответов, создания... Что-то становится лучше, что-то хуже, как оценивать? Таким образом, эта система оценки также является возможностью, которую поисковые компании накапливали в течение длительного времени, используя оценку для управления итерацией последующих алгоритмов.
Кроме того, организационная эффективность стартап-компаний намного выше, чем у крупных заводов, а при очень гибкой системе принятия решений все эффективности будут максимальными.
Чжан Пэн:
Так вы говорили с инвестором, который думал, что поиск не достаточно хорош для больших моделей?
Ван Сяочуань:
Имя отмечено крестиком и удалено, и я не знаю, кто это. Инвесторы, которые смотрят только на бизнес, но не на технологии, и те, кто особенно любит мелкое свежее мясо, которые возвращаются из Соединенных Штатов, чтобы начать бизнес, эти инвесторы просто растягивают это и не говорят об этом.
Старый Ван прав: «Маленькие инновации зависят от больших заводов, а большие инновации зависят от маленьких заводов».
Чжан Пэн:
Как вы думаете, будет ли у предпринимателей достаточно возможностей на этой волне технологических изменений в будущем? Или основной корпус по-прежнему контролируется великанами? Как предприниматели могут воспользоваться своими возможностями?
Ван Сяочуань:
Хотя Ван Хуэйвэнь мало что знает о технологиях, я думаю, что он сказал очень правильную вещь: маленькие инновации зависят от маленьких фабрик, а большие инновации зависят от больших фабрик.
Хотя у крупного завода есть много преимуществ в людях, деньгах и ресурсах, после роста организации возникнет много внутренних проблем, а организационная эффективность будет сильно ограничена.
Если мы твердо верим в появление ОИИ, то произойдет огромный взрыв новых видов. Эти вещи имеют огромные возможности для работы стартапов. Это можно продемонстрировать с помощью исторической дедукции, поэтому, пока существует ОИИ, в будущем будут новые возможности.
Где трудность посередине?
OpenAI — это компания, ориентированная на исследования, которая реализует продукты в реальном мире. Вы следуете ему, и в области исследований могут быть очень блестящие достижения. Но как применить сегодня, ни OpenAI, ни технологически ориентированные компании в Силиконовой долине в этом не очень хороши. Я уверен, что Китай намного лучше, чем Соединенные Штаты, с точки зрения реализации приложений.
Весь мир достиг переломного момента, и теперь, когда технология на месте, это первая трудность. Применение и требования — это вторая сложность, которая называется модельным сервисом (model service). Итак, проблема сейчас в том, номер один, у вас есть модель? Во-вторых, означает ли наличие модели наличие услуги?
Чжан Пэн:
Является ли продажа API услугой?
Ван Сяочуань:
Я так не думаю.
Это похоже на то, что у вас есть беспилотная технология, но вы действительно можете построить автомобиль? Очевидно нет. Это также требует слияния многих технологий.
Теперь Соединенные Штаты относительно запутались в прикладном уровне, а текущая проблема Китая заключается в отсутствии возможностей модели. Сегодня многие начинающие компании, создающие модели, также ограничивают свое видение крупными моделями и мало знают о других технологических стеках.
Приведу простейший пример: при изготовлении модели вы обязательно столкнетесь с галлюцинациями и своевременностью. И галлюцинации, и своевременность могут быть решены самой большой моделью. Некоторые люди решают иллюзию, расширяя параметры до триллионов и десятков триллионов или используя обучение с подкреплением. Но на самом деле самый прямой путь — привнести в него поиск и поиск информации. Комбинация больших моделей может сформировать более полный стек технологий.
После того, как эта технология была предложена, это уже было чем-то вроде знака. Например, есть что-то, называемое векторной базой данных, которая на самом деле представляет собой гибкий поиск и в основном используется в toB.
Что касается поиска, то после того, как в 2018 году была представлена технология Transformer, в ней уже есть возможность семантического поиска. Возможно, вы слышали об инвертированном индексе, который используется для индексации этой символической сети.
После 2018 года, будь то мы, Baidu или байтовые векторы обратились к семантическому поиску, за этой технологией стоят три огромные векторные базы данных. Сочетание этих технологических стеков и большой модели может способствовать дальнейшему развитию большой модели. Как видите, опыт поисковой группы имеет преимущества для создания моделей.
Второй аспект заключается в том, что технология крупномасштабных моделей постепенно становится практичной. Затем в так называемые вычисления знаний необходимо добавить векторные базы данных и поиск, чтобы сформировать более полные технологии и продукты. В этом вопросе у всех постепенно формируется консенсус.
Говоря о трафике ChatGPT сегодня, все начали беспокоиться о том, может ли он продолжать расти.
Так что нам все еще нужно больше исследований.
Мы считаем, что в индустрии развлечений ролевые игры имеют широкие перспективы, но в этом вопросе требуется выход китайских компаний, чтобы добиться большего успеха.
Другое дело как совмещать большие модели и поиск.Сейчас у Perplexity AI дела идут очень хорошо,но мы находимся в пассивной позиции.Если у США будут возможности,инвесторы будут искать китайские компании сравнения.
Если у этой компании, во-первых, нет большой модели, она только вызывает API, во-вторых, у нее нет технологии поиска, и она может полагаться только на технологии таких компаний, как Google и Bing, что не идеально.
Чжан Пэн:
Только что вы сказали, что количество таких пользователей, как ChatGPT, сокращается, что заставляет всех чувствовать, что новая парадигма, возможно, не сможет прорваться сразу. Является ли это большой проблемой для предпринимателей, чтобы сделать приложения?
Потому что, согласно тому, что вы только что сказали, в среде с незрелыми технологиями стоимость предпринимательского исследования очень высока. А если предприниматель просто использует чужой API как смену парадигмы приложения, это не особо бросается в глаза.
Ван Сяочуань:
Два дня назад OpenAI только что обновил интерпретатор кода, а затем обновил пользовательскую инструкцию. На начинающие компании оказывалось огромное давление.
Американских инвесторов также беспокоит, есть ли еще шанс у стартапов превзойти гигантов на фоне беспокойства, и не заменят ли их крупные компании после половины их работы.
Я не думаю, что в Китае есть такая ведущая компания, как OpenAI, которая идет по пути крупномасштабных моделей. Он все еще находится в стадии «Войны сотен моделей». Сегодня вопрос о том, могут ли компании, производящие крупномасштабные модели, создавать приложения, является вопросом, за которым Китаю следует внимательно следить за Соединенными Штатами.
Догнать GPT-4? Опасно слепо следовать модели межпоколенческого совершенствования
Чжан Пэн:
Тут же возникает вопрос кто в Китае догонит GPT-3.5, а то и GPT-4
Есть также другой голос, говорящий, что GPT-3 достаточно для предприятий, чтобы решить некоторые проблемы с вертикальной сценой.
Я чувствую, что Сяочуань и вы по-прежнему привержены погоне за GPT-3.5 и GPT-4. Труден ли этот процесс погони? Почему вы говорите, что должны догнать уровень GPT-4?
Ван Сяочуань:
Я думаю, это две вещи.
Во-первых, это совершенствование технологий из поколения в поколение, которое может оказать сокрушительное воздействие на экологию последующих продуктов. Независимо от того, с идеальной точки зрения, представьте себе будущее, которое далеко за пределами досягаемости, как три, четыре, пять поколений истребителей, в которых каждое поколение может сыграть важную роль. Поэтому в настоящее время каждый должен стремиться к получению преимущества в высококонкурентной сфере.
Однако в процессе борьбы за преимущества каждый может столкнуться с новой путаницей: на каком поколении мы действительно можем реализовать суперприложения? GPT-3.5 еще не сформировал суперприложение в США, а на одно обучение уходит около 50 млн юаней, не считая стоимости предварительной подготовки и экспериментов. Обучение GPT-4 может стоить 500 миллионов юаней один раз. К поколению GPT-4.5 стоимость может достичь 500 миллионов долларов.
Поэтому, если нет суперприложения, просто заниматься технологическим усовершенствованием очень опасно. Поэтому нам необходимо одновременно улучшать технические возможности четвертого и пятого поколений в этой области и в то же время иметь суперприложения. В противном случае мы можем внезапно столкнуться с необходимостью обновления на двух фронтах, оба из которых должны быть обновлены одновременно, чтобы добиться успеха.
Чжан Пэн:
Следовательно, каждый волновой тип технологии должен иметь возможность создавать ценные приложения.
Ван Сяочуань:
То, что вы только что сказали, совершенно верно.
GPT-3 в основном доступен на стороне B, но я думаю, что причина, по которой он недоступен на стороне C, заключается в том, что времени слишком мало.
Кроме того, все слишком много внимания уделяют OpenAI, это не продуктовая компания и не компания, которая может делать суперприложения.
Умение делать суперприложения требует не только технического наверстывания, но и достаточного понимания продукта. Я думаю, что в конце года правда выйдет на свет.
«Сяочуань подходит для изготовления больших моделей» «После 20 лет поисков никто не сказал, что я подхожу для поиска»
Чжан Пэн:
Все ли могут переоценить OpenAI? Другими словами, мы считаем, что OpenAI трудно превзойти, потому что у него есть маховик данных.Как вы это понимаете?Действительно ли существует маховик данных?
Ван Сяочуань:
В начале этого года я говорил о данных маховике, и я тогда сильно паниковал. Ему передается запрос пользователя, он знает, чего хочет пользователь, и тогда он может лучше обновить модель.
Пока эта проблема не является серьезной.
Например, после запуска Llama 2 все увидели, что на этапе доводки данные надо уточнять и меньше, а не уточнять и больше.Теперь у всех постепенно сформировался консенсус, что секрет технологий не в маховике, а в накоплении технологий с течением времени.
Техническая мощь Anthropic, компании, подобной компании Клода, также быстро росла, и у OpenAI гораздо больше пользователей, чем у нее, что также доказывает фальсификацию концепции маховика данных.
Чжан Пэн:
Или, может быть, действительно ценные данные в нем отражаются в навыках общения с людьми.Я помню, что в самом начале его манера говорить была довольно «тупой», но теперь он чувствует себя более человечным.
Ван Сяочуань:
По ощущениям эта штука не очень, и больше кроется в ее наборе данных.Неважно на этапе предобучения или на этапе доводки, как получить качественные данные? Как соответствовать и так далее, это его основная способность. В частности, я слышал, как они болтали, что, с одной стороны, GPT-4 обучает GPT-3.5, чтобы заставить 3.5 работать более эффективно, и в то же время GPT-4 используется для производства части данных, требуемых GPT-5, и оптимизирует итерационный процесс. Его внутренняя итерация заключается в том, чтобы сделать онлайн-сервисы лучше, а заодно и генерировать какие-то данные в будущем, я думаю, это внутренний маховик.
Чжан Пэн:
Так что, если вы посмотрите на это с точки зрения Llama, также возможно предоставить модель, которая постоянно совершенствует технический уровень с помощью открытого исходного кода. Но с точки зрения OpenAI на определенном этапе может быть достаточно пользователей и данных.
Ван Сяочуань:
Открытый исходный код, закрытый исходный код и приложения, по сути, все делают это и сегодня, и это все еще находится на стадии расширения, как и западная часть Соединенных Штатов.
Чжан Пэн:
Так что сегодня для начинающей компании, такой как Baichuan, непросто просто сказать, что я сотрудничаю только в определенном направлении, хочу ли я сохранить расплывчатую стратегию или назвать ее богатой возможностями, я могу сделать ставку на эти измерения.
Ван Сяочуань:
верно. Мое предпринимательство на этот раз довольно интересное.Многие говорят, что Сяо Чуань особенно подходит для создания крупномасштабных моделей.Я занимаюсь поиском 20 лет, и никто никогда не говорил, что Сяо Чуань особенно подходит для выполнения поиска.
Поиск в Китае на 3 года позже, чем у Baidu, угнаться за ним очень сложно. Смотрятся сегодняшние накопления и опыт, и перед ними никого нет. Думать было сложно, да и с опозданием на несколько лет, но сегодня мне кажется, что возможности есть везде. Поэтому, пока у нас достаточно возможностей, мы можем брать здесь интервью везде, и посмотрим, сможем ли мы сегодня изменить ваше первоначальное впечатление о Сого.
Не поклоняйтесь слепо, у Китая и США будут разные истории ИИ
Чжан Пэн:
Я очень тронут тем, что сказал Огава. Вы, наконец, стоите на ничейной земле.
Что касается большой модели, многие люди могут подумать, что им нужно учиться и догонять OpenAI. Но когда вы действительно сделаете это, вы действительно найдете расстояние и путь.
Ван Сяочуань:
Да, не будь таким благочестивым.
Я помню, что после AlphaGo в 2016 году я упомянул два момента: во-первых, если (AI) может предсказать следующий кадр видео, это появление AGI.
Но это заканчивается после того, как вы закончили говорить, и у вас нет возможности это сделать, у вас нет мотивации, способности или условий. Позже было сказано, что если машина освоит язык, то придет и сильный искусственный интеллект. Теперь проверка фактически началась.
Так что я думаю, что у нас самих много идей, и мы не отстаем. Просто сроки и условия еще не созрели. Типа, учитель сказал, что это дело решаемо, ты же учитель, ты ведь не хочешь переписать за тебя домашнее задание, да?
Другие говорят вам, что это можно решить, или даже дают вам большую идею Я думаю, что мы можем сделать это сами, и нам не нужно смотреть на домашнюю работу других людей и копировать ее.
Чжан Пэн:
Так что ваше настоящее удовольствие здесь состоит не в том, чтобы реализовать и воспроизвести другие, а в том, чтобы исследовать некоторые вещи, которые еще не все уловили в этой ничейной земле.
Ван Сяочуань:
Да, думаю, на этот раз у меня есть возможность возглавить некоторые направления.
Чжан Пэн:
Есть такая возможность, поэтому Китай и США, Байчуань и OpenAI, может быть, это не та же история.
Ван Сяочуань:
Оно действительно будет другим. Китай и США — это не система, система или культура, поэтому то, что в итоге вырастет, будь то техническая проблема или проблема приложения, будет разным.
Основная работа: общение с коллегами, Baichuan Intelligent только что прорвался через 100 человек
Чжан Пэн:
Как вы устраиваете свою обычную работу? Как вы распределяете свое время? Многие говорят, что важна вычислительная мощность и важны таланты, но я думаю, что только те, кто действительно начинает свой бизнес, знают, что важнее всего. Так что я просто хочу спросить, где вы проводите больше всего времени?
Ван Сяочуань:
Сейчас я провожу большую часть своего времени в чате с нашими коллегами.
Чжан Пэн:
чат?
Ван Сяочуань:
Да, в процессе общения на самом деле происходит процесс непрерывного формирования консенсуса, который заключается в том, чтобы собрать все знания, питание и внешнюю информацию, чтобы все могли сформировать один и тот же мозг.
Потому что мы знаем, что Верх-Вниз может сбиться с пути. Например, почему Google не сделал этого? Когда была построена первая штаб-квартира Google, у нее была своя инерция. Данные получить невозможно, после выхода в интернет стоимость вырастет, а конкретных преимуществ для пользователя не будет, поэтому возникает дилемма для начала бизнеса.
В случае с Google Brain это Button-Up. Его исследователи очень свободны и могут делать все, что захотят, или объединять усилия, поэтому многие из них действительно видели большую модель, но не могут сконцентрироваться на ее выполнении, потому что силы рассеяны. Затем Deepmind сверху вниз, что компания просит сделать, и что все делают. Он сделал AlphaGo, AlphaZero, AlphaFold, и теперь он движется к водородной энергетике, ядерному синтезу и квантовым вычислениям, но он далек от большинства из них.
На самом деле Верх-Вниз и Кнопка-Вверх сегодня называются «вверх и вниз с одним и тем же желанием», чтобы каждый мог полностью выровняться от этого идеала к технологии и познанию, и стать единым целым. Поэтому я думаю, что более ежедневное общение с вами сделает вас мозгом, что является моей самой важной работой.
Чжан Пэн:
Хм, интересно. Поэтому, если небольшая команда приложит всю свою энергию, все смогут разделить одни и те же радости и печали, одни и те же желания и стремления.
Ван Сяочуань:
Это очень важно, мы не будем сегодня говорить об организации и управлении, но станем как бы одним человеком. Сейчас в Baichuan 100 человек, а вчера только 100 человек.
Изменения в уверенности, прогресс Baichuan быстрее, чем ожидалось
Чжан Пэн:
В последние несколько месяцев вы посвятили себя масштабному моделированию, ваш энтузиазм не изменился, но изменилась ли ваша уверенность? Это сложнее, чем вы ожидали в начале? Все еще соответствует вашим ожиданиям?
Ван Сяочуань:
Если быть честным, от всего сердца я думаю, что это проще, чем я думал.
Ожидается, что вы знаете много (трудности) в начале, годы накопления за границей, вычислительные мощности, серверы... Но когда вы работаете со своими коллегами, когда все совместно творят, наш реальный прогресс и темп быстрее, чем ожидалось.
Выяснилось, что мы рассчитывали выпустить модель на 50 миллиардов в третьем квартале, а затем выпустить модель на 175 миллиардов в четвёртом квартале.
Но на самом деле эти вещи не изменятся, но в процессе скорость прогресса приложений и скорость моделей с открытым исходным кодом намного быстрее, чем ожидалось.
А также быстрее, сегодня мы можем начать говорить не только о том, чтобы быть лучшими дома, но и с открытым исходным кодом на международной арене.
Открытый исходный код очень прост, каждый может использовать его в своих целях, это не то, чем вы хвастаетесь. После открытия мы уверены, что сможем занять очень хорошие позиции на международной арене.
Чжан Пэн:
Итак, прежде чем прыгнуть в воду, я беспокоился о том, что не знаю глубины, но когда я действительно прыгнул, я обнаружил, что на самом деле могу наступить на нее до самого дна, поэтому я чувствовал себя намного спокойнее? Это действительно так просто?
Ван Сяочуань:
Разделяйте людей.
Я относительно осторожный человек, я все еще наблюдал, а потом наш Ляньчуан пнул меня и сказал, чтобы он начал это делать. Тогда я сказал хорошо, объявил конец и начал работать. В противном случае это может произойти даже позже, прежде чем вы почувствуете себя готовым. Но как только вы сойдете с поля, вы обнаружите, что будете бежать быстрее, чем вы думали.
После безумия последние технологические разработки, вызывающие озабоченность
Чжан Пэн:
Вы обращаете внимание на технический прогресс крупных моделей в последнее время? Какие документы вас волнуют?
Ван Сяочуань:
Во-первых, просто читать газеты сегодня не так уж и важно. Вы не можете закончить это.
Основы - это те вещи. И сегодня OpenAI перестал рассылать хорошие статьи. Рассылаемые бумаги — это все бумаги с небольшим объемом информации, а урожай ограничен.
В то же время, поскольку все входили в исступление (состояние) раньше, мы называем это «проживанием дня, как года», и это кажется годом (технологического прогресса) каждого дня.
Чжан Пэн:
Дни кажутся годами, потому что они бегут быстро.
Ван Сяочуань:
Да, не скучно. Каждый день столько всего нового. Нервы у всех возбуждены до предела, и они немного ослабли.
Сказав это, в последнее время произошло несколько технологических достижений, которые я считаю очень мощными.
Во-первых, около недели назад OpenAI запустил интерпретатор кода, что является крупным прорывом, но, похоже, в Китае нет нового витка безумия в СМИ.
Раньше все наслаждались безумием, но на этот раз прогресс, интерпретатор кода, я думаю, СМИ не обратили на это должного внимания и сообщили об этом.
И небольшой вчерашний апгрейд, настройка собственной инструкцией.
Это означает, что он начинается с модели LLM до агентов.
Он будет описывать «Кто я и каковы мои характеристики?» Какую роль будет играть ваша большая модель и каковы ее характеристики? Формирование такой связи зависит от того, является ли модель Агентом (с точки зрения).
Этих двух областей недостаточно для того, чтобы каждый обратил внимание и сообщил сегодня.
Решение начать бизнес, наконец, дождалось, пока нейтральная полоса не станет «подходящей для Сяочуань».
Чжан Пэн:
Последний вопрос, вы только что упомянули, что вас «пинком» ввели в эту предпринимательскую ситуацию. Я также знаю, что вы являетесь фанатиком ИИ со времен AlphaGo.
В конце концов, вы решили стать предпринимателем в области ОИИ и крупномасштабных моделей.Будь то Лао Ван (Хойвэнь) или волна в Китае, как они повлияли на ваши решения? Пройдя через такой процесс, какие изменения произошли в вашем сердце?
Ван Сяочуань:
Психическое путешествие на самом деле довольно долгое.
Во время Sogou, к более позднему этапу. Во-первых, мы упустили рекомендательный движок и заключили стратегический альянс с Tencent, в этом случае без новых технологических прорывов развитие очень ограничено. Когда Sogou объединилась с Tencent, я поставил перед собой более интересную задачу: превратить жизнь в математическую модель. Как мы уже говорили, Ньютон превращал физику в математическую модель.
Ранее на платформе Geek Park я говорил об обучении у жизни.
что такое жизнь Это то, о чем я думал в течение 20 лет.
Как превратить жизнь в математическую модель? Это то, о чем я забочусь. Даже при изучении китайской медицины, как превратить жизнь в математическую модель, (позже) обнаружил, что этот путь не может быть гладким.
Меня особенно интересует, как сделать новый прорыв в медицине в рамках научной парадигмы. Я читаю гораздо больше медицинских статей, чем компьютерных статей, я читаю тысячи медицинских статей.
Что произошло за 21 год? В 21 год у большой модели стали появляться некоторые возможности. В то время мы сделали модель десятков миллиардов, чтобы решить проблему перехода от поиска к вопросу и ответу.
На самом деле, прежде чем делать метод ввода, я уже занимался "предугадыванием того, что хочет сказать следующее слово", а потом как его переписать, поиск превратился в вопрос-ответ. На самом деле дверь трогали, но прорыва в технологиях на тот момент не было.
Итак, вы знаете, что я очень заинтересован в том, чтобы превратить жизнь в математическую модель, поэтому после появления большой модели моей первой мыслью было не делать большую модель.Я хотел бы спросить, возможно ли сегодня построить Чат Здоровья в области жизни? Здоровый GPT, цифровой доктор?
Чжан Пэн:
Вы думаете с прикладной точки зрения, направленной на решение проблем.
Ван Сяочуань:
Да, думаю об этом. Тогда я подумал, что если вы сделаете вертикальную модель сегодня, она может быть убита большой моделью. Общий интеллект убивает специализированный интеллект, верно?
Но в данном случае мы обнаружили, что недостаточно сделать только один вид HealthGPT или просто цифрового врача.
В конце концов, надо еще сделать большую модель.
(Решение сделать масштабную модель на следующем этапе) пришло из такого круга не потому, что я думал, что накопил раньше.
Но когда мы создаем большую модель, мы обнаруживаем, что (предыдущее накопление) весьма актуально, например, обработка, связанная с языком.
Даже в крайних случаях ChatGPT является третьим, сделавшим языковую модель суперприложением. Первые два, один поиск и один метод ввода.
Чжан Пэн:
Я чувствую, что ты тоже не сделал этого, извини за два, которые ты сделал раньше.
Ван Сяочуань:
Да, так я обнаружил, что предыдущее накопление сегодня действительно полезно, чего я раньше не ожидал.
Так что я очень эмоционален, Бог очень добр к тебе и дал тебе шанс. В конце поиска есть еще один шанс использовать предыдущий опыт, чтобы сделать то, что не удавалось сделать раньше.
Так вот, никто не говорил "Xiaochuan подходит для поиска", но все говорили "Baichuan подходит для масштабных моделей" Для меня это очень удачная вещь.
Чжан Пэн:
Вот почему вы решили сделать это в первую очередь.
Через несколько месяцев всем может показаться, что это сложно: OpenAI еще не стала сверхприбыльной компанией, и многие люди в Силиконовой долине ставят под сомнение ее бизнес-модель. Так что большая модель будет давить на предпринимателей в этом аспекте, вы почувствовали это давление?
Ван Сяочуань:
Я весь гипер.
Потому что раньше я работал в тени Baidu, а теперь это ничейная земля.Для меня это именно то, что я хочу делать, вместо того, чтобы говорить, что передо мной лидер, а потом ты следуешь. Для меня это то, что мне нравится, новое исследование.
Чжан Пэн:
Особая благодарность Сяочуаню за то, что он поделился с нами сегодня, и поздравления с тем, что вы, наконец, открыли вашу ничейную землю. Я надеюсь увидеть здесь более красивые пейзажи. Аплодисменты посвящаются Сяочуаню, давай!