Em abril, Wang Xiaochuan anunciou seu fim e estabeleceu uma empresa modelo em grande escala "Baichuan Smart".
Em junho, a Baichuan Intelligent lançou um modelo grande de código aberto de 7 bilhões de parâmetros, o Baichuan-7B.
Em julho, a Baichuan Intelligent lançou um grande modelo de código aberto de 13 bilhões de parâmetros, o Baichuan-13B.
Ambos os modelos tiveram bom desempenho em várias avaliações e também foram reconhecidos por um grande número de usuários no país e no exterior.
"O código aberto é muito simples, todos podem usá-lo para seu próprio uso, isso não é algo para se gabar."
Ele se move rápido, mais rápido do que a maioria das pessoas pensa. Até ele próprio ficou surpreso: o progresso será muito mais rápido do que o esperado depois de começar a fazê-lo.
Na conferência AGI Playground, Wang Xiaochuan revelou que os recursos do modelo de código aberto do BCI definitivamente superarão o Llama 2. De acordo com o plano, a Baichuan Intelligent lançará dezenas de bilhões e centenas de bilhões de grandes modelos de código fechado no futuro.
Alguns meses atrás, Wang Xiaochuan queria "ser o OpenAI da China" nas manchetes de vários meios de comunicação.
Este é um slogan que o público adora ouvir, mas pode não ser uma descrição precisa.
O que exatamente Wang Xiaochuan quer fazer? O que ele vai fazer? Após três meses de prática e resultados iniciais alcançados, qual é a sua compreensão em primeira mão do empreendedorismo na era dos modelos em grande escala?
O conteúdo a seguir é da entrevista entre Zhang Peng, fundador e presidente do Geek Park, e Wang Xiaochuan, fundador e CEO da Baichuan Smart, na conferência AGI Playground, editada pelo Founder Park.
Código aberto, o que OpenAI não fez
Zhang Peng:
O que você pode estar mais interessado é que você mudou muito rapidamente após iniciar seu negócio e lançou dois modelos: um 7B e um 13B, e o feedback foi muito bom.
Todos estão muito curiosos, porque no começo pensaram que você seria um OpenAI chinês, mas vendo que você fez coisas de código aberto, o código aberto é um estágio tecnológico ou é um novo modelo para seu pensamento no futuro?
Wang Xiaochuan:
Código aberto, pensamos que é um estágio técnico, na verdade, ser o OpenAI da China não significa copiar seu caminho completo. Ao se comunicar com OpenAI no Vale do Silício, eles idealmente foram muito longe. Por exemplo, quando estão fazendo GPT-4 agora, precisam de mais de 20.000 cartões para fazer cálculos e nunca viram uma escala tão grande na China.
Eles têm orgulho de dizer que estão projetando um modelo de computação que conecta 10 milhões de GPUs.
Qual é o conceito de 10 milhões de cartões? A produção anual da Nvidia é de 1 milhão. 10 milhões de cópias é um plano que pode ir até a lua (moonshot).
Além disso, em termos de como fazer aplicativos, produtos ou até mesmo algumas tecnologias mais amplas, isso pode ser uma deficiência do OpenAI ou pode ser algo com o qual eles não estão particularmente preocupados agora.
Portanto, fazer OpenAI na China será muito diferente do ambiente ecológico nos Estados Unidos.
Após o recente lançamento do código aberto Llama 2, ele causou um frenesi na China, todos sentiram que mudaria o cenário novamente, o que o OpenAI não conseguiu fazer. É uma pena que isso não seja feito pelo Google, mas sim pelo Facebook (Meta), e o Google continua ausente. Mas na China, vimos esse assunto com antecedência e acreditamos que o código aberto e o código fechado terão um estado paralelo no futuro.
Zhang Peng:
Código aberto e código fechado estarão em estado paralelo.
Wang Xiaochuan:
O paralelismo é um pouco como o sistema atual da Apple e o sistema Android. Mesmo quando mais empresas querem participar, não basta usar chamadas de API de código fechado. Esse modelo de código aberto também precisa fornecer 80% dos serviços e, finalmente, contar com serviços de código fechado para fornecer serviços para todos, e os 20% restantes terão muita demanda de código aberto. Os Estados Unidos não tinham antes e a China não tinha um modelo semelhante. Portanto, assim que o Llama for anunciado, será um grande choque para os Estados Unidos, mas também há um boom na China. De fato, avaliações técnicas sérias incluem várias avaliações convencionais como o SuperClue, bem como comparações entre alguns dos principais fabricantes e empresas.Se o Llama for comparado com o Baichuan, é óbvio que nossa qualidade no campo chinês é muito superior à do Llama.
No campo dos modelos de código aberto na China, assim como nossa indústria de telefonia móvel, os Estados Unidos foram usados no início e depois foram pegos sozinhos.
Zhang Peng:
Você acha que o Llama 2 está tão quente recentemente que Baichuan se sairá melhor do que eles?
Wang Xiaochuan:
Llama é Llama 1 e 2.
Em primeiro lugar, lançamos o primeiro modelo de parâmetro 7B em junho deste ano e lançamos o modelo de parâmetro 13B em julho. Entre os indicadores em inglês, o indicador mais importante é o MMLU (Massive Multitask Language Understanding) Este indicador-chave, nossos dois modelos são melhores que o Llama (1) e estão significativamente à frente em chinês.
Sabemos que o processamento chinês do Llama é realmente insuficiente. Comparado com o Llama (1), o inglês do Baichuan pode corresponder parcialmente ao benchmark, e os principais indicadores são excedidos, e o chinês é obviamente melhor. Muitas pessoas estão transformando o Llama em chinês, mas ainda não é tão fácil de usar quanto o Baichuan local.
Após o lançamento do Llama 2, também podemos ver o relatório técnico, que contém cerca de 9 pontos de inovação técnica, 6 dos quais foram alcançados no modelo que estamos desenvolvendo.
Comparado com outros modelos domésticos, nosso pensamento aqui é o mais próximo no momento. Já fizemos 6 pontos, e então não esperávamos 2 pontos, e temos um que é inválido. Portanto, ao comparar com o Llama2, não estamos simplesmente plagiando o pensamento técnico, mas temos nosso próprio pensamento. Nós pensamos que haverá nossas oportunidades no futuro nesta estrada.
Hoje também apelo a todos na China para não pensarem apenas que os países estrangeiros são bons quando o usam. O OpenAI está realmente mais longe agora. Levará tempo para atingir o GPT-3.5 ou um nível semelhante até o final do ano, mas já estamos muito próximos no modelo de código aberto.
Zhang Peng:
Então, seu próximo modelo de código aberto, você acha que será melhor que o Llama 2?
Wang Xiaochuan:
Pelo menos em chinês. No campo do chinês, já é superado. O próximo passo é fazer a voz da China no campo de código aberto do mercado global.
Zhang Peng:
Tanto o inglês quanto o chinês devem ser melhores que o Llama2, isso é visível e alcançável para você.
Wang Xiaochuan:
Eu acho que há uma chance de que isso aconteça em um futuro próximo.
Zhang Peng:
Portanto, seu ponto de vista é: hoje não podemos simplesmente dizer que nosso futuro grande modelo é avançar para o OpenAI - um modelo centralizado de código fechado. O código aberto realmente tem grandes possibilidades. Isso significa que, por um lado, é praticar a tecnologia e demonstrar capacidades técnicas, mas pode sim conter modelos e valores de negócios.
Ao mesmo tempo, com base no código aberto, ainda é algo que as pessoas podem esperar na China, fazendo o melhor modelo chinês do mundo.
Wang Xiaochuan:
Isso resume com bastante precisão.
A experiência de busca é uma má inércia ou um bom ativo?
Zhang Peng:
No passado, muitos investidores acreditavam que usar a experiência de pesquisa para construir um modelo em grande escala definitivamente não daria certo. Após esses meses de prática, você verificou se o seu julgamento original era diferente do deles? Como o acúmulo e as capacidades de pesquisa contribuem para modelos maiores?
Wang Xiaochuan:
Como a conquista de hoje (IA) foi alcançada pela OpenAI, mas o Google não, o primeiro pensamento dos investidores é que essa nova tecnologia é exatamente o oposto da pesquisa. É difícil para eles distinguir se o motivo é tecnologia ou gestão organizacional.
A razão para esse tipo de voz é que não se entende a relação entre a tecnologia de pesquisa e a IA, e a segunda é que a cognição do histórico de pesquisa trará efeitos negativos.
Como as empresas de busca são principalmente Baidu e Google, elas não precisam de financiamento externo e não dizem aos investidores o que é busca. Em particular, a última onda do boom da IA foi causada principalmente por imagens, e todos não estão familiarizados com as conotações técnicas, como NLP em busca.
Em termos de resultados, lançamos o primeiro modelo em junho. Um concorrente disse aos investidores que levaria meio ano para Baichuan produzir o primeiro modelo.Na verdade, levamos apenas 1/3 do tempo para concluí-lo e depois lançamos o segundo. E em um futuro próximo, lançaremos um modelo de código fechado.
Baichuan foi autodesenvolvido desde o primeiro dia, e a partida a frio é muito, muito rápida. Qual é a razão por trás disso?
Hoje sabemos que dados de alta qualidade são a base de grandes modelos, então qual empresa tem um amplo entendimento de dados de idiomas? Na verdade, as empresas de pesquisa trabalham há 20 anos, pensando em como encontrar dados de alta qualidade todos os dias. Por exemplo, primeiro encontre 100 sites de alta qualidade em 1 trilhão de páginas da web e, em seguida, faça a análise da página, incluindo extração de informações, desduplicação, anti-spam e até extração de conteúdo por nível de parágrafo.
Sogou, Baidu e Google fazem esse tipo de trabalho há muito tempo.
O segundo ponto é que, em termos de pool de talentos, é necessário ter recursos algorítmicos e recursos de engenharia focados em recursos de pesquisa, que basicamente também estão procurando empresas. Agora, a ByteDance está usando a equipe de pesquisa para fazer modelos, e o progresso do Baidu também é muito rápido, incluindo o modelo que Shen Xiangyang está fazendo também foi feito pelo vice-presidente do Bing no passado.
Outra coisa para fazer um modelo grande é a avaliação. Avaliar se um modelo grande é bom ou não é, na verdade, um problema doloroso, incluindo questões de raciocínio, perguntas e respostas precisas e criação... Algumas ficam melhores, outras pioram. Portanto, esse sistema de avaliação também é uma capacidade que as empresas de pesquisa acumularam por muito tempo, usando a avaliação para conduzir a iteração de algoritmos subsequentes.
Além disso, a eficiência organizacional das empresas iniciantes é muito maior do que a das grandes fábricas.Com um sistema de tomada de decisão muito flexível, todas as eficiências serão maximizadas.
Zhang Peng:
Então você conversou com o investidor que achava que a busca não era boa o suficiente para grandes modelos?
Wang Xiaochuan:
O nome está marcado com uma cruz e removido, e não sei quem é. Investidores que só olham para os negócios, mas não para a tecnologia, e aqueles que gostam especialmente de carne fresca pequena que voltam dos Estados Unidos para iniciar um negócio, esses investidores apenas desenham e não falam sobre isso.
O velho Wang está certo: "Pequenas inovações dependem de grandes fábricas e grandes inovações dependem de pequenas fábricas"
Zhang Peng:
Você acha que os empreendedores terão oportunidades suficientes nessa onda de mudança tecnológica no futuro? Ou o corpo principal ainda é controlado por gigantes? Como os empreendedores podem aproveitar suas próprias oportunidades?
Wang Xiaochuan:
Embora Wang Huiwen não saiba muito sobre tecnologia, acho que ele disse algo muito certo: a pequena inovação depende de pequenas fábricas e a grande inovação depende de grandes fábricas.
Embora uma grande fábrica tenha muitas vantagens em pessoas, dinheiro e recursos, haverá muitos problemas internos depois que a organização crescer e a eficiência organizacional for severamente restringida.
Se acreditarmos firmemente na chegada da AGI, haverá uma enorme explosão de novas espécies. Essas coisas têm grandes oportunidades para as startups funcionarem. Isso pode ser demonstrado a partir da dedução histórica, pois enquanto houver AGI, haverá novas oportunidades no futuro.
Onde está a dificuldade no meio?
A OpenAI é uma empresa orientada para pesquisa que implementa produtos no mundo real. Você o segue, e o campo de pesquisa pode ter realizações muito deslumbrantes. Mas como se inscrever hoje, nem a OpenAI nem as empresas de tecnologia do Vale do Silício são muito boas nisso. Estou confiante de que a China é muito melhor do que os Estados Unidos em termos de implementação de aplicativos.
O mundo inteiro chegou a um ponto de virada e, agora que a tecnologia está instalada, essa é a primeira dificuldade. A aplicação e os requisitos são a segunda dificuldade, que é chamada de serviço de modelo (model service). Portanto, o desafio agora é, número um, você tem o modelo? Em segundo lugar, ter um modelo significa ter um serviço?
Zhang Peng:
Vender uma API é um serviço?
Wang Xiaochuan:
Eu não acho.
É como se você tivesse tecnologia sem motorista, mas você pode realmente construir um carro? Obviamente não. Também requer a fusão de muitas tecnologias.
Agora, os Estados Unidos estão relativamente confusos sobre a camada de aplicativos, e o problema atual da China é a falta de recursos de modelo. Hoje, muitas empresas iniciantes que fabricam modelos também limitam sua perspectiva a modelos grandes e não sabem muito sobre outras pilhas de tecnologia.
Deixe-me dar o exemplo mais simples: ao fazer um modelo, você certamente encontrará alucinações e pontualidade. Tanto as alucinações quanto a pontualidade podem ser resolvidas pelo próprio modelo grande. Algumas pessoas resolvem a ilusão expandindo os parâmetros para trilhões e dezenas de trilhões; ou usam o aprendizado por reforço. Mas, na verdade, a maneira mais direta é trazer a pesquisa e a recuperação de informações para ele. A combinação de modelos grandes e estes pode formar uma pilha de tecnologia mais completa.
Depois que essa tecnologia foi proposta, já deu um certo sinal. Por exemplo, existe algo chamado banco de dados de vetores, que na verdade é uma pesquisa flexível e é usado principalmente em toB.
Em termos de pesquisa, depois que a tecnologia Transformer foi introduzida em 2018, ela já possui a capacidade de pesquisa semântica. Você já deve ter ouvido falar do índice invertido, que serve para indexar essa rede simbólica.
Depois de 2018, seja nós, o Baidu ou os vetores de bytes nos voltamos para a pesquisa semântica, por trás dessa tecnologia estão três enormes bancos de dados de vetores. A combinação dessas pilhas de tecnologia e o modelo grande pode fazer com que o modelo grande se desenvolva ainda mais. Como você pode ver, a experiência da equipe de pesquisa traz vantagens para a confecção de modelos.
O segundo aspecto é que a tecnologia de modelagem em grande escala está gradualmente se tornando prática. Então, na chamada computação do conhecimento, bancos de dados vetoriais e pesquisas precisam ser adicionados para formar tecnologias e produtos mais completos. Sobre esta questão, todos estão gradualmente formando um consenso.
Falando sobre o tráfego do ChatGPT hoje, todos começaram a se preocupar se ele pode continuar explodindo.
Portanto, ainda precisamos de mais exploração.
Acreditamos que na indústria do entretenimento, o RPG tem amplas perspectivas, mas esse assunto requer a entrada de empresas chinesas para se sair melhor.
Outra coisa é como combinar grandes modelos e pesquisa. Perplexity AI está indo muito bem agora, mas estamos em uma posição passiva. Se os Estados Unidos tiverem oportunidades, os investidores procurarão empresas de comparação chinesas.
Se essa empresa não tiver um modelo grande, ela está apenas chamando API; segundo, ela não possui tecnologia de busca e pode contar apenas com as tecnologias de empresas como Google e Bing, o que não é o ideal.
Zhang Peng:
Há pouco você disse que o número de usuários como o ChatGPT está diminuindo, o que faz com que todos sintam que o novo paradigma pode não ser capaz de romper de uma vez. É um grande desafio para os empreendedores fazerem candidaturas?
Porque pelo que você acabou de falar, em um ambiente com tecnologia imatura, o custo da exploração empreendedora é muito alto. E se o empreendedor apenas usa a API de outra pessoa como uma mudança no paradigma do aplicativo, isso não é particularmente atraente.
Wang Xiaochuan:
Dois dias atrás, o OpenAI acabou de atualizar o interpretador de código e, em seguida, atualizou a instrução personalizada. Para empresas iniciantes, tem havido uma pressão tremenda.
Os investidores americanos também estão preocupados se ainda há chance de empresas iniciantes superarem as gigantes em meio à ansiedade e se elas serão substituídas por grandes empresas depois de metade do trabalho.
Na China, não acho que exista uma empresa de ponta como a OpenAI que segue o caminho dos modelos em grande escala. Ainda está na fase da "Guerra dos Cem Modelos". Hoje, se as empresas que fabricam modelos em grande escala têm a capacidade de fazer aplicativos é uma questão que a China tem muito a zelar pelos Estados Unidos.
Acompanhou o GPT-4? É perigoso perseguir cegamente o modelo de melhoria intergeracional
Zhang Peng:
Isso também levanta a questão de quem na China alcançará o GPT-3.5, ou mesmo o GPT-4
Há também outra voz dizendo que o GPT-3 é suficiente para as empresas resolverem alguns problemas de cenário vertical.
Eu sinto que Xiaochuan e você ainda estão empenhados em perseguir GPT-3.5 e GPT-4. Esse processo de perseguição é difícil? Por que você diz que deve alcançar o nível de GPT-4?
Wang Xiaochuan:
Acho que são duas coisas.
A primeira é o avanço intergeracional da tecnologia, que pode ter um impacto esmagador na ecologia dos produtos subseqüentes. Não importa do ponto de vista ideal, imagine um futuro muito distante, como três, quatro, cinco gerações de caças, em que cada geração pode ter um papel importante. Portanto, neste momento, todos devem se esforçar para buscar uma vantagem em um campo altamente competitivo.
No entanto, no processo de competir por vantagens, todos podem enfrentar uma nova confusão: em que geração podemos realmente realizar superaplicações? O GPT-3.5 ainda não formou um super aplicativo nos Estados Unidos e leva cerca de 50 milhões de yuans para treinar uma vez, o que não inclui o custo dos preparativos e experimentos preliminares. O treinamento GPT-4 pode custar 500 milhões de RMB uma vez. Na geração GPT-4.5, o custo pode chegar a US$ 500 milhões.
Portanto, se não houver um superaplicativo, é muito perigoso simplesmente buscar melhorias tecnológicas. Portanto, precisamos buscar a melhoria das capacidades técnicas de quarta e quinta geração neste campo ao mesmo tempo e, ao mesmo tempo, ter superaplicações. Caso contrário, poderíamos de repente enfrentar pressão para atualizar em duas frentes, ambas as quais precisam ser atualizadas ao mesmo tempo para ter sucesso.
Zhang Peng:
Portanto, cada tipo de onda de tecnologia deve ser capaz de produzir aplicações valiosas.
Wang Xiaochuan:
O que você acabou de dizer está muito certo.
O GPT-3 está basicamente disponível no lado B, mas acho que o motivo pelo qual não está disponível no lado C é que o tempo é muito curto.
Além disso, todos focam demais na OpenAI, não é uma empresa de produtos, nem uma empresa que pode fazer superaplicativos.
Ser capaz de fazer superaplicações requer não apenas atualização técnica, mas também um conhecimento suficiente do produto. Acho que o final do ano é quando a verdade virá à tona.
"Xiaochuan é adequado para fazer modelos grandes" "Após 20 anos de pesquisa, ninguém disse que sou adequado para fazer pesquisas"
Zhang Peng:
É possível que todos superestimem o OpenAI? Ou seja, achamos difícil o OpenAI ser superado porque ele tem um volante de dados. Como você entende isso? O volante de dados existe mesmo?
Wang Xiaochuan:
No início deste ano, eu estava falando sobre o volante de dados e fiquei muito em pânico na época. O pedido do usuário é dado a ele, ele sabe o que o usuário quer e então pode atualizar melhor o modelo.
Até agora, este problema não é grave.
Por exemplo, após o lançamento do Llama 2, todos viram que na fase de ajuste fino os dados deveriam ser refinados e menos, em vez de refinados e mais. Agora todos gradualmente formaram um consenso de que o segredo da tecnologia não está no volante, mas no acúmulo de tecnologia ao longo do tempo.
A força técnica da Anthropic, uma empresa como a de Claude, também aumentou rapidamente, e a OpenAI tem muito mais usuários do que ela, o que também prova que o conceito de volante de dados foi falsificado.
Zhang Peng:
Ou talvez os dados realmente valiosos nele estejam refletidos nas habilidades de falar com as pessoas.Eu me lembro que no início, sua maneira de falar era bastante "burra", mas agora parece mais humana.
Wang Xiaochuan:
Isso não parece muito, e mais está em seu conjunto de dados. Não importa no estágio de pré-treinamento ou no estágio de ajuste fino, como obter dados de alta qualidade? Como combinar e assim por diante, esta é sua principal habilidade. Em particular, eu os ouvi conversando que, por um lado, o GPT-4 está treinando o GPT-3.5 para fazer o 3.5 funcionar com mais eficiência e, ao mesmo tempo, o GPT-4 é usado para produzir parte dos dados exigidos pelo GPT-5 e está otimizando o processo iterativo. Sua iteração internamente é para melhorar os serviços online e ao mesmo tempo gerar alguns dados no futuro.Eu acho que isso é um volante interno.
Zhang Peng:
Então, se você olhar pela perspectiva do Llama, também é possível entregar um modelo que está melhorando constantemente o nível técnico por meio de código aberto. Mas, da perspectiva do OpenAI, pode haver usuários e dados suficientes em um determinado estágio.
Wang Xiaochuan:
Código aberto, código fechado e aplicativos, na verdade, todo mundo ainda está fazendo isso hoje e ainda está em fase de expansão, assim como o oeste dos Estados Unidos.
Zhang Peng:
Portanto, hoje, para uma empresa iniciante como a Baichuan, não é fácil dizer apenas que coopero apenas com uma determinada direção, quer eu queira manter a estratégia vaga, ou chamá-la de rica em possibilidades, posso apostar nessas dimensões.
Wang Xiaochuan:
certo. Meu empreendedorismo desta vez é bastante interessante. Muitas pessoas dizem que Xiao Chuan é especialmente adequado para fazer modelos em grande escala. Eu faço pesquisas há 20 anos e ninguém nunca disse que Xiao Chuan é particularmente adequado para fazer pesquisas.
Fazer buscas na China é 3 anos depois do Baidu. Esse tipo de recuperação é muito difícil. O acúmulo e a experiência de hoje são vistos, e não há ninguém à frente disso. Foi difícil pensar, e com vários anos de atraso, mas hoje me parece que há oportunidades em todos os lugares. Portanto, desde que tenhamos recursos suficientes, podemos entrevistar aqui em todos os lugares e ver se podemos mudar sua impressão original de Sogou hoje.
Não adore cegamente, a China e os Estados Unidos terão diferentes histórias de IA
Zhang Peng:
Estou bastante emocionado com o que Ogawa disse. Você está finalmente parado em uma terra de ninguém.
Em relação ao modelo grande, muitas pessoas podem sentir que precisam aprender e acompanhar o OpenAI. Mas quando você realmente fizer isso, você realmente encontrará a distância e o caminho.
Wang Xiaochuan:
Sim, não seja tão adorador.
Lembro que depois do AlphaGo em 2016, mencionei dois pontos na época: primeiro, se (AI) conseguir prever o próximo frame do vídeo, é a chegada do AGI.
Mas acaba depois que você termina de falar e você não tem capacidade para isso, não tem motivação, capacidade ou condições. Mais tarde, foi dito que, se a máquina dominar o idioma, também haverá uma forte inteligência artificial. Agora a verificação realmente começou.
Então, acho que nós mesmos temos muitas ideias e não estamos atrasados. Só que o momento e as condições não estão maduros. É assim, um professor disse que esse assunto pode ser resolvido, seu professor, você não quer copiar o dever de casa para você, certo?
Outros dizem que pode ser resolvido, ou até mesmo dar uma grande ideia, acho que podemos fazer isso sozinhos, e não precisamos ficar olhando para o dever de casa de outras pessoas e copiá-lo.
Zhang Peng:
Portanto, sua verdadeira diversão aqui não é realizar e reproduzir os outros, mas explorar algumas coisas que nem todo mundo pegou nesta terra de ninguém.
Wang Xiaochuan:
Sim, acho que desta vez tenho a oportunidade de liderar em algumas áreas.
Zhang Peng:
Existe essa possibilidade, então China e Estados Unidos, Baichuan e OpenAI, talvez não seja a mesma história.
Wang Xiaochuan:
De fato, será diferente. A China e os Estados Unidos não são um sistema, um sistema ou uma cultura; portanto, o que surgir no final, seja uma questão técnica ou uma questão de aplicação, será diferente.
Trabalho principal: conversando com colegas, Baichuan Intelligent acabou de ultrapassar 100 pessoas
Zhang Peng:
Como você organiza seu trabalho habitual? Como você distribui seu tempo? Muitas pessoas dizem que o poder da computação é importante e os talentos são importantes, mas acho que só quem realmente começa um negócio sabe o que é mais importante. Então, eu só quero perguntar onde você passa mais tempo?
Wang Xiaochuan:
O que passo a maior parte do meu tempo agora é conversando com nossos colegas.
Zhang Peng:
bater papo?
Wang Xiaochuan:
Sim, durante o processo de bate-papo, na verdade, é um processo de formação contínua de consenso, que é reunir a cognição, a nutrição e as informações externas de todos para que todos possam formar o mesmo cérebro.
Porque sabemos que o Top-Down pode se extraviar. Por exemplo, por que o Google não fez isso? Quando a primeira sede do Google foi feita, ela teve sua inércia. Os dados não podem ser obtidos, o custo aumentará depois de ficar online e não haverá benefícios específicos para o usuário; portanto, há um dilema para iniciar um negócio.
No caso do Google Brain, é Button-Up. Seus pesquisadores são muito livres e podem fazer o que quiserem, ou unir forças, então muitos deles realmente viram o modelo grande, mas não conseguem se concentrar em fazê-lo, porque as forças estão dispersas. Então Deepmind é de cima para baixo, o que a empresa pede para fazer e o que todo mundo faz. Ela fez AlphaGo, AlphaZero, AlphaFold e agora está se movendo em direção à energia do hidrogênio, fusão nuclear e computação quântica, mas está longe da maioria delas.
Na verdade, Top-Down e Button-Up hoje são chamados de "subir e descer com o mesmo desejo", para que todos possam se alinhar totalmente desse ideal à tecnologia e cognição e se tornar uma coisa só. Portanto, acho que mais comunicação diária com você fará de você um cérebro, que é meu trabalho mais importante.
Zhang Peng:
Hmm interessante. Portanto, se uma pequena equipe exerce sua maior energia, todos podem compartilhar as mesmas alegrias e tristezas e os mesmos desejos e vontades.
Wang Xiaochuan:
Isso é muito importante, não falaremos hoje sobre organização e gestão, mas nos tornaremos uma só pessoa. Baichuan agora tem 100 pessoas e atingiu 100 pessoas ontem.
Mudanças na confiança, o progresso de Baichuan é mais rápido do que o esperado
Zhang Peng:
Nos últimos meses, você se dedicou à modelagem em larga escala. Seu entusiasmo não mudou, mas sua confiança mudou? É mais difícil do que você esperava no começo? Ainda está de acordo com suas expectativas?
Wang Xiaochuan:
Se estou sendo honesto, do fundo do meu coração, acho que é mais fácil do que eu pensava.
A expectativa é que você saiba muito (dificuldades) no começo, anos de acúmulo no exterior, poder computacional, servidores...
Descobrimos que esperávamos lançar um modelo de 50 bilhões no terceiro trimestre e, em seguida, lançar um modelo de 175 bilhões no quarto trimestre.
Mas, na verdade, essas coisas não vão mudar, mas no processo, a velocidade do progresso do aplicativo e a velocidade dos modelos de código aberto são muito mais rápidas do que o esperado.
E também mais rápido, hoje podemos começar a dizer, não só para ser o melhor em casa, mas também de código aberto no cenário internacional.
O código aberto é muito simples, todos podem usá-lo para seu próprio uso, isso não é algo para se gabar. Após a abertura, estamos confiantes de que podemos obter uma posição muito boa no cenário internacional.
Zhang Peng:
Então, antes de pular na água, eu estava ansioso por não saber a profundidade, mas quando eu realmente pulei, descobri que poderia pisar nela até o fundo, então me senti muito mais à vontade? É realmente assim tão simples?
Wang Xiaochuan:
Divida as pessoas.
Eu sou uma pessoa relativamente cautelosa, eu ainda estava assistindo, e então nosso Lianchuang me chutou e disse para começar a fazer isso. Aí eu disse tudo bem, anunciei o fim e comecei a trabalhar. Caso contrário, pode ser ainda mais tarde antes de você se sentir pronto. Mas assim que você sair do campo, descobrirá que correrá mais rápido do que pensava.
Após o frenesi, os recentes desenvolvimentos tecnológicos preocupantes
Zhang Peng:
Você está prestando atenção ao progresso técnico de modelos grandes recentemente? Quais papéis te excitam?
Wang Xiaochuan:
Primeiro, apenas ler jornais não é importante hoje. Você não pode terminar.
O básico são essas coisas. E hoje a OpenAI parou de enviar bons papéis. Os papéis que são enviados são todos papéis com pouca informação, e a colheita é limitada.
Ao mesmo tempo, porque todo mundo já entrou em frenesi (estado) antes, chamamos de "viver o dia como um ano", e parece um ano de (progresso tecnológico) todos os dias.
Zhang Peng:
Os dias parecem anos porque correm rápido.
Wang Xiaochuan:
Sim, não chato. Há tantas coisas novas todos os dias. Os nervos de todos foram estimulados ao máximo e estão um pouco fracos.
Dito isso, houve vários avanços tecnológicos recentemente, que eu acho muito poderosos.
Uma delas é que, cerca de uma semana atrás, a OpenAI lançou o interpretador de código, que é um grande avanço, mas parece que não há uma nova rodada de frenesi da mídia na China.
Todo mundo já gostou do frenesi antes, mas desta vez, o progresso, intérprete de código, acho que a mídia não prestou atenção suficiente e noticiou.
E uma pequena atualização ontem, personalize sua própria instrução.
Representa que parte do modelo LLM para Agentes.
Descreverá "Quem sou eu e quais são minhas características?" Que tipo de papel seu grande modelo desempenhará e quais são suas características? A formação desse relacionamento depende se o modelo é um Agente (do ponto de vista).
Essas duas áreas não são suficientes para que todos prestem atenção e relatem hoje.
A decisão de iniciar um negócio finalmente esperou até a terra de ninguém "adequada para Xiaochuan"
Zhang Peng:
A última pergunta, você acabou de mencionar que foi "chutado" para esta situação empresarial. Também sei que você é fanático por IA desde a época do AlphaGo.
No final, você decidiu se tornar um empresário na área de AGI e modelos em grande escala.Seja Lao Wang (Huiwen) ou a onda na China, como eles influenciaram sua tomada de decisão? Depois de passar por tal processo, que tipo de mudança ocorreu em seu coração?
Wang Xiaochuan:
A jornada mental é realmente muito longa.
Na época de Sogou, para a fase posterior. Primeiro, perdemos o mecanismo de recomendação e fizemos uma aliança estratégica com a Tencent, nesse caso, sem novos avanços tecnológicos, o desenvolvimento é muito limitado. Quando a Sogou se fundiu com a Tencent, eu estava desafiando uma coisa mais interessante, que era transformar a vida em um modelo matemático. Como dissemos, Newton estava transformando a física em um modelo matemático.
Antes, na plataforma do Geek Park, eu falava sobre aprender com a vida.
o que é a vida Isso é algo em que venho pensando há 20 anos.
Como transformar a vida em um modelo matemático? É com isso que me importo. Mesmo no estudo da medicina chinesa, como transformar a vida em um modelo matemático, (mais tarde) descobriu que esse caminho pode não ser suave.
Estou particularmente interessado em como fazer novos avanços na medicina dentro do paradigma científico. Eu leio muito mais artigos médicos do que artigos de computador, leio milhares de artigos médicos.
O que aconteceu em 21 anos? Em 21 anos, a grande modelo começou a ter algumas oportunidades. Naquela época, fizemos um modelo de dezenas de bilhões para resolver o problema de mudar a pesquisa para questionar e responder.
Na verdade, antes de fazer o método de entrada, eu já estava empenhado em "prever o que a próxima palavra quer dizer" e, a seguir, como reescrevê-la, a pesquisa se transformou em pergunta e resposta. Na verdade, a porta foi tocada, mas não houve avanço na tecnologia naquela época.
Então, você sabe que estou muito interessado em transformar a vida em um modelo matemático, então, após a chegada do modelo grande, meu primeiro pensamento foi não fazer um modelo grande. Gostaria de perguntar: é possível construir um ChatGPT de saúde no campo da vida hoje? GPT saudável, um médico digital?
Zhang Peng:
Você está pensando de uma perspectiva aplicada de solução de problemas.
Wang Xiaochuan:
Sim, pensando nisso. Então pensei, se você fizer um modelo vertical hoje, pode ser morto pelo modelo grande. A inteligência geral mata a inteligência especializada, certo?
Mas neste caso, descobrimos que não basta fazer apenas um tipo de HealthGPT, ou apenas um médico digital.
No final, ainda é necessário fazer um modelo grande.
(A decisão de fazer um modelo em grande escala na próxima etapa) veio desse círculo, não porque pensei que havia acumulado antes.
Mas quando fazemos um modelo grande, descobrimos que (acumulação anterior) é bastante relevante, como o processamento relacionado à linguagem.
Mesmo ao extremo, o ChatGPT é o terceiro a tornar o modelo de linguagem um super aplicativo. Os dois primeiros, uma pesquisa e um método de entrada.
Zhang Peng:
Eu sinto que você não fez isso também, desculpe pelos dois que você fez antes.
Wang Xiaochuan:
Sim, então descobri que o acúmulo anterior é realmente útil hoje, o que eu não esperava antes.
Então estou muito emocionada, Deus é muito bondoso com você e te deu uma chance. Ao final da busca, há outra chance de usar a experiência anterior para fazer algo que antes não poderia ser feito.
Agora, ninguém disse "Xiaochuan é adequado para pesquisa", mas todos disseram "Baichuan é adequado para modelos em grande escala" Para mim, é uma sorte.
Zhang Peng:
É por isso que você decidiu fazer isso em primeiro lugar.
Depois de alguns meses, todos podem achar isso difícil. A OpenAI ainda não se tornou uma empresa super lucrativa e muitas pessoas no Vale do Silício questionaram seu modelo de negócios. Então o grande modelo vai pressionar os empreendedores nesse aspecto, vocês sentiram essa pressão?
Wang Xiaochuan:
Eu sou todo hiper.
Porque eu trabalhava na sombra do Baidu, mas agora é uma terra de ninguém. Para mim, é exatamente isso que eu quero fazer, em vez de dizer que há um líder na minha frente e você segue. Para mim, é disso que gosto, uma nova exploração.
Zhang Peng:
Agradecimentos especiais a Xiaochuan por compartilhar conosco hoje e parabéns por finalmente inaugurar sua terra de ninguém. Espero ver mais belas paisagens aqui. Aplausos são dedicados a Xiaochuan, vamos lá!
Ver original
Esta página pode conter conteúdo de terceiros, que é fornecido apenas para fins informativos (não para representações/garantias) e não deve ser considerada como um endosso de suas opiniões pela Gate nem como aconselhamento financeiro ou profissional. Consulte a Isenção de responsabilidade para obter detalhes.
Baichuan Intelligent Wang Xiaochuan: Após 100 dias iniciando um negócio com um modelo grande, confirmei que encontrei minha "terra de ninguém"
**Fonte:**FounderPark
Em abril, Wang Xiaochuan anunciou seu fim e estabeleceu uma empresa modelo em grande escala "Baichuan Smart".
Em junho, a Baichuan Intelligent lançou um modelo grande de código aberto de 7 bilhões de parâmetros, o Baichuan-7B.
Em julho, a Baichuan Intelligent lançou um grande modelo de código aberto de 13 bilhões de parâmetros, o Baichuan-13B.
Ambos os modelos tiveram bom desempenho em várias avaliações e também foram reconhecidos por um grande número de usuários no país e no exterior.
"O código aberto é muito simples, todos podem usá-lo para seu próprio uso, isso não é algo para se gabar."
Ele se move rápido, mais rápido do que a maioria das pessoas pensa. Até ele próprio ficou surpreso: o progresso será muito mais rápido do que o esperado depois de começar a fazê-lo.
Na conferência AGI Playground, Wang Xiaochuan revelou que os recursos do modelo de código aberto do BCI definitivamente superarão o Llama 2. De acordo com o plano, a Baichuan Intelligent lançará dezenas de bilhões e centenas de bilhões de grandes modelos de código fechado no futuro.
Alguns meses atrás, Wang Xiaochuan queria "ser o OpenAI da China" nas manchetes de vários meios de comunicação.
Este é um slogan que o público adora ouvir, mas pode não ser uma descrição precisa.
O que exatamente Wang Xiaochuan quer fazer? O que ele vai fazer? Após três meses de prática e resultados iniciais alcançados, qual é a sua compreensão em primeira mão do empreendedorismo na era dos modelos em grande escala?
Código aberto, o que OpenAI não fez
Zhang Peng:
O que você pode estar mais interessado é que você mudou muito rapidamente após iniciar seu negócio e lançou dois modelos: um 7B e um 13B, e o feedback foi muito bom.
Todos estão muito curiosos, porque no começo pensaram que você seria um OpenAI chinês, mas vendo que você fez coisas de código aberto, o código aberto é um estágio tecnológico ou é um novo modelo para seu pensamento no futuro?
Wang Xiaochuan:
Código aberto, pensamos que é um estágio técnico, na verdade, ser o OpenAI da China não significa copiar seu caminho completo. Ao se comunicar com OpenAI no Vale do Silício, eles idealmente foram muito longe. Por exemplo, quando estão fazendo GPT-4 agora, precisam de mais de 20.000 cartões para fazer cálculos e nunca viram uma escala tão grande na China.
Eles têm orgulho de dizer que estão projetando um modelo de computação que conecta 10 milhões de GPUs.
Qual é o conceito de 10 milhões de cartões? A produção anual da Nvidia é de 1 milhão. 10 milhões de cópias é um plano que pode ir até a lua (moonshot).
Além disso, em termos de como fazer aplicativos, produtos ou até mesmo algumas tecnologias mais amplas, isso pode ser uma deficiência do OpenAI ou pode ser algo com o qual eles não estão particularmente preocupados agora.
Portanto, fazer OpenAI na China será muito diferente do ambiente ecológico nos Estados Unidos.
Após o recente lançamento do código aberto Llama 2, ele causou um frenesi na China, todos sentiram que mudaria o cenário novamente, o que o OpenAI não conseguiu fazer. É uma pena que isso não seja feito pelo Google, mas sim pelo Facebook (Meta), e o Google continua ausente. Mas na China, vimos esse assunto com antecedência e acreditamos que o código aberto e o código fechado terão um estado paralelo no futuro.
Zhang Peng:
Código aberto e código fechado estarão em estado paralelo.
Wang Xiaochuan:
O paralelismo é um pouco como o sistema atual da Apple e o sistema Android. Mesmo quando mais empresas querem participar, não basta usar chamadas de API de código fechado. Esse modelo de código aberto também precisa fornecer 80% dos serviços e, finalmente, contar com serviços de código fechado para fornecer serviços para todos, e os 20% restantes terão muita demanda de código aberto. Os Estados Unidos não tinham antes e a China não tinha um modelo semelhante. Portanto, assim que o Llama for anunciado, será um grande choque para os Estados Unidos, mas também há um boom na China. De fato, avaliações técnicas sérias incluem várias avaliações convencionais como o SuperClue, bem como comparações entre alguns dos principais fabricantes e empresas.Se o Llama for comparado com o Baichuan, é óbvio que nossa qualidade no campo chinês é muito superior à do Llama.
No campo dos modelos de código aberto na China, assim como nossa indústria de telefonia móvel, os Estados Unidos foram usados no início e depois foram pegos sozinhos.
Zhang Peng:
Você acha que o Llama 2 está tão quente recentemente que Baichuan se sairá melhor do que eles?
Wang Xiaochuan:
Llama é Llama 1 e 2.
Em primeiro lugar, lançamos o primeiro modelo de parâmetro 7B em junho deste ano e lançamos o modelo de parâmetro 13B em julho. Entre os indicadores em inglês, o indicador mais importante é o MMLU (Massive Multitask Language Understanding) Este indicador-chave, nossos dois modelos são melhores que o Llama (1) e estão significativamente à frente em chinês.
Sabemos que o processamento chinês do Llama é realmente insuficiente. Comparado com o Llama (1), o inglês do Baichuan pode corresponder parcialmente ao benchmark, e os principais indicadores são excedidos, e o chinês é obviamente melhor. Muitas pessoas estão transformando o Llama em chinês, mas ainda não é tão fácil de usar quanto o Baichuan local.
Após o lançamento do Llama 2, também podemos ver o relatório técnico, que contém cerca de 9 pontos de inovação técnica, 6 dos quais foram alcançados no modelo que estamos desenvolvendo.
Comparado com outros modelos domésticos, nosso pensamento aqui é o mais próximo no momento. Já fizemos 6 pontos, e então não esperávamos 2 pontos, e temos um que é inválido. Portanto, ao comparar com o Llama2, não estamos simplesmente plagiando o pensamento técnico, mas temos nosso próprio pensamento. Nós pensamos que haverá nossas oportunidades no futuro nesta estrada.
Hoje também apelo a todos na China para não pensarem apenas que os países estrangeiros são bons quando o usam. O OpenAI está realmente mais longe agora. Levará tempo para atingir o GPT-3.5 ou um nível semelhante até o final do ano, mas já estamos muito próximos no modelo de código aberto.
Então, seu próximo modelo de código aberto, você acha que será melhor que o Llama 2?
Wang Xiaochuan:
Pelo menos em chinês. No campo do chinês, já é superado. O próximo passo é fazer a voz da China no campo de código aberto do mercado global.
Zhang Peng:
Tanto o inglês quanto o chinês devem ser melhores que o Llama2, isso é visível e alcançável para você.
Wang Xiaochuan:
Eu acho que há uma chance de que isso aconteça em um futuro próximo.
Zhang Peng:
Portanto, seu ponto de vista é: hoje não podemos simplesmente dizer que nosso futuro grande modelo é avançar para o OpenAI - um modelo centralizado de código fechado. O código aberto realmente tem grandes possibilidades. Isso significa que, por um lado, é praticar a tecnologia e demonstrar capacidades técnicas, mas pode sim conter modelos e valores de negócios.
Ao mesmo tempo, com base no código aberto, ainda é algo que as pessoas podem esperar na China, fazendo o melhor modelo chinês do mundo.
Wang Xiaochuan:
Isso resume com bastante precisão.
A experiência de busca é uma má inércia ou um bom ativo?
Zhang Peng:
No passado, muitos investidores acreditavam que usar a experiência de pesquisa para construir um modelo em grande escala definitivamente não daria certo. Após esses meses de prática, você verificou se o seu julgamento original era diferente do deles? Como o acúmulo e as capacidades de pesquisa contribuem para modelos maiores?
Wang Xiaochuan:
Como a conquista de hoje (IA) foi alcançada pela OpenAI, mas o Google não, o primeiro pensamento dos investidores é que essa nova tecnologia é exatamente o oposto da pesquisa. É difícil para eles distinguir se o motivo é tecnologia ou gestão organizacional.
A razão para esse tipo de voz é que não se entende a relação entre a tecnologia de pesquisa e a IA, e a segunda é que a cognição do histórico de pesquisa trará efeitos negativos.
Como as empresas de busca são principalmente Baidu e Google, elas não precisam de financiamento externo e não dizem aos investidores o que é busca. Em particular, a última onda do boom da IA foi causada principalmente por imagens, e todos não estão familiarizados com as conotações técnicas, como NLP em busca.
Em termos de resultados, lançamos o primeiro modelo em junho. Um concorrente disse aos investidores que levaria meio ano para Baichuan produzir o primeiro modelo.Na verdade, levamos apenas 1/3 do tempo para concluí-lo e depois lançamos o segundo. E em um futuro próximo, lançaremos um modelo de código fechado.
Baichuan foi autodesenvolvido desde o primeiro dia, e a partida a frio é muito, muito rápida. Qual é a razão por trás disso?
Hoje sabemos que dados de alta qualidade são a base de grandes modelos, então qual empresa tem um amplo entendimento de dados de idiomas? Na verdade, as empresas de pesquisa trabalham há 20 anos, pensando em como encontrar dados de alta qualidade todos os dias. Por exemplo, primeiro encontre 100 sites de alta qualidade em 1 trilhão de páginas da web e, em seguida, faça a análise da página, incluindo extração de informações, desduplicação, anti-spam e até extração de conteúdo por nível de parágrafo.
Sogou, Baidu e Google fazem esse tipo de trabalho há muito tempo.
O segundo ponto é que, em termos de pool de talentos, é necessário ter recursos algorítmicos e recursos de engenharia focados em recursos de pesquisa, que basicamente também estão procurando empresas. Agora, a ByteDance está usando a equipe de pesquisa para fazer modelos, e o progresso do Baidu também é muito rápido, incluindo o modelo que Shen Xiangyang está fazendo também foi feito pelo vice-presidente do Bing no passado.
Outra coisa para fazer um modelo grande é a avaliação. Avaliar se um modelo grande é bom ou não é, na verdade, um problema doloroso, incluindo questões de raciocínio, perguntas e respostas precisas e criação... Algumas ficam melhores, outras pioram. Portanto, esse sistema de avaliação também é uma capacidade que as empresas de pesquisa acumularam por muito tempo, usando a avaliação para conduzir a iteração de algoritmos subsequentes.
Além disso, a eficiência organizacional das empresas iniciantes é muito maior do que a das grandes fábricas.Com um sistema de tomada de decisão muito flexível, todas as eficiências serão maximizadas.
Zhang Peng:
Então você conversou com o investidor que achava que a busca não era boa o suficiente para grandes modelos?
Wang Xiaochuan:
O nome está marcado com uma cruz e removido, e não sei quem é. Investidores que só olham para os negócios, mas não para a tecnologia, e aqueles que gostam especialmente de carne fresca pequena que voltam dos Estados Unidos para iniciar um negócio, esses investidores apenas desenham e não falam sobre isso.
O velho Wang está certo: "Pequenas inovações dependem de grandes fábricas e grandes inovações dependem de pequenas fábricas"
Zhang Peng:
Você acha que os empreendedores terão oportunidades suficientes nessa onda de mudança tecnológica no futuro? Ou o corpo principal ainda é controlado por gigantes? Como os empreendedores podem aproveitar suas próprias oportunidades?
Wang Xiaochuan:
Embora Wang Huiwen não saiba muito sobre tecnologia, acho que ele disse algo muito certo: a pequena inovação depende de pequenas fábricas e a grande inovação depende de grandes fábricas.
Embora uma grande fábrica tenha muitas vantagens em pessoas, dinheiro e recursos, haverá muitos problemas internos depois que a organização crescer e a eficiência organizacional for severamente restringida.
Se acreditarmos firmemente na chegada da AGI, haverá uma enorme explosão de novas espécies. Essas coisas têm grandes oportunidades para as startups funcionarem. Isso pode ser demonstrado a partir da dedução histórica, pois enquanto houver AGI, haverá novas oportunidades no futuro.
Onde está a dificuldade no meio?
A OpenAI é uma empresa orientada para pesquisa que implementa produtos no mundo real. Você o segue, e o campo de pesquisa pode ter realizações muito deslumbrantes. Mas como se inscrever hoje, nem a OpenAI nem as empresas de tecnologia do Vale do Silício são muito boas nisso. Estou confiante de que a China é muito melhor do que os Estados Unidos em termos de implementação de aplicativos.
O mundo inteiro chegou a um ponto de virada e, agora que a tecnologia está instalada, essa é a primeira dificuldade. A aplicação e os requisitos são a segunda dificuldade, que é chamada de serviço de modelo (model service). Portanto, o desafio agora é, número um, você tem o modelo? Em segundo lugar, ter um modelo significa ter um serviço?
Zhang Peng:
Vender uma API é um serviço?
Wang Xiaochuan:
Eu não acho.
É como se você tivesse tecnologia sem motorista, mas você pode realmente construir um carro? Obviamente não. Também requer a fusão de muitas tecnologias.
Agora, os Estados Unidos estão relativamente confusos sobre a camada de aplicativos, e o problema atual da China é a falta de recursos de modelo. Hoje, muitas empresas iniciantes que fabricam modelos também limitam sua perspectiva a modelos grandes e não sabem muito sobre outras pilhas de tecnologia.
Deixe-me dar o exemplo mais simples: ao fazer um modelo, você certamente encontrará alucinações e pontualidade. Tanto as alucinações quanto a pontualidade podem ser resolvidas pelo próprio modelo grande. Algumas pessoas resolvem a ilusão expandindo os parâmetros para trilhões e dezenas de trilhões; ou usam o aprendizado por reforço. Mas, na verdade, a maneira mais direta é trazer a pesquisa e a recuperação de informações para ele. A combinação de modelos grandes e estes pode formar uma pilha de tecnologia mais completa.
Depois que essa tecnologia foi proposta, já deu um certo sinal. Por exemplo, existe algo chamado banco de dados de vetores, que na verdade é uma pesquisa flexível e é usado principalmente em toB.
Em termos de pesquisa, depois que a tecnologia Transformer foi introduzida em 2018, ela já possui a capacidade de pesquisa semântica. Você já deve ter ouvido falar do índice invertido, que serve para indexar essa rede simbólica.
Depois de 2018, seja nós, o Baidu ou os vetores de bytes nos voltamos para a pesquisa semântica, por trás dessa tecnologia estão três enormes bancos de dados de vetores. A combinação dessas pilhas de tecnologia e o modelo grande pode fazer com que o modelo grande se desenvolva ainda mais. Como você pode ver, a experiência da equipe de pesquisa traz vantagens para a confecção de modelos.
O segundo aspecto é que a tecnologia de modelagem em grande escala está gradualmente se tornando prática. Então, na chamada computação do conhecimento, bancos de dados vetoriais e pesquisas precisam ser adicionados para formar tecnologias e produtos mais completos. Sobre esta questão, todos estão gradualmente formando um consenso.
Falando sobre o tráfego do ChatGPT hoje, todos começaram a se preocupar se ele pode continuar explodindo.
Portanto, ainda precisamos de mais exploração.
Acreditamos que na indústria do entretenimento, o RPG tem amplas perspectivas, mas esse assunto requer a entrada de empresas chinesas para se sair melhor.
Outra coisa é como combinar grandes modelos e pesquisa. Perplexity AI está indo muito bem agora, mas estamos em uma posição passiva. Se os Estados Unidos tiverem oportunidades, os investidores procurarão empresas de comparação chinesas.
Se essa empresa não tiver um modelo grande, ela está apenas chamando API; segundo, ela não possui tecnologia de busca e pode contar apenas com as tecnologias de empresas como Google e Bing, o que não é o ideal.
Zhang Peng:
Há pouco você disse que o número de usuários como o ChatGPT está diminuindo, o que faz com que todos sintam que o novo paradigma pode não ser capaz de romper de uma vez. É um grande desafio para os empreendedores fazerem candidaturas?
Porque pelo que você acabou de falar, em um ambiente com tecnologia imatura, o custo da exploração empreendedora é muito alto. E se o empreendedor apenas usa a API de outra pessoa como uma mudança no paradigma do aplicativo, isso não é particularmente atraente.
Wang Xiaochuan:
Dois dias atrás, o OpenAI acabou de atualizar o interpretador de código e, em seguida, atualizou a instrução personalizada. Para empresas iniciantes, tem havido uma pressão tremenda.
Os investidores americanos também estão preocupados se ainda há chance de empresas iniciantes superarem as gigantes em meio à ansiedade e se elas serão substituídas por grandes empresas depois de metade do trabalho.
Na China, não acho que exista uma empresa de ponta como a OpenAI que segue o caminho dos modelos em grande escala. Ainda está na fase da "Guerra dos Cem Modelos". Hoje, se as empresas que fabricam modelos em grande escala têm a capacidade de fazer aplicativos é uma questão que a China tem muito a zelar pelos Estados Unidos.
Acompanhou o GPT-4? É perigoso perseguir cegamente o modelo de melhoria intergeracional
Zhang Peng:
Isso também levanta a questão de quem na China alcançará o GPT-3.5, ou mesmo o GPT-4
Há também outra voz dizendo que o GPT-3 é suficiente para as empresas resolverem alguns problemas de cenário vertical.
Eu sinto que Xiaochuan e você ainda estão empenhados em perseguir GPT-3.5 e GPT-4. Esse processo de perseguição é difícil? Por que você diz que deve alcançar o nível de GPT-4?
Wang Xiaochuan:
Acho que são duas coisas.
A primeira é o avanço intergeracional da tecnologia, que pode ter um impacto esmagador na ecologia dos produtos subseqüentes. Não importa do ponto de vista ideal, imagine um futuro muito distante, como três, quatro, cinco gerações de caças, em que cada geração pode ter um papel importante. Portanto, neste momento, todos devem se esforçar para buscar uma vantagem em um campo altamente competitivo.
No entanto, no processo de competir por vantagens, todos podem enfrentar uma nova confusão: em que geração podemos realmente realizar superaplicações? O GPT-3.5 ainda não formou um super aplicativo nos Estados Unidos e leva cerca de 50 milhões de yuans para treinar uma vez, o que não inclui o custo dos preparativos e experimentos preliminares. O treinamento GPT-4 pode custar 500 milhões de RMB uma vez. Na geração GPT-4.5, o custo pode chegar a US$ 500 milhões.
Portanto, se não houver um superaplicativo, é muito perigoso simplesmente buscar melhorias tecnológicas. Portanto, precisamos buscar a melhoria das capacidades técnicas de quarta e quinta geração neste campo ao mesmo tempo e, ao mesmo tempo, ter superaplicações. Caso contrário, poderíamos de repente enfrentar pressão para atualizar em duas frentes, ambas as quais precisam ser atualizadas ao mesmo tempo para ter sucesso.
Zhang Peng:
Portanto, cada tipo de onda de tecnologia deve ser capaz de produzir aplicações valiosas.
Wang Xiaochuan:
O que você acabou de dizer está muito certo.
O GPT-3 está basicamente disponível no lado B, mas acho que o motivo pelo qual não está disponível no lado C é que o tempo é muito curto.
Além disso, todos focam demais na OpenAI, não é uma empresa de produtos, nem uma empresa que pode fazer superaplicativos.
Ser capaz de fazer superaplicações requer não apenas atualização técnica, mas também um conhecimento suficiente do produto. Acho que o final do ano é quando a verdade virá à tona.
"Xiaochuan é adequado para fazer modelos grandes" "Após 20 anos de pesquisa, ninguém disse que sou adequado para fazer pesquisas"
Zhang Peng:
É possível que todos superestimem o OpenAI? Ou seja, achamos difícil o OpenAI ser superado porque ele tem um volante de dados. Como você entende isso? O volante de dados existe mesmo?
Wang Xiaochuan:
No início deste ano, eu estava falando sobre o volante de dados e fiquei muito em pânico na época. O pedido do usuário é dado a ele, ele sabe o que o usuário quer e então pode atualizar melhor o modelo.
Até agora, este problema não é grave.
Por exemplo, após o lançamento do Llama 2, todos viram que na fase de ajuste fino os dados deveriam ser refinados e menos, em vez de refinados e mais. Agora todos gradualmente formaram um consenso de que o segredo da tecnologia não está no volante, mas no acúmulo de tecnologia ao longo do tempo.
A força técnica da Anthropic, uma empresa como a de Claude, também aumentou rapidamente, e a OpenAI tem muito mais usuários do que ela, o que também prova que o conceito de volante de dados foi falsificado.
Zhang Peng:
Ou talvez os dados realmente valiosos nele estejam refletidos nas habilidades de falar com as pessoas.Eu me lembro que no início, sua maneira de falar era bastante "burra", mas agora parece mais humana.
Wang Xiaochuan:
Isso não parece muito, e mais está em seu conjunto de dados. Não importa no estágio de pré-treinamento ou no estágio de ajuste fino, como obter dados de alta qualidade? Como combinar e assim por diante, esta é sua principal habilidade. Em particular, eu os ouvi conversando que, por um lado, o GPT-4 está treinando o GPT-3.5 para fazer o 3.5 funcionar com mais eficiência e, ao mesmo tempo, o GPT-4 é usado para produzir parte dos dados exigidos pelo GPT-5 e está otimizando o processo iterativo. Sua iteração internamente é para melhorar os serviços online e ao mesmo tempo gerar alguns dados no futuro.Eu acho que isso é um volante interno.
Zhang Peng:
Então, se você olhar pela perspectiva do Llama, também é possível entregar um modelo que está melhorando constantemente o nível técnico por meio de código aberto. Mas, da perspectiva do OpenAI, pode haver usuários e dados suficientes em um determinado estágio.
Wang Xiaochuan:
Código aberto, código fechado e aplicativos, na verdade, todo mundo ainda está fazendo isso hoje e ainda está em fase de expansão, assim como o oeste dos Estados Unidos.
Zhang Peng:
Portanto, hoje, para uma empresa iniciante como a Baichuan, não é fácil dizer apenas que coopero apenas com uma determinada direção, quer eu queira manter a estratégia vaga, ou chamá-la de rica em possibilidades, posso apostar nessas dimensões.
Wang Xiaochuan:
certo. Meu empreendedorismo desta vez é bastante interessante. Muitas pessoas dizem que Xiao Chuan é especialmente adequado para fazer modelos em grande escala. Eu faço pesquisas há 20 anos e ninguém nunca disse que Xiao Chuan é particularmente adequado para fazer pesquisas.
Fazer buscas na China é 3 anos depois do Baidu. Esse tipo de recuperação é muito difícil. O acúmulo e a experiência de hoje são vistos, e não há ninguém à frente disso. Foi difícil pensar, e com vários anos de atraso, mas hoje me parece que há oportunidades em todos os lugares. Portanto, desde que tenhamos recursos suficientes, podemos entrevistar aqui em todos os lugares e ver se podemos mudar sua impressão original de Sogou hoje.
Não adore cegamente, a China e os Estados Unidos terão diferentes histórias de IA
Zhang Peng:
Estou bastante emocionado com o que Ogawa disse. Você está finalmente parado em uma terra de ninguém.
Em relação ao modelo grande, muitas pessoas podem sentir que precisam aprender e acompanhar o OpenAI. Mas quando você realmente fizer isso, você realmente encontrará a distância e o caminho.
Wang Xiaochuan:
Sim, não seja tão adorador.
Lembro que depois do AlphaGo em 2016, mencionei dois pontos na época: primeiro, se (AI) conseguir prever o próximo frame do vídeo, é a chegada do AGI.
Mas acaba depois que você termina de falar e você não tem capacidade para isso, não tem motivação, capacidade ou condições. Mais tarde, foi dito que, se a máquina dominar o idioma, também haverá uma forte inteligência artificial. Agora a verificação realmente começou.
Então, acho que nós mesmos temos muitas ideias e não estamos atrasados. Só que o momento e as condições não estão maduros. É assim, um professor disse que esse assunto pode ser resolvido, seu professor, você não quer copiar o dever de casa para você, certo?
Outros dizem que pode ser resolvido, ou até mesmo dar uma grande ideia, acho que podemos fazer isso sozinhos, e não precisamos ficar olhando para o dever de casa de outras pessoas e copiá-lo.
Zhang Peng:
Portanto, sua verdadeira diversão aqui não é realizar e reproduzir os outros, mas explorar algumas coisas que nem todo mundo pegou nesta terra de ninguém.
Wang Xiaochuan:
Sim, acho que desta vez tenho a oportunidade de liderar em algumas áreas.
Zhang Peng:
Existe essa possibilidade, então China e Estados Unidos, Baichuan e OpenAI, talvez não seja a mesma história.
Wang Xiaochuan:
De fato, será diferente. A China e os Estados Unidos não são um sistema, um sistema ou uma cultura; portanto, o que surgir no final, seja uma questão técnica ou uma questão de aplicação, será diferente.
Trabalho principal: conversando com colegas, Baichuan Intelligent acabou de ultrapassar 100 pessoas
Zhang Peng:
Como você organiza seu trabalho habitual? Como você distribui seu tempo? Muitas pessoas dizem que o poder da computação é importante e os talentos são importantes, mas acho que só quem realmente começa um negócio sabe o que é mais importante. Então, eu só quero perguntar onde você passa mais tempo?
Wang Xiaochuan:
O que passo a maior parte do meu tempo agora é conversando com nossos colegas.
Zhang Peng:
bater papo?
Wang Xiaochuan:
Sim, durante o processo de bate-papo, na verdade, é um processo de formação contínua de consenso, que é reunir a cognição, a nutrição e as informações externas de todos para que todos possam formar o mesmo cérebro.
Porque sabemos que o Top-Down pode se extraviar. Por exemplo, por que o Google não fez isso? Quando a primeira sede do Google foi feita, ela teve sua inércia. Os dados não podem ser obtidos, o custo aumentará depois de ficar online e não haverá benefícios específicos para o usuário; portanto, há um dilema para iniciar um negócio.
No caso do Google Brain, é Button-Up. Seus pesquisadores são muito livres e podem fazer o que quiserem, ou unir forças, então muitos deles realmente viram o modelo grande, mas não conseguem se concentrar em fazê-lo, porque as forças estão dispersas. Então Deepmind é de cima para baixo, o que a empresa pede para fazer e o que todo mundo faz. Ela fez AlphaGo, AlphaZero, AlphaFold e agora está se movendo em direção à energia do hidrogênio, fusão nuclear e computação quântica, mas está longe da maioria delas.
Na verdade, Top-Down e Button-Up hoje são chamados de "subir e descer com o mesmo desejo", para que todos possam se alinhar totalmente desse ideal à tecnologia e cognição e se tornar uma coisa só. Portanto, acho que mais comunicação diária com você fará de você um cérebro, que é meu trabalho mais importante.
Zhang Peng:
Hmm interessante. Portanto, se uma pequena equipe exerce sua maior energia, todos podem compartilhar as mesmas alegrias e tristezas e os mesmos desejos e vontades.
Wang Xiaochuan:
Isso é muito importante, não falaremos hoje sobre organização e gestão, mas nos tornaremos uma só pessoa. Baichuan agora tem 100 pessoas e atingiu 100 pessoas ontem.
Mudanças na confiança, o progresso de Baichuan é mais rápido do que o esperado
Zhang Peng:
Nos últimos meses, você se dedicou à modelagem em larga escala. Seu entusiasmo não mudou, mas sua confiança mudou? É mais difícil do que você esperava no começo? Ainda está de acordo com suas expectativas?
Wang Xiaochuan:
Se estou sendo honesto, do fundo do meu coração, acho que é mais fácil do que eu pensava.
A expectativa é que você saiba muito (dificuldades) no começo, anos de acúmulo no exterior, poder computacional, servidores...
Descobrimos que esperávamos lançar um modelo de 50 bilhões no terceiro trimestre e, em seguida, lançar um modelo de 175 bilhões no quarto trimestre.
Mas, na verdade, essas coisas não vão mudar, mas no processo, a velocidade do progresso do aplicativo e a velocidade dos modelos de código aberto são muito mais rápidas do que o esperado.
E também mais rápido, hoje podemos começar a dizer, não só para ser o melhor em casa, mas também de código aberto no cenário internacional.
O código aberto é muito simples, todos podem usá-lo para seu próprio uso, isso não é algo para se gabar. Após a abertura, estamos confiantes de que podemos obter uma posição muito boa no cenário internacional.
Zhang Peng:
Então, antes de pular na água, eu estava ansioso por não saber a profundidade, mas quando eu realmente pulei, descobri que poderia pisar nela até o fundo, então me senti muito mais à vontade? É realmente assim tão simples?
Wang Xiaochuan:
Divida as pessoas.
Eu sou uma pessoa relativamente cautelosa, eu ainda estava assistindo, e então nosso Lianchuang me chutou e disse para começar a fazer isso. Aí eu disse tudo bem, anunciei o fim e comecei a trabalhar. Caso contrário, pode ser ainda mais tarde antes de você se sentir pronto. Mas assim que você sair do campo, descobrirá que correrá mais rápido do que pensava.
Após o frenesi, os recentes desenvolvimentos tecnológicos preocupantes
Zhang Peng:
Você está prestando atenção ao progresso técnico de modelos grandes recentemente? Quais papéis te excitam?
Wang Xiaochuan:
Primeiro, apenas ler jornais não é importante hoje. Você não pode terminar.
O básico são essas coisas. E hoje a OpenAI parou de enviar bons papéis. Os papéis que são enviados são todos papéis com pouca informação, e a colheita é limitada.
Ao mesmo tempo, porque todo mundo já entrou em frenesi (estado) antes, chamamos de "viver o dia como um ano", e parece um ano de (progresso tecnológico) todos os dias.
Zhang Peng:
Os dias parecem anos porque correm rápido.
Wang Xiaochuan:
Sim, não chato. Há tantas coisas novas todos os dias. Os nervos de todos foram estimulados ao máximo e estão um pouco fracos.
Dito isso, houve vários avanços tecnológicos recentemente, que eu acho muito poderosos.
Uma delas é que, cerca de uma semana atrás, a OpenAI lançou o interpretador de código, que é um grande avanço, mas parece que não há uma nova rodada de frenesi da mídia na China.
Todo mundo já gostou do frenesi antes, mas desta vez, o progresso, intérprete de código, acho que a mídia não prestou atenção suficiente e noticiou.
E uma pequena atualização ontem, personalize sua própria instrução.
Representa que parte do modelo LLM para Agentes.
Descreverá "Quem sou eu e quais são minhas características?" Que tipo de papel seu grande modelo desempenhará e quais são suas características? A formação desse relacionamento depende se o modelo é um Agente (do ponto de vista).
Essas duas áreas não são suficientes para que todos prestem atenção e relatem hoje.
A decisão de iniciar um negócio finalmente esperou até a terra de ninguém "adequada para Xiaochuan"
Zhang Peng:
A última pergunta, você acabou de mencionar que foi "chutado" para esta situação empresarial. Também sei que você é fanático por IA desde a época do AlphaGo.
No final, você decidiu se tornar um empresário na área de AGI e modelos em grande escala.Seja Lao Wang (Huiwen) ou a onda na China, como eles influenciaram sua tomada de decisão? Depois de passar por tal processo, que tipo de mudança ocorreu em seu coração?
Wang Xiaochuan:
A jornada mental é realmente muito longa.
Na época de Sogou, para a fase posterior. Primeiro, perdemos o mecanismo de recomendação e fizemos uma aliança estratégica com a Tencent, nesse caso, sem novos avanços tecnológicos, o desenvolvimento é muito limitado. Quando a Sogou se fundiu com a Tencent, eu estava desafiando uma coisa mais interessante, que era transformar a vida em um modelo matemático. Como dissemos, Newton estava transformando a física em um modelo matemático.
Antes, na plataforma do Geek Park, eu falava sobre aprender com a vida.
o que é a vida Isso é algo em que venho pensando há 20 anos.
Como transformar a vida em um modelo matemático? É com isso que me importo. Mesmo no estudo da medicina chinesa, como transformar a vida em um modelo matemático, (mais tarde) descobriu que esse caminho pode não ser suave.
Estou particularmente interessado em como fazer novos avanços na medicina dentro do paradigma científico. Eu leio muito mais artigos médicos do que artigos de computador, leio milhares de artigos médicos.
O que aconteceu em 21 anos? Em 21 anos, a grande modelo começou a ter algumas oportunidades. Naquela época, fizemos um modelo de dezenas de bilhões para resolver o problema de mudar a pesquisa para questionar e responder.
Na verdade, antes de fazer o método de entrada, eu já estava empenhado em "prever o que a próxima palavra quer dizer" e, a seguir, como reescrevê-la, a pesquisa se transformou em pergunta e resposta. Na verdade, a porta foi tocada, mas não houve avanço na tecnologia naquela época.
Então, você sabe que estou muito interessado em transformar a vida em um modelo matemático, então, após a chegada do modelo grande, meu primeiro pensamento foi não fazer um modelo grande. Gostaria de perguntar: é possível construir um ChatGPT de saúde no campo da vida hoje? GPT saudável, um médico digital?
Zhang Peng:
Você está pensando de uma perspectiva aplicada de solução de problemas.
Wang Xiaochuan:
Sim, pensando nisso. Então pensei, se você fizer um modelo vertical hoje, pode ser morto pelo modelo grande. A inteligência geral mata a inteligência especializada, certo?
Mas neste caso, descobrimos que não basta fazer apenas um tipo de HealthGPT, ou apenas um médico digital.
No final, ainda é necessário fazer um modelo grande.
(A decisão de fazer um modelo em grande escala na próxima etapa) veio desse círculo, não porque pensei que havia acumulado antes.
Mas quando fazemos um modelo grande, descobrimos que (acumulação anterior) é bastante relevante, como o processamento relacionado à linguagem.
Mesmo ao extremo, o ChatGPT é o terceiro a tornar o modelo de linguagem um super aplicativo. Os dois primeiros, uma pesquisa e um método de entrada.
Zhang Peng:
Eu sinto que você não fez isso também, desculpe pelos dois que você fez antes.
Wang Xiaochuan:
Sim, então descobri que o acúmulo anterior é realmente útil hoje, o que eu não esperava antes.
Então estou muito emocionada, Deus é muito bondoso com você e te deu uma chance. Ao final da busca, há outra chance de usar a experiência anterior para fazer algo que antes não poderia ser feito.
Agora, ninguém disse "Xiaochuan é adequado para pesquisa", mas todos disseram "Baichuan é adequado para modelos em grande escala" Para mim, é uma sorte.
Zhang Peng:
É por isso que você decidiu fazer isso em primeiro lugar.
Depois de alguns meses, todos podem achar isso difícil. A OpenAI ainda não se tornou uma empresa super lucrativa e muitas pessoas no Vale do Silício questionaram seu modelo de negócios. Então o grande modelo vai pressionar os empreendedores nesse aspecto, vocês sentiram essa pressão?
Wang Xiaochuan:
Eu sou todo hiper.
Porque eu trabalhava na sombra do Baidu, mas agora é uma terra de ninguém. Para mim, é exatamente isso que eu quero fazer, em vez de dizer que há um líder na minha frente e você segue. Para mim, é disso que gosto, uma nova exploração.
Zhang Peng:
Agradecimentos especiais a Xiaochuan por compartilhar conosco hoje e parabéns por finalmente inaugurar sua terra de ninguém. Espero ver mais belas paisagens aqui. Aplausos são dedicados a Xiaochuan, vamos lá!