Wang Xiaochuan inteligente de Baichuan: después de 100 días de iniciar un negocio con un modelo grande, he confirmado que he encontrado mi "tierra de nadie"
En abril, Wang Xiaochuan anunció su fin y estableció una empresa modelo a gran escala "Baichuan Smart".
En junio, Baichuan Intelligent lanzó un modelo grande de código abierto de 7 mil millones de parámetros, Baichuan-7B.
En julio, Baichuan Intelligent lanzó un modelo grande de código abierto de 13 mil millones de parámetros, Baichuan-13B.
Ambos modelos han tenido un buen desempeño en varias evaluaciones y también han sido reconocidos por una gran cantidad de usuarios en el país y en el extranjero.
"El código abierto es muy simple, todos pueden usarlo para su propio uso, esto no es algo de lo que presumas".
Se mueve rápido, más rápido de lo que la mayoría de la gente piensa. Incluso él mismo se sorprendió: el progreso será mucho más rápido de lo esperado después de empezar a hacerlo.
En la conferencia AGI Playground, Wang Xiaochuan reveló que las capacidades del modelo de código abierto de BCI definitivamente superarán a Llama 2. Según el plan, Baichuan Intelligent lanzará decenas de miles de millones y cientos de miles de millones de modelos grandes de código cerrado en el futuro.
Hace unos meses, Wang Xiaochuan quería "ser la OpenAI de China" en los titulares de varios medios.
Este es un eslogan que al público le encanta escuchar, pero puede que no sea una descripción precisa.
¿Qué quiere hacer exactamente Wang Xiaochuan? ¿Qué es lo que va a hacer? Después de tres meses de práctica y de obtener los resultados iniciales, ¿cuál es su conocimiento de primera mano sobre el espíritu empresarial en la era de los modelos a gran escala?
El siguiente contenido es de la entrevista entre Zhang Peng, fundador y presidente de Geek Park, y Wang Xiaochuan, fundador y director ejecutivo de Baichuan Smart, en la conferencia AGI Playground, editada por Founder Park.
Código abierto, lo que OpenAI no hizo
Zhang Peng:
Lo que más le puede interesar es que se movió muy rápido después de iniciar su negocio y lanzó dos modelos: uno 7B y otro 13B, y la respuesta fue muy buena.
Todos tienen mucha curiosidad, porque al principio pensaron que ibas a ser un OpenAI chino, pero viendo que has hecho cosas de código abierto, ¿es el código abierto una etapa tecnológica o es en sí mismo un nuevo modelo para tu pensamiento en el futuro?
Wang Xiaochuan:
Código abierto, creemos que es una etapa técnica, de hecho, ser OpenAI de China no significa copiar completamente su camino completo. Cuando se comunican con OpenAI en Silicon Valley, idealmente han ido muy lejos. Por ejemplo, cuando están haciendo GPT-4 ahora, necesitan más de 20,000 tarjetas para hacer cálculos, y nunca han visto una escala tan grande en China.
Están orgullosos de decir que están diseñando un modelo informático que conecta 10 millones de GPU entre sí.
¿Cuál es el concepto de 10 millones de tarjetas? La producción anual de Nvidia es de 1 millón. 10 millones de copias es un plan que puede ir a la luna (moonshot).
Además, en términos de cómo hacer aplicaciones, productos e incluso algunas tecnologías más amplias, esto puede ser una deficiencia de OpenAI, o puede ser algo que no les preocupe particularmente ahora.
Entonces, hacer OpenAI en China será muy diferente del entorno ecológico en los Estados Unidos.
Después del reciente lanzamiento del código abierto Llama 2, causó furor en China, todos sintieron que volvería a cambiar el panorama, que es lo que OpenAI no pudo hacer. Es una pena que esto no lo haga Google, sino Facebook (Meta), y Google sigue estando ausente. Pero en China, hemos visto este asunto de antemano, y creemos que el código abierto y el código cerrado tendrán un estado paralelo en el futuro.
Zhang Peng:
El código abierto y el código cerrado estarán en estado paralelo.
Wang Xiaochuan:
El paralelismo es un poco como el sistema actual de Apple y el sistema Android. Incluso cuando más empresas quieran participar, no es suficiente usar llamadas API de código cerrado, este modelo de código abierto también necesita proporcionar el 80% de los servicios y, finalmente, confiar en los servicios de código cerrado para brindar servicios para todos, y el 20% restante tendrá mucha demanda de código abierto. Estados Unidos no lo tenía antes, y China no tenía un modelo similar. Por lo tanto, una vez que se anuncie Llama, será un gran shock para los Estados Unidos, pero también hay un boom en China. De hecho, las evaluaciones técnicas serias incluyen varias evaluaciones principales como SuperClue, así como comparaciones entre algunos de los principales fabricantes y empresas.Si se compara Llama con Baichuan, es obvio que nuestra calidad en el campo chino es muy superior a la de Llama.
En el campo de los modelos de código abierto en China, al igual que nuestra industria de teléfonos móviles, los Estados Unidos se utilizaron al principio y luego se vieron atrapados por sí mismos.
Zhang Peng:
¿Crees que Llama 2 está tan caliente recientemente que Baichuan lo hará mejor que ellos?
Wang Xiaochuan:
Llama es Llama 1 y 2.
En primer lugar, lanzamos el primer modelo de parámetros 7B en junio de este año y lanzamos el modelo de parámetros 13B en julio. Entre los indicadores en inglés, el indicador más importante es MMLU (Massive Multitask Language Understanding).Este indicador clave, nuestros dos modelos son mejores que Llama (1) y están significativamente por delante en chino.
Sabemos que el procesamiento chino de Llama es realmente insuficiente. En comparación con Llama (1), el inglés de Baichuan puede coincidir parcialmente con el punto de referencia, y se superan los indicadores clave, y el chino es obviamente mejor. Muchas personas están transformando Llama en chino, pero aún no es tan fácil de usar como el Baichuan local.
Tras el lanzamiento de Llama 2, también podemos ver el informe técnico, que contiene alrededor de 9 puntos de innovación técnica, 6 de los cuales se han logrado en el modelo que estamos desarrollando.
En comparación con otros modelos domésticos, nuestro pensamiento aquí es el más cercano en la actualidad. Ya hemos hecho 6 puntos, y luego no esperábamos 2 puntos, y tenemos uno que no es válido. Por lo tanto, al comparar con Llama2, no estamos simplemente plagiando en el pensamiento técnico, sino que tenemos nuestro propio pensamiento. Pensamos que habrá nuestras oportunidades en el futuro en este camino.
Hoy también hago un llamado a todos en China para que no solo piensen que los países extranjeros son buenos cuando lo usan. De hecho, OpenAI está más lejos ahora. Tomará tiempo alcanzar GPT-3.5 o un nivel similar para fin de año, pero ya estamos muy cerca en el modelo de código abierto.
Zhang Peng:
Entonces, tu próximo modelo de código abierto, ¿crees que será mejor que Llama 2?
Wang Xiaochuan:
Al menos en chino. En el campo de los chinos, ahora está superado. El próximo paso es hacer la voz de China en el campo de código abierto del mercado global.
Zhang Peng:
Tanto el inglés como el chino deberían ser mejores que Llama2, esto es visible y alcanzable para usted.
Wang Xiaochuan:
Creo que existe la posibilidad de que suceda en un futuro previsible.
Zhang Peng:
Entonces, su punto de vista es: hoy no podemos simplemente decir que nuestro gran modelo futuro es avanzar hacia OpenAI, un modelo centralizado de código cerrado. El código abierto en realidad tiene grandes posibilidades. Entonces significa que, por un lado, es para practicar la tecnología y demostrar capacidades técnicas, pero de hecho puede contener modelos y valores comerciales.
Al mismo tiempo, sobre la base del código abierto, todavía es algo que la gente puede esperar en China haciendo el mejor modelo chino del mundo.
Wang Xiaochuan:
Eso lo resume con bastante precisión.
¿Es la experiencia de búsqueda una mala inercia o un buen activo?
Zhang Peng:
En el pasado, muchos inversores creían que usar la experiencia de búsqueda para construir un modelo a gran escala definitivamente no tendría éxito. Después de estos meses de práctica, ¿ha verificado su juicio original que era diferente al de ellos? ¿Cómo contribuyen la acumulación y las capacidades de búsqueda a modelos más grandes?
Wang Xiaochuan:
Debido a que el logro (IA) de hoy fue logrado por OpenAI, pero Google no, el primer pensamiento de los inversores es que esta nueva tecnología es justo lo contrario de la búsqueda. Es difícil para ellos distinguir si la razón es la tecnología o la gestión organizacional.
La razón de este tipo de voz es que uno no entiende la relación entre la tecnología de búsqueda y la IA, y la segunda es que la cognición del fondo de búsqueda traerá efectos negativos.
Debido a que las empresas de búsqueda son principalmente Baidu y Google, no necesitan financiación externa y no les dicen a los inversores qué es la búsqueda. En particular, la última ola de auge de la IA fue provocada principalmente por imágenes, y nadie está familiarizado con las connotaciones técnicas como la PNL en la búsqueda.
En términos de resultados, lanzamos el primer modelo en junio. Un competidor les dijo a los inversionistas lo antes posible que Baichuan tardaría medio año en producir el primer modelo. De hecho, solo nos tomó 1/3 del tiempo completarlo y luego lanzamos el segundo. Y en un futuro próximo, lanzaremos un modelo de código cerrado.
Baichuan se ha desarrollado a sí mismo desde el primer día, y el arranque en frío es muy, muy rápido. Cuál es la razón detrás de esto?
Hoy sabemos que los datos de alta calidad son la base de modelos grandes, entonces, ¿qué empresa tiene una comprensión amplia de los datos lingüísticos? De hecho, las empresas de búsqueda llevan 20 años trabajando, pensando cada día en cómo encontrar datos de tanta calidad. Por ejemplo, primero encuentre 100 sitios web de alta calidad de 1 billón de páginas web y luego realice análisis de página, incluida la extracción de información, deduplicación, antispam e incluso extraiga contenido por nivel de párrafo.
Sogou, Baidu y Google llevan mucho tiempo haciendo este tipo de trabajo.
El segundo punto es que en términos de bolsa de talento, es necesario tener tanto capacidades algorítmicas como capacidades de ingeniería enfocadas en capacidades de búsqueda, esas personas básicamente también están buscando empresas. Ahora ByteDance está utilizando el equipo de búsqueda para hacer modelos, y el progreso de Baidu también es muy rápido, incluido el modelo que está haciendo Shen Xiangyang también lo hizo el vicepresidente de Bing en el pasado.
Otra cosa para hacer un modelo grande es la evaluación. Evaluar si un modelo grande es bueno o no es en realidad un problema doloroso, que incluye cuestiones de razonamiento, preguntas y respuestas precisas y creación... Algunos mejoran y otros empeoran. ¿Cómo evaluar? Por lo tanto, este sistema de evaluación también es una capacidad que las empresas de búsqueda han acumulado durante mucho tiempo, utilizando la evaluación para impulsar la iteración de algoritmos posteriores.
Además, la eficiencia organizativa de las empresas emergentes es mucho mayor que la de las grandes fábricas.Con un sistema de toma de decisiones muy flexible, se maximizarán todas las eficiencias.
Zhang Peng:
Entonces, ¿hablaste con el inversionista que pensó que la búsqueda no era lo suficientemente buena para modelos grandes?
Wang Xiaochuan:
El nombre está marcado con una cruz y quitado, y no sé quién es. Los inversionistas que solo miran los negocios pero no la tecnología, y aquellos a quienes les gusta especialmente la carne fresca pequeña que regresan de los Estados Unidos para iniciar un negocio, estos inversionistas simplemente lo extraen y no hablan de eso.
El viejo Wang tiene razón: "La pequeña innovación depende de las grandes fábricas, y la gran innovación depende de las pequeñas fábricas".
Zhang Peng:
¿Crees que los emprendedores tendrán suficientes oportunidades en esta ola de cambio tecnológico en el futuro? ¿O el cuerpo principal todavía está controlado por gigantes? ¿Cómo pueden los empresarios aprovechar sus propias oportunidades?
Wang Xiaochuan:
Aunque Wang Huiwen no sabe mucho sobre tecnología, creo que dijo algo muy correcto: la pequeña innovación depende de las pequeñas fábricas y la gran innovación depende de las grandes fábricas.
Aunque una fábrica grande tiene muchas ventajas en cuanto a personas, dinero y recursos, habrá muchos problemas internos después de que la organización crezca y la eficiencia de la organización se vea severamente restringida.
Si creemos firmemente que la llegada de AGI, habrá una gran explosión de nuevas especies. Estas cosas tienen grandes oportunidades para que las nuevas empresas funcionen. Esto se puede demostrar a partir de la deducción histórica, por lo que mientras haya AGI, habrá nuevas oportunidades en el futuro.
¿Dónde está la dificultad en el medio?
OpenAI es una empresa orientada a la investigación que implementa productos en el mundo real. Lo sigues, y el campo de investigación puede tener logros muy deslumbrantes. Pero cómo aplicar hoy, ni OpenAI ni las empresas impulsadas por la tecnología en Silicon Valley son muy buenas en esto. Estoy seguro de que China es mucho mejor que Estados Unidos en términos de implementación de aplicaciones.
El mundo entero ha llegado a un punto de inflexión, y ahora que la tecnología está lista, esta es la primera dificultad. La aplicación y los requisitos son la segunda dificultad, que se llama modelo de servicio (modelo de servicio). Entonces, el desafío ahora es, número uno, ¿tienes el modelo? Segundo, ¿tener un modelo significa tener un servicio?
Zhang Peng:
¿Vender una API es un servicio?
Wang Xiaochuan:
No me parece.
Es como si tuvieras tecnología sin conductor, pero ¿realmente puedes construir un automóvil? Obviamente no. También requiere la fusión de muchas tecnologías.
Ahora, Estados Unidos está relativamente confundido acerca de la capa de aplicación, y el problema actual de China es la falta de capacidades del modelo. Hoy en día, muchas empresas emergentes que fabrican modelos también limitan su perspectiva a modelos grandes y no saben mucho sobre otras pilas de tecnología.
Déjame darte el ejemplo más simple: al hacer un modelo, definitivamente encontrarás alucinaciones y puntualidad. Tanto las alucinaciones como la puntualidad pueden ser resueltas por el propio modelo grande. Algunas personas resuelven la ilusión expandiendo los parámetros a billones y decenas de billones, o usan el aprendizaje por refuerzo. Pero, de hecho, la forma más directa es incorporar la búsqueda y la recuperación de información. La combinación de modelos grandes y estos pueden formar una pila tecnológica más completa.
Después de que se propuso esta tecnología, ya ha sido un poco una señal. Por ejemplo, hay algo llamado base de datos de vectores, que en realidad es una búsqueda flexible y se usa principalmente en toB.
En términos de búsqueda, después de que se introdujera la tecnología Transformer en 2018, ya tiene la capacidad de búsqueda semántica. Es posible que hayas oído hablar del índice invertido, que sirve para indexar esta red simbólica.
Después de 2018, ya sea que seamos nosotros, Baidu o los vectores de bytes hemos recurrido a la búsqueda semántica, detrás de esta tecnología hay tres enormes bases de datos de vectores. La combinación de estas pilas de tecnología y el modelo grande puede hacer que el modelo grande se desarrolle aún más. Como puede ver, la experiencia del equipo de búsqueda tiene ventajas para hacer modelos.
El segundo aspecto es que la tecnología de modelos a gran escala se está volviendo práctica gradualmente. Luego, en la llamada computación del conocimiento, se deben agregar bases de datos vectoriales y búsquedas para formar tecnologías y productos más completos. Sobre este tema, todos están formando gradualmente un consenso.
Hablando sobre el tráfico de ChatGPT hoy, todos comenzaron a preocuparse sobre si puede continuar explotando.
Así que todavía necesitamos más exploración.
Creemos que en la industria del entretenimiento, los juegos de rol tienen amplias perspectivas, pero este asunto requiere la entrada de empresas chinas para hacerlo mejor.
Otra cosa es cómo combinar grandes modelos y búsqueda. Perplejidad AI lo está haciendo muy bien ahora, pero estamos en una posición pasiva. Si Estados Unidos tiene oportunidades, los inversores buscarán empresas de comparación chinas.
Si esta empresa no tiene un modelo grande, solo está llamando API; segundo, no tiene tecnología de búsqueda y solo puede confiar en las tecnologías de empresas como Google y Bing, lo cual no es lo ideal.
Zhang Peng:
Justo ahora dijiste que la cantidad de usuarios como ChatGPT está disminuyendo, lo que hace que todos sientan que es posible que el nuevo paradigma no pueda abrirse camino de una sola vez. ¿Es este un gran desafío para los emprendedores hacer aplicaciones?
Porque según lo que acabas de decir, en un entorno con tecnología inmadura, el costo de la exploración empresarial es muy alto. Y si el emprendedor simplemente usa la API de otra persona como un cambio en el paradigma de la aplicación, no es particularmente llamativo.
Wang Xiaochuan:
Hace dos días, OpenAI acaba de actualizar el intérprete de código y luego actualizó la instrucción personalizada. Para las empresas de nueva creación, ha habido una enorme presión.
Los inversionistas estadounidenses también están preocupados por si todavía existe la posibilidad de que las empresas emergentes superen a los gigantes en medio de la ansiedad, y si serán reemplazadas por grandes empresas después de la mitad de su trabajo.
En China, no creo que haya una empresa líder como OpenAI que tome el camino de los modelos a gran escala. Todavía está en la etapa de "Guerra de los Cien Modelos". Hoy en día, si las empresas que fabrican modelos a gran escala tienen la capacidad de hacer aplicaciones es un asunto que China tiene mucho que vigilar frente a Estados Unidos.
¿Ponerse al día con GPT-4? Es peligroso perseguir ciegamente el modelo de mejora intergeneracional
Zhang Peng:
Esto también plantea la pregunta de quién en China alcanzará GPT-3.5, o incluso GPT-4.
También hay otra voz que dice que GPT-3 es suficiente para que las empresas resuelvan algunos problemas de escena vertical.
Siento que Xiaochuan y tú todavía están comprometidos a perseguir GPT-3.5 y GPT-4. ¿Es difícil este proceso de persecución? ¿Por qué dices que debes alcanzar el nivel de GPT-4?
Wang Xiaochuan:
Creo que son dos cosas.
El primero es el avance intergeneracional de la tecnología, que puede tener un impacto devastador en la ecología de los productos posteriores. No importa desde un punto de vista ideal, imagina un futuro que está fuera de tu alcance, como tres, cuatro, cinco generaciones de aviones de combate, en el que cada generación puede desempeñar un papel importante. Entonces, en este momento, todos deben esforzarse por buscar una ventaja en un campo altamente competitivo.
Sin embargo, en el proceso de competir por las ventajas, todos pueden enfrentar una nueva confusión: ¿En qué generación podemos realmente realizar súper aplicaciones? GPT-3.5 aún no ha formado una súper aplicación en los Estados Unidos, y se necesitan alrededor de 50 millones de yuanes para entrenar una vez, lo que no incluye el costo de los preparativos y experimentos preliminares. El entrenamiento de GPT-4 puede costar 500 millones de RMB una vez. Para la generación GPT-4.5, el costo podría alcanzar los 500 millones de dólares.
Por lo tanto, si no hay una súper aplicación, es muy peligroso simplemente buscar la mejora tecnológica. Por lo tanto, debemos buscar la mejora de las capacidades técnicas de cuarta y quinta generación en este campo al mismo tiempo y, al mismo tiempo, tener súper aplicaciones. De lo contrario, podríamos enfrentar repentinamente la presión de actualizar en dos frentes, los cuales deben actualizarse al mismo tiempo para tener éxito.
Zhang Peng:
Por lo tanto, cada tipo de tecnología de onda debería poder producir aplicaciones valiosas.
Wang Xiaochuan:
Lo que acabas de decir es bastante correcto.
GPT-3 está básicamente disponible en el lado B, pero creo que la razón por la que no está disponible en el lado C es que el tiempo es demasiado corto.
Además, todo el mundo se centra demasiado en OpenAI, no es una empresa de productos, ni una empresa que pueda hacer superaplicaciones.
Ser capaz de hacer súper aplicaciones requiere no solo ponerse al día técnicamente, sino también una comprensión suficiente del producto. Creo que a finales de año es cuando la verdad saldrá a la luz.
"Xiaochuan es adecuado para hacer modelos grandes" "Después de 20 años de búsqueda, nadie dijo que soy adecuado para realizar búsquedas"
Zhang Peng:
¿Es posible que todo el mundo sobreestime OpenAI? Es decir, pensamos que OpenAI es difícil de superar porque tiene un volante de datos, ¿cómo lo entiendes?, ¿realmente existe el volante de datos?
Wang Xiaochuan:
A principios de este año, estaba hablando sobre el volante de datos y estaba muy asustado en ese momento. Se le da la solicitud del usuario, sabe lo que quiere el usuario y luego puede actualizar mejor el modelo.
Hasta ahora, este problema no es grave.
Por ejemplo, después del lanzamiento de Llama 2, todos vieron que en la etapa de ajuste, los datos deben refinarse y menos, en lugar de refinarse y más. Ahora, gradualmente, todos han formado un consenso de que el secreto de la tecnología no está en el volante, sino en la acumulación de tecnología a lo largo del tiempo.
La fuerza técnica de Anthropic, una empresa como la de Claude, también ha aumentado rápidamente, y OpenAI tiene muchos más usuarios que ella, lo que también prueba que el concepto del volante de datos ha sido falsificado.
Zhang Peng:
O tal vez los datos realmente valiosos que contiene se reflejan en las habilidades para hablar con la gente. Recuerdo que en los primeros tiempos, su forma de hablar era bastante "tonta", pero ahora se siente más humana.
Wang Xiaochuan:
Esto no parece mucho, y más radica en su conjunto de datos. No importa en la etapa previa al entrenamiento o en la etapa de ajuste, ¿cómo obtener datos de alta calidad? Cómo emparejar y así sucesivamente, esta es su habilidad central. En particular, los escuché hablar de que, por un lado, GPT-4 está entrenando a GPT-3.5 para que 3.5 funcione de manera más eficiente y, al mismo tiempo, GPT-4 se usa para producir parte de los datos requeridos por GPT-5 y está optimizando el proceso iterativo. Su iteración interna es para mejorar los servicios en línea y, al mismo tiempo, generar algunos datos en el futuro. Creo que esto es un volante interno.
Zhang Peng:
Entonces, si lo mira desde la perspectiva de Llama, también es posible entregar un modelo que mejora constantemente el nivel técnico a través de código abierto. Pero desde la perspectiva de OpenAI, puede haber suficientes usuarios y datos en una determinada etapa.
Wang Xiaochuan:
Código abierto, código cerrado y aplicaciones, de hecho, todo el mundo todavía lo está haciendo hoy, y todavía está en la etapa de expansión al igual que el oeste de los Estados Unidos.
Zhang Peng:
Entonces, hoy en día, para una empresa nueva como Baichuan, no es fácil decir simplemente que solo coopero con cierta dirección, ya sea que quiera mantener la estrategia vaga o llamarla rica en posibilidades, puedo apostar en estas dimensiones.
Wang Xiaochuan:
bien. Mi emprendimiento esta vez es bastante interesante. Mucha gente dice que Xiao Chuan es especialmente adecuado para hacer modelos a gran escala. He estado buscando durante 20 años y nadie ha dicho que Xiao Chuan sea particularmente adecuado para hacer búsquedas.
Hacer búsquedas en China es 3 años más tarde que en Baidu, este tipo de ponerse al día es muy difícil. Se mira la acumulación y la experiencia de hoy, y no hay nadie frente a ella. Fue difícil pensar, y fue varios años tarde, pero hoy me parece que hay oportunidades en todos lados. Por lo tanto, siempre que tengamos suficientes capacidades, podemos entrevistarnos aquí en todas partes y ver si podemos cambiar su impresión original de Sogou hoy.
No adores a ciegas, China y Estados Unidos tendrán diferentes historias de IA
Zhang Peng:
Estoy bastante conmovido por lo que dijo Ogawa. Finalmente estás parado en tierra de nadie.
Con respecto al modelo grande, muchas personas pueden sentir que necesitan aprender y ponerse al día con OpenAI. Pero cuando realmente hagas esto, realmente encontrarás la distancia y el camino.
Wang Xiaochuan:
Sí, no seas tan adorador.
Recuerdo que después de AlphaGo en 2016, mencioné dos puntos en ese momento: Primero, si (AI) puede predecir el próximo cuadro de video, es la llegada de AGI.
Pero se acaba después de que terminas de hablar y no tienes la capacidad para hacerlo, no tienes la motivación, la capacidad o las condiciones. Más tarde, se dijo que si la máquina domina el lenguaje, también vendrá una fuerte inteligencia artificial. Ahora la verificación realmente ha comenzado.
Así que creo que nosotros mismos tenemos muchas ideas, y no nos quedamos atrás. Es solo que el momento y las condiciones no están maduros. Es como si un maestro de escuela dijera que este asunto se puede resolver, maestro de escuela, no querrás copiarte la tarea, ¿verdad?
Otros te dicen que se puede solucionar, o incluso te dan una gran idea, yo creo que podemos hacerlo nosotros mismos, y no necesitamos mirar la tarea de los demás y copiarla.
Zhang Peng:
Así que tu verdadera diversión aquí no es darte cuenta y reproducir otras, sino explorar algunas cosas que no todo el mundo ha captado en esta tierra de nadie.
Wang Xiaochuan:
Sí, creo que esta vez tengo la oportunidad de liderar en algunas áreas.
Zhang Peng:
Existe tal posibilidad, por lo que China y los Estados Unidos, Baichuan y OpenAI, tal vez no sea la misma historia.
Wang Xiaochuan:
Efectivamente, será diferente. China y Estados Unidos no son un sistema, un sistema o una cultura, por lo que lo que surja al final, ya sea un problema técnico o de aplicación, será diferente.
Trabajo principal: chateando con colegas, Baichuan Intelligent acaba de superar a 100 personas
Zhang Peng:
¿Cómo organizas tu trabajo habitual? ¿Cómo distribuyes tu tiempo? Mucha gente dice que el poder de cómputo es importante y los talentos son importantes, pero creo que solo aquellos que realmente inician un negocio saben qué es lo más importante. Así que solo quiero preguntarte ¿dónde pasas la mayor parte del tiempo?
Wang Xiaochuan:
A lo que paso la mayor parte de mi tiempo ahora es a conversar con nuestros colegas.
Zhang Peng:
¿charlar?
Wang Xiaochuan:
Sí, durante el proceso de chat, en realidad es un proceso de formación continua de consenso, que consiste en recopilar la cognición, la nutrición y la información externa de todos para que todos puedan formar el mismo cerebro.
Porque sabemos que Top-Down puede extraviarse. Por ejemplo, ¿por qué Google no lo logró? Cuando se hizo la primera sede de Google, tuvo su inercia. Los datos no se pueden obtener, el costo aumentará después de conectarse y no habrá beneficios específicos para el usuario, por lo que existe un dilema para iniciar un negocio.
En el caso de Google Brain, es Button-Up. Sus investigadores son muy libres y pueden hacer lo que quieran, o unir sus fuerzas, por lo que muchos de ellos han visto el modelo grande, pero no pueden hacerlo juntos porque las fuerzas están dispersas. Luego, Deepmind es de arriba hacia abajo, lo que la empresa pide hacer y lo que todos hacen. Ha hecho AlphaGo, AlphaZero, AlphaFold y ahora se está moviendo hacia la energía del hidrógeno, la fusión nuclear y la computación cuántica, pero está lejos de la mayoría de ellos.
De hecho, Top-Down y Button-Up hoy se denominan "arriba y abajo con el mismo deseo", para que todos puedan alinearse completamente desde este ideal a la tecnología y la cognición, y convertirse en una sola cosa. Así que creo que más comunicación diaria contigo te hará un cerebro, que es mi trabajo más importante.
Zhang Peng:
Mmm interesante. Por lo tanto, si un pequeño equipo ejerce su mayor energía, todos pueden compartir las mismas alegrías y tristezas, y los mismos deseos y anhelos.
Wang Xiaochuan:
Esto es muy importante, hoy no hablaremos de organización y gestión, pero seremos como una sola persona. Baichuan ahora tiene 100 personas, y ayer llegó a 100 personas.
Cambios en la confianza, el progreso de Baichuan es más rápido de lo esperado
Zhang Peng:
En los últimos meses te has dedicado al modelismo a gran escala, tu entusiasmo no ha cambiado, pero ¿ha cambiado tu confianza? ¿Es más difícil de lo que esperabas al principio? ¿Sigues en línea con tus expectativas?
Wang Xiaochuan:
Si soy honesto, desde el fondo de mi corazón, creo que es más fácil de lo que pensaba.
La expectativa es que sepas mucho (dificultades) al principio, años de acumulación en el extranjero, poder de cómputo, servidores... Pero cuando trabajas con tus colegas, cuando todos están co-creando, nuestro progreso y ritmo reales son más rápidos de lo esperado.
Resultó que esperábamos lanzar un modelo de 50 mil millones en el tercer trimestre y luego lanzar un modelo de 175 mil millones en el cuarto trimestre.
Pero, de hecho, estas cosas no cambiarán, pero en el proceso, la velocidad del progreso de la aplicación y la velocidad de los modelos de código abierto son mucho más rápidas de lo esperado.
Y también más rápido, hoy podemos empezar a decir, no solo para ser los mejores en casa, sino también de código abierto en el escenario internacional.
El código abierto es muy simple, todos pueden usarlo para su propio uso, esto no es algo de lo que presumas. Después de la apertura, confiamos en que podemos obtener una muy buena posición en el escenario internacional.
Zhang Peng:
Entonces, antes de saltar al agua, estaba ansioso por no saber la profundidad, pero cuando realmente salté, descubrí que podía pisarlo hasta el fondo, ¿entonces me sentí mucho más a gusto? ¿Es realmente tan simple?
Wang Xiaochuan:
Divide a la gente.
Soy una persona relativamente cautelosa, todavía estaba mirando, y luego nuestro Lianchuang me pateó y me dijo que comenzara a hacerlo. Entonces dije está bien, anuncié el final y comencé a trabajar. De lo contrario, puede ser incluso más tarde antes de que se sienta listo. Pero una vez que salgas del campo, encontrarás que correrás más rápido de lo que pensabas.
Después del frenesí, los recientes desarrollos tecnológicos preocupantes
Zhang Peng:
¿Estás prestando atención al progreso técnico de los modelos grandes recientemente? ¿Qué papeles te emocionan?
Wang Xiaochuan:
En primer lugar, solo leer documentos no es importante hoy en día. No puedes terminarlo.
Los básicos son esas cosas. Y hoy OpenAI ha dejado de enviar buenos artículos. Los papeles que se envían son todos papeles con poca información y la cosecha es limitada.
Al mismo tiempo, debido a que todos han entrado en un frenesí (estado) antes, lo llamamos "vivir el día como un año", y parece como un año de (progreso tecnológico) todos los días.
Zhang Peng:
Los días se sienten como años porque corre rápido.
Wang Xiaochuan:
Sí, no aburrido. Hay tantas cosas nuevas todos los días. Los nervios de todos han sido estimulados a un punto alto y están un poco débiles.
Habiendo dicho eso, ha habido varios avances tecnológicos recientemente, que creo que son muy poderosos.
Una es que, hace aproximadamente una semana, OpenAI lanzó el intérprete de código, que es un gran avance, pero parece que no hay una nueva ronda de frenesí mediático en China.
Todos han disfrutado del frenesí antes, pero esta vez, el progreso, el intérprete de código, creo que los medios no le prestaron suficiente atención y lo informaron.
Y una pequeña actualización ayer, personaliza tus propias instrucciones.
Representa que parte del modelo LLM a Agentes.
Describirá "¿Quién soy y cuáles son mis características?" ¿Qué tipo de papel desempeñará su gran modelo y cuáles son sus características? Formar tal relación depende de si el modelo es un Agente (desde el punto de vista).
Estas dos áreas no son suficientes para que todos presten atención e informen hoy.
La decisión de iniciar un negocio finalmente esperó hasta que la tierra de nadie "adecuada para Xiaochuan"
Zhang Peng:
La última pregunta, acabas de mencionar que te "empujaron" a esta situación empresarial. También sé que ha sido un fanático de la IA desde la época de AlphaGo.
Al final, decidiste convertirte en un emprendedor en el campo de AGI y modelos a gran escala. Ya sea Lao Wang (Huiwen) o la ola en China, ¿cómo han influido en tu toma de decisiones? Después de pasar por tal proceso, ¿qué tipo de cambios han tenido lugar en tu corazón?
Wang Xiaochuan:
El viaje mental es en realidad bastante largo.
En el momento de Sogou, a la etapa posterior. Primero, echamos de menos el motor de recomendación e hicimos una alianza estratégica con Tencent, en este caso, sin nuevos avances tecnológicos, el desarrollo es muy limitado. Cuando Sogou se fusionó con Tencent, estaba desafiando algo más interesante, que era convertir la vida en un modelo matemático. Como dijimos, Newton estaba convirtiendo la física en un modelo matemático.
En la plataforma de Geek Park antes, estaba hablando de aprender de la vida.
qué es la vida Esto es algo en lo que he estado pensando durante 20 años.
¿Cómo convertir la vida en un modelo matemático? Esto es lo que me importa. Incluso en el estudio de la medicina china, cómo convertir la vida en un modelo matemático, (más tarde) descubrió que este camino puede no ser fácil.
Estoy particularmente interesado en cómo hacer nuevos avances en medicina dentro del paradigma científico. Leí muchos más artículos médicos que artículos de computadora, leí miles de artículos médicos.
¿Qué pasó en 21 años? En 21 años, la gran modelo ha comenzado a tener algunas oportunidades. En ese momento, hicimos un modelo de decenas de miles de millones para resolver el problema de cambiar la búsqueda a pregunta y respuesta.
De hecho, antes de hacer el método de entrada, ya estaba ocupado en "predecir lo que quiere decir la siguiente palabra", y luego cómo reescribirlo, la búsqueda se convirtió en una pregunta y respuesta. De hecho, se tocó la puerta, pero no hubo ningún avance tecnológico en ese momento.
Entonces, saben que estoy muy interesado en convertir la vida en un modelo matemático, así que después de la llegada del modelo grande, mi primer pensamiento fue no hacer un modelo grande. Quiero preguntar, ¿es posible construir un Health ChatGPT en el campo de la vida hoy? GPT saludable, ¿un médico digital?
Zhang Peng:
Estás pensando desde una perspectiva aplicada de resolución de problemas.
Wang Xiaochuan:
Sí, pensando en ello. Entonces pensé, si haces un modelo vertical hoy, podría ser eliminado por el modelo grande. La inteligencia general mata a la inteligencia especializada, ¿no?
Pero en este caso, encontramos que no es suficiente hacer solo un tipo de HealthGPT, o solo un médico digital.
Al final, todavía es necesario hacer un modelo grande.
(La decisión de hacer un modelo a gran escala en la siguiente etapa) vino de ese círculo, no porque pensara que lo había acumulado antes.
Pero cuando hacemos un modelo grande, encontramos que (la acumulación previa) es bastante relevante, como el procesamiento relacionado con el lenguaje.
Incluso al extremo, ChatGPT es el tercero en hacer del modelo de lenguaje una súper aplicación. Los dos primeros, uno de búsqueda y otro de entrada.
Zhang Peng:
Siento que no hiciste esto también, lo siento por los dos que hiciste antes.
Wang Xiaochuan:
Sí, entonces descubrí que la acumulación anterior es realmente útil hoy, lo cual no esperaba antes.
Así que estoy muy emocionado, Dios es muy amable contigo y te dio una oportunidad. Al final de la búsqueda, existe otra oportunidad de usar la experiencia previa para hacer algo que antes no se podía hacer.
Ahora, nadie dijo "Xiaochuan es adecuado para la búsqueda", pero todos dijeron "Baichuan es adecuado para modelos a gran escala". Para mí, es algo muy afortunado.
Zhang Peng:
Es por eso que decidiste hacerlo en primer lugar.
Después de unos meses, todo el mundo puede encontrar esto difícil OpenAI aún no se ha convertido en una empresa muy rentable, y muchas personas en Silicon Valley han cuestionado su modelo de negocio. Entonces el gran modelo va a presionar a los empresarios en este aspecto ¿Has sentido esa presión?
Wang Xiaochuan:
Estoy todo hiperactivo.
Porque solía trabajar a la sombra de Baidu, y ahora es tierra de nadie. Para mí, esto es exactamente lo que quiero hacer, en lugar de decir que hay un líder frente a mí, y luego lo sigues. Para mí, esto es lo que me gusta, una nueva exploración.
Zhang Peng:
Un agradecimiento especial a Xiaochuan por compartir con nosotros hoy, y felicitaciones por finalmente marcar el comienzo de su tierra de nadie. Espero ver más paisajes hermosos aquí. ¡Aplausos dedicados a Xiaochuan, vamos!
Ver originales
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
Wang Xiaochuan inteligente de Baichuan: después de 100 días de iniciar un negocio con un modelo grande, he confirmado que he encontrado mi "tierra de nadie"
**Fuente:**FounderPark
En abril, Wang Xiaochuan anunció su fin y estableció una empresa modelo a gran escala "Baichuan Smart".
En junio, Baichuan Intelligent lanzó un modelo grande de código abierto de 7 mil millones de parámetros, Baichuan-7B.
En julio, Baichuan Intelligent lanzó un modelo grande de código abierto de 13 mil millones de parámetros, Baichuan-13B.
Ambos modelos han tenido un buen desempeño en varias evaluaciones y también han sido reconocidos por una gran cantidad de usuarios en el país y en el extranjero.
"El código abierto es muy simple, todos pueden usarlo para su propio uso, esto no es algo de lo que presumas".
Se mueve rápido, más rápido de lo que la mayoría de la gente piensa. Incluso él mismo se sorprendió: el progreso será mucho más rápido de lo esperado después de empezar a hacerlo.
En la conferencia AGI Playground, Wang Xiaochuan reveló que las capacidades del modelo de código abierto de BCI definitivamente superarán a Llama 2. Según el plan, Baichuan Intelligent lanzará decenas de miles de millones y cientos de miles de millones de modelos grandes de código cerrado en el futuro.
Hace unos meses, Wang Xiaochuan quería "ser la OpenAI de China" en los titulares de varios medios.
Este es un eslogan que al público le encanta escuchar, pero puede que no sea una descripción precisa.
¿Qué quiere hacer exactamente Wang Xiaochuan? ¿Qué es lo que va a hacer? Después de tres meses de práctica y de obtener los resultados iniciales, ¿cuál es su conocimiento de primera mano sobre el espíritu empresarial en la era de los modelos a gran escala?
Código abierto, lo que OpenAI no hizo
Zhang Peng:
Lo que más le puede interesar es que se movió muy rápido después de iniciar su negocio y lanzó dos modelos: uno 7B y otro 13B, y la respuesta fue muy buena.
Todos tienen mucha curiosidad, porque al principio pensaron que ibas a ser un OpenAI chino, pero viendo que has hecho cosas de código abierto, ¿es el código abierto una etapa tecnológica o es en sí mismo un nuevo modelo para tu pensamiento en el futuro?
Wang Xiaochuan:
Código abierto, creemos que es una etapa técnica, de hecho, ser OpenAI de China no significa copiar completamente su camino completo. Cuando se comunican con OpenAI en Silicon Valley, idealmente han ido muy lejos. Por ejemplo, cuando están haciendo GPT-4 ahora, necesitan más de 20,000 tarjetas para hacer cálculos, y nunca han visto una escala tan grande en China.
Están orgullosos de decir que están diseñando un modelo informático que conecta 10 millones de GPU entre sí.
¿Cuál es el concepto de 10 millones de tarjetas? La producción anual de Nvidia es de 1 millón. 10 millones de copias es un plan que puede ir a la luna (moonshot).
Además, en términos de cómo hacer aplicaciones, productos e incluso algunas tecnologías más amplias, esto puede ser una deficiencia de OpenAI, o puede ser algo que no les preocupe particularmente ahora.
Entonces, hacer OpenAI en China será muy diferente del entorno ecológico en los Estados Unidos.
Después del reciente lanzamiento del código abierto Llama 2, causó furor en China, todos sintieron que volvería a cambiar el panorama, que es lo que OpenAI no pudo hacer. Es una pena que esto no lo haga Google, sino Facebook (Meta), y Google sigue estando ausente. Pero en China, hemos visto este asunto de antemano, y creemos que el código abierto y el código cerrado tendrán un estado paralelo en el futuro.
Zhang Peng:
El código abierto y el código cerrado estarán en estado paralelo.
Wang Xiaochuan:
El paralelismo es un poco como el sistema actual de Apple y el sistema Android. Incluso cuando más empresas quieran participar, no es suficiente usar llamadas API de código cerrado, este modelo de código abierto también necesita proporcionar el 80% de los servicios y, finalmente, confiar en los servicios de código cerrado para brindar servicios para todos, y el 20% restante tendrá mucha demanda de código abierto. Estados Unidos no lo tenía antes, y China no tenía un modelo similar. Por lo tanto, una vez que se anuncie Llama, será un gran shock para los Estados Unidos, pero también hay un boom en China. De hecho, las evaluaciones técnicas serias incluyen varias evaluaciones principales como SuperClue, así como comparaciones entre algunos de los principales fabricantes y empresas.Si se compara Llama con Baichuan, es obvio que nuestra calidad en el campo chino es muy superior a la de Llama.
En el campo de los modelos de código abierto en China, al igual que nuestra industria de teléfonos móviles, los Estados Unidos se utilizaron al principio y luego se vieron atrapados por sí mismos.
Zhang Peng:
¿Crees que Llama 2 está tan caliente recientemente que Baichuan lo hará mejor que ellos?
Wang Xiaochuan:
Llama es Llama 1 y 2.
En primer lugar, lanzamos el primer modelo de parámetros 7B en junio de este año y lanzamos el modelo de parámetros 13B en julio. Entre los indicadores en inglés, el indicador más importante es MMLU (Massive Multitask Language Understanding).Este indicador clave, nuestros dos modelos son mejores que Llama (1) y están significativamente por delante en chino.
Sabemos que el procesamiento chino de Llama es realmente insuficiente. En comparación con Llama (1), el inglés de Baichuan puede coincidir parcialmente con el punto de referencia, y se superan los indicadores clave, y el chino es obviamente mejor. Muchas personas están transformando Llama en chino, pero aún no es tan fácil de usar como el Baichuan local.
Tras el lanzamiento de Llama 2, también podemos ver el informe técnico, que contiene alrededor de 9 puntos de innovación técnica, 6 de los cuales se han logrado en el modelo que estamos desarrollando.
En comparación con otros modelos domésticos, nuestro pensamiento aquí es el más cercano en la actualidad. Ya hemos hecho 6 puntos, y luego no esperábamos 2 puntos, y tenemos uno que no es válido. Por lo tanto, al comparar con Llama2, no estamos simplemente plagiando en el pensamiento técnico, sino que tenemos nuestro propio pensamiento. Pensamos que habrá nuestras oportunidades en el futuro en este camino.
Hoy también hago un llamado a todos en China para que no solo piensen que los países extranjeros son buenos cuando lo usan. De hecho, OpenAI está más lejos ahora. Tomará tiempo alcanzar GPT-3.5 o un nivel similar para fin de año, pero ya estamos muy cerca en el modelo de código abierto.
Entonces, tu próximo modelo de código abierto, ¿crees que será mejor que Llama 2?
Wang Xiaochuan:
Al menos en chino. En el campo de los chinos, ahora está superado. El próximo paso es hacer la voz de China en el campo de código abierto del mercado global.
Zhang Peng:
Tanto el inglés como el chino deberían ser mejores que Llama2, esto es visible y alcanzable para usted.
Wang Xiaochuan:
Creo que existe la posibilidad de que suceda en un futuro previsible.
Zhang Peng:
Entonces, su punto de vista es: hoy no podemos simplemente decir que nuestro gran modelo futuro es avanzar hacia OpenAI, un modelo centralizado de código cerrado. El código abierto en realidad tiene grandes posibilidades. Entonces significa que, por un lado, es para practicar la tecnología y demostrar capacidades técnicas, pero de hecho puede contener modelos y valores comerciales.
Al mismo tiempo, sobre la base del código abierto, todavía es algo que la gente puede esperar en China haciendo el mejor modelo chino del mundo.
Wang Xiaochuan:
Eso lo resume con bastante precisión.
¿Es la experiencia de búsqueda una mala inercia o un buen activo?
Zhang Peng:
En el pasado, muchos inversores creían que usar la experiencia de búsqueda para construir un modelo a gran escala definitivamente no tendría éxito. Después de estos meses de práctica, ¿ha verificado su juicio original que era diferente al de ellos? ¿Cómo contribuyen la acumulación y las capacidades de búsqueda a modelos más grandes?
Wang Xiaochuan:
Debido a que el logro (IA) de hoy fue logrado por OpenAI, pero Google no, el primer pensamiento de los inversores es que esta nueva tecnología es justo lo contrario de la búsqueda. Es difícil para ellos distinguir si la razón es la tecnología o la gestión organizacional.
La razón de este tipo de voz es que uno no entiende la relación entre la tecnología de búsqueda y la IA, y la segunda es que la cognición del fondo de búsqueda traerá efectos negativos.
Debido a que las empresas de búsqueda son principalmente Baidu y Google, no necesitan financiación externa y no les dicen a los inversores qué es la búsqueda. En particular, la última ola de auge de la IA fue provocada principalmente por imágenes, y nadie está familiarizado con las connotaciones técnicas como la PNL en la búsqueda.
En términos de resultados, lanzamos el primer modelo en junio. Un competidor les dijo a los inversionistas lo antes posible que Baichuan tardaría medio año en producir el primer modelo. De hecho, solo nos tomó 1/3 del tiempo completarlo y luego lanzamos el segundo. Y en un futuro próximo, lanzaremos un modelo de código cerrado.
Baichuan se ha desarrollado a sí mismo desde el primer día, y el arranque en frío es muy, muy rápido. Cuál es la razón detrás de esto?
Hoy sabemos que los datos de alta calidad son la base de modelos grandes, entonces, ¿qué empresa tiene una comprensión amplia de los datos lingüísticos? De hecho, las empresas de búsqueda llevan 20 años trabajando, pensando cada día en cómo encontrar datos de tanta calidad. Por ejemplo, primero encuentre 100 sitios web de alta calidad de 1 billón de páginas web y luego realice análisis de página, incluida la extracción de información, deduplicación, antispam e incluso extraiga contenido por nivel de párrafo.
Sogou, Baidu y Google llevan mucho tiempo haciendo este tipo de trabajo.
El segundo punto es que en términos de bolsa de talento, es necesario tener tanto capacidades algorítmicas como capacidades de ingeniería enfocadas en capacidades de búsqueda, esas personas básicamente también están buscando empresas. Ahora ByteDance está utilizando el equipo de búsqueda para hacer modelos, y el progreso de Baidu también es muy rápido, incluido el modelo que está haciendo Shen Xiangyang también lo hizo el vicepresidente de Bing en el pasado.
Otra cosa para hacer un modelo grande es la evaluación. Evaluar si un modelo grande es bueno o no es en realidad un problema doloroso, que incluye cuestiones de razonamiento, preguntas y respuestas precisas y creación... Algunos mejoran y otros empeoran. ¿Cómo evaluar? Por lo tanto, este sistema de evaluación también es una capacidad que las empresas de búsqueda han acumulado durante mucho tiempo, utilizando la evaluación para impulsar la iteración de algoritmos posteriores.
Además, la eficiencia organizativa de las empresas emergentes es mucho mayor que la de las grandes fábricas.Con un sistema de toma de decisiones muy flexible, se maximizarán todas las eficiencias.
Zhang Peng:
Entonces, ¿hablaste con el inversionista que pensó que la búsqueda no era lo suficientemente buena para modelos grandes?
Wang Xiaochuan:
El nombre está marcado con una cruz y quitado, y no sé quién es. Los inversionistas que solo miran los negocios pero no la tecnología, y aquellos a quienes les gusta especialmente la carne fresca pequeña que regresan de los Estados Unidos para iniciar un negocio, estos inversionistas simplemente lo extraen y no hablan de eso.
El viejo Wang tiene razón: "La pequeña innovación depende de las grandes fábricas, y la gran innovación depende de las pequeñas fábricas".
Zhang Peng:
¿Crees que los emprendedores tendrán suficientes oportunidades en esta ola de cambio tecnológico en el futuro? ¿O el cuerpo principal todavía está controlado por gigantes? ¿Cómo pueden los empresarios aprovechar sus propias oportunidades?
Wang Xiaochuan:
Aunque Wang Huiwen no sabe mucho sobre tecnología, creo que dijo algo muy correcto: la pequeña innovación depende de las pequeñas fábricas y la gran innovación depende de las grandes fábricas.
Aunque una fábrica grande tiene muchas ventajas en cuanto a personas, dinero y recursos, habrá muchos problemas internos después de que la organización crezca y la eficiencia de la organización se vea severamente restringida.
Si creemos firmemente que la llegada de AGI, habrá una gran explosión de nuevas especies. Estas cosas tienen grandes oportunidades para que las nuevas empresas funcionen. Esto se puede demostrar a partir de la deducción histórica, por lo que mientras haya AGI, habrá nuevas oportunidades en el futuro.
¿Dónde está la dificultad en el medio?
OpenAI es una empresa orientada a la investigación que implementa productos en el mundo real. Lo sigues, y el campo de investigación puede tener logros muy deslumbrantes. Pero cómo aplicar hoy, ni OpenAI ni las empresas impulsadas por la tecnología en Silicon Valley son muy buenas en esto. Estoy seguro de que China es mucho mejor que Estados Unidos en términos de implementación de aplicaciones.
El mundo entero ha llegado a un punto de inflexión, y ahora que la tecnología está lista, esta es la primera dificultad. La aplicación y los requisitos son la segunda dificultad, que se llama modelo de servicio (modelo de servicio). Entonces, el desafío ahora es, número uno, ¿tienes el modelo? Segundo, ¿tener un modelo significa tener un servicio?
Zhang Peng:
¿Vender una API es un servicio?
Wang Xiaochuan:
No me parece.
Es como si tuvieras tecnología sin conductor, pero ¿realmente puedes construir un automóvil? Obviamente no. También requiere la fusión de muchas tecnologías.
Ahora, Estados Unidos está relativamente confundido acerca de la capa de aplicación, y el problema actual de China es la falta de capacidades del modelo. Hoy en día, muchas empresas emergentes que fabrican modelos también limitan su perspectiva a modelos grandes y no saben mucho sobre otras pilas de tecnología.
Déjame darte el ejemplo más simple: al hacer un modelo, definitivamente encontrarás alucinaciones y puntualidad. Tanto las alucinaciones como la puntualidad pueden ser resueltas por el propio modelo grande. Algunas personas resuelven la ilusión expandiendo los parámetros a billones y decenas de billones, o usan el aprendizaje por refuerzo. Pero, de hecho, la forma más directa es incorporar la búsqueda y la recuperación de información. La combinación de modelos grandes y estos pueden formar una pila tecnológica más completa.
Después de que se propuso esta tecnología, ya ha sido un poco una señal. Por ejemplo, hay algo llamado base de datos de vectores, que en realidad es una búsqueda flexible y se usa principalmente en toB.
En términos de búsqueda, después de que se introdujera la tecnología Transformer en 2018, ya tiene la capacidad de búsqueda semántica. Es posible que hayas oído hablar del índice invertido, que sirve para indexar esta red simbólica.
Después de 2018, ya sea que seamos nosotros, Baidu o los vectores de bytes hemos recurrido a la búsqueda semántica, detrás de esta tecnología hay tres enormes bases de datos de vectores. La combinación de estas pilas de tecnología y el modelo grande puede hacer que el modelo grande se desarrolle aún más. Como puede ver, la experiencia del equipo de búsqueda tiene ventajas para hacer modelos.
El segundo aspecto es que la tecnología de modelos a gran escala se está volviendo práctica gradualmente. Luego, en la llamada computación del conocimiento, se deben agregar bases de datos vectoriales y búsquedas para formar tecnologías y productos más completos. Sobre este tema, todos están formando gradualmente un consenso.
Hablando sobre el tráfico de ChatGPT hoy, todos comenzaron a preocuparse sobre si puede continuar explotando.
Así que todavía necesitamos más exploración.
Creemos que en la industria del entretenimiento, los juegos de rol tienen amplias perspectivas, pero este asunto requiere la entrada de empresas chinas para hacerlo mejor.
Otra cosa es cómo combinar grandes modelos y búsqueda. Perplejidad AI lo está haciendo muy bien ahora, pero estamos en una posición pasiva. Si Estados Unidos tiene oportunidades, los inversores buscarán empresas de comparación chinas.
Si esta empresa no tiene un modelo grande, solo está llamando API; segundo, no tiene tecnología de búsqueda y solo puede confiar en las tecnologías de empresas como Google y Bing, lo cual no es lo ideal.
Zhang Peng:
Justo ahora dijiste que la cantidad de usuarios como ChatGPT está disminuyendo, lo que hace que todos sientan que es posible que el nuevo paradigma no pueda abrirse camino de una sola vez. ¿Es este un gran desafío para los emprendedores hacer aplicaciones?
Porque según lo que acabas de decir, en un entorno con tecnología inmadura, el costo de la exploración empresarial es muy alto. Y si el emprendedor simplemente usa la API de otra persona como un cambio en el paradigma de la aplicación, no es particularmente llamativo.
Wang Xiaochuan:
Hace dos días, OpenAI acaba de actualizar el intérprete de código y luego actualizó la instrucción personalizada. Para las empresas de nueva creación, ha habido una enorme presión.
Los inversionistas estadounidenses también están preocupados por si todavía existe la posibilidad de que las empresas emergentes superen a los gigantes en medio de la ansiedad, y si serán reemplazadas por grandes empresas después de la mitad de su trabajo.
En China, no creo que haya una empresa líder como OpenAI que tome el camino de los modelos a gran escala. Todavía está en la etapa de "Guerra de los Cien Modelos". Hoy en día, si las empresas que fabrican modelos a gran escala tienen la capacidad de hacer aplicaciones es un asunto que China tiene mucho que vigilar frente a Estados Unidos.
¿Ponerse al día con GPT-4? Es peligroso perseguir ciegamente el modelo de mejora intergeneracional
Zhang Peng:
Esto también plantea la pregunta de quién en China alcanzará GPT-3.5, o incluso GPT-4.
También hay otra voz que dice que GPT-3 es suficiente para que las empresas resuelvan algunos problemas de escena vertical.
Siento que Xiaochuan y tú todavía están comprometidos a perseguir GPT-3.5 y GPT-4. ¿Es difícil este proceso de persecución? ¿Por qué dices que debes alcanzar el nivel de GPT-4?
Wang Xiaochuan:
Creo que son dos cosas.
El primero es el avance intergeneracional de la tecnología, que puede tener un impacto devastador en la ecología de los productos posteriores. No importa desde un punto de vista ideal, imagina un futuro que está fuera de tu alcance, como tres, cuatro, cinco generaciones de aviones de combate, en el que cada generación puede desempeñar un papel importante. Entonces, en este momento, todos deben esforzarse por buscar una ventaja en un campo altamente competitivo.
Sin embargo, en el proceso de competir por las ventajas, todos pueden enfrentar una nueva confusión: ¿En qué generación podemos realmente realizar súper aplicaciones? GPT-3.5 aún no ha formado una súper aplicación en los Estados Unidos, y se necesitan alrededor de 50 millones de yuanes para entrenar una vez, lo que no incluye el costo de los preparativos y experimentos preliminares. El entrenamiento de GPT-4 puede costar 500 millones de RMB una vez. Para la generación GPT-4.5, el costo podría alcanzar los 500 millones de dólares.
Por lo tanto, si no hay una súper aplicación, es muy peligroso simplemente buscar la mejora tecnológica. Por lo tanto, debemos buscar la mejora de las capacidades técnicas de cuarta y quinta generación en este campo al mismo tiempo y, al mismo tiempo, tener súper aplicaciones. De lo contrario, podríamos enfrentar repentinamente la presión de actualizar en dos frentes, los cuales deben actualizarse al mismo tiempo para tener éxito.
Zhang Peng:
Por lo tanto, cada tipo de tecnología de onda debería poder producir aplicaciones valiosas.
Wang Xiaochuan:
Lo que acabas de decir es bastante correcto.
GPT-3 está básicamente disponible en el lado B, pero creo que la razón por la que no está disponible en el lado C es que el tiempo es demasiado corto.
Además, todo el mundo se centra demasiado en OpenAI, no es una empresa de productos, ni una empresa que pueda hacer superaplicaciones.
Ser capaz de hacer súper aplicaciones requiere no solo ponerse al día técnicamente, sino también una comprensión suficiente del producto. Creo que a finales de año es cuando la verdad saldrá a la luz.
"Xiaochuan es adecuado para hacer modelos grandes" "Después de 20 años de búsqueda, nadie dijo que soy adecuado para realizar búsquedas"
Zhang Peng:
¿Es posible que todo el mundo sobreestime OpenAI? Es decir, pensamos que OpenAI es difícil de superar porque tiene un volante de datos, ¿cómo lo entiendes?, ¿realmente existe el volante de datos?
Wang Xiaochuan:
A principios de este año, estaba hablando sobre el volante de datos y estaba muy asustado en ese momento. Se le da la solicitud del usuario, sabe lo que quiere el usuario y luego puede actualizar mejor el modelo.
Hasta ahora, este problema no es grave.
Por ejemplo, después del lanzamiento de Llama 2, todos vieron que en la etapa de ajuste, los datos deben refinarse y menos, en lugar de refinarse y más. Ahora, gradualmente, todos han formado un consenso de que el secreto de la tecnología no está en el volante, sino en la acumulación de tecnología a lo largo del tiempo.
La fuerza técnica de Anthropic, una empresa como la de Claude, también ha aumentado rápidamente, y OpenAI tiene muchos más usuarios que ella, lo que también prueba que el concepto del volante de datos ha sido falsificado.
Zhang Peng:
O tal vez los datos realmente valiosos que contiene se reflejan en las habilidades para hablar con la gente. Recuerdo que en los primeros tiempos, su forma de hablar era bastante "tonta", pero ahora se siente más humana.
Wang Xiaochuan:
Esto no parece mucho, y más radica en su conjunto de datos. No importa en la etapa previa al entrenamiento o en la etapa de ajuste, ¿cómo obtener datos de alta calidad? Cómo emparejar y así sucesivamente, esta es su habilidad central. En particular, los escuché hablar de que, por un lado, GPT-4 está entrenando a GPT-3.5 para que 3.5 funcione de manera más eficiente y, al mismo tiempo, GPT-4 se usa para producir parte de los datos requeridos por GPT-5 y está optimizando el proceso iterativo. Su iteración interna es para mejorar los servicios en línea y, al mismo tiempo, generar algunos datos en el futuro. Creo que esto es un volante interno.
Zhang Peng:
Entonces, si lo mira desde la perspectiva de Llama, también es posible entregar un modelo que mejora constantemente el nivel técnico a través de código abierto. Pero desde la perspectiva de OpenAI, puede haber suficientes usuarios y datos en una determinada etapa.
Wang Xiaochuan:
Código abierto, código cerrado y aplicaciones, de hecho, todo el mundo todavía lo está haciendo hoy, y todavía está en la etapa de expansión al igual que el oeste de los Estados Unidos.
Zhang Peng:
Entonces, hoy en día, para una empresa nueva como Baichuan, no es fácil decir simplemente que solo coopero con cierta dirección, ya sea que quiera mantener la estrategia vaga o llamarla rica en posibilidades, puedo apostar en estas dimensiones.
Wang Xiaochuan:
bien. Mi emprendimiento esta vez es bastante interesante. Mucha gente dice que Xiao Chuan es especialmente adecuado para hacer modelos a gran escala. He estado buscando durante 20 años y nadie ha dicho que Xiao Chuan sea particularmente adecuado para hacer búsquedas.
Hacer búsquedas en China es 3 años más tarde que en Baidu, este tipo de ponerse al día es muy difícil. Se mira la acumulación y la experiencia de hoy, y no hay nadie frente a ella. Fue difícil pensar, y fue varios años tarde, pero hoy me parece que hay oportunidades en todos lados. Por lo tanto, siempre que tengamos suficientes capacidades, podemos entrevistarnos aquí en todas partes y ver si podemos cambiar su impresión original de Sogou hoy.
No adores a ciegas, China y Estados Unidos tendrán diferentes historias de IA
Zhang Peng:
Estoy bastante conmovido por lo que dijo Ogawa. Finalmente estás parado en tierra de nadie.
Con respecto al modelo grande, muchas personas pueden sentir que necesitan aprender y ponerse al día con OpenAI. Pero cuando realmente hagas esto, realmente encontrarás la distancia y el camino.
Wang Xiaochuan:
Sí, no seas tan adorador.
Recuerdo que después de AlphaGo en 2016, mencioné dos puntos en ese momento: Primero, si (AI) puede predecir el próximo cuadro de video, es la llegada de AGI.
Pero se acaba después de que terminas de hablar y no tienes la capacidad para hacerlo, no tienes la motivación, la capacidad o las condiciones. Más tarde, se dijo que si la máquina domina el lenguaje, también vendrá una fuerte inteligencia artificial. Ahora la verificación realmente ha comenzado.
Así que creo que nosotros mismos tenemos muchas ideas, y no nos quedamos atrás. Es solo que el momento y las condiciones no están maduros. Es como si un maestro de escuela dijera que este asunto se puede resolver, maestro de escuela, no querrás copiarte la tarea, ¿verdad?
Otros te dicen que se puede solucionar, o incluso te dan una gran idea, yo creo que podemos hacerlo nosotros mismos, y no necesitamos mirar la tarea de los demás y copiarla.
Zhang Peng:
Así que tu verdadera diversión aquí no es darte cuenta y reproducir otras, sino explorar algunas cosas que no todo el mundo ha captado en esta tierra de nadie.
Wang Xiaochuan:
Sí, creo que esta vez tengo la oportunidad de liderar en algunas áreas.
Zhang Peng:
Existe tal posibilidad, por lo que China y los Estados Unidos, Baichuan y OpenAI, tal vez no sea la misma historia.
Wang Xiaochuan:
Efectivamente, será diferente. China y Estados Unidos no son un sistema, un sistema o una cultura, por lo que lo que surja al final, ya sea un problema técnico o de aplicación, será diferente.
Trabajo principal: chateando con colegas, Baichuan Intelligent acaba de superar a 100 personas
Zhang Peng:
¿Cómo organizas tu trabajo habitual? ¿Cómo distribuyes tu tiempo? Mucha gente dice que el poder de cómputo es importante y los talentos son importantes, pero creo que solo aquellos que realmente inician un negocio saben qué es lo más importante. Así que solo quiero preguntarte ¿dónde pasas la mayor parte del tiempo?
Wang Xiaochuan:
A lo que paso la mayor parte de mi tiempo ahora es a conversar con nuestros colegas.
Zhang Peng:
¿charlar?
Wang Xiaochuan:
Sí, durante el proceso de chat, en realidad es un proceso de formación continua de consenso, que consiste en recopilar la cognición, la nutrición y la información externa de todos para que todos puedan formar el mismo cerebro.
Porque sabemos que Top-Down puede extraviarse. Por ejemplo, ¿por qué Google no lo logró? Cuando se hizo la primera sede de Google, tuvo su inercia. Los datos no se pueden obtener, el costo aumentará después de conectarse y no habrá beneficios específicos para el usuario, por lo que existe un dilema para iniciar un negocio.
En el caso de Google Brain, es Button-Up. Sus investigadores son muy libres y pueden hacer lo que quieran, o unir sus fuerzas, por lo que muchos de ellos han visto el modelo grande, pero no pueden hacerlo juntos porque las fuerzas están dispersas. Luego, Deepmind es de arriba hacia abajo, lo que la empresa pide hacer y lo que todos hacen. Ha hecho AlphaGo, AlphaZero, AlphaFold y ahora se está moviendo hacia la energía del hidrógeno, la fusión nuclear y la computación cuántica, pero está lejos de la mayoría de ellos.
De hecho, Top-Down y Button-Up hoy se denominan "arriba y abajo con el mismo deseo", para que todos puedan alinearse completamente desde este ideal a la tecnología y la cognición, y convertirse en una sola cosa. Así que creo que más comunicación diaria contigo te hará un cerebro, que es mi trabajo más importante.
Zhang Peng:
Mmm interesante. Por lo tanto, si un pequeño equipo ejerce su mayor energía, todos pueden compartir las mismas alegrías y tristezas, y los mismos deseos y anhelos.
Wang Xiaochuan:
Esto es muy importante, hoy no hablaremos de organización y gestión, pero seremos como una sola persona. Baichuan ahora tiene 100 personas, y ayer llegó a 100 personas.
Cambios en la confianza, el progreso de Baichuan es más rápido de lo esperado
Zhang Peng:
En los últimos meses te has dedicado al modelismo a gran escala, tu entusiasmo no ha cambiado, pero ¿ha cambiado tu confianza? ¿Es más difícil de lo que esperabas al principio? ¿Sigues en línea con tus expectativas?
Wang Xiaochuan:
Si soy honesto, desde el fondo de mi corazón, creo que es más fácil de lo que pensaba.
La expectativa es que sepas mucho (dificultades) al principio, años de acumulación en el extranjero, poder de cómputo, servidores... Pero cuando trabajas con tus colegas, cuando todos están co-creando, nuestro progreso y ritmo reales son más rápidos de lo esperado.
Resultó que esperábamos lanzar un modelo de 50 mil millones en el tercer trimestre y luego lanzar un modelo de 175 mil millones en el cuarto trimestre.
Pero, de hecho, estas cosas no cambiarán, pero en el proceso, la velocidad del progreso de la aplicación y la velocidad de los modelos de código abierto son mucho más rápidas de lo esperado.
Y también más rápido, hoy podemos empezar a decir, no solo para ser los mejores en casa, sino también de código abierto en el escenario internacional.
El código abierto es muy simple, todos pueden usarlo para su propio uso, esto no es algo de lo que presumas. Después de la apertura, confiamos en que podemos obtener una muy buena posición en el escenario internacional.
Zhang Peng:
Entonces, antes de saltar al agua, estaba ansioso por no saber la profundidad, pero cuando realmente salté, descubrí que podía pisarlo hasta el fondo, ¿entonces me sentí mucho más a gusto? ¿Es realmente tan simple?
Wang Xiaochuan:
Divide a la gente.
Soy una persona relativamente cautelosa, todavía estaba mirando, y luego nuestro Lianchuang me pateó y me dijo que comenzara a hacerlo. Entonces dije está bien, anuncié el final y comencé a trabajar. De lo contrario, puede ser incluso más tarde antes de que se sienta listo. Pero una vez que salgas del campo, encontrarás que correrás más rápido de lo que pensabas.
Después del frenesí, los recientes desarrollos tecnológicos preocupantes
Zhang Peng:
¿Estás prestando atención al progreso técnico de los modelos grandes recientemente? ¿Qué papeles te emocionan?
Wang Xiaochuan:
En primer lugar, solo leer documentos no es importante hoy en día. No puedes terminarlo.
Los básicos son esas cosas. Y hoy OpenAI ha dejado de enviar buenos artículos. Los papeles que se envían son todos papeles con poca información y la cosecha es limitada.
Al mismo tiempo, debido a que todos han entrado en un frenesí (estado) antes, lo llamamos "vivir el día como un año", y parece como un año de (progreso tecnológico) todos los días.
Zhang Peng:
Los días se sienten como años porque corre rápido.
Wang Xiaochuan:
Sí, no aburrido. Hay tantas cosas nuevas todos los días. Los nervios de todos han sido estimulados a un punto alto y están un poco débiles.
Habiendo dicho eso, ha habido varios avances tecnológicos recientemente, que creo que son muy poderosos.
Una es que, hace aproximadamente una semana, OpenAI lanzó el intérprete de código, que es un gran avance, pero parece que no hay una nueva ronda de frenesí mediático en China.
Todos han disfrutado del frenesí antes, pero esta vez, el progreso, el intérprete de código, creo que los medios no le prestaron suficiente atención y lo informaron.
Y una pequeña actualización ayer, personaliza tus propias instrucciones.
Representa que parte del modelo LLM a Agentes.
Describirá "¿Quién soy y cuáles son mis características?" ¿Qué tipo de papel desempeñará su gran modelo y cuáles son sus características? Formar tal relación depende de si el modelo es un Agente (desde el punto de vista).
Estas dos áreas no son suficientes para que todos presten atención e informen hoy.
La decisión de iniciar un negocio finalmente esperó hasta que la tierra de nadie "adecuada para Xiaochuan"
Zhang Peng:
La última pregunta, acabas de mencionar que te "empujaron" a esta situación empresarial. También sé que ha sido un fanático de la IA desde la época de AlphaGo.
Al final, decidiste convertirte en un emprendedor en el campo de AGI y modelos a gran escala. Ya sea Lao Wang (Huiwen) o la ola en China, ¿cómo han influido en tu toma de decisiones? Después de pasar por tal proceso, ¿qué tipo de cambios han tenido lugar en tu corazón?
Wang Xiaochuan:
El viaje mental es en realidad bastante largo.
En el momento de Sogou, a la etapa posterior. Primero, echamos de menos el motor de recomendación e hicimos una alianza estratégica con Tencent, en este caso, sin nuevos avances tecnológicos, el desarrollo es muy limitado. Cuando Sogou se fusionó con Tencent, estaba desafiando algo más interesante, que era convertir la vida en un modelo matemático. Como dijimos, Newton estaba convirtiendo la física en un modelo matemático.
En la plataforma de Geek Park antes, estaba hablando de aprender de la vida.
qué es la vida Esto es algo en lo que he estado pensando durante 20 años.
¿Cómo convertir la vida en un modelo matemático? Esto es lo que me importa. Incluso en el estudio de la medicina china, cómo convertir la vida en un modelo matemático, (más tarde) descubrió que este camino puede no ser fácil.
Estoy particularmente interesado en cómo hacer nuevos avances en medicina dentro del paradigma científico. Leí muchos más artículos médicos que artículos de computadora, leí miles de artículos médicos.
¿Qué pasó en 21 años? En 21 años, la gran modelo ha comenzado a tener algunas oportunidades. En ese momento, hicimos un modelo de decenas de miles de millones para resolver el problema de cambiar la búsqueda a pregunta y respuesta.
De hecho, antes de hacer el método de entrada, ya estaba ocupado en "predecir lo que quiere decir la siguiente palabra", y luego cómo reescribirlo, la búsqueda se convirtió en una pregunta y respuesta. De hecho, se tocó la puerta, pero no hubo ningún avance tecnológico en ese momento.
Entonces, saben que estoy muy interesado en convertir la vida en un modelo matemático, así que después de la llegada del modelo grande, mi primer pensamiento fue no hacer un modelo grande. Quiero preguntar, ¿es posible construir un Health ChatGPT en el campo de la vida hoy? GPT saludable, ¿un médico digital?
Zhang Peng:
Estás pensando desde una perspectiva aplicada de resolución de problemas.
Wang Xiaochuan:
Sí, pensando en ello. Entonces pensé, si haces un modelo vertical hoy, podría ser eliminado por el modelo grande. La inteligencia general mata a la inteligencia especializada, ¿no?
Pero en este caso, encontramos que no es suficiente hacer solo un tipo de HealthGPT, o solo un médico digital.
Al final, todavía es necesario hacer un modelo grande.
(La decisión de hacer un modelo a gran escala en la siguiente etapa) vino de ese círculo, no porque pensara que lo había acumulado antes.
Pero cuando hacemos un modelo grande, encontramos que (la acumulación previa) es bastante relevante, como el procesamiento relacionado con el lenguaje.
Incluso al extremo, ChatGPT es el tercero en hacer del modelo de lenguaje una súper aplicación. Los dos primeros, uno de búsqueda y otro de entrada.
Zhang Peng:
Siento que no hiciste esto también, lo siento por los dos que hiciste antes.
Wang Xiaochuan:
Sí, entonces descubrí que la acumulación anterior es realmente útil hoy, lo cual no esperaba antes.
Así que estoy muy emocionado, Dios es muy amable contigo y te dio una oportunidad. Al final de la búsqueda, existe otra oportunidad de usar la experiencia previa para hacer algo que antes no se podía hacer.
Ahora, nadie dijo "Xiaochuan es adecuado para la búsqueda", pero todos dijeron "Baichuan es adecuado para modelos a gran escala". Para mí, es algo muy afortunado.
Zhang Peng:
Es por eso que decidiste hacerlo en primer lugar.
Después de unos meses, todo el mundo puede encontrar esto difícil OpenAI aún no se ha convertido en una empresa muy rentable, y muchas personas en Silicon Valley han cuestionado su modelo de negocio. Entonces el gran modelo va a presionar a los empresarios en este aspecto ¿Has sentido esa presión?
Wang Xiaochuan:
Estoy todo hiperactivo.
Porque solía trabajar a la sombra de Baidu, y ahora es tierra de nadie. Para mí, esto es exactamente lo que quiero hacer, en lugar de decir que hay un líder frente a mí, y luego lo sigues. Para mí, esto es lo que me gusta, una nueva exploración.
Zhang Peng:
Un agradecimiento especial a Xiaochuan por compartir con nosotros hoy, y felicitaciones por finalmente marcar el comienzo de su tierra de nadie. Espero ver más paisajes hermosos aquí. ¡Aplausos dedicados a Xiaochuan, vamos!