¿Cuándo nacerá el nuevo gigante? Modelo grande espera "cuenca hidrográfica"

Fuente| Finanzas Cero Uno

Autor| Shen Zhuoyan

Fuente de la imagen: generada por la herramienta de IA ilimitada

Desde 2023, la palabra más candente en el círculo tecnológico es ChatGPT y la tecnología de modelos a gran escala que hay detrás.

Anteriormente, estaban Baidu Wenxin Yiyan, Alibaba Cloud Tongyi Qianwen, Huawei Pangu, HKUST Xunfei Xinghuo, etc. Recientemente, Li Kaifu ingresó a la oficina para establecer Zero One Wanwu, y Volcano Engine lanzó el "Volcano Ark". En solo unos meses, se ha convertido en una tendencia para varias empresas desarrollar y lanzar aplicaciones modelo a gran escala.

Hay más de 80 modelos domésticos a gran escala con una escala de parámetros de mil millones o más, y el número sigue aumentando rápidamente. El ambiente de preparación para una guerra comercial en torno a los grandes modelos ya es extremadamente fuerte.

Tanto si se trata de una gran empresa gigante como de una pequeña empresa gigante, todas necesitan este tipo de acciones para mostrar su sensibilidad a la tecnología de punta y su acumulación a largo plazo. Al iniciar la aplicación antes, puede probar los datos valiosos sobre la interacción entre el modelo grande y el usuario un día antes, y "acumule mucha comida, y la imagen es el rey" en la competencia futura.

La clave del gran modelo son los elementos de campo de la IA: algoritmos, potencia informática, datos y escenarios/aplicaciones. Los algoritmos representan estrategias, el poder de cómputo determina el límite superior y establece un umbral, y los datos equivalen a raciones militares también simbolizan la distinción entre el bien y el mal. Además de los tres elementos, la escena/aplicación representa la dirección de envío de tropas.

La "Guerra de los Cien Modelos" está a punto de estallar ¿Evolucionará una empresa gigante con todos los elementos en una involución infinita de capacidades tecnológicas? ¿Pueden los pequeños gigantes de la pista vertical consolidar su posición de liderazgo con la ayuda de modelos grandes? Entre los nuevos jugadores que obtienen boletos, ¿quién podría ser un serio contendiente por el dominio de la industria?

Aún no ha aparecido el modelo general a gran escala de la "cuenca de fuerza"

Los jugadores de modelos grandes se dividen principalmente en tres categorías: una es Internet (Baidu, Ali, Tencent, etc.) y gigantes de la industria (China Telecom y China Unicom, etc.) Empresas inteligentes (SenseTime, Yuncong, Guangyuewai, etc.) , y la última categoría son los institutos de investigación científica representados por el Laboratorio de Inteligencia Artificial de Shanghái, la Universidad de Fudan, el Instituto de Tecnología de Harbin, etc.

Según datos públicos, a principios de julio de 2023, hay más de 80 modelos a gran escala con parámetros superiores a los mil millones en mi país, y siguen aumentando rápidamente. Cuantos más modelos grandes con esta cantidad de parámetros, mayor será el umbral de competencia.

La mayoría de los modelos a gran escala que se han lanzado hasta ahora son modelos a gran escala de propósito general. Hay dos razones principales: una es que la competencia de los modelos a gran escala aún no está clara y el nivel puramente técnico no se ha ampliado. la brecha generacional, y los participantes de la industria tienen la oportunidad de dominar el mundo; el modelo a gran escala orientado a la aplicación para el público aún no ha aparecido, y falta una guía de dirección clara. Antes del "momento Chat GPT" del Aparece un modelo doméstico a gran escala, es una opción activa y pasiva para unirse al modelo a gran escala de propósito general.

Es más, es muy probable que surja un nuevo gigante en el campo de los modelos grandes.

Zhou Hongyi cree que los modelos grandes deben ser "universales" y que solo el uso general puede ingresar a miles de hogares, empoderar a cientos de industrias y liderar la nueva revolución de la inteligencia artificial.

Lo que queda inconcluso es cuánta inversión y cooperación se requiere para convertirse en el líder de la nueva revolución. Independientemente de si el gran modelo es un océano azul o un mercado de océano rojo, debe haber una estructura ecológica en la que los peces grandes lideren y los pequeños cooperen.Sin embargo, la línea divisoria entre los peces grandes y los pequeños aún no ha surgido.

A juzgar por la situación actual, un modelo grande con una escala de mil millones de parámetros puede considerarse como el umbral de entrada, y un modelo grande con una escala de 10 mil millones de parámetros puede considerarse que tiene la capacidad de competir en el mundo, pero incluso un modelo grande con una escala de 100 mil millones de parámetros está lejos de ser el mejor.El nivel líder de polvo.

La cantidad de parámetros no es una fuerza abrumadora que determina la situación del campo de batalla. Factores como la capacidad de programación de recursos, la acumulación de experiencia a largo plazo y la gran inversión en investigación científica son diferencias fundamentales de larga data en la competencia de modelos a gran escala.

Para comparar con Open AI, es necesario ver que detrás de la explosión de Chat GPT está el soporte integral de Microsoft en datos, poder de cómputo y fondos masivos, por lo que ha acumulado mucho dinero en el futuro.

Los modelos a gran escala son industrias de inversión a largo plazo, lo que simplemente significa "quemar dinero". La acumulación de poder de cómputo, algoritmos y datos no se logra de la noche a la mañana. Una vez que se lanza el modelo, necesita entrenamiento repetido e iteraciones ágiles, y finalmente evoluciona a un "cuerpo maduro".

En el entorno real, ¿el jugador del gran modelo está impulsado por la tecnología o por las ganancias? Open AI es la compañía de modelos a gran escala más famosa del mundo, incluso con el explosivo producto Chat GPT, su capacidad de comercialización sigue siendo preocupante. Como empresa de tecnología con un valor de mercado cercano a los 30.000 millones de dólares estadounidenses, estará en el centro de la ola de la IA en 2023. Los ingresos de la IA abierta hasta el momento siguen siendo inferiores a los 200 millones de dólares estadounidenses.

La inversión inicial es solo el costo inicial, y cada capacitación posterior requiere dinero real.¿Cuántas empresas pueden aceptar el lamentable retorno de la inversión en la competencia de modelos a gran escala? El éxito de Chat GPT demuestra que el modelo grande se ha abierto en la ruta del producto, pero no significa un gran éxito a nivel comercial.

Al menos en términos de relación insumo-producto, los gigantes de Internet tienen una mayor ventaja relativa: tienen suficiente motivación y recursos para soportar las pérdidas estratégicas en la etapa inicial, al igual que Alibaba Cloud en ese momento.

En cuanto a cuánto tiempo llevará quemar dinero y cuándo ver un retorno gratificante de la inversión, las grandes empresas no lo saben, ni tampoco los capitalistas de riesgo de las empresas de nueva creación. Esta es una apuesta que puede abandonar el juego en cualquier momento, y las fichas son miles de millones de dólares.

Para los jugadores de modelos a gran escala que "todos tienen sus propias ventajas", primero deben explorar la capa de aplicación y abrir la prueba lo antes posible. Quien pueda acumular más valiosos datos de interacción será el punto de ruptura de la próxima competencia.

Necesidades verticales y dificultades verticales

La competencia por modelos generales a gran escala se trata más de la competencia por el derecho a formular infraestructura, mientras que los modelos verticales a gran escala se basan en modelos a gran escala de código abierto o interfaces API en escenarios específicos para formar una competitividad diferenciada en industrias segmentadas. centrándose más en la aplicación de escenarios.

En el campo de batalla de los modelos a gran escala de uso general, a medida que pasa el tiempo, algunos jugadores que son débiles se quedarán atrás gradualmente y, finalmente, solo habrá unos pocos modelos a gran escala de uso general, que desempeñarán el papel de infraestructura. . Al mismo tiempo, estos grandes modelos todavía enfrentan el problema de la homogeneidad, y la capa de aplicación todavía depende de los grandes modelos verticales.

El modelo grande de propósito general es como una colección de múltiples modelos grandes verticales. Cuantos más escenarios de entrenamiento, más fuerte es la "generalidad" del modelo grande de propósito general.

Como la primera empresa en China en lanzar productos similares a Chat GPT, Baidu tiene una necesidad urgente de capas de aplicaciones verticales de modelos a gran escala. Li Yanhong dijo: "Más importante que la cantidad de modelos grandes es la aplicación, que es un gran avance en la aplicación de campos verticales. El punto clave de la nueva estrategia de competencia internacional no es cuántos modelos grandes hay, sino cuántos nativos". aplicaciones en los modelos grandes. Estas aplicaciones ¿Hasta qué punto se ha mejorado la eficiencia de la producción?

Según la metáfora de Li Yanhong, los modelos grandes, especialmente los modelos grandes de propósito general, son como el sistema operativo en la era de la IA. Todas las aplicaciones se desarrollarán en torno al modelo grande, sobre el cual se encuentra la capa de aplicación, incluidas varias aplicaciones nativas de IA. .

En el análisis final, el llamado "universal" es solo un concepto relativo, y no existe un modelo de propósito general que sea completamente aplicable a todos los campos y tenga suficiente profundidad de industria. Tomando Chat GPT como ejemplo, todavía son algunas industrias con una alta tasa de tolerancia a fallas las que realmente se usan ampliamente.Incluso si la solución dada por el modelo grande es incorrecta, el error se limita a un rango relativamente limitado. Sin embargo, en escenarios como la industria pesada, aeroespacial y atención médica, la pérdida causada por un error es inconmensurable, es decir, Chat GPT no puede cumplir con los requisitos verticales y profesionales de escenarios específicos.

Para tener en cuenta los requisitos de verticalidad y profesionalismo, los datos son un defecto y hay menos industrias con suficiente profundidad de datos y un foso estable. Es difícil evaluar específicamente si los datos de estas industrias son fáciles de obtener y si los datos obtenidos pueden cumplir con los requisitos siempre cambiantes de industrias específicas.

Los gigantes de Internet tienen una gran cantidad de datos de red, como comercio electrónico, redes sociales y búsqueda, pero los tipos de datos no son lo suficientemente completos y la calidad de los datos no está garantizada. mucho trabajo minero.

Recientemente, en los campos de los asuntos gubernamentales, la seguridad pública y la atención médica, se están implementando uno tras otro modelos verticales a gran escala. Por ejemplo, Yunzhisheng autodesarrolló el modelo a gran escala "montaña y mar" en el campo de la atención médica inteligente, combinado con tecnologías de interacción de voz inteligente de pila completa, como procesamiento de señal de sonido frontal, reconocimiento de huella de voz, reconocimiento de voz y síntesis de voz, se espera que mejore la eficiencia de la entrada de registros médicos electrónicos de los médicos en más del 400%, ahorrando más del 40% del tiempo de consulta para un solo paciente y mejorando la eficiencia ambulatoria del médico en más del 66%.

Basado en sus propios documentos oficiales, documentos de política, guías de asuntos gubernamentales y otros datos como datos de capacitación profesional, TRS ha creado un gran modelo de asuntos gubernamentales.

En el campo financiero, Hang Seng Electronics comenzará a planificar y diseñar productos modelo financieros a gran escala a fines de marzo de 2023. A fines de junio, Hang Seng Electronics y su subsidiaria Hang Seng Juyuan lanzaron un nuevo producto financiero de inteligencia digital basado en tecnología de modelo de lenguaje grande: el asistente financiero inteligente Photon y una nueva plataforma de investigación de inversión inteligente mejorada WarrenQ.

Tencent, un gigante de Internet con múltiples recursos de la industria, está apostando por múltiples lados. A fines de junio, Tencent anunció soluciones de servicio MaaS que cubren 10 industrias, incluidas finanzas, turismo cultural, asuntos gubernamentales y educación, con un total de más de 50 soluciones.

Al mismo tiempo, los datos requeridos por el gran modelo vertical a menudo no se limitan a la industria. Algunas empresas pueden requerir la integración de datos de otra o más industrias. La capacitación y la aplicación del modelo dependen de la cooperación entre industrias de las empresas o los recursos de los gigantes de Internet.

**Poder de cómputo: ¿Poderosos ladrillos vuelan? **

En la fiebre del oro en el oeste de los Estados Unidos en el siglo XIX, era un evento probabilístico que los buscadores de oro realmente pudieran ganar dinero, mientras que era un resultado inevitable que los vendedores de palas ganaran dinero.

En la fiebre del oro de la IA, la situación del campo de batalla del modelo grande aún no está clara, y los jugadores aún avanzan, pero el "vendedor de palas" ya ganó. Basándose en la tendencia de los chips de IA y los modelos grandes, Nvidia ha ampliado la brecha con su competidor AMD y su valor de mercado ha entrado en el "club de los trillones de dólares".

El CEO de Open AI, Sam Altman, propuso una nueva versión de la Ley de Moore, es decir, el poder de cómputo de la IA global se duplicará cada 18 meses. Mantener estos cálculos requiere el apoyo de chips de entrenamiento de IA, y la participación de mercado de Nvidia en esta área supera el 90 %.

Los productos de chips de IA de Nvidia fueron adquiridos frenéticamente por las principales empresas tecnológicas de todo el mundo: en marzo de 2023, Microsoft anunció que había ayudado a OpenAI a construir un nuevo centro informático con decenas de miles de A100; en mayo, Google lanzó un H100 con 26 000 piezas. clúster informático ComputeEngineA3. Además, según información de China National Finance Securities, ByteDance ha pedido más de US$1.000 millones en GPU este año, y se estima que hay 100.000 piezas de A100 y H800 que han llegado y no han llegado. Decenas de miles de chips H800 también se utilizan en la nueva versión de Tencent Cloud High Performance Computing Service Center lanzada por Tencent.

El director financiero de Nvidia, Kress, dijo que la demanda actual del mercado de potencia informática de IA ha superado las expectativas de la empresa para los próximos trimestres y que hay demasiados pedidos que cumplir.

Por supuesto, es inútil que envidiemos el dinero que gana Nvidia.

La pista de GPU doméstica también se está poniendo al día. No solo hay chips de inteligencia artificial desarrollados por los gigantes de Internet, como el chip Baidu AI Kunlun, el chip de procesamiento de video Tencent "Canghai" y el chip AI "Zixiao", etc., sino también la tecnología Suiyuan, Tianshu Zhixin, Empresas emergentes como Moore Threads que desarrollan GPU de uso general. Las GPU de uso general se utilizan para diversas tareas de uso general, incluidas capacidades de computación altamente paralelas y núcleos de computación a gran escala. También ha habido un gran progreso en los últimos años. , y la brecha con las GPU de alto rendimiento se está reduciendo gradualmente.

Wu Hequan, un académico de la Academia China de Ingeniería, sugirió que, bajo la coordinación de los planes nacionales de ciencia y tecnología e industriales, se debe formar una división razonable del trabajo para formar un poder informático conjunto, y la plataforma de poder informático del país. Se debe abrir un laboratorio para admitir varios entrenamientos de modelos a gran escala. Al mismo tiempo, se sugiere formar una alianza de poder de cómputo para concentrar las GPU de gama alta existentes. Los recursos de cómputo proporcionan el poder de cómputo requerido para el entrenamiento de datos de modelos grandes.

Además de las GPU de alto rendimiento, las plataformas informáticas de menor costo también se consideran nuevas oportunidades de mercado. Recientemente, Jiuzhang Yunji reveló que continuará cooperando con los fabricantes de nubes de propiedad estatal, incluirá una gran cantidad de centros de computación inteligente en el mercado como socios y brindará a los clientes una plataforma de investigación y desarrollo de modelos de IA que integra software y hardware. el costo de los clientes estará ligado al poder de cómputo Ciertamente.

El poder de cómputo es la base para el desarrollo de modelos grandes, y es una condición necesaria pero no suficiente. El papel máximo que puede desempeñar el poder de cómputo aún depende de la dirección de uso. Solo cuando la innovación de algoritmos, la construcción de recursos de datos y la iteración del marco de capacitación van de la mano, es posible crear "poderosos ladrillos voladores".

Política: Orientación y regulación en momentos críticos

El período de la explosión de la IA coincide con el momento crítico de la gobernanza de algoritmos y el archivo de algoritmos en nuestro país.

Ya en 2021, las "Opiniones de orientación sobre el fortalecimiento de la gobernanza integral de los algoritmos de los servicios de información de Internet" sitúan la gestión de archivos de algoritmos como una parte importante de la mejora del sistema de supervisión. El Reglamento de Gestión estipula o menciona claramente que "los proveedores de servicios de recomendación de algoritmos con los atributos de opinión pública o las capacidades de movilización social deberán realizar los trámites de presentación”.

En abril de 2023, la Administración del Ciberespacio de China redactó las "Medidas Administrativas para los Servicios de Inteligencia Artificial Generativa (Borrador para Comentarios)" para consulta pública. En junio, el "Plan de Trabajo Legislativo del Consejo de Estado 2023" emitido por el Consejo de Estado mostró que el proyecto de ley de inteligencia artificial estaba preparado para ser presentado al Comité Permanente de la Asamblea Popular Nacional para su deliberación.

Las “Medidas de Gestión del Servicio de Inteligencia Artificial Generativa (Borrador para Comentarios)” mencionan que antes de utilizar productos de inteligencia artificial generativa para brindar servicios al público, se debe informar a la Red Estatal de conformidad con el “Reglamento de Evaluación de la Seguridad de la Información en Internet”. Servicios con Atributos de Opinión Pública o Capacidades de Movilización Social". El departamento de información solicitará una evaluación de seguridad y realizará los procedimientos de presentación, modificación y presentación de cancelación de algoritmos de acuerdo con el "Reglamento de Gestión de Recomendaciones de Algoritmos de Servicios de Información en Internet".

Esta es también una de las razones por las que no hay modelos a gran escala disponibles para el público.

El profesor Chen Bing, vicedecano de la Facultad de Derecho de la Universidad de Nankai e investigador especial en el Instituto de Investigación de Estrategias de Desarrollo de Inteligencia Artificial de Nueva Generación de China, cree que la regulación previa no dañará necesariamente la innovación tecnológica, pero debe tenerse en cuenta que debido a la previa revisión, aumentará el número de empresas hasta cierto punto.Si el alcance de la revisión previa no se establece correctamente, puede inhibir la investigación y el desarrollo y la eficiencia de la capacitación de los productos de IA generativa, y conducir objetivamente a una desaceleración en el desarrollo de IA generativa.

Dado que los riesgos de la inteligencia artificial no se pueden estimar perfectamente por adelantado, y la supervisión después del evento puede causar un daño enorme, mi país actualmente adopta la supervisión del proceso completo del desarrollo de la inteligencia artificial.

Bajo la regulación de todo el proceso, el costo de cumplimiento de los jugadores de modelos a gran escala sin duda aumentará, y el sistema de presentación de registros también insta a los jugadores en el juego a buscar primero la presentación de registros para promover productos en el mercado antes, objetivamente. acelerando la velocidad de las grandes olas. La mejora gradual de las leyes y regulaciones va acompañada del proceso de reorganización de la industria y el abandono de los débiles, lo que también puede adelantar el momento de despejar las nubes al sol.

Ver originales
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
  • Recompensa
  • Comentar
  • Compartir
Comentar
0/400
Sin comentarios
Opere con criptomonedas en cualquier momento y lugar
qrCode
Escanee para descargar la aplicación Gate
Comunidad
Español
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)