¡Los nuevos logros de la "inteligencia incorporada" de Li Feifei! El robot se conecta al modelo grande y entiende directamente el habla humana, y puede completar instrucciones complejas sin entrenamiento previo.
Los últimos logros del equipo de Li Feifei inteligencia incorporada están aquí:
El modelo grande está conectado al robot para convertir instrucciones complejas en planes de acción específicos sin datos ni capacitación adicionales.
A partir de entonces, los humanos pueden usar libremente el lenguaje natural para dar instrucciones a los robots, como:
¡Abre el cajón superior y ten cuidado con los jarrones!
El modelo de lenguaje grande + modelo de lenguaje visual puede analizar el objetivo y los obstáculos que deben evitarse desde el espacio 3D, lo que ayuda al robot a planificar la acción.
Entonces, el punto clave es que los robots en el mundo real pueden realizar esta tarea directamente sin "entrenamiento".
El nuevo método realiza una síntesis de trayectoria de tareas de operación diaria de muestra cero, es decir, tareas que el robot nunca antes había visto se pueden realizar al mismo tiempo, sin siquiera darle una demostración.
Los objetos operables también están abiertos. No es necesario delinear el rango de antemano. Puede abrir la botella, presionar el interruptor y desenchufar el cable de carga.
En la actualidad, la página de inicio y los documentos del proyecto están en línea, y el código se publicará pronto y ha despertado un gran interés en la comunidad académica.
Un ex investigador de Microsoft comentó: Esta investigación se encuentra en la frontera más importante y compleja de los sistemas de inteligencia artificial.
Específicamente para la comunidad de investigación de robots, algunos colegas dijeron que ha abierto un nuevo mundo para el campo de la planificación del movimiento.
También hay personas que no vieron el peligro de la IA, pero debido a esta investigación sobre la IA combinada con robots, han cambiado de opinión.
**¿Cómo puede un robot entender el habla humana directamente? **
El equipo de Li Feifei nombró al sistema VoxPoser, como se muestra en la siguiente figura, su principio es muy simple.
En primer lugar, dada la información del entorno (recopilación de imágenes RGB-D con la cámara) y las instrucciones en lenguaje natural que queremos ejecutar.
Luego, LLM (Modelo de lenguaje grande) escribe código basado en estos contenidos, y el código generado interactúa con VLM (Modelo de lenguaje visual) para guiar al sistema a generar un mapa de instrucciones de operación correspondiente, a saber, Mapa de valor 3D.
El llamado Mapa de valor 3D, que es el término general para Affordance Map y Constraint Map, marca tanto "dónde actuar" como "cómo actuar"**.
De esta forma, el planificador de acciones se desplaza y el mapa 3D generado se utiliza como su función objetivo para sintetizar la trayectoria final de la operación a ejecutar.
A partir de este proceso, podemos ver que, en comparación con el método tradicional, se requiere un entrenamiento previo adicional.Este método utiliza un modelo grande para guiar al robot sobre cómo interactuar con el entorno, por lo que resuelve directamente el problema de la escasez de datos de entrenamiento del robot. .
Además, es precisamente debido a esta característica que también se da cuenta de la capacidad de muestra cero Siempre que se domine el proceso básico anterior, se puede realizar cualquier tarea.
En la implementación específica, el autor transformó la idea de VoxPoser en un problema de optimización, es decir, la siguiente fórmula compleja:
Se tiene en cuenta que las instrucciones dadas por humanos pueden tener un amplio rango y requieren comprensión contextual, por lo que las instrucciones se descomponen en muchas subtareas, por ejemplo, el primer ejemplo al principio consiste en "agarrar la manija del cajón" y "tirar de la cajón".
Lo que VoxPoser quiere lograr es optimizar cada subtarea, obtener una serie de trayectorias de robot y finalmente minimizar la carga de trabajo total y el tiempo de trabajo.
En el proceso de usar LLM y VLM para mapear instrucciones de lenguaje en mapas 3D, el sistema considera que el lenguaje puede transmitir un espacio semántico rico, por lo que usa "entidad de interés(entidad de interés)" para guiar al robot a operar, es decir, a través del valor marcado en el 3DValue Map para reflejar qué objeto es "atractivo" para él, y esos objetos son "repulsivos".
Todavía usando el ejemplo del principio 🌰, el cajón "atrae" y el jarrón "rechaza".
Por supuesto, cómo generar estos valores depende de la capacidad de comprensión del modelo de lenguaje grande.
En el proceso de síntesis de la trayectoria final, dado que la salida del modelo de lenguaje permanece constante a lo largo de la tarea, podemos volver a evaluar rápidamente cuando encontramos perturbaciones almacenando en caché su salida y reevaluando el código generado mediante retroalimentación visual de circuito cerrado.
Por lo tanto, VoxPoser tiene una gran capacidad antiinterferencias.
△ Coloque el papel usado en la bandeja azul
Los siguientes son los rendimientos de VoxPoser en entornos reales y simulados (medidos por la tasa de éxito promedio):
Se puede ver que es significativamente más alta que la tarea de línea de base basada en primitivas, independientemente del entorno (con o sin distractores, ya sea que las instrucciones sean visibles o no).
Finalmente, el autor se sorprendió gratamente al descubrir que VoxPoser produjo 4 "habilidades emergentes":
(1) Evaluar las características físicas, como dos bloques de masa desconocida, permitir que el robot use herramientas para realizar experimentos físicos para determinar qué bloque es más pesado;
(2) Razonamiento de sentido común conductual, como en la tarea de colocar vajilla, decirle al robot "Soy zurdo" y puede entender el significado a través del contexto;
(3) Corrección de grano fino. Por ejemplo, al realizar tareas que requieren alta precisión como "tapar la tetera", podemos dar instrucciones precisas al robot como "te desviaste 1 cm" para corregir su funcionamiento;
(4) Operaciones de varios pasos basadas en la visión, como pedirle al robot que abra con precisión el cajón por la mitad. La falta de información debido a la falta de un modelo de objeto puede evitar que el robot realice tal tarea, pero VoxPoser puede proponer una estrategia de operación de varios pasos basada en la retroalimentación visual, es decir, primero abra completamente el cajón mientras registra el desplazamiento de la manija y luego empújelo hacia atrás hasta el punto medio para cumplir con los requisitos.
Fei-Fei Li: Las 3 estrellas polares de la visión artificial
Hace aproximadamente un año, Li Feifei escribió un artículo en el Journal of the American Academy of Arts and Sciences, señalando tres direcciones para el desarrollo de la visión artificial:
IA incorporada
Razonamiento Visual
Comprensión de la escena
Li Feifei cree que la inteligencia incorporada no solo se refiere a los robots humanoides, sino que cualquier máquina inteligente tangible que pueda moverse en el espacio es una forma de inteligencia artificial.
Así como ImageNet tiene como objetivo representar una amplia variedad de imágenes del mundo real, la investigación de inteligencia incorporada debe abordar tareas humanas complejas y diversas, desde doblar la ropa hasta explorar nuevas ciudades.
Seguir instrucciones para realizar estas tareas requiere visión, pero no solo visión, sino también razonamiento visual para comprender las relaciones tridimensionales en la escena.
Finalmente, la máquina debe comprender a las personas en la escena, incluidas las intenciones humanas y las relaciones sociales. Por ejemplo, ver a una persona abrir el refrigerador puede indicar que tiene hambre, o ver a un niño sentado en el regazo de un adulto puede indicar que son padres e hijos.
Los robots combinados con modelos grandes pueden ser solo una forma de resolver estos problemas.
Además de Li Feifei, participó en esta investigación el ex alumno de Tsinghua Yaoban Wu Jiajun, quien se graduó del MIT con un doctorado y ahora es profesor asistente en la Universidad de Stanford.
El primer autor de la tesis, Wenlong Huang, ahora es estudiante de doctorado en Stanford y participó en la investigación PaLM-E durante su pasantía en Google.
Dirección en papel:
Página de inicio del proyecto:
Link de referencia:
[1]
[1]
Ver originales
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
¡Los nuevos logros de la "inteligencia incorporada" de Li Feifei! El robot se conecta al modelo grande y entiende directamente el habla humana, y puede completar instrucciones complejas sin entrenamiento previo.
Fuente: Qubit
Los últimos logros del equipo de Li Feifei inteligencia incorporada están aquí:
El modelo grande está conectado al robot para convertir instrucciones complejas en planes de acción específicos sin datos ni capacitación adicionales.
Los objetos operables también están abiertos. No es necesario delinear el rango de antemano. Puede abrir la botella, presionar el interruptor y desenchufar el cable de carga.
**¿Cómo puede un robot entender el habla humana directamente? **
El equipo de Li Feifei nombró al sistema VoxPoser, como se muestra en la siguiente figura, su principio es muy simple.
Luego, LLM (Modelo de lenguaje grande) escribe código basado en estos contenidos, y el código generado interactúa con VLM (Modelo de lenguaje visual) para guiar al sistema a generar un mapa de instrucciones de operación correspondiente, a saber, Mapa de valor 3D.
A partir de este proceso, podemos ver que, en comparación con el método tradicional, se requiere un entrenamiento previo adicional.Este método utiliza un modelo grande para guiar al robot sobre cómo interactuar con el entorno, por lo que resuelve directamente el problema de la escasez de datos de entrenamiento del robot. .
Además, es precisamente debido a esta característica que también se da cuenta de la capacidad de muestra cero Siempre que se domine el proceso básico anterior, se puede realizar cualquier tarea.
En la implementación específica, el autor transformó la idea de VoxPoser en un problema de optimización, es decir, la siguiente fórmula compleja:
Lo que VoxPoser quiere lograr es optimizar cada subtarea, obtener una serie de trayectorias de robot y finalmente minimizar la carga de trabajo total y el tiempo de trabajo.
En el proceso de usar LLM y VLM para mapear instrucciones de lenguaje en mapas 3D, el sistema considera que el lenguaje puede transmitir un espacio semántico rico, por lo que usa "entidad de interés(entidad de interés)" para guiar al robot a operar, es decir, a través del valor marcado en el 3DValue Map para reflejar qué objeto es "atractivo" para él, y esos objetos son "repulsivos".
Por supuesto, cómo generar estos valores depende de la capacidad de comprensión del modelo de lenguaje grande.
En el proceso de síntesis de la trayectoria final, dado que la salida del modelo de lenguaje permanece constante a lo largo de la tarea, podemos volver a evaluar rápidamente cuando encontramos perturbaciones almacenando en caché su salida y reevaluando el código generado mediante retroalimentación visual de circuito cerrado.
Por lo tanto, VoxPoser tiene una gran capacidad antiinterferencias.
Los siguientes son los rendimientos de VoxPoser en entornos reales y simulados (medidos por la tasa de éxito promedio):
Finalmente, el autor se sorprendió gratamente al descubrir que VoxPoser produjo 4 "habilidades emergentes":
(1) Evaluar las características físicas, como dos bloques de masa desconocida, permitir que el robot use herramientas para realizar experimentos físicos para determinar qué bloque es más pesado;
(2) Razonamiento de sentido común conductual, como en la tarea de colocar vajilla, decirle al robot "Soy zurdo" y puede entender el significado a través del contexto;
(3) Corrección de grano fino. Por ejemplo, al realizar tareas que requieren alta precisión como "tapar la tetera", podemos dar instrucciones precisas al robot como "te desviaste 1 cm" para corregir su funcionamiento;
(4) Operaciones de varios pasos basadas en la visión, como pedirle al robot que abra con precisión el cajón por la mitad. La falta de información debido a la falta de un modelo de objeto puede evitar que el robot realice tal tarea, pero VoxPoser puede proponer una estrategia de operación de varios pasos basada en la retroalimentación visual, es decir, primero abra completamente el cajón mientras registra el desplazamiento de la manija y luego empújelo hacia atrás hasta el punto medio para cumplir con los requisitos.
Fei-Fei Li: Las 3 estrellas polares de la visión artificial
Hace aproximadamente un año, Li Feifei escribió un artículo en el Journal of the American Academy of Arts and Sciences, señalando tres direcciones para el desarrollo de la visión artificial:
Así como ImageNet tiene como objetivo representar una amplia variedad de imágenes del mundo real, la investigación de inteligencia incorporada debe abordar tareas humanas complejas y diversas, desde doblar la ropa hasta explorar nuevas ciudades.
Seguir instrucciones para realizar estas tareas requiere visión, pero no solo visión, sino también razonamiento visual para comprender las relaciones tridimensionales en la escena.
Finalmente, la máquina debe comprender a las personas en la escena, incluidas las intenciones humanas y las relaciones sociales. Por ejemplo, ver a una persona abrir el refrigerador puede indicar que tiene hambre, o ver a un niño sentado en el regazo de un adulto puede indicar que son padres e hijos.
Los robots combinados con modelos grandes pueden ser solo una forma de resolver estos problemas.