Explorando la confiabilidad del modelo GPT: los resultados de la evaluación completa revelan riesgos potenciales
Una investigación realizada conjuntamente por la Universidad de Illinois en Urbana-Champaign, la Universidad de Stanford, la Universidad de California en Berkeley, el Centro de Seguridad de Inteligencia Artificial y Microsoft Research, ha llevado a cabo una evaluación exhaustiva de la confiabilidad de los grandes modelos de lenguaje (LLMs). El equipo de investigación ha lanzado una plataforma de evaluación integral y ha detallado los resultados de la investigación en el último artículo titulado "DecodingTrust: Evaluación integral de la confiabilidad de los modelos GPT".
Los resultados de la evaluación revelaron algunas vulnerabilidades relacionadas con la credibilidad que no se habían hecho públicas anteriormente. La investigación encontró que el modelo GPT es fácilmente engañado para generar salidas tóxicas y sesgadas, y puede filtrar información privada de los datos de entrenamiento y del historial de conversaciones. Aunque en las pruebas de referencia estándar, GPT-4 es generalmente más confiable que GPT-3.5, cuando se enfrenta a sistemas diseñados maliciosamente o a indicaciones de usuarios, GPT-4 es incluso más susceptible a ataques, lo que podría deberse a que GPT-4 sigue más estrictamente las instrucciones engañosas.
El equipo de investigación colabora con las partes interesadas para garantizar que las posibles vulnerabilidades descubiertas no afecten los servicios actuales dirigidos a los clientes. También compartieron los hallazgos de la investigación con los desarrolladores del modelo GPT, quienes han señalado estos problemas potenciales en la documentación del sistema de los modelos relacionados.
La investigación realizó una evaluación exhaustiva del modelo GPT desde ocho perspectivas de credibilidad, abarcando diferentes escenarios de construcción, tareas, métricas y conjuntos de datos. Los objetivos de la evaluación incluyen: 1) el rendimiento del modelo GPT desde diferentes perspectivas de credibilidad; 2) su capacidad de adaptación en entornos adversariales.
En concreto, la investigación ha encontrado:
En términos de demostraciones adversariales, el modelo GPT no se dejará engañar por ejemplos contrafactuales, pero podría ser engañado por demostraciones antifraude, especialmente cuando las demostraciones contrafactuales están cerca de la entrada del usuario.
En términos de toxicidad y sesgo, el modelo GPT tiene poco sesgo hacia la mayoría de los temas de estereotipos bajo indicaciones benignas, pero puede generar contenido sesgado bajo indicaciones engañosas. El grado de sesgo del modelo se ve afectado por los grupos y los temas de estereotipos mencionados en las indicaciones del usuario.
En términos de filtración de privacidad, los modelos GPT pueden filtrar información sensible de los datos de entrenamiento, especialmente en contextos específicos o demostraciones con pocas muestras. GPT-4 es más robusto en la protección de la información de identidad personal en comparación con GPT-3.5, pero ambos modelos pueden filtrar todo tipo de información personal cuando se enfrentan a demostraciones de filtración de privacidad.
Este estudio proporciona una perspectiva integral sobre la evaluación de la credibilidad de los modelos GPT, revelando importantes brechas de credibilidad. El equipo de investigación espera que este trabajo pueda alentar a más investigadores a participar y trabajar juntos para crear modelos más robustos y confiables.
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
15 me gusta
Recompensa
15
9
Compartir
Comentar
0/400
TopEscapeArtist
· hace6h
¿Otra señal bajista? El gráfico de velas ya está lleno de peligros, no necesitas investigar para decírmelo.
Ver originalesResponder0
NFTRegretter
· hace14h
Este código va a causar problemas otra vez.
Ver originalesResponder0
OnchainDetective
· hace23h
Ya lo sospechaba.
Ver originalesResponder0
OnchainUndercover
· 07-17 19:34
Es mejor que GPT sea transparente y divertido.
Ver originalesResponder0
GateUser-afe07a92
· 07-17 19:34
Realmente no hay una IA completamente segura.
Ver originalesResponder0
NFTArtisanHQ
· 07-17 19:34
interesante... al igual que el trabajo de Rothko sobre el vacío, estas brechas de confianza en la IA revelan profundas paradojas existenciales en la autenticidad digital
Ver originalesResponder0
fomo_fighter
· 07-17 19:33
Ahora todos están preocupados por la IA, me muero de risa.
Evaluación de la confiabilidad del modelo GPT: Revelando riesgos de filtración de privacidad y sesgo
Explorando la confiabilidad del modelo GPT: los resultados de la evaluación completa revelan riesgos potenciales
Una investigación realizada conjuntamente por la Universidad de Illinois en Urbana-Champaign, la Universidad de Stanford, la Universidad de California en Berkeley, el Centro de Seguridad de Inteligencia Artificial y Microsoft Research, ha llevado a cabo una evaluación exhaustiva de la confiabilidad de los grandes modelos de lenguaje (LLMs). El equipo de investigación ha lanzado una plataforma de evaluación integral y ha detallado los resultados de la investigación en el último artículo titulado "DecodingTrust: Evaluación integral de la confiabilidad de los modelos GPT".
Los resultados de la evaluación revelaron algunas vulnerabilidades relacionadas con la credibilidad que no se habían hecho públicas anteriormente. La investigación encontró que el modelo GPT es fácilmente engañado para generar salidas tóxicas y sesgadas, y puede filtrar información privada de los datos de entrenamiento y del historial de conversaciones. Aunque en las pruebas de referencia estándar, GPT-4 es generalmente más confiable que GPT-3.5, cuando se enfrenta a sistemas diseñados maliciosamente o a indicaciones de usuarios, GPT-4 es incluso más susceptible a ataques, lo que podría deberse a que GPT-4 sigue más estrictamente las instrucciones engañosas.
El equipo de investigación colabora con las partes interesadas para garantizar que las posibles vulnerabilidades descubiertas no afecten los servicios actuales dirigidos a los clientes. También compartieron los hallazgos de la investigación con los desarrolladores del modelo GPT, quienes han señalado estos problemas potenciales en la documentación del sistema de los modelos relacionados.
La investigación realizó una evaluación exhaustiva del modelo GPT desde ocho perspectivas de credibilidad, abarcando diferentes escenarios de construcción, tareas, métricas y conjuntos de datos. Los objetivos de la evaluación incluyen: 1) el rendimiento del modelo GPT desde diferentes perspectivas de credibilidad; 2) su capacidad de adaptación en entornos adversariales.
En concreto, la investigación ha encontrado:
En términos de demostraciones adversariales, el modelo GPT no se dejará engañar por ejemplos contrafactuales, pero podría ser engañado por demostraciones antifraude, especialmente cuando las demostraciones contrafactuales están cerca de la entrada del usuario.
En términos de toxicidad y sesgo, el modelo GPT tiene poco sesgo hacia la mayoría de los temas de estereotipos bajo indicaciones benignas, pero puede generar contenido sesgado bajo indicaciones engañosas. El grado de sesgo del modelo se ve afectado por los grupos y los temas de estereotipos mencionados en las indicaciones del usuario.
En términos de filtración de privacidad, los modelos GPT pueden filtrar información sensible de los datos de entrenamiento, especialmente en contextos específicos o demostraciones con pocas muestras. GPT-4 es más robusto en la protección de la información de identidad personal en comparación con GPT-3.5, pero ambos modelos pueden filtrar todo tipo de información personal cuando se enfrentan a demostraciones de filtración de privacidad.
Este estudio proporciona una perspectiva integral sobre la evaluación de la credibilidad de los modelos GPT, revelando importantes brechas de credibilidad. El equipo de investigación espera que este trabajo pueda alentar a más investigadores a participar y trabajar juntos para crear modelos más robustos y confiables.