Explorer la fiabilité du modèle GPT : Les résultats d'une évaluation complète révèlent des risques potentiels
Une étude menée conjointement par l'Université de l'Illinois à Urbana-Champaign, l'Université de Stanford, l'Université de Californie à Berkeley, le Centre de sécurité de l'intelligence artificielle et Microsoft Research a évalué de manière exhaustive la fiabilité des grands modèles de langage (LLMs). L'équipe de recherche a publié une plateforme d'évaluation complète et a détaillé les résultats de l'étude dans leur dernier article intitulé « DecodingTrust : évaluation complète de la fiabilité des modèles GPT ».
Les résultats de l'évaluation révèlent certains vulnérabilités liées à la crédibilité qui n'avaient pas été précédemment divulguées. L'étude a découvert que les modèles GPT sont facilement trompés pour produire des sorties toxiques et biaisées, et peuvent également divulguer des informations privées dans les données d'entraînement et l'historique des conversations. Bien que le GPT-4 soit généralement plus fiable que le GPT-3.5 dans les tests de référence standard, il est en fait plus vulnérable aux attaques lorsqu'il est confronté à des systèmes ou des invites conçus de manière malveillante, ce qui pourrait être dû au fait que le GPT-4 suit plus strictement les instructions trompeuses.
L'équipe de recherche collabore avec les parties concernées pour s'assurer que les vulnérabilités potentielles découvertes n'affectent pas les services destinés aux clients. Ils ont également partagé leurs résultats de recherche avec les développeurs du modèle GPT, qui ont noté ces problèmes potentiels dans la documentation de système des modèles concernés.
L'étude évalue de manière exhaustive le modèle GPT sous huit angles de crédibilité, couvrant différents scénarios de construction, tâches, indicateurs et ensembles de données. Les objectifs de l'évaluation comprennent : 1) la performance du modèle GPT sous différents angles de crédibilité ; 2) sa capacité d'adaptation dans des environnements adverses.
Plus précisément, les recherches ont révélé :
En matière de démonstrations adversariales, le modèle GPT ne sera pas trompé par des exemples contrefactuels, mais pourrait l'être par des démonstrations anti-fraude, surtout lorsque les démonstrations contrefactuelles sont proches de l'entrée utilisateur.
En ce qui concerne la toxicité et les préjugés, le modèle GPT présente peu de biais sur la plupart des sujets stéréotypés sous des incitations bénéfiques, mais il peut produire un contenu biaisé sous des incitations trompeuses. Le degré de biais du modèle est influencé par les groupes et les thèmes stéréotypés mentionnés dans les incitations de l'utilisateur.
En ce qui concerne la divulgation de la vie privée, le modèle GPT peut divulguer des informations sensibles présentes dans les données d'entraînement, notamment dans des contextes spécifiques ou lors de démonstrations avec peu d'exemples. GPT-4 est plus robuste que GPT-3.5 en matière de protection des informations d'identité personnelle, mais les deux modèles peuvent divulguer tous types d'informations personnelles lors de démonstrations de divulgation de la vie privée.
Cette étude offre une perspective complète sur l'évaluation de la fiabilité des modèles GPT, révélant des écarts de fiabilité importants. L'équipe de recherche espère que ce travail encouragera davantage de chercheurs à s'impliquer et à collaborer pour créer des modèles plus puissants et plus fiables.
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
19 J'aime
Récompense
19
10
Partager
Commentaire
0/400
LayoffMiner
· 07-19 15:09
C'est tellement absurde, même l'IA commence à aimer fouiller dans la vie privée des autres.
Voir l'originalRépondre0
TopEscapeArtist
· 07-18 22:50
Un autre signal baissier ? Le graphique en chandeliers est déjà rempli de dangers, pas besoin d'étudier pour me le dire.
Voir l'originalRépondre0
NFTRegretter
· 07-18 14:53
Ce code va encore poser problème.
Voir l'originalRépondre0
OnchainDetective
· 07-18 05:50
Je pensais déjà que ce n'était pas fiable.
Voir l'originalRépondre0
OnchainUndercover
· 07-17 19:34
Il vaut mieux que le gpt soit transparent.
Voir l'originalRépondre0
GateUser-afe07a92
· 07-17 19:34
Il n'y a vraiment pas d'IA complètement sécurisée.
Voir l'originalRépondre0
NFTArtisanHQ
· 07-17 19:34
intéressant... tout comme le travail de Rothko sur le vide, ces lacunes de confiance en IA révèlent de profonds paradoxes existentiels dans l'authenticité numérique
Voir l'originalRépondre0
fomo_fighter
· 07-17 19:33
Maintenant, tout le monde s'inquiète de l'IA, je meurs de rire.
Voir l'originalRépondre0
FlashLoanPrince
· 07-17 19:30
Alors ChatGPT n'est pas fiable non plus ?!
Voir l'originalRépondre0
ser_we_are_early
· 07-17 19:05
À quoi jouer avec l'IA, il est temps de revenir aux fondamentaux.
Évaluation de la fiabilité des modèles GPT : Révéler les risques de violation de la vie privée et de biais
Explorer la fiabilité du modèle GPT : Les résultats d'une évaluation complète révèlent des risques potentiels
Une étude menée conjointement par l'Université de l'Illinois à Urbana-Champaign, l'Université de Stanford, l'Université de Californie à Berkeley, le Centre de sécurité de l'intelligence artificielle et Microsoft Research a évalué de manière exhaustive la fiabilité des grands modèles de langage (LLMs). L'équipe de recherche a publié une plateforme d'évaluation complète et a détaillé les résultats de l'étude dans leur dernier article intitulé « DecodingTrust : évaluation complète de la fiabilité des modèles GPT ».
Les résultats de l'évaluation révèlent certains vulnérabilités liées à la crédibilité qui n'avaient pas été précédemment divulguées. L'étude a découvert que les modèles GPT sont facilement trompés pour produire des sorties toxiques et biaisées, et peuvent également divulguer des informations privées dans les données d'entraînement et l'historique des conversations. Bien que le GPT-4 soit généralement plus fiable que le GPT-3.5 dans les tests de référence standard, il est en fait plus vulnérable aux attaques lorsqu'il est confronté à des systèmes ou des invites conçus de manière malveillante, ce qui pourrait être dû au fait que le GPT-4 suit plus strictement les instructions trompeuses.
L'équipe de recherche collabore avec les parties concernées pour s'assurer que les vulnérabilités potentielles découvertes n'affectent pas les services destinés aux clients. Ils ont également partagé leurs résultats de recherche avec les développeurs du modèle GPT, qui ont noté ces problèmes potentiels dans la documentation de système des modèles concernés.
L'étude évalue de manière exhaustive le modèle GPT sous huit angles de crédibilité, couvrant différents scénarios de construction, tâches, indicateurs et ensembles de données. Les objectifs de l'évaluation comprennent : 1) la performance du modèle GPT sous différents angles de crédibilité ; 2) sa capacité d'adaptation dans des environnements adverses.
Plus précisément, les recherches ont révélé :
En matière de démonstrations adversariales, le modèle GPT ne sera pas trompé par des exemples contrefactuels, mais pourrait l'être par des démonstrations anti-fraude, surtout lorsque les démonstrations contrefactuelles sont proches de l'entrée utilisateur.
En ce qui concerne la toxicité et les préjugés, le modèle GPT présente peu de biais sur la plupart des sujets stéréotypés sous des incitations bénéfiques, mais il peut produire un contenu biaisé sous des incitations trompeuses. Le degré de biais du modèle est influencé par les groupes et les thèmes stéréotypés mentionnés dans les incitations de l'utilisateur.
En ce qui concerne la divulgation de la vie privée, le modèle GPT peut divulguer des informations sensibles présentes dans les données d'entraînement, notamment dans des contextes spécifiques ou lors de démonstrations avec peu d'exemples. GPT-4 est plus robuste que GPT-3.5 en matière de protection des informations d'identité personnelle, mais les deux modèles peuvent divulguer tous types d'informations personnelles lors de démonstrations de divulgation de la vie privée.
Cette étude offre une perspective complète sur l'évaluation de la fiabilité des modèles GPT, révélant des écarts de fiabilité importants. L'équipe de recherche espère que ce travail encouragera davantage de chercheurs à s'impliquer et à collaborer pour créer des modèles plus puissants et plus fiables.