Évaluation de la fiabilité des modèles GPT : Révéler les risques de violation de la vie privée et de biais

Explorer la fiabilité du modèle GPT : Les résultats d'une évaluation complète révèlent des risques potentiels

Une étude menée conjointement par l'Université de l'Illinois à Urbana-Champaign, l'Université de Stanford, l'Université de Californie à Berkeley, le Centre de sécurité de l'intelligence artificielle et Microsoft Research a évalué de manière exhaustive la fiabilité des grands modèles de langage (LLMs). L'équipe de recherche a publié une plateforme d'évaluation complète et a détaillé les résultats de l'étude dans leur dernier article intitulé « DecodingTrust : évaluation complète de la fiabilité des modèles GPT ».

Les résultats de l'évaluation révèlent certains vulnérabilités liées à la crédibilité qui n'avaient pas été précédemment divulguées. L'étude a découvert que les modèles GPT sont facilement trompés pour produire des sorties toxiques et biaisées, et peuvent également divulguer des informations privées dans les données d'entraînement et l'historique des conversations. Bien que le GPT-4 soit généralement plus fiable que le GPT-3.5 dans les tests de référence standard, il est en fait plus vulnérable aux attaques lorsqu'il est confronté à des systèmes ou des invites conçus de manière malveillante, ce qui pourrait être dû au fait que le GPT-4 suit plus strictement les instructions trompeuses.

L'équipe de recherche collabore avec les parties concernées pour s'assurer que les vulnérabilités potentielles découvertes n'affectent pas les services destinés aux clients. Ils ont également partagé leurs résultats de recherche avec les développeurs du modèle GPT, qui ont noté ces problèmes potentiels dans la documentation de système des modèles concernés.

L'étude évalue de manière exhaustive le modèle GPT sous huit angles de crédibilité, couvrant différents scénarios de construction, tâches, indicateurs et ensembles de données. Les objectifs de l'évaluation comprennent : 1) la performance du modèle GPT sous différents angles de crédibilité ; 2) sa capacité d'adaptation dans des environnements adverses.

Plus précisément, les recherches ont révélé :

  1. En matière de démonstrations adversariales, le modèle GPT ne sera pas trompé par des exemples contrefactuels, mais pourrait l'être par des démonstrations anti-fraude, surtout lorsque les démonstrations contrefactuelles sont proches de l'entrée utilisateur.

  2. En ce qui concerne la toxicité et les préjugés, le modèle GPT présente peu de biais sur la plupart des sujets stéréotypés sous des incitations bénéfiques, mais il peut produire un contenu biaisé sous des incitations trompeuses. Le degré de biais du modèle est influencé par les groupes et les thèmes stéréotypés mentionnés dans les incitations de l'utilisateur.

  3. En ce qui concerne la divulgation de la vie privée, le modèle GPT peut divulguer des informations sensibles présentes dans les données d'entraînement, notamment dans des contextes spécifiques ou lors de démonstrations avec peu d'exemples. GPT-4 est plus robuste que GPT-3.5 en matière de protection des informations d'identité personnelle, mais les deux modèles peuvent divulguer tous types d'informations personnelles lors de démonstrations de divulgation de la vie privée.

Cette étude offre une perspective complète sur l'évaluation de la fiabilité des modèles GPT, révélant des écarts de fiabilité importants. L'équipe de recherche espère que ce travail encouragera davantage de chercheurs à s'impliquer et à collaborer pour créer des modèles plus puissants et plus fiables.

GPT0.36%
Voir l'original
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
  • Récompense
  • 10
  • Partager
Commentaire
0/400
LayoffMinervip
· 07-19 15:09
C'est tellement absurde, même l'IA commence à aimer fouiller dans la vie privée des autres.
Voir l'originalRépondre0
TopEscapeArtistvip
· 07-18 22:50
Un autre signal baissier ? Le graphique en chandeliers est déjà rempli de dangers, pas besoin d'étudier pour me le dire.
Voir l'originalRépondre0
NFTRegrettervip
· 07-18 14:53
Ce code va encore poser problème.
Voir l'originalRépondre0
OnchainDetectivevip
· 07-18 05:50
Je pensais déjà que ce n'était pas fiable.
Voir l'originalRépondre0
OnchainUndercovervip
· 07-17 19:34
Il vaut mieux que le gpt soit transparent.
Voir l'originalRépondre0
GateUser-afe07a92vip
· 07-17 19:34
Il n'y a vraiment pas d'IA complètement sécurisée.
Voir l'originalRépondre0
NFTArtisanHQvip
· 07-17 19:34
intéressant... tout comme le travail de Rothko sur le vide, ces lacunes de confiance en IA révèlent de profonds paradoxes existentiels dans l'authenticité numérique
Voir l'originalRépondre0
fomo_fightervip
· 07-17 19:33
Maintenant, tout le monde s'inquiète de l'IA, je meurs de rire.
Voir l'originalRépondre0
FlashLoanPrincevip
· 07-17 19:30
Alors ChatGPT n'est pas fiable non plus ?!
Voir l'originalRépondre0
ser_we_are_earlyvip
· 07-17 19:05
À quoi jouer avec l'IA, il est temps de revenir aux fondamentaux.
Voir l'originalRépondre0
Afficher plus
  • Épingler
Trader les cryptos partout et à tout moment
qrCode
Scan pour télécharger Gate app
Communauté
Français (Afrique)
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)