Évaluation de la fiabilité des modèles GPT : Révéler les risques de violation de la vie privée et de biais

2025-07-17 19:04:13

Explorer la fiabilité du modèle GPT : Les résultats d'une évaluation complète révèlent des risques potentiels

Une étude menée conjointement par l'Université de l'Illinois à Urbana-Champaign, l'Université de Stanford, l'Université de Californie à Berkeley, le Centre de sécurité de l'intelligence artificielle et Microsoft Research a évalué de manière exhaustive la fiabilité des grands modèles de langage (LLMs). L'équipe de recherche a publié une plateforme d'évaluation complète et a détaillé les résultats de l'étude dans leur dernier article intitulé « DecodingTrust : évaluation complète de la fiabilité des modèles GPT ».

Les résultats de l'évaluation révèlent certains vulnérabilités liées à la crédibilité qui n'avaient pas été précédemment divulguées. L'étude a découvert que les modèles GPT sont facilement trompés pour produire des sorties toxiques et biaisées, et peuvent également divulguer des informations privées dans les données d'entraînement et l'historique des conversations. Bien que le GPT-4 soit généralement plus fiable que le GPT-3.5 dans les tests de référence standard, il est en fait plus vulnérable aux attaques lorsqu'il est confronté à des systèmes ou des invites conçus de manière malveillante, ce qui pourrait être dû au fait que le GPT-4 suit plus strictement les instructions trompeuses.

L'équipe de recherche collabore avec les parties concernées pour s'assurer que les vulnérabilités potentielles découvertes n'affectent pas les services destinés aux clients. Ils ont également partagé leurs résultats de recherche avec les développeurs du modèle GPT, qui ont noté ces problèmes potentiels dans la documentation de système des modèles concernés.

L'étude évalue de manière exhaustive le modèle GPT sous huit angles de crédibilité, couvrant différents scénarios de construction, tâches, indicateurs et ensembles de données. Les objectifs de l'évaluation comprennent : 1) la performance du modèle GPT sous différents angles de crédibilité ; 2) sa capacité d'adaptation dans des environnements adverses.

Plus précisément, les recherches ont révélé :

En matière de démonstrations adversariales, le modèle GPT ne sera pas trompé par des exemples contrefactuels, mais pourrait l'être par des démonstrations anti-fraude, surtout lorsque les démonstrations contrefactuelles sont proches de l'entrée utilisateur.
En ce qui concerne la toxicité et les préjugés, le modèle GPT présente peu de biais sur la plupart des sujets stéréotypés sous des incitations bénéfiques, mais il peut produire un contenu biaisé sous des incitations trompeuses. Le degré de biais du modèle est influencé par les groupes et les thèmes stéréotypés mentionnés dans les incitations de l'utilisateur.
En ce qui concerne la divulgation de la vie privée, le modèle GPT peut divulguer des informations sensibles présentes dans les données d'entraînement, notamment dans des contextes spécifiques ou lors de démonstrations avec peu d'exemples. GPT-4 est plus robuste que GPT-3.5 en matière de protection des informations d'identité personnelle, mais les deux modèles peuvent divulguer tous types d'informations personnelles lors de démonstrations de divulgation de la vie privée.

Cette étude offre une perspective complète sur l'évaluation de la fiabilité des modèles GPT, révélant des écarts de fiabilité importants. L'équipe de recherche espère que ce travail encouragera davantage de chercheurs à s'impliquer et à collaborer pour créer des modèles plus puissants et plus fiables.

GPT6.57%

Voir l'original

Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.

19 J'aime

Récompense
19
10
Partager

Commentaire

0/400

LayoffMiner

· 07-19 15:09

C'est tellement absurde, même l'IA commence à aimer fouiller dans la vie privée des autres.

Voir l'originalRépondre0

TopEscapeArtist

· 07-18 22:50

Un autre signal baissier ? Le graphique en chandeliers est déjà rempli de dangers, pas besoin d'étudier pour me le dire.

Voir l'originalRépondre0

NFTRegretter

· 07-18 14:53

Ce code va encore poser problème.

Voir l'originalRépondre0

OnchainDetective

· 07-18 05:50

Je pensais déjà que ce n'était pas fiable.

Voir l'originalRépondre0

OnchainUndercover

· 07-17 19:34

Il vaut mieux que le gpt soit transparent.

Voir l'originalRépondre0

GateUser-afe07a92

· 07-17 19:34

Il n'y a vraiment pas d'IA complètement sécurisée.

Voir l'originalRépondre0

NFTArtisanHQ

· 07-17 19:34

intéressant... tout comme le travail de Rothko sur le vide, ces lacunes de confiance en IA révèlent de profonds paradoxes existentiels dans l'authenticité numérique

Voir l'originalRépondre0

fomo_fighter

· 07-17 19:33

Maintenant, tout le monde s'inquiète de l'IA, je meurs de rire.

Voir l'originalRépondre0

FlashLoanPrince

· 07-17 19:30

Alors ChatGPT n'est pas fiable non plus ?!

Voir l'originalRépondre0

ser_we_are_early

· 07-17 19:05

À quoi jouer avec l'IA, il est temps de revenir aux fondamentaux.

Voir l'originalRépondre0

Afficher plus

Rubrique
1/3
1Gate ETH Staking APY 5%
6k Popularité
2Show My Alpha Points
26k Popularité
3SOL Futures Reach New High
10k Popularité
4ETH ETF Sees 12 Weeks of Inflows
5k Popularité
5Crypto Market Rebound
173k Popularité

Épingler