Exploração da Confiabilidade do Modelo GPT: Resultados de Avaliação Abrangente Revelam Riscos Potenciais
Uma pesquisa realizada em conjunto pela Universidade de Illinois em Urbana-Champaign, Universidade de Stanford, Universidade da Califórnia em Berkeley, Centro de Segurança em Inteligência Artificial e Microsoft Research, avaliou de forma abrangente a confiabilidade dos grandes modelos de linguagem (LLMs). A equipe de pesquisa lançou uma plataforma de avaliação abrangente e detalhou os resultados da pesquisa em seu mais recente artigo "DecodingTrust: Avaliação Abrangente da Confiabilidade dos Modelos GPT".
Os resultados da avaliação revelaram algumas vulnerabilidades relacionadas à confiabilidade que não haviam sido divulgadas anteriormente. A pesquisa descobriu que o modelo GPT é facilmente induzido a produzir saídas tóxicas e tendenciosas, e pode vazar informações privadas dos dados de treinamento e do histórico de conversas. Embora o GPT-4 seja geralmente mais confiável do que o GPT-3.5 em testes de referência padrão, ele é mais suscetível a ataques quando enfrenta sistemas ou prompts maliciosamente projetados, o que pode ser devido ao fato de que o GPT-4 segue mais rigorosamente instruções enganosas.
A equipe de pesquisa colaborou com as partes interessadas para garantir que as vulnerabilidades potenciais descobertas não afetem os serviços voltados para o cliente. Eles também compartilharam os resultados da pesquisa com os desenvolvedores do modelo GPT, que já indicaram essas questões potenciais na documentação do sistema dos modelos relevantes.
O estudo avaliou o modelo GPT de forma abrangente a partir de oito ângulos de credibilidade, cobrindo diferentes cenários de construção, tarefas, métricas e conjuntos de dados. Os objetivos da avaliação incluem: 1) o desempenho do modelo GPT sob diferentes perspectivas de credibilidade; 2) a sua capacidade de adaptação em ambientes adversariais.
Especificamente, a pesquisa revelou:
Em demonstrações adversariais, o modelo GPT não será enganado por exemplos contrafactuais, mas pode ser enganado por demonstrações de fraude, especialmente quando as demonstrações contrafactuais estão próximas da entrada do usuário.
Em termos de toxicidade e preconceito, o modelo GPT apresenta pouco preconceito em relação à maioria dos temas de estereótipos sob indicações benignas, mas pode gerar conteúdo tendencioso sob indicações enganosas. O nível de preconceito do modelo é influenciado pelos grupos e temas de estereótipos mencionados no aviso do usuário.
Em termos de violação de privacidade, o modelo GPT pode vazar informações sensíveis dos dados de treinamento, especialmente em contextos específicos ou demonstrações com poucos exemplos. O GPT-4 é mais robusto na proteção de informações de identificação pessoal em comparação com o GPT-3.5, mas ambos os modelos podem vazar todos os tipos de informações pessoais quando confrontados com demonstrações de violação de privacidade.
Este estudo oferece uma perspectiva abrangente sobre a avaliação da credibilidade dos modelos GPT, revelando lacunas importantes na credibilidade. A equipe de pesquisa espera que este trabalho encoraje mais pesquisadores a participar, unindo esforços para criar modelos mais robustos e confiáveis.
Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.
19 gostos
Recompensa
19
10
Partilhar
Comentar
0/400
LayoffMiner
· 07-19 15:09
É tão absurdo que até a IA começou a gostar de bisbilhotar a privacidade dos outros.
Ver originalResponder0
TopEscapeArtist
· 07-18 22:50
Mais um sinal de baixa? O gráfico de velas já estava cheio de perigos. Não preciso de estudos para me dizer isso.
Ver originalResponder0
NFTRegretter
· 07-18 14:53
Este código vai dar problemas novamente.
Ver originalResponder0
OnchainDetective
· 07-18 05:50
Já achava que não era confiável.
Ver originalResponder0
OnchainUndercover
· 07-17 19:34
Engraçado, o gpt ainda é melhor que seja transparente.
Ver originalResponder0
GateUser-afe07a92
· 07-17 19:34
Não há uma IA completamente segura.
Ver originalResponder0
NFTArtisanHQ
· 07-17 19:34
interessante... assim como o trabalho de rothko sobre o vazio, essas falhas de confiança em IA revelam paradoxos existenciais profundos na autenticidade digital
Ver originalResponder0
fomo_fighter
· 07-17 19:33
Agora todos estão preocupados com a ai, morrendo de rir.
Avaliação da confiabilidade do modelo GPT: Revelando riscos de vazamento de privacidade e preconceito
Exploração da Confiabilidade do Modelo GPT: Resultados de Avaliação Abrangente Revelam Riscos Potenciais
Uma pesquisa realizada em conjunto pela Universidade de Illinois em Urbana-Champaign, Universidade de Stanford, Universidade da Califórnia em Berkeley, Centro de Segurança em Inteligência Artificial e Microsoft Research, avaliou de forma abrangente a confiabilidade dos grandes modelos de linguagem (LLMs). A equipe de pesquisa lançou uma plataforma de avaliação abrangente e detalhou os resultados da pesquisa em seu mais recente artigo "DecodingTrust: Avaliação Abrangente da Confiabilidade dos Modelos GPT".
Os resultados da avaliação revelaram algumas vulnerabilidades relacionadas à confiabilidade que não haviam sido divulgadas anteriormente. A pesquisa descobriu que o modelo GPT é facilmente induzido a produzir saídas tóxicas e tendenciosas, e pode vazar informações privadas dos dados de treinamento e do histórico de conversas. Embora o GPT-4 seja geralmente mais confiável do que o GPT-3.5 em testes de referência padrão, ele é mais suscetível a ataques quando enfrenta sistemas ou prompts maliciosamente projetados, o que pode ser devido ao fato de que o GPT-4 segue mais rigorosamente instruções enganosas.
A equipe de pesquisa colaborou com as partes interessadas para garantir que as vulnerabilidades potenciais descobertas não afetem os serviços voltados para o cliente. Eles também compartilharam os resultados da pesquisa com os desenvolvedores do modelo GPT, que já indicaram essas questões potenciais na documentação do sistema dos modelos relevantes.
O estudo avaliou o modelo GPT de forma abrangente a partir de oito ângulos de credibilidade, cobrindo diferentes cenários de construção, tarefas, métricas e conjuntos de dados. Os objetivos da avaliação incluem: 1) o desempenho do modelo GPT sob diferentes perspectivas de credibilidade; 2) a sua capacidade de adaptação em ambientes adversariais.
Especificamente, a pesquisa revelou:
Em demonstrações adversariais, o modelo GPT não será enganado por exemplos contrafactuais, mas pode ser enganado por demonstrações de fraude, especialmente quando as demonstrações contrafactuais estão próximas da entrada do usuário.
Em termos de toxicidade e preconceito, o modelo GPT apresenta pouco preconceito em relação à maioria dos temas de estereótipos sob indicações benignas, mas pode gerar conteúdo tendencioso sob indicações enganosas. O nível de preconceito do modelo é influenciado pelos grupos e temas de estereótipos mencionados no aviso do usuário.
Em termos de violação de privacidade, o modelo GPT pode vazar informações sensíveis dos dados de treinamento, especialmente em contextos específicos ou demonstrações com poucos exemplos. O GPT-4 é mais robusto na proteção de informações de identificação pessoal em comparação com o GPT-3.5, mas ambos os modelos podem vazar todos os tipos de informações pessoais quando confrontados com demonstrações de violação de privacidade.
Este estudo oferece uma perspectiva abrangente sobre a avaliação da credibilidade dos modelos GPT, revelando lacunas importantes na credibilidade. A equipe de pesquisa espera que este trabalho encoraje mais pesquisadores a participar, unindo esforços para criar modelos mais robustos e confiáveis.