Illinois Üniversitesi Urbana-Champaign, Stanford Üniversitesi, Kaliforniya Üniversitesi Berkeley, Yapay Zeka Güvenlik Merkezi ve Microsoft Araştırma Enstitüsü tarafından ortaklaşa gerçekleştirilen bir araştırma, büyük dil modelleri (LLMs)'ın güvenilirliğini kapsamlı bir şekilde değerlendirmiştir. Araştırma ekibi, kapsamlı bir değerlendirme platformu yayımlamış ve en son makaleleri "DecodingTrust: GPT modellerinin güvenilirliğini kapsamlı değerlendirme" ile araştırma bulgularını ayrıntılı bir şekilde sunmuştur.
Değerlendirme sonuçları, daha önce kamuoyuna açıklanmayan güvenilirlikle ilgili bazı açıkları ortaya koymaktadır. Araştırmalar, GPT modellerinin toksik ve önyargılı çıktılar üretmek için kolayca yanıltılabileceğini ve eğitim verilerinden ve diyalog geçmişinden gizli bilgileri sızdırabileceğini bulmuştur. Standart referans testlerinde GPT-4 genellikle GPT-3.5'ten daha güvenilir olsa da, kötü niyetli tasarlanmış sistemler veya kullanıcı istemleriyle karşılaştığında, GPT-4 saldırılara daha açık hale gelmektedir; bu, GPT-4'ün yanıltıcı talimatları daha sıkı bir şekilde takip etmesinden kaynaklanabilir.
Araştırma ekibi, müşterilere sunulan hizmetleri etkilemeyecek şekilde tespit edilen potansiyel açıkların belirlenmesi için ilgili taraflarla işbirliği yaptı. Ayrıca, araştırma bulgularını GPT modelinin geliştiricileriyle paylaştılar ve bu geliştiriciler, ilgili modelin sistem açıklamalarında bu potansiyel sorunları belirttiler.
Araştırma, GPT modelinin farklı inandırıcılık açılarından kapsamlı bir değerlendirmesini yapmıştır ve farklı inşa senaryolarını, görevleri, göstergeleri ve veri setlerini kapsamaktadır. Değerlendirme hedefleri şunları içermektedir: 1) GPT modelinin farklı inandırıcılık perspektiflerindeki performansı; 2) modelin saldırgan ortamlardaki adaptasyon yeteneği.
Özellikle, araştırmalar şunu bulmuştur:
Rekabetçi gösterimlerde, GPT modeli karşıt gerçek örneklerden etkilenmez, ancak karşı dolandırıcılık gösterimlerinden etkilenebilir, özellikle de karşıt gerçek gösterimleri kullanıcı girişi yakın olduğunda.
Toksisite ve önyargılar açısından, GPT modeli olumlu ipuçları altında çoğu klişe konusundaki önyargıyı düşük seviyede tutuyor, ancak yanıltıcı ipuçları altında önyargılı içerikler üretebiliyor. Modelin önyargı düzeyi, kullanıcı ipuçlarında bahsedilen gruplar ve klişe konuları tarafından etkilenmektedir.
Gizlilik ihlali konusunda, GPT modeli, özellikle belirli bir bağlamda veya az örnek gösteriminde, eğitim verilerindeki hassas bilgileri ifşa edebilir. GPT-4, kişisel kimlik bilgilerinin korunmasında GPT-3.5'ten daha dayanıklıdır, ancak her iki model de gizlilik ihlali gösterimleriyle karşılaştıklarında her türlü kişisel bilgiyi ifşa edebilir.
Bu araştırma, GPT modelinin güvenilirlik değerlendirmesi için kapsamlı bir bakış açısı sunmakta ve önemli güvenilirlik farklarını ortaya koymaktadır. Araştırma ekibi, bu çalışmanın daha fazla araştırmacıyı katılmaya teşvik etmesini ve daha güçlü, daha güvenilir modeller yaratma konusunda ortak bir çaba göstermelerini ummaktadır.
This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.
17 Likes
Reward
17
10
Share
Comment
0/400
LayoffMiner
· 8h ago
Bu çok saçma, artık yapay zeka bile başkalarının gizliliğini sorgulamaya başladı.
View OriginalReply0
TopEscapeArtist
· 07-18 22:50
Başka bir düşüş sinyali mi? K çizelgesinde çoktan tehlike ile dolu yazıyor, araştırmaya gerek yok, bana söyle.
View OriginalReply0
NFTRegretter
· 07-18 14:53
Bu kod yine sorun çıkartacak.
View OriginalReply0
OnchainDetective
· 07-18 05:50
Zaten güvenilir olmadığını düşünüyordum.
View OriginalReply0
OnchainUndercover
· 07-17 19:34
Komik gpt yine de şeffaf olmalı
View OriginalReply0
GateUser-afe07a92
· 07-17 19:34
Gerçekten tamamen güvenli bir yapay zeka yok.
View OriginalReply0
NFTArtisanHQ
· 07-17 19:34
ilginç... tıpkı rothko'nun boşluk üzerindeki çalışması gibi, bu AI güven boşlukları dijital otantiklikte derin varoluşsal paradoksları ortaya çıkarıyor
View OriginalReply0
fomo_fighter
· 07-17 19:33
Şimdi herkes AI konusunda endişeleniyor, gülüyorum.
View OriginalReply0
FlashLoanPrince
· 07-17 19:30
Meğer ChatGPT de güvenilir değilmiş?!
View OriginalReply0
ser_we_are_early
· 07-17 19:05
Ne tür bir yapay zeka ile oynuyorsunuz, temele dönmek lazım.
GPT modeli güvenilirlik değerlendirmesi: gizlilik ihlalleri ve önyargı risklerini ortaya koyma
GPT Modelinin Güvenilirliğini Keşfetmek: Kapsamlı Değerlendirme Sonuçları Potansiyel Riskleri Ortaya Çıkartıyor
Illinois Üniversitesi Urbana-Champaign, Stanford Üniversitesi, Kaliforniya Üniversitesi Berkeley, Yapay Zeka Güvenlik Merkezi ve Microsoft Araştırma Enstitüsü tarafından ortaklaşa gerçekleştirilen bir araştırma, büyük dil modelleri (LLMs)'ın güvenilirliğini kapsamlı bir şekilde değerlendirmiştir. Araştırma ekibi, kapsamlı bir değerlendirme platformu yayımlamış ve en son makaleleri "DecodingTrust: GPT modellerinin güvenilirliğini kapsamlı değerlendirme" ile araştırma bulgularını ayrıntılı bir şekilde sunmuştur.
Değerlendirme sonuçları, daha önce kamuoyuna açıklanmayan güvenilirlikle ilgili bazı açıkları ortaya koymaktadır. Araştırmalar, GPT modellerinin toksik ve önyargılı çıktılar üretmek için kolayca yanıltılabileceğini ve eğitim verilerinden ve diyalog geçmişinden gizli bilgileri sızdırabileceğini bulmuştur. Standart referans testlerinde GPT-4 genellikle GPT-3.5'ten daha güvenilir olsa da, kötü niyetli tasarlanmış sistemler veya kullanıcı istemleriyle karşılaştığında, GPT-4 saldırılara daha açık hale gelmektedir; bu, GPT-4'ün yanıltıcı talimatları daha sıkı bir şekilde takip etmesinden kaynaklanabilir.
Araştırma ekibi, müşterilere sunulan hizmetleri etkilemeyecek şekilde tespit edilen potansiyel açıkların belirlenmesi için ilgili taraflarla işbirliği yaptı. Ayrıca, araştırma bulgularını GPT modelinin geliştiricileriyle paylaştılar ve bu geliştiriciler, ilgili modelin sistem açıklamalarında bu potansiyel sorunları belirttiler.
Araştırma, GPT modelinin farklı inandırıcılık açılarından kapsamlı bir değerlendirmesini yapmıştır ve farklı inşa senaryolarını, görevleri, göstergeleri ve veri setlerini kapsamaktadır. Değerlendirme hedefleri şunları içermektedir: 1) GPT modelinin farklı inandırıcılık perspektiflerindeki performansı; 2) modelin saldırgan ortamlardaki adaptasyon yeteneği.
Özellikle, araştırmalar şunu bulmuştur:
Rekabetçi gösterimlerde, GPT modeli karşıt gerçek örneklerden etkilenmez, ancak karşı dolandırıcılık gösterimlerinden etkilenebilir, özellikle de karşıt gerçek gösterimleri kullanıcı girişi yakın olduğunda.
Toksisite ve önyargılar açısından, GPT modeli olumlu ipuçları altında çoğu klişe konusundaki önyargıyı düşük seviyede tutuyor, ancak yanıltıcı ipuçları altında önyargılı içerikler üretebiliyor. Modelin önyargı düzeyi, kullanıcı ipuçlarında bahsedilen gruplar ve klişe konuları tarafından etkilenmektedir.
Gizlilik ihlali konusunda, GPT modeli, özellikle belirli bir bağlamda veya az örnek gösteriminde, eğitim verilerindeki hassas bilgileri ifşa edebilir. GPT-4, kişisel kimlik bilgilerinin korunmasında GPT-3.5'ten daha dayanıklıdır, ancak her iki model de gizlilik ihlali gösterimleriyle karşılaştıklarında her türlü kişisel bilgiyi ifşa edebilir.
Bu araştırma, GPT modelinin güvenilirlik değerlendirmesi için kapsamlı bir bakış açısı sunmakta ve önemli güvenilirlik farklarını ortaya koymaktadır. Araştırma ekibi, bu çalışmanın daha fazla araştırmacıyı katılmaya teşvik etmesini ve daha güçlü, daha güvenilir modeller yaratma konusunda ortak bir çaba göstermelerini ummaktadır.