NIST’in Yayınlanmamış AI Risk Çalışması İdari Değişim Arasında Raflarda Bekliyor

Kısaca

NIST liderliğindeki bir kırmızı takım egzersizi CAMLIS'te, gelişmiş yapay zeka sistemlerindeki zayıflıkları değerlendirerek, yanlış bilgi, veri sızıntıları ve duygusal manipülasyon gibi riskleri değerlendirdi.

NIST’in Yayınlanmamış AI Risk Çalışması İdari Değişiklikler Arasında Raflarda Bekliyor

Ulusal Standartlar ve Teknoloji Enstitüsü (NIST), Joe Biden yönetiminin sona ermesinin hemen öncesinde gelişmiş yapay zeka modellerinin güvenliği üzerine bir rapor tamamladı, ancak belge Donald Trump yönetimine geçişin ardından yayımlanmadı. Rapor, kuruluşların yapay zeka sistemlerini değerlendirmelerine yardımcı olmak amacıyla hazırlanmıştı, ancak yeni yönetimin politika yönelimi ile potansiyel çatışmalar nedeniyle yayımlanması engellenen NIST tarafından kaleme alınmış birkaç yapay zeka belgesinden biriydi.

Göreve başlamadan önce, Başkan Donald Trump, AI ile ilgili Biden dönemi yürütme emirlerini iptal etme niyetini belirtti. Geçiş sürecinden bu yana, yönetim uzmanların dikkatini algoritmik önyargı ve AI'daki adalet gibi alanlardan uzaklaştırdı. Temmuz ayında yayımlanan AI Eylem Planı, özellikle NIST'in AI Risk Yönetim Çerçevesi'nde değişiklikler yapılmasını talep ediyor ve yanlış bilgilere, Çeşitlilik, Eşitlik ve Kapsayıcılık (DEI) ve iklim değişikliğine atıfların kaldırılmasını öneriyor.

Aynı zamanda, AI Eylem Planı, yayımlanmamış raporun hedeflerine benzeyen bir öneri içermektedir. Bu, NIST de dahil olmak üzere birden fazla federal ajansa, şeffaflık, işlevsellik, kullanıcı kontrolü ve potansiyel güvenlik açıklarını test etmeyi amaçlayan koordine bir AI hackathon girişimi düzenlemeleri talimatını vermektedir.

NIST Tarafından Yönetilen Kırmızı Takım Egzersizi, CAMLIS Konferansı'nda ARIA Çerçevesini Kullanarak AI Sistem Risklerini Araştırıyor

Kırmızı takım çalışması, NIST tarafından, AI (ARIA) programı kapsamında, yapay zeka sistemlerini değerlendirmeye odaklanan Humane Intelligence şirketi ile iş birliği içinde gerçekleştirildi. Bu girişim, katılımcıların çeşitli gelişmiş yapay zeka teknolojilerinin zayıflıklarını araştırdığı Bilgi Güvenliğinde Uygulamalı Makine Öğrenimi Konferansı (CAMLIS) sırasında yapıldı.

CAMLIS Kırmızı Takım raporu, Meta'nın Llama'sı, açık kaynaklı bir büyük dil modeli (LLM); AI modelleri geliştirmek ve iyileştirmek için bir platform olan Anote; CISCO tarafından satın alınan Robust Intelligence'tan bir güvenlik sistemi; ve Synthesia'nın AI avatar oluşturma platformu gibi çeşitli AI araçlarının değerlendirmesini belgelemektedir. Her kuruluşun temsilcileri, kırmızı takım etkinliklerine katkıda bulundu.

Katılımcılar, söz konusu araçları analiz etmek için NIST AI 600-1 çerçevesini kullandılar. Bu çerçeve, AI'nın yanlış bilgi üretme veya siber güvenlik tehditleri oluşturma, özel veya hassas verileri ifşa etme veya kullanıcılar ile AI sistemleri arasında duygusal bağımlılık geliştirme gibi birden fazla risk alanını belirlemektedir.

Yayınlanmamış AI Kırmızı Takım Raporu Model Zayıflıklarını Ortaya Çıkarıyor, Siyasi Bastırma ve Kaçırılan Araştırma İçgörüleri Hakkında Endişelere Neden Oluyor

Araştırma ekibi, değerlendirilen araçların amaçlanan güvenlik önlemlerini aşmanın birkaç yolunu buldu ve bu da yanlış bilgi, özel bilgilerin ifşası ve siber saldırı stratejilerinin oluşturulmasına yardımcı olan çıktılarla sonuçlandı. Raporun belirttiğine göre, NIST çerçevesinin bazı yönleri diğerlerinden daha uygulanabilir çıktı. Ayrıca, belirli risk kategorilerinin pratik kullanım için gerekli netlikten yoksun olduğunu da vurguladı.

Kırmızı takım girişimiyle ilgili olan bireyler, egzersizden elde edilen bulguların daha geniş AI araştırma ve geliştirme topluluğuna değerli bilgiler sunabileceğini ifade etti. Carnegie Mellon Üniversitesi'nde doktora adayı olan bir katılımcı Alice Qian Zhang, raporun kamuya açık bir şekilde paylaşılmasının, NIST risk çerçevesinin gerçek dünya test ortamlarında nasıl işlediğini netleştirmeye yardımcı olabileceğini belirtti. Ayrıca, değerlendirme sırasında araçların geliştiricileriyle doğrudan etkileşimin deneyime değer kattığını vurguladı.

Anonim kalmayı tercih eden bir başka katkıda bulunan, bu çalışmanın Llama gibi modellerden yasaklı çıktılar elde etmekte özellikle başarılı olan Rusça, Gujaratça, Marathi ve Telugu gibi dilleri kullanarak belirli yönlendirme tekniklerini ortaya çıkardığını belirtti. Bu kişi, raporun yayımlanmaması kararının, yeni yönetim öncesinde çeşitlilik, eşitlik ve kapsayıcılıkla bağlantılı olarak algılanan alanlardan uzaklaşan daha geniş bir kaymayı yansıtıyor olabileceğini öne sürdü.

Bazı katılımcılar, raporun atlanmasının, yüksek riskli durumlara—örneğin, kitle imha silahları geliştirmede AI sistemlerinin potansiyel kullanımı gibi—hükümetin artan odaklanmasından kaynaklanabileceğini öne sürdü ve büyük teknoloji şirketleriyle bağları güçlendirmeye yönelik paralel bir çaba olduğunu belirtti. Bir kırmızı takım katılımcısı anonim olarak, siyasi nedenlerin raporun tutulmasında muhtemelen rol oynadığını ve egzersizin devam eden bilimsel önem taşıyan içgörüler içerdiğini ifade etti.

IN-1.64%
View Original
This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.
  • Reward
  • Comment
  • Repost
  • Share
Comment
0/400
No comments
Trade Crypto Anywhere Anytime
qrCode
Scan to download Gate app
Community
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)