استكشاف موثوقية نموذج GPT: تقييم شامل يكشف عن المخاطر المحتملة
أجرت دراسة مشتركة بين جامعة إلينوي في إربانا-شامبين، جامعة ستانفورد، جامعة كاليفورنيا في بيركلي، مركز أمان الذكاء الاصطناعي، ومختبرات أبحاث مايكروسوفت، تقييمًا شاملًا لثقة نماذج اللغة الكبيرة (LLMs). أصدرت فريق البحث منصة تقييم شاملة، وقدموا تفاصيل نتائج البحث في ورقة العمل الأخيرة "DecodingTrust: تقييم شامل لثقة نماذج GPT."
أظهرت نتائج التقييم بعض الثغرات المتعلقة بالموثوقية التي لم يتم الكشف عنها سابقًا. وجدت الدراسة أن نماذج GPT يمكن أن تنخدع بسهولة لإنتاج مخرجات سامة ومت偏عة، وقد تكشف عن بيانات التدريب والمعلومات الخاصة من تاريخ المحادثات. على الرغم من أن GPT-4 عادة ما يكون أكثر موثوقية من GPT-3.5 في اختبارات المعايير القياسية، إلا أنه يصبح أكثر عرضة للهجمات عند مواجهة أنظمة أو تلميحات مصممة بشكل خبيث، وقد يكون ذلك لأن GPT-4 يتبع التعليمات المضللة بشكل أكثر صرامة.
تعاون فريق البحث مع الأطراف المعنية لضمان عدم تأثير الثغرات المحتملة التي تم اكتشافها على الخدمات الموجهة للعملاء. كما شاركوا نتائج بحثهم مع مطوري نموذج GPT، الذين أشاروا إلى هذه المشكلات المحتملة في وثائق النظام الخاصة بالنموذج المعني.
تم تقييم نموذج GPT بشكل شامل من ثمانية جوانب موثوقية، تغطي سيناريوهات بناء مختلفة، ومهام، ومعايير، ومجموعات بيانات. تشمل أهداف التقييم: أداء نموذج GPT 1) من وجهات نظر موثوقية مختلفة؛ 2) قدرته على التكيف في بيئات عدائية.
على وجه التحديد، أظهرت الأبحاث أن:
في العروض التقديمية التنافسية، لا يمكن لنموذج GPT أن يضلله الأمثلة المضادة للحقائق، ولكنه قد يتعرض للتضليل بسبب العروض المضادة للاحتيال، خاصة عندما تكون العروض المضادة للحقائق قريبة من مدخلات المستخدم.
من حيث السمية والتحيز، فإن نموذج GPT لديه تحيزات قليلة تجاه معظم مواضيع الصور النمطية تحت التوجيهات الإيجابية، ولكنه قد ينتج محتوى متحيز تحت التوجيهات المضللة. يتأثر مستوى تحيز النموذج بالمجموعات ومواضيع الصور النمطية المذكورة في توجيهات المستخدم.
في مجال تسريب الخصوصية، قد يكشف نموذج GPT عن معلومات حساسة من بيانات التدريب، خاصة في سياقات معينة أو عروض قليلة العينات. يعتبر GPT-4 أكثر قوة في حماية المعلومات الشخصية مقارنة بـ GPT-3.5، لكن كلا النموذجين قد يكشفان عن جميع أنواع المعلومات الشخصية عند مواجهة عروض تسريب الخصوصية.
تقدم هذه الدراسة منظورًا شاملاً لتقييم موثوقية نماذج GPT، كاشفة عن فجوات مهمة في الموثوقية. يأمل فريق البحث أن تشجع هذه العمل المزيد من الباحثين على المشاركة، والعمل معًا نحو إنشاء نماذج أقوى وأكثر موثوقية.
قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.
تسجيلات الإعجاب 19
أعجبني
19
10
مشاركة
تعليق
0/400
LayoffMiner
· 07-19 15:09
هذا غير معقول، حتى الذكاء الاصطناعي بدأ يحب التجسس على خصوصيات الآخرين.
شاهد النسخة الأصليةرد0
TopEscapeArtist
· 07-18 22:50
إشارة أخرى نحو الانخفاض؟ لقد كانت مخاطر السوق واضحة بالفعل على الرسم البياني للشموع، ليس من الضروري أن أبحث في الأمر لأعرف.
شاهد النسخة الأصليةرد0
NFTRegretter
· 07-18 14:53
هذه الشيفرة ستسبب مشكلة مرة أخرى
شاهد النسخة الأصليةرد0
OnchainDetective
· 07-18 05:50
كنت أشعر منذ زمن طويل أنه غير موثوق.
شاهد النسخة الأصليةرد0
OnchainUndercover
· 07-17 19:34
من الأفضل أن يكون GPT مضحكًا وشفافًا.
شاهد النسخة الأصليةرد0
GateUser-afe07a92
· 07-17 19:34
لا يوجد ذكاء اصطناعي آمن تمامًا.
شاهد النسخة الأصليةرد0
NFTArtisanHQ
· 07-17 19:34
مثير للاهتمام... تمامًا مثل عمل روثكو على الفراغ، تكشف فجوات الثقة في الذكاء الاصطناعي عن تناقضات وجودية عميقة في الأصالة الرقمية
شاهد النسخة الأصليةرد0
fomo_fighter
· 07-17 19:33
الآن الجميع قلق بشأن الذكاء الاصطناعي، يموت من الضحك.
شاهد النسخة الأصليةرد0
FlashLoanPrince
· 07-17 19:30
يبدو أن ChatGPT ليس موثوقًا أيضًا؟!
شاهد النسخة الأصليةرد0
ser_we_are_early
· 07-17 19:05
ماذا نفعل بالذكاء الاصطناعي؟ يجب أن نعود إلى الأساسيات.
تقييم موثوقية نموذج GPT: الكشف عن مخاطر تسرب الخصوصية والتحيز
استكشاف موثوقية نموذج GPT: تقييم شامل يكشف عن المخاطر المحتملة
أجرت دراسة مشتركة بين جامعة إلينوي في إربانا-شامبين، جامعة ستانفورد، جامعة كاليفورنيا في بيركلي، مركز أمان الذكاء الاصطناعي، ومختبرات أبحاث مايكروسوفت، تقييمًا شاملًا لثقة نماذج اللغة الكبيرة (LLMs). أصدرت فريق البحث منصة تقييم شاملة، وقدموا تفاصيل نتائج البحث في ورقة العمل الأخيرة "DecodingTrust: تقييم شامل لثقة نماذج GPT."
أظهرت نتائج التقييم بعض الثغرات المتعلقة بالموثوقية التي لم يتم الكشف عنها سابقًا. وجدت الدراسة أن نماذج GPT يمكن أن تنخدع بسهولة لإنتاج مخرجات سامة ومت偏عة، وقد تكشف عن بيانات التدريب والمعلومات الخاصة من تاريخ المحادثات. على الرغم من أن GPT-4 عادة ما يكون أكثر موثوقية من GPT-3.5 في اختبارات المعايير القياسية، إلا أنه يصبح أكثر عرضة للهجمات عند مواجهة أنظمة أو تلميحات مصممة بشكل خبيث، وقد يكون ذلك لأن GPT-4 يتبع التعليمات المضللة بشكل أكثر صرامة.
تعاون فريق البحث مع الأطراف المعنية لضمان عدم تأثير الثغرات المحتملة التي تم اكتشافها على الخدمات الموجهة للعملاء. كما شاركوا نتائج بحثهم مع مطوري نموذج GPT، الذين أشاروا إلى هذه المشكلات المحتملة في وثائق النظام الخاصة بالنموذج المعني.
تم تقييم نموذج GPT بشكل شامل من ثمانية جوانب موثوقية، تغطي سيناريوهات بناء مختلفة، ومهام، ومعايير، ومجموعات بيانات. تشمل أهداف التقييم: أداء نموذج GPT 1) من وجهات نظر موثوقية مختلفة؛ 2) قدرته على التكيف في بيئات عدائية.
على وجه التحديد، أظهرت الأبحاث أن:
في العروض التقديمية التنافسية، لا يمكن لنموذج GPT أن يضلله الأمثلة المضادة للحقائق، ولكنه قد يتعرض للتضليل بسبب العروض المضادة للاحتيال، خاصة عندما تكون العروض المضادة للحقائق قريبة من مدخلات المستخدم.
من حيث السمية والتحيز، فإن نموذج GPT لديه تحيزات قليلة تجاه معظم مواضيع الصور النمطية تحت التوجيهات الإيجابية، ولكنه قد ينتج محتوى متحيز تحت التوجيهات المضللة. يتأثر مستوى تحيز النموذج بالمجموعات ومواضيع الصور النمطية المذكورة في توجيهات المستخدم.
في مجال تسريب الخصوصية، قد يكشف نموذج GPT عن معلومات حساسة من بيانات التدريب، خاصة في سياقات معينة أو عروض قليلة العينات. يعتبر GPT-4 أكثر قوة في حماية المعلومات الشخصية مقارنة بـ GPT-3.5، لكن كلا النموذجين قد يكشفان عن جميع أنواع المعلومات الشخصية عند مواجهة عروض تسريب الخصوصية.
تقدم هذه الدراسة منظورًا شاملاً لتقييم موثوقية نماذج GPT، كاشفة عن فجوات مهمة في الموثوقية. يأمل فريق البحث أن تشجع هذه العمل المزيد من الباحثين على المشاركة، والعمل معًا نحو إنشاء نماذج أقوى وأكثر موثوقية.