Дослідження надійності моделі GPT: всебічна оцінка виявляє потенційні ризики
Дослідження, проведене спільно Університетом Іллінойс в Шампейн, Стенфордським університетом, Каліфорнійським університетом у Берклі, Центром безпеки штучного інтелекту та Дослідницькою лабораторією Microsoft, повністю оцінило достовірність великих мовних моделей (LLMs). Дослідницька команда випустила інтегровану платформу оцінки та детально виклала результати дослідження у своїй останній статті "DecodingTrust: всебічна оцінка достовірності моделей GPT".
Результати оцінки виявили деякі раніше не опубліковані вразливості, пов'язані з надійністю. Дослідження показало, що моделі GPT легко вводити в оману, що призводить до токсичних і упереджених виходів, і можуть розкривати конфіденційну інформацію з навчальних даних та історії діалогів. Хоча в стандартних бенчмарках GPT-4 зазвичай надійніший за GPT-3.5, у випадку з підступно спроектованими системами або запитами користувачів GPT-4 виявляється більш вразливим до атак, що може бути пов'язано з тим, що GPT-4 суворіше дотримується оманливих інструкцій.
Дослідницька команда співпрацює з зацікавленими сторонами, щоб забезпечити, що виявлені потенційні вразливості не вплинуть на поточні послуги для клієнтів. Вони також поділилися результатами дослідження з розробниками моделі GPT, які вже зазначили ці потенційні проблеми в системній документації відповідних моделей.
Дослідження провело всебічну оцінку моделі GPT з восьми аспектів достовірності, охоплюючи різні сценарії побудови, завдання, показники та набори даних. Цілі оцінки включають: 1) продуктивність моделі GPT з різних точок зору достовірності; 2) її здатність адаптуватися в умовах атаки.
Зокрема, дослідження показали:
У контексті демонстрацій супротивника моделі GPT не піддаються впливу контрфактичних прикладів, але можуть бути введені в оману демонстраціями проти шахрайства, особливо коли контрфактичні демонстрації близькі до введення користувача.
У плані токсичності та упередженості, модель GPT не має великої упередженості щодо більшості тем стереотипів за позитивних підказок, але може генерувати упереджений контент за оманливих підказок. Рівень упередженості моделі залежить від згаданих у підказках груп населення та тем стереотипів.
У питаннях витоку конфіденційності модель GPT може розкривати чутливу інформацію з навчальних даних, особливо в певному контексті або за умов невеликої кількості прикладів. GPT-4 є більш надійним у захисті особистої ідентифікаційної інформації, ніж GPT-3.5, але обидві моделі можуть розкривати всі типи особистої інформації під час демонстрацій витоку конфіденційності.
Це дослідження надає всебічний погляд на оцінку надійності моделей GPT, виявляючи важливі розриви в надійності. Дослідницька команда сподівається, що ця робота зможе заохотити більше дослідників приєднатися до спільних зусиль у створенні більш потужних та надійних моделей.
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
19 лайків
Нагородити
19
10
Поділіться
Прокоментувати
0/400
LayoffMiner
· 07-19 15:09
Це занадто абсурдно, навіть штучний інтелект почав любити підслуховувати чужу приватність.
Переглянути оригіналвідповісти на0
TopEscapeArtist
· 07-18 22:50
Ще один сигнал на зниження? Ще на графіку свічок все написано про небезпеку, не потрібно досліджувати, щоб мені це сказати.
Переглянути оригіналвідповісти на0
NFTRegretter
· 07-18 14:53
Цей код знову має проблеми.
Переглянути оригіналвідповісти на0
OnchainDetective
· 07-18 05:50
Вже давно вважав це ненадійним.
Переглянути оригіналвідповісти на0
OnchainUndercover
· 07-17 19:34
Смішний gpt все ще краще прозорий
Переглянути оригіналвідповісти на0
GateUser-afe07a92
· 07-17 19:34
Справді, не існує абсолютно безпечного штучного інтелекту.
Переглянути оригіналвідповісти на0
NFTArtisanHQ
· 07-17 19:34
цікаво... так само як робота ротко над порожнечею, ці довіри AI розриває виявляють глибокі екзистенційні парадокси в цифровій автентичності
Переглянути оригіналвідповісти на0
fomo_fighter
· 07-17 19:33
Зараз всі хвилюються за штучний інтелект, смішно до сліз.
Оцінка достовірності моделі GPT: виявлення ризиків витоку приватності та упередженості
Дослідження надійності моделі GPT: всебічна оцінка виявляє потенційні ризики
Дослідження, проведене спільно Університетом Іллінойс в Шампейн, Стенфордським університетом, Каліфорнійським університетом у Берклі, Центром безпеки штучного інтелекту та Дослідницькою лабораторією Microsoft, повністю оцінило достовірність великих мовних моделей (LLMs). Дослідницька команда випустила інтегровану платформу оцінки та детально виклала результати дослідження у своїй останній статті "DecodingTrust: всебічна оцінка достовірності моделей GPT".
Результати оцінки виявили деякі раніше не опубліковані вразливості, пов'язані з надійністю. Дослідження показало, що моделі GPT легко вводити в оману, що призводить до токсичних і упереджених виходів, і можуть розкривати конфіденційну інформацію з навчальних даних та історії діалогів. Хоча в стандартних бенчмарках GPT-4 зазвичай надійніший за GPT-3.5, у випадку з підступно спроектованими системами або запитами користувачів GPT-4 виявляється більш вразливим до атак, що може бути пов'язано з тим, що GPT-4 суворіше дотримується оманливих інструкцій.
Дослідницька команда співпрацює з зацікавленими сторонами, щоб забезпечити, що виявлені потенційні вразливості не вплинуть на поточні послуги для клієнтів. Вони також поділилися результатами дослідження з розробниками моделі GPT, які вже зазначили ці потенційні проблеми в системній документації відповідних моделей.
Дослідження провело всебічну оцінку моделі GPT з восьми аспектів достовірності, охоплюючи різні сценарії побудови, завдання, показники та набори даних. Цілі оцінки включають: 1) продуктивність моделі GPT з різних точок зору достовірності; 2) її здатність адаптуватися в умовах атаки.
Зокрема, дослідження показали:
У контексті демонстрацій супротивника моделі GPT не піддаються впливу контрфактичних прикладів, але можуть бути введені в оману демонстраціями проти шахрайства, особливо коли контрфактичні демонстрації близькі до введення користувача.
У плані токсичності та упередженості, модель GPT не має великої упередженості щодо більшості тем стереотипів за позитивних підказок, але може генерувати упереджений контент за оманливих підказок. Рівень упередженості моделі залежить від згаданих у підказках груп населення та тем стереотипів.
У питаннях витоку конфіденційності модель GPT може розкривати чутливу інформацію з навчальних даних, особливо в певному контексті або за умов невеликої кількості прикладів. GPT-4 є більш надійним у захисті особистої ідентифікаційної інформації, ніж GPT-3.5, але обидві моделі можуть розкривати всі типи особистої інформації під час демонстрацій витоку конфіденційності.
Це дослідження надає всебічний погляд на оцінку надійності моделей GPT, виявляючи важливі розриви в надійності. Дослідницька команда сподівається, що ця робота зможе заохотити більше дослідників приєднатися до спільних зусиль у створенні більш потужних та надійних моделей.