Một bài tập red-teaming do NIST dẫn dắt tại CAMLIS, đã đánh giá các lỗ hổng trong các hệ thống AI tiên tiến, đánh giá các rủi ro như thông tin sai lệch, rò rỉ dữ liệu và thao túng cảm xúc.
Viện Tiêu chuẩn và Công nghệ Quốc gia (NIST) đã hoàn thành một báo cáo về an toàn của các mô hình AI tiên tiến vào cuối nhiệm kỳ của chính quyền Joe Biden, nhưng tài liệu này đã không được công bố sau khi chuyển giao cho chính quyền Donald Trump. Mặc dù báo cáo được thiết kế để hỗ trợ các tổ chức trong việc đánh giá hệ thống AI của họ, nhưng nó nằm trong số một vài tài liệu AI do NIST soạn thảo bị giữ lại không công bố do có khả năng xung đột với định hướng chính sách của chính quyền mới.
Trước khi nhậm chức, Tổng thống Donald Trump đã chỉ ra ý định của mình là bãi bỏ các sắc lệnh hành pháp thời Biden liên quan đến AI. Kể từ khi chuyển giao, chính quyền đã chuyển hướng tập trung của các chuyên gia khỏi những lĩnh vực như thiên lệch thuật toán và công bằng trong AI. Kế hoạch Hành động AI được phát hành vào tháng 7 cụ thể kêu gọi sửa đổi Khung Quản lý Rủi ro AI của NIST, khuyến nghị loại bỏ các tham chiếu đến thông tin sai lệch, Đa dạng, Công bằng và Bao gồm (DEI), và biến đổi khí hậu.
Cùng lúc, Kế hoạch Hành động AI bao gồm một đề xuất tương tự như các mục tiêu của báo cáo chưa công bố. Nó chỉ đạo nhiều cơ quan liên bang, bao gồm NIST, tổ chức một sáng kiến hackathon AI phối hợp nhằm thử nghiệm các hệ thống AI về tính minh bạch, chức năng, kiểm soát của người dùng và các lỗ hổng bảo mật tiềm ẩn.
Cuộc Tập Huấn Đội Đỏ Dẫn Dắt Bởi NIST Khám Phá Rủi Ro Hệ Thống AI Sử Dụng Khung ARIA Tại Hội Nghị CAMLIS
Bài tập red-teaming được thực hiện dưới chương trình Đánh giá Rủi ro và Tác động của AI (ARIA) bởi NIST, phối hợp với Humane Intelligence, một công ty tập trung vào việc đánh giá các hệ thống AI. Sáng kiến này được tổ chức trong Hội nghị về Machine Learning Ứng dụng trong An ninh Thông tin (CAMLIS), nơi mà các thành viên tham gia đã khám phá các lỗ hổng của nhiều công nghệ AI tiên tiến.
Báo cáo Red Teaming của CAMLIS ghi lại đánh giá về nhiều công cụ AI khác nhau, bao gồm Llama của Meta, một mô hình ngôn ngữ lớn mã nguồn mở (LLM); Anote, một nền tảng phát triển và hoàn thiện các mô hình AI; một hệ thống bảo mật từ Robust Intelligence, đã được CISCO mua lại; và nền tảng tạo hình đại diện AI của Synthesia. Đại diện từ mỗi tổ chức đã đóng góp vào các hoạt động red-teaming.
Người tham gia đã sử dụng khung NIST AI 600-1 để phân tích các công cụ liên quan. Khung này phác thảo nhiều lĩnh vực rủi ro, chẳng hạn như khả năng AI tạo ra thông tin sai lệch hoặc mối đe dọa an ninh mạng, tiết lộ dữ liệu cá nhân hoặc nhạy cảm, hoặc thúc đẩy sự phụ thuộc về cảm xúc giữa người dùng và các hệ thống AI.
Báo cáo Đội Đỏ AI chưa phát hành tiết lộ các lỗ hổng của mô hình, gây lo ngại về việc đàn áp chính trị và những góc nhìn nghiên cứu bị bỏ lỡ
Nhóm nghiên cứu đã tìm thấy một số phương pháp để vượt qua các biện pháp bảo vệ dự kiến của các công cụ đang được đánh giá, dẫn đến các kết quả bao gồm thông tin sai lệch, lộ thông tin cá nhân và hỗ trợ trong việc hình thành các chiến lược tấn công mạng. Theo báo cáo, một số khía cạnh của khuôn khổ NIST chứng tỏ có tính ứng dụng cao hơn những khía cạnh khác. Nó cũng lưu ý rằng một số loại rủi ro thiếu sự rõ ràng cần thiết cho việc sử dụng thực tế.
Các cá nhân quen thuộc với sáng kiến red-teaming bày tỏ rằng những phát hiện từ bài tập này có thể đã cung cấp những thông tin quý giá cho cộng đồng nghiên cứu và phát triển AI rộng lớn hơn. Một người tham gia, Alice Qian Zhang, một ứng viên tiến sĩ tại Đại học Carnegie Mellon, đã lưu ý rằng việc công khai báo cáo có thể đã giúp làm rõ cách mà khung rủi ro NIST hoạt động khi được áp dụng trong các môi trường thử nghiệm thực tế. Cô cũng nhấn mạnh rằng việc tương tác trực tiếp với các nhà phát triển công cụ trong quá trình đánh giá đã làm tăng giá trị cho trải nghiệm.
Một người đóng góp khác, người đã chọn giữ danh tính ẩn danh, cho biết rằng bài tập đã phát hiện ra các kỹ thuật gợi ý cụ thể - sử dụng các ngôn ngữ như Nga, Gujarati, Marathi và Telugu - đặc biệt thành công trong việc thu hút các đầu ra bị cấm từ các mô hình như Llama, bao gồm cả các hướng dẫn liên quan đến việc tham gia các nhóm cực đoan. Cá nhân này đã gợi ý rằng quyết định không công bố báo cáo có thể phản ánh một sự chuyển hướng rộng hơn khỏi các lĩnh vực được coi là liên quan đến sự đa dạng, công bằng và hòa nhập trước sự quản lý mới.
Một số người tham gia đã suy đoán rằng việc báo cáo bị bỏ sót có thể cũng xuất phát từ sự chú ý gia tăng của chính phủ đối với những rủi ro lớn—như khả năng sử dụng hệ thống AI trong việc phát triển vũ khí hủy diệt hàng loạt—và một nỗ lực song song để củng cố mối quan hệ với các công ty công nghệ lớn. Một người tham gia nhóm đỏ đã nhận xét ẩn danh rằng các yếu tố chính trị có thể đã đóng vai trò trong việc giữ lại báo cáo và rằng bài tập này chứa đựng những hiểu biết có liên quan khoa học đang diễn ra.
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
Nghiên cứu rủi ro AI chưa công bố của NIST vẫn bị gác lại giữa những thay đổi hành chính
Tóm tắt
Một bài tập red-teaming do NIST dẫn dắt tại CAMLIS, đã đánh giá các lỗ hổng trong các hệ thống AI tiên tiến, đánh giá các rủi ro như thông tin sai lệch, rò rỉ dữ liệu và thao túng cảm xúc.
Viện Tiêu chuẩn và Công nghệ Quốc gia (NIST) đã hoàn thành một báo cáo về an toàn của các mô hình AI tiên tiến vào cuối nhiệm kỳ của chính quyền Joe Biden, nhưng tài liệu này đã không được công bố sau khi chuyển giao cho chính quyền Donald Trump. Mặc dù báo cáo được thiết kế để hỗ trợ các tổ chức trong việc đánh giá hệ thống AI của họ, nhưng nó nằm trong số một vài tài liệu AI do NIST soạn thảo bị giữ lại không công bố do có khả năng xung đột với định hướng chính sách của chính quyền mới.
Trước khi nhậm chức, Tổng thống Donald Trump đã chỉ ra ý định của mình là bãi bỏ các sắc lệnh hành pháp thời Biden liên quan đến AI. Kể từ khi chuyển giao, chính quyền đã chuyển hướng tập trung của các chuyên gia khỏi những lĩnh vực như thiên lệch thuật toán và công bằng trong AI. Kế hoạch Hành động AI được phát hành vào tháng 7 cụ thể kêu gọi sửa đổi Khung Quản lý Rủi ro AI của NIST, khuyến nghị loại bỏ các tham chiếu đến thông tin sai lệch, Đa dạng, Công bằng và Bao gồm (DEI), và biến đổi khí hậu.
Cùng lúc, Kế hoạch Hành động AI bao gồm một đề xuất tương tự như các mục tiêu của báo cáo chưa công bố. Nó chỉ đạo nhiều cơ quan liên bang, bao gồm NIST, tổ chức một sáng kiến hackathon AI phối hợp nhằm thử nghiệm các hệ thống AI về tính minh bạch, chức năng, kiểm soát của người dùng và các lỗ hổng bảo mật tiềm ẩn.
Cuộc Tập Huấn Đội Đỏ Dẫn Dắt Bởi NIST Khám Phá Rủi Ro Hệ Thống AI Sử Dụng Khung ARIA Tại Hội Nghị CAMLIS
Bài tập red-teaming được thực hiện dưới chương trình Đánh giá Rủi ro và Tác động của AI (ARIA) bởi NIST, phối hợp với Humane Intelligence, một công ty tập trung vào việc đánh giá các hệ thống AI. Sáng kiến này được tổ chức trong Hội nghị về Machine Learning Ứng dụng trong An ninh Thông tin (CAMLIS), nơi mà các thành viên tham gia đã khám phá các lỗ hổng của nhiều công nghệ AI tiên tiến.
Báo cáo Red Teaming của CAMLIS ghi lại đánh giá về nhiều công cụ AI khác nhau, bao gồm Llama của Meta, một mô hình ngôn ngữ lớn mã nguồn mở (LLM); Anote, một nền tảng phát triển và hoàn thiện các mô hình AI; một hệ thống bảo mật từ Robust Intelligence, đã được CISCO mua lại; và nền tảng tạo hình đại diện AI của Synthesia. Đại diện từ mỗi tổ chức đã đóng góp vào các hoạt động red-teaming.
Người tham gia đã sử dụng khung NIST AI 600-1 để phân tích các công cụ liên quan. Khung này phác thảo nhiều lĩnh vực rủi ro, chẳng hạn như khả năng AI tạo ra thông tin sai lệch hoặc mối đe dọa an ninh mạng, tiết lộ dữ liệu cá nhân hoặc nhạy cảm, hoặc thúc đẩy sự phụ thuộc về cảm xúc giữa người dùng và các hệ thống AI.
Báo cáo Đội Đỏ AI chưa phát hành tiết lộ các lỗ hổng của mô hình, gây lo ngại về việc đàn áp chính trị và những góc nhìn nghiên cứu bị bỏ lỡ
Nhóm nghiên cứu đã tìm thấy một số phương pháp để vượt qua các biện pháp bảo vệ dự kiến của các công cụ đang được đánh giá, dẫn đến các kết quả bao gồm thông tin sai lệch, lộ thông tin cá nhân và hỗ trợ trong việc hình thành các chiến lược tấn công mạng. Theo báo cáo, một số khía cạnh của khuôn khổ NIST chứng tỏ có tính ứng dụng cao hơn những khía cạnh khác. Nó cũng lưu ý rằng một số loại rủi ro thiếu sự rõ ràng cần thiết cho việc sử dụng thực tế.
Các cá nhân quen thuộc với sáng kiến red-teaming bày tỏ rằng những phát hiện từ bài tập này có thể đã cung cấp những thông tin quý giá cho cộng đồng nghiên cứu và phát triển AI rộng lớn hơn. Một người tham gia, Alice Qian Zhang, một ứng viên tiến sĩ tại Đại học Carnegie Mellon, đã lưu ý rằng việc công khai báo cáo có thể đã giúp làm rõ cách mà khung rủi ro NIST hoạt động khi được áp dụng trong các môi trường thử nghiệm thực tế. Cô cũng nhấn mạnh rằng việc tương tác trực tiếp với các nhà phát triển công cụ trong quá trình đánh giá đã làm tăng giá trị cho trải nghiệm.
Một người đóng góp khác, người đã chọn giữ danh tính ẩn danh, cho biết rằng bài tập đã phát hiện ra các kỹ thuật gợi ý cụ thể - sử dụng các ngôn ngữ như Nga, Gujarati, Marathi và Telugu - đặc biệt thành công trong việc thu hút các đầu ra bị cấm từ các mô hình như Llama, bao gồm cả các hướng dẫn liên quan đến việc tham gia các nhóm cực đoan. Cá nhân này đã gợi ý rằng quyết định không công bố báo cáo có thể phản ánh một sự chuyển hướng rộng hơn khỏi các lĩnh vực được coi là liên quan đến sự đa dạng, công bằng và hòa nhập trước sự quản lý mới.
Một số người tham gia đã suy đoán rằng việc báo cáo bị bỏ sót có thể cũng xuất phát từ sự chú ý gia tăng của chính phủ đối với những rủi ro lớn—như khả năng sử dụng hệ thống AI trong việc phát triển vũ khí hủy diệt hàng loạt—và một nỗ lực song song để củng cố mối quan hệ với các công ty công nghệ lớn. Một người tham gia nhóm đỏ đã nhận xét ẩn danh rằng các yếu tố chính trị có thể đã đóng vai trò trong việc giữ lại báo cáo và rằng bài tập này chứa đựng những hiểu biết có liên quan khoa học đang diễn ra.