探索GPT模型的可信度:全面评估结果揭示潜在风险
一项由伊利诺伊大学香槟分校、斯坦福大学、加州大学伯克利分校、人工智能安全中心和微软研究院联合开展的研究,对大型语言模型(LLMs)的可信度进行了全面评估。研究团队发布了一个综合评估平台,并在最新论文《DecodingTrust:全面评估GPT模型的可信度》中详细介绍了研究成果。
评估结果揭示了一些previously未公开的与可信度相关的漏洞。研究发现,GPT模型很容易被误导产生有毒和偏见的输出,并可能泄露训练数据和对话历史中的隐私信息。虽然在标准基准测试中GPT-4通常比GPT-3.5更可靠,但在面对恶意设计的系统或用户提示时,GPT-