安全测试结果显示:开源大模型脆弱性明显
2024-07-30 / 阅读约0分钟
来源:C114

面向产业界对人工智能应用安全问题的治理需求,以《生成式人工智能服务安全基本要求》(征求意见稿)为指导文件,中国信通院人工智能研究所依托中国人工智能产业发展联盟(AIIA)安全治理委员会联合30余家单位发起了大模型安全基准测试 2024 AI Safety Benchmark Q2版测试工作。本次测试以模型安全为核心测评目标,涵盖底线红线、信息泄露和社会伦理等3个大的测试维度,并进一步结合16种攻击方法,总计80余种攻击模板。测试数据整体包含600余条原始提示词样本和80余种攻击模板,组合生成4万余条攻击样本,实际从中随机抽取4520条作为测试样例。测评结果显示:开闭源大模型均受到了恶意攻击方法的影响,模型攻击成功率出现上升。开源大模型的攻击成功率上升更为明显,证明了开源大模型在安全方面的脆弱性,直接使用开源模型将存在巨大风险。