2024生成式大模型安全评估白皮书-中国科学院&蚂蚁安全实验室
VIP专免
Large Language Model
GeneratePrompt
生成式大模型
安全评估白皮书
自2022年11月以来,以ChatGPT为代表的生成式大模型持续引发全球广泛关注。作为新
一轮人工智能技术革命的代表性成果,生成式大模型的迅速发展,正在深刻重塑全球人工智
能技术格局,为我国数字经济高质量发展和智能化转型注入新的动能。然而,随着技术应用
的不断扩展,其潜在的安全风险逐渐凸显。诸如“大模型幻觉”、三星公司机密资料泄露等事
件,反映了生成式大模型在隐私保护、恶意滥用、技术漏洞及合规性等方面的复杂挑战。这
些问题的出现,不仅对技术的安全性提出了更高要求,也对产业的规范发展和社会治理能力
构成了严峻考验。
我国对此高度重视,出台了《生成式人工智能服务管理暂行办法》等一系列政策文件,
明确了生成式大模型技术在安全性、风险防控和合规性方面的基本原则和监管要求,为技术
的健康发展提供了系统指引和政策保障。这些举措充分体现了我国在全球人工智能技术治理
中秉持的前瞻性战略眼光和责任担当。
近期,OpenAI发布了更擅长处理复杂推理任务的o1和o3系列模型,标志着生成式大模
型在复杂应用场景中的潜力进一步提升。然而,技术的快速迭代也对构建科学化、系统化的
生成式大模型安全评估框架提出了迫切需求。构建这一框架,需要从技术性能、风险防控、
合规性等多个维度明确评估指标体系,系统性降低潜在风险,为行业提供权威的技术指导。
这不仅将促进生成式大模型技术向安全、可信、可持续的方向发展,也为全球人工智能技术
治理提供了可借鉴的“中国方案”。
为积极应对生成式大模型的安全挑战,智能算法安全重点实验室(中国科学院)、公安部
第三研究所和蚂蚁安全实验室联合编写了2024年度《生成式大模型安全评估白皮书》。白皮书
全面梳理了生成式大模型的发展现状与安全风险,从安全评估方法到实践案例,深入剖析了当
前技术面临的关键挑战及应对策略,致力于为学术研究、产业实践和政策制定提供重要参考。
希望通过这一系统性研究,助力生成式大模型安全性研究与应用推广,为构建安全、可信的人
工智能生态体系提供坚实支撑,推动技术向着服务人类社会福祉的方向健康发展。
前言
联合编写
版权声明
编写组组长
智能算法安全重点实验室(中国科学院)
公安部第三研究所
蚂蚁安全实验室
编写组成员
敖翔、尹芷仪、张曙光、王晓诗、李承奥、
陈天宇、景少玲、张玉洁、张函玉、张晓敏
凡是在学术期刊、新闻发布稿、商业广告及其他文章中使用本报告文字、观点,请注明
来源:《生成式大模型安全测评白皮书》。
大模型安全白皮书参与人名单
智能算法安全重点实验室(中国科学院):
公安部第三研究所:盛小宝、王勇、江钦辉、曹思玮、刘晋名、文煜乾、刘佳磊、王光泽
蚂蚁安全实验室:王维强、李俊奎、崔世文、许卓尔、孙传亮、郑亮、朱丛、周莉
程学旗 ——智能算法安全重点实验室主任(中国科学院)
目录
一、生成式大模型发展现状
1.1生成式大语言模型
1.1.1 OpenAI GPT系列
1.1.2 Meta LLaMA系列
1.1.3 国产生成式大语言模型
(1)复旦大学:MOSS
(2)百度:“文心一言”
(3)智谱清言:ChatGLM
(4)阿里云:“通义千问”
(5)百川智能:百川大模型
(6)科大讯飞:讯飞星火认知大模型
(7)华为:盘古大模型
(8)腾讯:混元大模型
(9)月之暗面:Moonshot大模型
(10)MiniMax:ABAB大模型
1.2 文生图大模型
1.2.1 DALL-E系列
1.2.2 Midjourney
1.2.3文心一格
1.3 多模态大模型
1.3.1 Suno
1.3.2 Sora
1.3.3 CLIP
1.3.4紫东太初
二、生成式大模型的安全风险
2.1 伦理风险
2.1.1加剧性别、种族偏见与歧视
2.1.2传播意识形态,危害国家安全
2.1.3学术与教育伦理风险
2.1.4影响社会就业与人类价值
2.2内容安全风险
2.2.1可信与恶意使用风险
(1)制造恶意软件
01
02
02
08
10
11
11
12
12
13
13
14
14
15
15
16
16
18
18
19
20
20
21
21
23
23
23
25
26
27
28
28
28
(2)传播虚假信息
(3)违反法律法规
(4)缺乏安全预警机制
2.2.2 隐私风险
(1)侵犯用户隐私信息
(2)泄露企业机密数据
2.2.3知识产权风险
(1)训练阶段存在知识产权风险
(2)应用阶段存在知识产权风险
(3)生成式大模型知识产权保护
2.3 技术安全风险
2.3.1对抗样本攻击风险
2.3.2后门攻击风险
2.3.3 Prompt注入攻击风险
2.3.4数据投毒风险
2.3.5越狱攻击风险
三、生成式大模型的安全评估方法
3.1 生成式大模型安全性评估维度
3.1.1 伦理性
(1)偏见
(2)毒性
3.1.2 事实性
3.1.3 隐私性
3.1.4 鲁棒性
3.2 伦理性评估
3.2.1 偏见评估
(1)偏见评估指标
1)基于嵌入的偏见评估指标
2)基于概率的偏见评估指标
3)基于大语言模型的偏见评估指标
(2)偏见评估数据集
3.2.2 毒性评估
(1)毒性评估模型
(2)毒性评估数据集
29
30
31
33
33
35
36
36
37
38
39
39
40
41
42
42
44
45
45
46
47
48
49
50
53
53
53
54
55
56
56
57
57
60
3.3 事实性评估
3.3.1 事实性评估指标
(1)基于规则的评估指标
(2)基于机器学习模型的评估指标
(3)基于LLM的评估指标
(4)人类评估指标
3.3.2 事实性评估数据集
3.4 隐私性评估
3.4.1 隐私泄露
(1)敏感查询
(2)上下文泄漏
(3)个人偏好泄露
3.4.2 隐私攻击
(1)成员推断攻击
(2)模型反演/数据重建攻击
(3)属性推断攻击
(4)模型提取/窃取攻击
3.5 鲁棒性评估
3.5.1 对抗鲁棒性评估基准
(1)对抗样本攻击
(2)后门攻击
(3)Prompt注入攻击
(4)数据投毒
3.5.2 分布外(OOD)鲁棒性评估基准
3.5.3 大模型越狱攻击风险评估
(1)越狱攻击分类
(2)EasyJailbreak越狱攻击框架
四、大模型安全评估实践案例分析
4.1 大语言模型安全性评估
4.1.1 Holistic Evaluation of Language Models
4.1.2 Trustworthy LLMs
4.1.3 DecodingTrust
4.1.4 SuperCLUE-Safety
4.1.5支小宝安全实践
62
62
63
65
66
67
68
71
71
71
72
72
73
73
76
76
78
78
79
79
80
81
83
83
84
85
86
87
87
87
89
92
93
94
4.1.6大模型系统安全评估实践
4.2 文生图大模型安全性评估
4.2.1 Holistic Evaluation of
Text-to-Image Models
4.2.2 Unsafe Diffusion
4.2.3 Harm Amplification in
Text-to-Image Models
4.3 多模态大模型安全性评估
4.3.1 T2VSafetyBench
4.3.2 MLLMGUARD
五、大模型安全评估的展望
5.1面向安全的大模型自主演进
5.2大模型评估的衍生安全风险
参考文献
96
98
98
100
101
102
102
103
105
105
105
107
本资料由有户自行上传,仅供个人参考学习使用(禁止商用)。任何个人或组织,在未征得本站同意时,禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本内容侵犯了原著者的合法权益,可联系我们进行处理。
相关推荐
-
湖区自然景区旅游品牌传播创意方案【旅游】【文旅】VIP专免
2024-12-25 147 -
肛泰大橘猫电梯投放【梯媒,电梯广告,户外广告】VIP专免
2025-01-14 137 -
B2B市场人DeepSeekAI提示词手册VIP专免
2025-02-19 178 -
清华大学:2025年迈向未来的AI教学实验报告VIP专免
2025-03-29 158 -
智变2025:互联网AI应用元年VIP专免
2025-03-29 164 -
AI如何变革能源化工行业?VIP专免
2025-03-29 169 -
6秒钟情商:2025年EI&AI职场现状报告VIP专免
2025-04-10 131 -
浙江大学:2025年大模型:从单词接龙到行业落地报告VIP专免
2025-04-19 135 -
代理式AI的拐点之年:CEO的两年转型路线图VIP专免
2025-10-28 144 -
AI重塑中国互联网前沿洞察VIP专免
2026-03-05 119
作者:蕉下梦
分类:研究报告
价格:免费
属性:118 页
大小:1.57MB
格式:PDF
时间:2025-01-05
相关内容
-
2026年春节AI应用、游戏和电影跟踪:AI应用加速迭代,内容消费格局凸显
分类:研究报告
时间:2026-02-26
标签:AI
格式:PDF
价格:免费
-
token跳动:2026AI业务落地白皮书春节特刊
分类:研究报告
时间:2026-02-26
标签:白皮书
格式:PDF
价格:免费
-
电子行业深度报告:2026年端侧AI产业深度,应用迭代驱动终端重构,见证端侧SoC芯片的价值重估与位阶提升
分类:研究报告
时间:2026-02-26
标签:AI
格式:PDF
价格:免费
-
新经济中工作的四个未来__2030年的AI与人才
分类:研究报告
时间:2026-02-26
标签:AI
格式:PDF
价格:免费
-
AI重塑中国互联网前沿洞察
分类:研究报告
时间:2026-03-05
标签:AI
格式:PDF
价格:免费


