首页

《全球大语言模型安全防范能力测评报告（2026）》发布

2026-07-03 10:16 来源：证券日报网

本报讯（记者金婉霞）在7月2日举行的2026全球数字经济大会云智算安全论坛上，由东壁科技数据有限责任公司（以下简称“东壁科技数据”）联合上海财经大学数字经济学院共同打造的研究成果《全球大语言模型安全防范能力测评报告（2026）》（以下简称“报告”）发布。该报告是全球首份大语言模型科技安全专项测评报告，也是首份大语言模型科技向善导向测评报告。

据介绍，报告以313条科技类高风险问题为测试集，覆盖38个国内外大语言模型，重点考察模型能否在科技学习、科研防护需求与潜在违法犯罪滥用之间，保持稳定、安全且可解释的边界，并同步发布多维度安全实力排名。测评显示，多数模型具备基础拒答能力，但在前缀注入、场景伪装、情感伪装，以及伪装与示例诱导结合的复合攻击下，部分模型的安全边界明显承压。报告提出，科技安全治理不能仅以“拒答率”衡量，还应同时关注模型的意图识别能力、信息披露尺度和“可靠且高风险”输出。

上海财经大学数字经济学院院长、报告牵头编制人赵琳在论坛上对报告进行了解读。他表示，科技知识在正常场景中可以服务于教学、研究、产业创新和公共安全，但当它被置于特定目的、特定语境和特定对象面前，就可能转化为现实危害。从前沿模型安全框架看，国际上已经将生物化学、网络安全、自动化代理等高风险能力纳入重点评估范围。

测评发现，科技内容可靠性与安全风险存在张力。80.5%的已回答样本达到较可靠水平，55.1%的同时具有较高可靠性和较高滥用风险。对恶意请求而言，可靠性越高不一定越安全。“关键在于能否把可靠知识限制在防护、合规和教育范围内。”赵琳表示。

针对测评暴露出的系统性安全短板，这份报告立足产业实际，提供了一套政策与治理建议，平衡AI知识普惠价值与公共安全底线。报告提出，科技安全不能只依赖外部关键词拦截，要坚持内生化原则，把安全能力嵌入模型行为机制。越狱攻击方式更新快，模型版本迭代快，静态测评难以长期反映真实风险，建议坚持敏捷化原则，建立持续红队与复测机制。将科技安全测评从单一拒答率扩展为综合指标体系，至少包括“显性请求拒答能力、伪装请求稳健性、善意问题可用性、恶意问题拒答率、滥用风险可控性、科技内容可靠性、可靠且高风险输出占比、可靠且可控输出占比”。

“治理目标应是拒绝危险能力增益，而不是拒绝科技知识本身。”赵琳说。建议模型在高风险科技主题下建立更细的安全回答范式，对善意学习请求，提供概念解释、风险提示、合规边界和安全替代路径，对中性但不明确的请求，主动澄清目的和使用环境，对恶意或高度可疑请求，拒绝提供可执行细节，并转向防护、法律后果、求助渠道或安全教育内容。同时，报告强调，针对测评揭示的不同属性模型在安全能力上的系统性差异，应构建精准协同的多元共治机制，形成企业、测评机构、监管部门与行业专家多方协同、精准施策的治理生态。

东壁科技数据创始人、报告牵头编制人吴登生认为，这一报告为模型企业、第三方测评机构、行业专家、监管部门和教育科研机构提供了专项测评与持续治理的参考，也强调在保护正当学习、科研和防护需求的同时，避免模型输出形成对现实危险行为的能力增益。“这份报告只是一个开始。未来，我们将持续完善科技安全测试集，覆盖更多领域，例如工程控制、深度伪造、自动化智能体、实验室安全等方向。同时，也会加强多轮对话、工具调用、代码执行、多模态输入等复杂交互场景的测评。我们的目标不仅是发布一份报告，更希望逐步建立治理政策，为教育科研机构安全使用人工智能提供参考依据。”吴登生表示。

（编辑李家琪）

-证券日报网

热点新闻

央地协同惩防并举巩固“不能造假”防线

从1%蓄力公募量化基金走向舞台中央

固态电池与eVTOL何以实现“双向奔赴”？

法治护航中国企业“出海”应乘势而上

24小时排行一周排行

深度策划

新一轮以旧换新落地激发消费新动能

首先，一些地方在出台与消费品以旧换新相关的……[详情]

市场快讯

10:55	预计业绩与实际业绩存重大差异东...
10:16	《全球大语言模型安全防范能力测评...
08:41	激活“三重价值” “六张网”解锁...
23:51	从1%蓄力公募量化基金走向舞台中...
23:51	硬科技资产重塑A股“审美”
23:51	从“毛细血管”跃升为资金流通“主...
23:51	上半年公募基金发行数量创近五年同...
23:50	上半年公积金新政密集落地效力持...
23:50	多地密集投放暑期文旅消费券
23:50	金价跌宕背后的多空博弈
23:50	央地协同惩防并举巩固“不能造假...
23:50	中国证券监督管理委员会行政复议决...