深知安全风控推出AI Agent安全护栏比较评估

2026-05-18 20:50 来源：证券日报网

本报讯（记者李昱丞）随着AI Agent（人工智能智能体）逐渐进入工具调用、文件访问、流程执行等应用场景，AI安全问题引发行业担忧，催生了全新的安全需求。近日，深圳深知智新技术有限公司（以下简称“深知”）旗下深知安全风控（DKnownAI Guard）团队公开发布了一项面向Agentic（智能体化）场景的安全护栏测评，并同步开放技术报告与评测数据集。此次测评围绕真实攻击与正常交互边界，对多类主流安全护栏方案进行了统一评估，尝试为AI智能体安全能力建设提供新的行业参考。

与传统内容安全测评主要聚焦违规表达、敏感内容识别不同，AI智能体场景中的风险往往与任务目标、上下文信息以及交互过程紧密相关，仅依赖文本层面的判断，已难以完整反映相关安全能力。因此，此次测评的重点不仅在于比较不同安全方案的识别结果，更在于尝试通过统一标准，观察AI智能体场景下真实攻击识别能力与正常请求放行能力之间的平衡情况。

据了解，此次测评从8个公开安全数据集中抽样1018条样本，并结合真实部署语境进行了人工复审与重标注，最终形成统一的BLOCKED/ALLOWED（拦截/放行）评估框架。测评对象包括AWSBedrock Guardrails（亚马逊云科技安全护栏）、Azure Content Safety（微软内容安全服务）、Lakera Guard（Lakera安全防护方案）等主流安全方案。

业内认为，公开数据集与统一评估框架的建立，有助于提升AI智能体安全能力的可比性与可评估性，也为行业进一步观察复杂攻击识别能力、误伤控制能力以及整体安全效果之间的关系，提供了新的参考依据。

在此次测评中，深知安全风控在多项核心指标中表现突出。其中，召回率（Recall）达到96.5%，真负率（True Negative Rate）达到90.4%，体现出其在AI智能体场景下兼顾攻击识别能力与正常请求放行能力的综合安全水平。

在机器学习领域，召回率通常用于衡量模型对目标类别的识别覆盖能力，真负率则用于衡量模型对非目标类别的正确判断能力。结合本次测评语境，前者对应真实攻击识别能力，后者对应正常请求放行能力。

对于AI智能体场景而言，如果过度强调拦截能力，容易影响正常交互体验；而如果放行过多，则可能带来新的安全风险。测评结果显示，深知安全风控的优势并不只是提升单一拦截能力，而是在风险识别与误伤控制之间取得了较好平衡。换句话说，其关注的不只是“文本是否像风险内容”，而是“AI智能体是否会因此做出错误行为”。这一能力对于涉及办公协同、客户服务、企业运营等实际场景的AI智能体应用而言，具有较强现实意义。

据了解，深知安全风控采用组件化插入模式，可与基座大模型及相关智能体应用协同配合，对潜在风险进行识别与响应。针对部分风险问题，系统并非简单拒答，而是结合风险研判结果进行分类处理，在风险防控与正常使用体验之间实现平衡。

测评结果显示，深知安全风控不仅能够有效识别提示词注入、指令劫持等风险，还能降低对正常业务交互的误伤，为AI智能体从“能用”迈向“可信可用”提供了新的实践参考。

业内人士认为，此次公开测评通过统一数据集与评估框架，为AI智能体安全能力建立了新的比较参考体系，也进一步体现出行业对于“可信AI”安全能力建设的持续关注。

随着AI智能体加速进入办公协同、客户服务、企业运营等更多实际应用场景，能够兼顾风险识别能力与正常使用体验的安全能力，或将成为推动AI智能体进一步规模化落地的重要基础。

（编辑吴越郭之宸）

-证券日报网

热点新闻

从“技术验证”到“规模商用” 空天信息产业迎来黄金发展期

中国空调为什么能“接住”欧洲热浪？

健康饮料，真的养生吗？

今年以来近350家A股公司披露股权激励计划

24小时排行一周排行

深度策划

新一轮以旧换新落地激发消费新动能

首先，一些地方在出台与消费品以旧换新相关的……[详情]

市场快讯

09:51	“中泰证券&浦发银行”指数与量化...
00:30	证监会：对编造传播证券期货虚假误...
00:29	从“技术验证”到“规模商用” 空...
00:29	金融监管总局、上海市人民政府：加...
00:29	国家金融监督管理总局党委召开扩大...
00:29	中国空调为什么能“接住”欧洲热浪...
00:29	多地加大金融支持制造业提质升级力...
00:29	今年以来近350家A股公司披露股权激...
00:29	6月末我国外汇储备规模为34163亿美...
00:29	年内A股国有控股公司发起并购817起...
00:29	中国人民银行行长潘功胜：支持更多...
00:29	激活基础设施REITs存量价值可以“...