证券日报微信

证券日报微博

您所在的位置: 网站首页 > TMT频道 > TMT行业 > 正文

深知安全风控推出AI Agent安全护栏比较评估

2026-05-18 20:50  来源:证券日报网 

    本报讯 (记者李昱丞)随着AI Agent(人工智能智能体)逐渐进入工具调用、文件访问、流程执行等应用场景,AI安全问题引发行业担忧,催生了全新的安全需求。近日,深圳深知智新技术有限公司(以下简称“深知”)旗下深知安全风控(DKnownAI Guard)团队公开发布了一项面向Agentic(智能体化)场景的安全护栏测评,并同步开放技术报告与评测数据集。此次测评围绕真实攻击与正常交互边界,对多类主流安全护栏方案进行了统一评估,尝试为AI智能体安全能力建设提供新的行业参考。

    与传统内容安全测评主要聚焦违规表达、敏感内容识别不同,AI智能体场景中的风险往往与任务目标、上下文信息以及交互过程紧密相关,仅依赖文本层面的判断,已难以完整反映相关安全能力。因此,此次测评的重点不仅在于比较不同安全方案的识别结果,更在于尝试通过统一标准,观察AI智能体场景下真实攻击识别能力与正常请求放行能力之间的平衡情况。

    据了解,此次测评从8个公开安全数据集中抽样1018条样本,并结合真实部署语境进行了人工复审与重标注,最终形成统一的BLOCKED/ALLOWED(拦截/放行)评估框架。测评对象包括AWSBedrock Guardrails(亚马逊云科技安全护栏)、Azure Content Safety(微软内容安全服务)、Lakera Guard(Lakera安全防护方案)等主流安全方案。

    业内认为,公开数据集与统一评估框架的建立,有助于提升AI智能体安全能力的可比性与可评估性,也为行业进一步观察复杂攻击识别能力、误伤控制能力以及整体安全效果之间的关系,提供了新的参考依据。

    在此次测评中,深知安全风控在多项核心指标中表现突出。其中,召回率(Recall)达到96.5%,真负率(True Negative Rate)达到90.4%,体现出其在AI智能体场景下兼顾攻击识别能力与正常请求放行能力的综合安全水平。

    在机器学习领域,召回率通常用于衡量模型对目标类别的识别覆盖能力,真负率则用于衡量模型对非目标类别的正确判断能力。结合本次测评语境,前者对应真实攻击识别能力,后者对应正常请求放行能力。

    对于AI智能体场景而言,如果过度强调拦截能力,容易影响正常交互体验;而如果放行过多,则可能带来新的安全风险。测评结果显示,深知安全风控的优势并不只是提升单一拦截能力,而是在风险识别与误伤控制之间取得了较好平衡。换句话说,其关注的不只是“文本是否像风险内容”,而是“AI智能体是否会因此做出错误行为”。这一能力对于涉及办公协同、客户服务、企业运营等实际场景的AI智能体应用而言,具有较强现实意义。

    据了解,深知安全风控采用组件化插入模式,可与基座大模型及相关智能体应用协同配合,对潜在风险进行识别与响应。针对部分风险问题,系统并非简单拒答,而是结合风险研判结果进行分类处理,在风险防控与正常使用体验之间实现平衡。

    测评结果显示,深知安全风控不仅能够有效识别提示词注入、指令劫持等风险,还能降低对正常业务交互的误伤,为AI智能体从“能用”迈向“可信可用”提供了新的实践参考。

    业内人士认为,此次公开测评通过统一数据集与评估框架,为AI智能体安全能力建立了新的比较参考体系,也进一步体现出行业对于“可信AI”安全能力建设的持续关注。

    随着AI智能体加速进入办公协同、客户服务、企业运营等更多实际应用场景,能够兼顾风险识别能力与正常使用体验的安全能力,或将成为推动AI智能体进一步规模化落地的重要基础。

(编辑 吴越 郭之宸)

-证券日报网
  • 24小时排行 一周排行

版权所有《证券日报》社有限责任公司

互联网新闻信息服务许可证 10120240020增值电信业务经营许可证 京B2-20250455

京公网安备 11010602201377号京ICP备19002521号

证券日报网所载文章、数据仅供参考,使用前务请仔细阅读法律申明,风险自负。

证券日报社电话:010-83251700网站电话:010-83251800

网站传真:010-83251801电子邮件:xmtzx@zqrb.net

官方客户端

安卓

IOS

官方微信

扫一扫,加关注

官方微博

扫一扫,加关注