智谱发布GLM-4.5：面向推理、代码与智能体的开源SOTA模型

2025-07-29 09:41 来源：证券日报网

本报讯（记者梁傲男）7月28日，北京智谱华章科技股份有限公司（以下简称“智谱”）发布新一代旗舰模型GLM-4.5，专为智能体应用打造的基础模型。Hugging Face与ModelScope平台同步开源，模型权重遵循MIT License。

据悉，GLM-4.5在包含推理、代码、智能体的综合能力达到开源SOTA，在真实代码智能体的人工对比评测中，实测国内最佳。

智谱方面有关人士表示，衡量AGI的第一性原理，是在不损失原有能力的前提下融合更多通用智能能力，GLM-4.5是智谱对此理念的首次完整呈现，并有幸取得技术突破。GLM-4.5首次在单个模型中实现将推理、编码和智能体能力原生融合，以满足智能体应用的复杂需求。

智谱/供图

记者了解到，为综合衡量模型的通用能力，智谱选择了最具有代表性的12个评测基准，综合平均分，GLM-4.5取得了全球模型第三、国产模型第一，开源模型第一。

在参数效率方面，GLM-4.5参数量为DeepSeek-R1的1/2、Kimi-K2的1/3，但在多项标准基准测试中表现得更为出色，这得益于GLM模型的更高参数效率。在衡量模型代码能力的SWE-benchVerified榜单上，GLM-4.5系列位于性能/参数比帕累托前沿，表明在相同规模GLM-4.5系列实现了最佳性能。

在性能优化之外，GLM-4.5系列也在成本和效率上实现突破，由此带来远低于主流模型定价：API调用价格低至输入0.8元/百万tokens，输出2元/百万tokens。同时，高速版本实测生成速度最高可至100 tokens/秒，支持低延迟、高并发的实际部署需求，兼顾成本效益与交互体验。

真实场景表现比榜单更重要。为评测GLM-4.5在真实场景Agent Coding中的效果，智谱接入Claude Code与Claude-4-Sonnet、Kimi-K2、Qwen3-Coder进行对比测试。测试采用52个编程开发任务，涵盖六大开发领域，在独立容器环境中进行多轮交互测试。实测结果显示（如下图），GLM-4.5相对其他开源模型展现出竞争优势，特别在工具调用可靠性和任务完成度方面表现突出。尽管GLM-4.5相比Claude-4-Sonnet仍有提升空间，在大部分场景中可以实现平替的效果。

（编辑张明富）

-证券日报网

热点新闻

春节黄金市场面面观：有人排队采购有人卖出离场

过新年换新钱银行从“保供应”到“精准服务”

一栋办公楼的“第二次生长”——北京“商改保”样本调研

全球汽车巨头Stellantis“栽跟头”带来哪些警示

24小时排行一周排行

深度策划

新一轮以旧换新落地激发消费新动能

首先，一些地方在出台与消费品以旧换新相关的……[详情]

市场快讯

23:29	A股公司积极参设产业并购基金
23:29	商业航天领域投融资活跃星际荣耀...
23:29	多家锂电企业锚定市场需求优化产能...
23:29	潍柴点亮“电动力”
23:29	乳山：小牡蛎撬动大经济
23:29	看京沈两地券商将金融服务融入民生...
23:29	新能源汽车迎春运“大考”：力保充...
23:22	银行保险机构权益投资信心指数显著...
23:22	券商交易结算系统压力测试“再升级...
23:22	商业银行2025年累计实现净利润2.4...
23:22	车贷“长跑”开启汽车金融驶入共...
23:21	地方密集布局人工智能产业千行百...