全球多模态推理新标杆智谱视觉推理模型GLM-4.5V正式上线并开源

2025-08-12 16:25 来源：证券日报网

本报记者梁傲男

8月11日晚间，北京智谱华章科技股份有限公司（以下简称“智谱”）推出全球100B级效果最佳的开源视觉推理模型GLM-4.5V（总参数106B，激活参数12B），并同步在魔搭社区与HuggingFace开源。

这是智谱在通向通用人工智能（AGI）道路上的又一探索性成果。

GLM-4.5V基于智谱新一代旗舰文本基座模型GLM-4.5-Air，延续GLM-4.1V-Thinking技术路线，在41个公开视觉多模态榜单中综合效果达到同级别开源模型SOTA性能，涵盖图像、视频、文档理解以及GUIAgent等常见任务。

智谱供图

在多模态榜单之外，智谱更重视模型在真实场景下的表现与可用性。GLM-4.5V通过高效混合训练，具备覆盖不同种视觉内容的处理能力，实现全场景视觉推理，包括：图像推理（场景理解、复杂多图分析、位置识别）、视频理解（长视频分镜分析、事件识别）、GUI任务（屏幕读取、图标识别、桌面操作辅助）、复杂图表与长文档解析（研报分析、信息提取）、Grounding能力（精准定位视觉元素）

同时，模型新增“思考模式”开关，用户可灵活选择快速响应或深度推理，平衡效率与效果。

在保持高精度的同时，GLM-4.5V兼顾推理速度与部署成本，为企业与开发者提供高性价比的多模态AI解决方案。API调用价格低至输入2元/Mtokens，输出6元/Mtokens。

在技术细节方面，GLM-4.5V由视觉编码器、MLP适配器和语言解码器三部分组成，支持64K多模态长上下文，支持图像与视频输入，并通过三维卷积提升视频处理效率。模型采用双三次插值机制，有效增强了模型对高分辨率及极端宽高比图像的处理能力与稳健性；同时，引入三维旋转位置编码（3D-RoPE），显著强化了模型对多模态信息的三维空间关系的感知与推理能力。

此外，GLM-4.5V采用三阶段策略：预训练、监督微调（SFT）和强化学习（RL）。其中，在预训练阶段，智谱结合大规模图文交错多模态语料和长上下文内容，强化了模型对复杂图文及视频的处理能力；在SFT阶段，智谱引入了显式“思维链”格式训练样本，增强了GLM-4.5V的因果推理与多模态理解能力；最后，RL阶段，智谱引入全领域多模态课程强化学习，通过构建多领域奖励系统（RewardSystem），结合可验证奖励强化学习（RLVR）与基于人类反馈的强化学习（RLHF），GLM-4.5V在STEM问题、多模态定位、Agent任务等方面获得全面优化。

多模态推理被视为通向通用人工智能的关键能力之一，让AI能够像人类一样综合感知、理解与决策。其中，视觉-语言模型（Vision-LanguageModel，VLM）是实现多模态推理的核心基础。

今年7月份，智谱发布并开源了全球10B级效果的VLM——GLM-4.1V-9B-Thinking。该模型以小博大，展现了小体积模型的极限性能潜力，上线后迅速登上HuggingFaceTrending榜首，并累计获得超过13万次下载。

（编辑张明富）

-证券日报网

热点新闻

24小时排行一周排行

深度策划

聚焦2025陆家嘴论坛金融开放合作新动向

2025陆家嘴论坛6月18日正式启幕……[详情]

市场快讯

19:27	天阳科技：公司的供应链金融解决方...
19:27	天阳科技：魔数的模型全生命周期管...
19:27	天邑股份：截至2025年8月8日，公司...
19:27	通达海：公司积极推进基于CANN生态...
19:27	同兴科技：截至2025年8月8日公司股...
19:26	完美世界：公司持续积极探索AI等前...
19:26	完美世界：公司与英伟达在AI技术与...
19:26	维峰电子：公司部分连接器产品已批...
19:26	维峰电子：公司目前已在东莞、昆山...
19:26	维峰电子：公司已进入部分机器人头...
19:26	维峰电子：昆山工厂暂未投产，预计...
19:26	温州宏丰：关于提前赎回“宏丰转债...

全球多模态推理新标杆 智谱视觉推理模型GLM-4.5V正式上线并开源

全球多模态推理新标杆智谱视觉推理模型GLM-4.5V正式上线并开源