本报讯 (记者梁傲男)7月9日,记者从北京智谱华章科技股份有限公司(以下简称“智谱”)获悉,智谱发布并开源的视觉语言大模型GLM-4.1V-9B-Thinking凭借9B的模型尺寸,成功登顶HuggingFaceTrending榜单。

智谱/供图
据记者了解,GLM-4.1V-Thinking是一款支持图像、视频、文档等多模态输入的通用推理型大模型,专为复杂认知任务设计。它在GLM-4V架构基础上引入“思维链推理机制(Chain-of-ThoughtReasoning)”,采用“课程采样强化学习策略(Reinforcement Learning with Curriculum Sampling)”,系统性提升模型跨模态因果推理能力与稳定性。
其轻量版GLM-4.1V-9B-Thinking模型参数控制在10B级别,在兼顾部署效率的同时实现性能突破。该模型在MMStar、MMMU-Pro、ChartQAPro、OSWorld等28项权威评测中,有23项达成10B级模型的最佳成绩,其中18项更是持平或超越参数量高达72B的Qwen-2.5-VL,充分展现了小体积模型的极限性能潜力。
业内人士表示,GLM-4.1V-9B-Thinking标志着GLM系列视觉模型实现从感知走向认知的关键跃迁。
(编辑 何成浩)