本报记者(记者李勇)2025年12月18日,以“前沿技术赋能数字文娱新生态”为核心议题的2025中国数字文娱大会在广州盛大启幕。在这场聚焦国内数字文娱领域高质量发展的盛会上,北京捷成世纪科技股份有限公司(以下简称“捷成股份”)首席技术官张俊祺发表的《影视理解大模型如何改变影视工业》主题演讲,首次系统性地披露了捷成股份自研的四阶影视视频理解大模型如何重构影视工业全链路,引发广泛关注。张俊祺还在会上宣布,基于该技术的“视觉智能中枢”已实现产业化落地且达成多项重磅合作。
AIGC技术催动文娱产业高速发展的当下,行业普遍存在“高理解成本、低表达效率”的核心痛点,难以满足影视工业级生产需求。而破解这一发展瓶颈的关键,正是工业级影视视频理解技术。
捷成股份此次发布的四阶影视视频理解大模型,构建了行业首个标准化技术评价框架。L0记忆层作为基础核心,具备视觉记忆检索、自然语言匹配、名场面定位能力,即便用户仅能描述“足球场被嘲笑组队失败搞笑”这类模糊场景,也能精准命中《少林足球》经典桥段,破解影视内容检索难题;L1复述层堪比资深影迷,可将《盗梦空间》等多层嵌套的非线性叙事,重组为逻辑清晰的主线剧情,实现复杂叙事的结构化推理与信息还原;L2分析层突破被动解读局限,如同专业解说博主,能从多元视角解读《少年派的奇幻漂流》等作品深层内涵,形成独立观点与批判性思考;L3解构层则进一步突破了对导演风格的简单模仿,如同掌握了创意的“源代码”,可精准拆解韦斯·安德森对称构图、高饱和配色等标志性风格,实现导演创作手法的创造性模拟,为影视再创作注入无限可能。
捷成股份发布的该大模型能精准解码影视视听语言,深度理解叙事结构、角色动机与社会价值,实现了影视从记忆检索到风格结构的认知跃迁,推动影视视频理解从“看明白”向“真理解、懂门道”演进,为影视内容创作提供了更深层次语义支持。技术落地的背后,则是捷成股份十余年的产业积淀与硬核资源支撑。公司依托超过20万小时的高质量音视频素材库,囊括《长津湖》《唐人街探案》等重磅作品,通过AI技术生成5亿+张影视图片、10万+部配音素材及7200万+条片段素材,构建起行业稀缺的视频语料库与全球最具价值的影视素材库。在此基础上,公司正打造全球最大的影视级AI向量库,实现镜头级检索与跨模态内容理解,为技术产业化筑牢根基。目前,该视频理解大模型已成功应用于旗下“捷成灵犀智能体平台”与AI智能视频生产引擎“ChatPV”,有效弥补通用视频模型在影视垂直领域的短板,显著提升内容制作效率。
依托该核心技术,捷成股份目前已与番茄、红果等头部IP内容平台达成战略合作,以影视理解大模型为基础开展全新AI内容创作,建立内容生产基地,打造AI短剧千部产能。通过“技术+内容+渠道”的协同效应,捷成股份正构建从IP孵化、智能制作到全球发行的完整生态,打通了“内容理解-智能创作-全域分发”的完整产业闭环。
有业内人士表示,此次四阶影视理解大模型的推出及商业化应用的落地,不仅彰显了捷成股份在AI影视应用领域的先发优势与技术硬实力,更以“技术赋能+生态协同”的发展模式,为中国数字文化产品提升全球竞争力提供核心支撑。随着技术持续迭代与商业化场景的不断拓展,捷成股份也有望引领影视工业进入AI驱动的高质量发展新阶段,为文化产业数字化升级注入强劲动力,助力中国影视工业迈向产业链高端。
(编辑 黄力)