证券日报微信

证券日报微博

您所在的位置: 网站首页 > TMT频道 > TMT行业 > 正文

大模型持续迭代 Vidu推出全球首个支持16秒音视频直出模型Q3

2026-02-01 16:42  来源:证券日报网 

    本报讯 (记者贾丽)刚刚过去的2025年,人工智能视频行业正在经历一场深刻变革——从“生成玩具”,演进为真正的“内容生产力工具”。在这一过程中,北京生数科技有限公司(以下简称“生数科技”)推出的Vidu系列模型持续推动行业能力边界的前移。

    从早期的视频生成,到Vidu Q2实现“演技生成”的关键跃迁,再到Vidu Agent“一键成片”,打通完整工作流,AI视频的创作门槛持续降低。

    近日,Vidu Q3模型正式发布。这是一款新一代模型,也是全球首个支持16秒音视频直出的AI视频模型。

    国际权威AI基准测试机构Artificial Analysis最新公布的榜单显示,Vidu Q3排名中国第一,全球第二,超越Runway Gen-4.5,Google Veo3.1和OpenAI Sora 2。业内人士认为,Vidu正用实力让世界看清“中国速度”,领跑视频生成的下半场。

    在生数科技相关负责人看来,这次发布的意义,并不只是“视频变长了”,而是一个关键拐点的到来——AI视频第一次可以作为“可直接使用的叙事内容单元”,进入内容生产的全链条。

    长期以来,行业一直在讨论一个核心问题,AI能不能成为内容生产链条中的叙事参与者,而不仅仅是一个视觉或素材工具。据介绍,ViduQ3的发布,让三项此前难以共存的关键能力,首次在同一模型中得以实现:

    首先,时间长度,跨过了叙事阈值。16秒,是一个对内容生产具有决定性意义的时间节点。它足以完成一次完整的情绪起—承—转—合,可以清晰表达因果关系、冲突与态度,而不只是状态或画面展示,能够作为漫剧、短剧及影视剧中的一个独立叙事段落被直接使用。

    这意味着,AI生成的不再只是“镜头片段”,而是具备叙事闭环的内容单元。

    其次,声音与画面实现端到端直出。在Vidu Q3中,音频不再是生成后的附加环节。它不再是“画面生成+后期配音”,而是:画面节奏、对白、环境音与情绪同步生成,剪辑节奏、情绪呼吸点与叙事重点,在模型内部已完成对齐。

    这一步的本质,不是音频能力的提升,而是AI开始理解多模态影视语言,而不仅是视觉语言。

    另外,模型生成结果可以被开发者直接“拿去用”,直接进入分发与商业使用链路。

    当时间长度跨过叙事阈值、音画成为原生整体,并且生成结果具备可直接使用的稳定性时,AI视频就不再只是生产链条中的某一个工具,而是真正进入了内容生产的全链条。

    据了解,围绕这一跃迁,Vidu Q3通过三项核心能力,将传统后期流程系统性前置至生成端,实现“一镜到底”的工业化突破,分别包括16秒声画同出、多镜头自由切换、多语言对话。

    业内人士认为,Vidu Q3的“一镜到底”能力,正深刻重塑高时效性内容产业的生产模式与成本结构。

    对短剧、漫剧行业而言,创作模式从“堆人力”转向“提效率”,内容更新周期从“月更”级压缩至“日更”级,大幅降低了高质量内容的量产门槛。对于广告营销行业而言,实现了营销素材与产品迭代、市场热点的实时同步,极大提升了品牌的营销敏捷性与创意测试效率。

    业内人士认为,当AI视频不再是平铺直叙的单一镜头叙事,不再需要后期文字拼贴,AI视频才算是真正进入到了实际生产环节,Vidu Q3的推出也为短剧、漫剧、影视剧行业的AI应用按下了快捷键。

(编辑 郭之宸)

-证券日报网

版权所有《证券日报》社有限责任公司

互联网新闻信息服务许可证 10120240020增值电信业务经营许可证 京B2-20250455

京公网安备 11010602201377号京ICP备19002521号

证券日报网所载文章、数据仅供参考,使用前务请仔细阅读法律申明,风险自负。

证券日报社电话:010-83251700网站电话:010-83251800

网站传真:010-83251801电子邮件:xmtzx@zqrb.net

官方客户端

安卓

IOS

官方微信

扫一扫,加关注

官方微博

扫一扫,加关注