本报讯 (记者谢岚 见习记者梁傲男)11月8日,智谱宣布,其AI视频生成模型“清影”已全面升级为“新清影”。此次升级带来了多项显著改进,包括支持10秒时长、4K、60帧的超高清画质,任意尺寸的视频生成,即将内置音效功能,同时进一步优化了人体动作和物理世界的模拟精度。
据悉,“新清影”基于CogVideoX模型的最新技术进展,以及智谱新推出的音效模型CogSound,实现了模型能力的全面提升。这包括图生视频质量、美学表现、运动合理性及复杂提示词语义理解的显著增强,以及更精细的人物面部表演、动作连贯性和物理特性模拟。“新清影”还支持多通道生成能力,可一次性生成4个视频,满足多样化需求。
早在3个月前,作为国内首个面向公众开放的视频生成产品,“清影”已在智谱清言App上线,用户只需输入一段指令或图片,即可在30秒内生成AI视频。这一创新为影视创作带来了更多可能性,如广告制作、短视频、表情包梗图等。
在“清影”发布后,GLM技术团队先后开源了CogVideoX 2B和5B版本两个模型,推动了视频生成技术的普及和应用。其中,CogVideoX-5B模型自开源以来受到了广泛关注,并衍生出了大量的二次开发项目。
值得一提的是,随着本月音效模型CogSound的加入,“新清影”将新增与画面匹配的音效功能,使视频更加自然逼真。音效模型将于本月上线智谱清言App,与新清影一起生成有声AI影片。智谱方面表示:“我们的理想状态是,用户只需提供一个好的创意,剩下的工作都由AI辅助完成,轻松将想法或图片转化为一段自带背景音乐的影片。”
可见,智谱在声音模态领域也实现了人声、音效、音乐的多链路布局。两周前发布的GLM-4-Voice情感语音模型,以及即将上线的音效模型CogSound,共同完善了智谱基于图像、视频和声音的多模态模型矩阵。这意味着智谱在多模态和工具两个维度上都朝着AGI的目标迈出了一小步。
智谱成立于2019年6月份,起源于清华大学计算机系知识工程实验室,专注于开发新一代认知智能大模型。一直以来,智谱以对标OpenAI全模型产品线为线索,陆续研发了包括文本、代码、图像、Agent等方面的自研模型和产品矩阵。
智谱相关负责人对《证券日报》记者表示,生成视频将为影视工作者、短视频创作者提升产量、产能,在其生产流程中发挥重要作用。不到一年时间,生成视频技术在视频时长、生成速度、分辨率、一致性等方面已经显示出长足进步。“新清影”往前又迈进了一步,未来,智谱将携手合作伙伴,基于更丰富的视觉内容,产出更好的AI生成视频工具。
从视频直接生成音效的模型,意味着“默片Sora”将进入“有声电影时代”。在业内人士看来,随着音效模型CogSound的加入,智谱多模态大模型家族在声音模态方面实现了人声、音效的多链路布局,使得智谱基于图像、视频和声音的多模态模型矩阵更为丰富。
(编辑 李波)