参与过电影《2012》、《黑客帝国 3》等好莱坞大片的视效指导姚骐今天公布了他用 AI 制作的科幻短片《归途》。
短片里,如同末日的世界里,巨大的异形生物追击驾驶汽车的人类、巨型蜘蛛爬在高楼等场景栩栩如生。姚骐评价 “(效果) 跟实拍差不多。”
他向第一财经等记者透露,整部短片用了 40 多个镜头,每个镜头生成 3 次,共计 120 个视频片段,其中包括 18 个 10 秒一体化的有声片段和 102 个五秒片段,最终花费约一周时间制作完成。
姚骐说,如果这部短片是一部纯实拍或者 CG 制作的片子,可能需要几百万的成本。在好莱坞做镜头,有些复杂的镜头仅一个就要几十万甚至上百万。此外,实拍还受限于场景实现难度、危险性以及演员、剧组成本,而 AI 技术的介入为创意实现提供了全新可能。
几百万实拍成本的短片,如果用 AI 生成,花费是多少?
姚骐 AI 短片的合作对象、百度商业体系商业研发总经理刘林告诉记者,该片使用百度蒸汽机音视频一体模型,整体成本约在 330.6 元人民币。![]()
当然,AI 生成的视频还不够完美。记者整体观看下来,例如短片生成的人类 “AI 味儿” 浓,演技和人类演员相比显得生硬,人物的声画、口型不够同步等,还有改进的空间,但视频生成已经告别 “默片”,多角色语音和环境音效上有了突破。
事实上,在视频生成大模型赛道,百度杀入的时间并不算早。2024 年春节,OpenAI 推出视频生成模型 Sora,国内大模型纷纷研究视频生成并陆续跟进,但当时百度并未跟进快速推出类似产品。
百度副总裁、移动生态商业体系负责人陈一凡告诉第一财经,“去年年初行业就在卷视频生成模型,我们不是没看,但真正推动自研的,是商业体系收到的具体需求。”
移动生态商业体系调研后,在今年春节启动视频生成模型的自研,项目代号是 “MuseSteamer”。
目前,百度视频生成模型上线 50 天,最大的用户来自百度内部,包括搜索业务、移动生态创作者等,其次是专业领域创作者,以及企业客户。
在技术上,各家厂商不断突破。Sora 已不再是 “期货”,谷歌 5 月推出的 Veo3 模型在生成视频的同时能生成环境音和人物对话等,走出了此前视频生成的 “无声时代”; 百度最新版本的蒸汽机音视频一体化模型,做到了多人有声视频一体化生成。据介绍,技术难点在于如何把多个角色的动作、声音进行合适匹配。
比如目前视频生成时长仅能达到 5 到 10 秒,这本质上是由当前的技术架构决定的 —— 当下主流架构以扩散模型为核心,在这种架构下,若要延长视频长度,成本会呈指数级增长,二者之间存在一个需要平衡的临界点。一位从业者对记者举例,若将视频时长从 10 秒延长到 20 秒甚至 100 秒,成本可能会增加 100 倍。在这样的技术架构下,追求过长的视频时长并不现实,也不符合实际应用需求。