参与过电影《2012》、《黑客帝国3》等好莱坞大片的视效指导姚骐今天公布了他用AI制作的科幻短片《归途》。
短片里,如同末日的世界里,巨大的异形生物追击驾驶汽车的人类、巨型蜘蛛爬在高楼等场景栩栩如生。姚骐评价“(效果)跟实拍差不多。”
他向第一财经等记者透露,整部短片用了40多个镜头,每个镜头生成3次,共计120个视频片段,其中包括18个10秒一体化的有声片段和102个五秒片段,最终花费约一周时间制作完成。
姚骐说,如果这部短片是一部纯实拍或者CG制作的片子,可能需要几百万的成本。在好莱坞做镜头,有些复杂的镜头仅一个就要几十万甚至上百万。此外,实拍还受限于场景实现难度、危险性以及演员、剧组成本,而AI技术的介入为创意实现提供了全新可能。
几百万实拍成本的短片,如果用AI生成,花费是多少?
姚骐AI短片的合作对象、百度商业体系商业研发总经理刘林告诉记者,该片使用百度蒸汽机音视频一体模型,整体成本约在330.6元人民币。
当然,AI生成的视频还不够完美。记者整体观看下来,例如短片生成的人类“AI味儿”浓,演技和人类演员相比显得生硬,人物的声画、口型不够同步等,还有改进的空间,但视频生成已经告别“默片”,多角色语音和环境音效上有了突破。
事实上,在视频生成大模型赛道,百度杀入的时间并不算早。2024年春节,OpenAI推出视频生成模型Sora,国内大模型纷纷研究视频生成并陆续跟进,但当时百度并未跟进快速推出类似产品。
在去年秋天的一场百度内部总监会上,百度董事长李彦宏还曾提到不会碰Sora类生成和视频,因为“10年、20年都可能难以商业化应用”。一位内部人士告诉记者,他在内部提到基于多模态的需求,可以做一些相对特定的视频生成场景。
转机来自市场需求的变化。百度副总裁、移动生态商业体系负责人陈一凡告诉第一财经,“去年年初行业就在卷视频生成模型,我们不是没看,但真正推动自研的,是商业体系收到的具体需求。”
2024年年底短剧投流市场爆发,传统的剪辑和AI生图已无法满足创意需求,有代理商和广告主向百度提出:“能不能用短剧内容做剪辑?”“科幻场景拍不出来,能生成吗?”移动生态商业体系调研后,在今年春节启动视频生成模型的自研,项目代号是“MuseSteamer”。
目前,百度视频生成模型上线50天,最大的用户来自百度内部,包括搜索业务、移动生态创作者等,其次是专业领域创作者,以及企业客户。
眼下视频生成赛道已足够卷。快手可灵AI的商业化加速推进,今日快手公布的2025年第二季度业绩显示,可灵AI的营业收入超过人民币2.5亿元。这个赛道还包括了字节、阿里、腾讯等巨头以及MiniMax、获百度投资的生数科技、爱诗科技等创业明星公司。
在技术上,各家厂商不断突破。Sora已不再是“期货”,谷歌5月推出的Veo3 模型在生成视频的同时能生成环境音和人物对话等,走出了此前视频生成的“无声时代”;百度最新版本的蒸汽机音视频一体化模型,做到了多人有声视频一体化生成。据介绍,技术难点在于如何把多个角色的动作、声音进行合适匹配。
对于视频生成行业而言,仍有不少痛点。比如目前视频生成时长仅能达到5到10秒,这本质上是由当前的技术架构决定的——当下主流架构以扩散模型为核心,在这种架构下,若要延长视频长度,成本会呈指数级增长,二者之间存在一个需要平衡的临界点。一位从业者对记者举例,若将视频时长从10秒延长到20秒甚至100秒,成本可能会增加100倍。在这样的技术架构下,追求过长的视频时长并不现实,也不符合实际应用需求。
入局较晚的百度,凭借多人有声视频和打出“对标行业七折”的价格标签,能在多大程度冲击视频生成市场,尚需创作者们的检验。一位百度人士提到,C端的想象空间是非常大的,前提是把模型做得足够好。
“我们欢迎(AI视频生成)卷起来,不卷不可能做好,大家互相启发彼此的上限在哪儿。”陈一凡认为,大家看重的是未来的空间,这个赛道还处在起始阶段。
这是B站历史上最挣钱的一个季度。
百度蒸汽机是中文音视频一体化生成的I2V模型。
百度二季度数字人产生的收入环比增长55%。
阿里通义千问:多个产品升级,Qwen-Image图片编辑模型即将上线;腾讯混元3D世界模型1.0推出Lite版本。
英伟达推出全新Cosmos世界模型;OpenAI CEO表示,计划在未来5个月内将算力集群扩容一倍。