首页 > 新闻 > 科技

分享到微信

打开微信,点击底部的“发现”,
使用“扫一扫”即可将网页分享至朋友圈。

谁会受到Sora的暴击 | 海斌访谈

第一财经 2024-02-23 19:22:07 听新闻

作者:彭海斌    责编:刘佳

联合收割机出现之后,继续打磨镰刀的意义就几近于无了

Sora在太平洋两岸掀起了风暴。

农历春年尚未结束的时候,OpenAI展示了旗下Sora文生视频的能力。美国和中国是人工智能发展靠前的两个大国,OpenAI投下的重磅炸弹,同时冲击了美国和中国的科技界。

它代表着一种新的技术路线和更优的效能,在视觉方面展示出革命性的改造能力,这场风暴会把一大批旧技术路线上的创业企业席卷而走,并逼迫大科技公司重新审视自己的研发方向。

“Sora一次性解决了”

一则时尚女郎漫步东京街头的视频发布后,Adobe的股价连续下跌了三日。

这条长60秒的视频由OpenAI的文生视频工具Sora所生成。这位时尚女郎戴着太阳镜、涂着红色口红,走在潮湿而霓虹灯闪烁的街道上。仅仅输入文字提示词,Sora就能输出逼真而连续性的视觉效果。

在这之前,创作类似视频需要群体的合作。其中,既涉及摄像师、灯光师、化妆师以及剪辑师等多位专业人士分工,也要用到索尼摄像机、视频的后期处理软件。Adobe有一系列图片、视频处理软件,它的PS、AE工具为全球范围内的动画制作公司、电视台以及多媒体工作室的设计师所钟爱。

现在Sora展示出了威胁Adobe地位的能力。

如果Sora能够以低成本生产逼真的视频,那Adobe的收费软件会变得没有用武之地。这家市值约2500亿美元的公司,过去几天股价单日最大跌幅达到了7.4%。

Adobe之前已经尝试把人工智能引入其产品当中,比如它此前发布的Firefly也能够用文字生成图像、更好地处理视频等。但它的这部分努力,如同图片创意公司Getty 、Shutterstock等一样,可能会被Sora碾压。

ShutterStock过去几天曾连续三个交易日下跌,Getty则连跌了两日。ShutterStock在2023年年中与OpenAI签署协议以将双方的合作延续六年,允许OpenAI使用其平台的图片、视频等来训练AI模型。现在看起来,很难说Shutter不是在自掘坟墓。

人工智能作为一项趁手的工具,此前已经在游戏领域生根,并改造了原来的工作流程,对部分传统生产工具完成了替换。Sora来了,它将进一步改写游戏规则。

以游戏中的AI绘画为例。

巨人网络与阿里云合作,打造了AI绘画平台iMagine。这个平台能为美术团队的工业化生产提供AI解决方案,在巨人内部的提效收益非常可观。据巨人网络的AI实验室负责人丁超凡对记者介绍,新平台整体上在角色和场景原画方面达到50%-70%的节省,在UI(用户界面)和ICON(游戏图标)设计方面有超过 80%的效率优化,甚至有的项目内部UI、ICON已完全交给AI去出图。

“我们关注到Sora在视频生成领域取得的突破性进展,短期来看,作为生产力工具,将会极大提高游戏行业内容创作效率;长期来看,Sora涌现出对3D模型的理解以及强大的物理世界仿真能力,会对游戏底层工具层面产生深远影响。”丁超凡对第一财经记者说。

文生视频的技术方向,去年下半年已经在美国出现。

在大语言模型ChatGPT4之后,多模态发展受到关注,而多模态中一个重要方向就是视觉。美国和中国均有公司尝试,美国主要是Runway和Pika两家公司。

联想创投的董事总经理罗旭对第一财经记者表示,Sora与这两家企业的一个显著不同是其生成视频的长度。

Pika目前支持的图生视频或者文生视频,单条长度通常是3秒钟左右。Runway则在去年底将其能够生成视频的长度从4秒钟提高了18秒。单从效率和视频长度来看,Sora更胜一筹。

Sora技术能力还体现在其视频的分辨率、视频的连贯性等方面。视频的分辨率很大程度上受到算力的影响。这一点上,微软的云服务给OpenAI提供了强力支持,更深层次的则是英伟达高性能芯片。

“视频和图片有一个很关键的区别是时间轴。在时间轴上保证图片的一致性,运动起来的一致性,这是很难的。大家在保持一致性上面投入了很多精力,有很多技术方案,比如光流的方式、移动窗口的方式等。”罗旭表示,但这些技术方式在Sora出现之后,从效果看不可同日而语。“大家一直努力想解决,但是没有解决的问题,都被Sora一次性解决了。”

二次碾压

这是OpenAI对其他科技公司的再次截杀。

类似的情形,在ChatGPT4出现的时候,OpenAI已经做过一次了。

OpenAI发布GPT3发布之后,吸引了一批创业者在其基础上进行二次开发,其中最著名的莫过于Jasper。Jasper的功能是营销文案的写作,它在2022年10月份还拿到了1.25亿美元的融资,跻身人工智能领域的独角兽之列。但一切都在ChatGPT4发布后变了样子,Jasper在2023年的7月开始了裁员。

“ChatGPT4.0发布以后,其实把创业行业里,这些公司的一些创新性功能都碾压了。”罗旭对记者表示,ChatGPT4.0以后,很多创业公司所做事情的价值大幅缩水了。

Sora的出现,同样令其他文生视频企业价值重估。

Runway此前已经有15亿美金左右的估值、Pika有两亿美金左右的估值。除非这两家公司手握更好的、尚未披露的技术,否则“我觉得不是估值下降的问题,而是后面谁能够继续投入,谁能够接盘的问题。”罗旭说。

Sora也将数字人创业公司置于其阴影之下。

虚拟人或者数字人,一度是国内初创企业追捧的热点。数字人往往以图片、动画、直播等形式出现在手机、平板电脑等设备中。比如,成立于2017年的硅基智能,估值已经超过了60亿人民币。

开源社区OpenCSG的创始人陈冉对第一财经表示,Sora除了对文生图、文生视频的科技公司带来影响,“数字人这类公司受到冲击是最大的”。因为Sora算法上有了创新,大家都会朝那个方向去走。“你(此前)投入了那么多,说句不好听的,其实钱都白浪费了。”

Sora的出现是长期积累、反复试错、用户反馈的结果。OpenAI尝试过递归网络,生成对抗网络,自回归Transformer,扩散模型, 最终诞生了Diffusion Transformer。陈冉表示,“Sora充分利用了大语言模型Token的好处,让像素也能够被预测。Sora的诞生不亚于2023年ChatGPT的出现。 ”

不同的生产工具,天差地别的生产效率。秋收的时候,再快的手工镰刀,也比不上一台联合收割机。大机器出现之后,继续打磨镰刀的意义就几近于无了。

这个时候的初创企业,即便改弦更张,走上类似Sora的技术路线,追上其技术能力的可能也微乎其微。资源禀赋不同、对工程化的理解也不一定能跟上。“就像国内做语言模型的时候,你能追得上吗,从现在的情况来看可能很难追上。所以这些(文生图)创业公司面临着同样的问题。”罗旭表示。

OpenAI的AI技术还在迭代,其能力的提升还没看到天花板。“它的速度会比创业公司更快的原因,本质上来说就是不光拥有更丰富的资源,比如算力的资源,它还有拥有GPT3.5之后没有公布的、外部并不知道的工程化训练方法的积累。”罗旭表示。OpenAI工程化训练方法使得成本不断下降,同时效率提高,“这样的话,距离就会越来越远了。”

Sora继续演进,对于游戏、影视等产业带来的影响可能是革命性的。

“短期来看,Sora可能会一定程度影响CG成本。往远看,Sora的特殊点在于实现了对物理规律的仿真,未来可能会改写整个3D内容生产的游戏规则。”丁超凡表示,“如果再进一步假设,当AI视频发展到可以生成高度可控、准确仿真物理运动规律、超长稳定产出内容时,与其说是一个CG创作力工具,不如定义为完全数据驱动的‘物理引擎’,将会彻底改写游戏生产方式。”

控制预期”

投资人过早下注可能会踏错路线。

中国的风险投资人密切关注人工智能的进展。联想创投去年下半年与国内创业者一直保持沟通,但真正出手投资的时候又慎之又慎。

“去年我们相对来说可能更谨慎一些,总是心里不太踏实”,罗旭表示,联想创投去年与国内几家头部创业公司都有接触,但都没有投资,“我们要研究清楚推动大模型的发展内在动力。”

一个春节过去了,创业的技术路线和投资人的心态都发生了变化。

春节前投资人只需要对照Runway和Pika,在国内寻找能实现或者超越其技术水平的团队。如果说Runway和Pika在一楼,那么风险资金只需要找到在二楼的企业就可以领先了。但Sora甫一出世就站在了六楼,风险资金就不能再寻找只能站在二楼的团队了。

罗旭对记者说,“我们非常关注视频生成方向,Sora发布后,我们依然保持对这个方向的兴趣,要审视创业团队需要具备什么样的能力”。

国内AI企业也需要考虑是否改变方向。

一些大模型公司不可避免地受到冲击,陈冉认为这些公司改换技术路线,对于投资人来说,对于创业公司来说都是巨大的伤害。“相当于方向走偏了,谷歌这么大公司走偏了都会出现大的问题,更不要说初创公司了”。

中美科技竞争,美国竖起小院高墙,美元风投已经逐渐在中国初创市场消失。它们本来是中美之间资金流动、商业模式、甚至是人才互通的桥梁。它们在中国市场的缺失,同时意味着初创企业可得的资本在缩水,在硬核科技领域的试错空间越来越小。

“没有几个投资人愿意去让你去试错了。”陈冉表示,很多企业希望从政府出资的机构里拿到融资,但政府对于投资回报率的期待与风险资本明显不同,“所以这些大模型公司在很多政府的投资里面会被pass掉”。

近期部分初创企业获得了融资。比如月之暗面最近传出融资10亿美金的消息,阿里巴巴以及红杉资本是其背后的金主。

罗旭认为2024年AI项目可能会出现分水岭。部分项目去年已经获得融资,今年AI初创公司的团队和能力都会慢慢产生差别,方向的选择上也会出现差异。“我们现在也正在跟踪几个项目,比如重点关注基础模型。”

投资的前提是适当降低预期。

去年语言大模型ChatGPT4发布之后,国内乐观的风险资本一度认为,只要国内的这些人才有足够的能力,今年国内的大模型应该向ChatGPT4靠拢。“实际情况大家也知道,现在咱们基本都在3.5上下。”

去年国内百模大战,能在大语言模型领域实现ChatGPT3.5左右的能力,很大程度上还是因为开源模型的存在。一位受访人表示,国内九成以上的大模型是在美国Meta等公司开源的LLaMa等大模型基础上摸着石头过河。

罗旭认为,国内文生视频发展,不如语言模型从GPT3到GPT3.5那么容易。 “只能说,我们看到了未来前进的方向是什么,但是国内是不是有这样的创业公司,有这样能力的模型公司出现,现在还在寻找。”

风险资本难以对比美国企业寻找国内标的,“你就跟国内的这类企业来对比,相对来说还是可以投资的”,罗旭表示。

举报
第一财经广告合作,请点击这里
此内容为第一财经原创,著作权归第一财经所有。未经第一财经书面授权,不得以任何方式加以使用,包括转载、摘编、复制或建立镜像。第一财经保留追究侵权者法律责任的权利。 如需获得授权请联系第一财经版权部:021-22002972或021-22002335;banquan@yicai.com。

文章作者

一财最热
点击关闭