首页 > 视听 > 此刻

分享到微信

打开微信,点击底部的“发现”,
使用“扫一扫”即可将网页分享至朋友圈。

两会“数新风”:从"AI+"到“视觉革命”AI视觉商业化大规模落地可期

第一财经2025-03-11 15:38:56

责编:张慜恺

举报

2025年政府工作报告再度强调 “人工智能 +”的战略方向,在此背景下,AI视觉正以前所未有的态势,开辟出万亿级别的应用新场景。当纯视觉模型强势突破传统多模态技术的藩篱,这场科技革命正悄然重塑哪些产业格局?AI视觉技术如何从实验室走向生产线,从概念走向大众生活?这其中究竟潜藏着哪些不容错过的投资机遇?《两会“数新风”》系列节目邀请AI视觉科学家、加拿大工程院外籍院士、智象未来创始人兼首席执行官梅涛,以及敦鸿资产执行董事CEO袁国良,解读AI视觉最前沿的技术,把脉时代风口下的投资机遇 。

 

 
1、问题:今年两会的政府工作报告中,有两处明确提到了人工智能。第一是"创新能力有所提升,集成电路、人工智能、量子科技等领域取得了新成果"。第二是"持续推进人工智能加行动,将数字技术与制造优势、市场优势更好地结合起来,支持大模型广泛应用。”怎么理解今年政府工作报告中对于人工智能,特别是大模型的表述呢?
梅涛:第一点,去年政府报告就已经把"人工智能+"写到报告里面了,去年强调引导大模型的研发,今年强调持续推进“人工智能+”的行动,这表明今年会着重强调人工智能大模型的应用,特别是与行业的深度融合。今年希望把人工智能与我们的强势行业,如智能制造、新能源车、智能硬件以及机器人等实体行业结合起来。政府政策引导我们进行颠覆式技术创新,希望产生更多颠覆式的人工智能技术,未来全社会将迎来全新的人工智能生活方式。第二点,关于人工智能和视觉的关系。人工智能的终极目标是希望机器能够像人一样思考、看、听、说、行动。人类大脑在接收信号的过程中,有80%的信号来自于视觉。去年全球人工智能产业,特别是AIGC产业大概有100到200亿美元的产值,其中60%是与视频相关的。预计到2030年,中国的AIGC产业将突破万亿人民币的市场规模,视觉占据核心地位。第三点,未来很多行业都会受到人工智能的赋能,特别是与视频行业相关的营销、影视设计、文旅、智能终端等,都会产生重大变革。
 
袁国良:我们看到总理的政府工作报告明确提到要持续推进“人工智能+”行动,同时在两个方面着墨:一是大模型的广泛应用,二是人工智能与智能终端的深度融合。这个政策导向很明显,就是要持续推动人工智能与实体经济的深度融合,通过规模化和经济逻辑、商业逻辑的可验证,不断发挥人工智能的生产力和产业动能。人工智能已经融入到社会生活生产的方方面面,现在正是人工智能融入社会、成为生产力的主战场的好时机。
 
2、问题:政策的支持对AI视觉产业的落地、产业化起到哪些关键作用呢?
梅涛:政策起着积极引导的作用,会带来三个结果:一是加速行业应用的深度融合;二是激励企业的技术创新;三是为中小企业特别是创业企业营造更好的营商环境。我们希望政策落地时能产生好的效果,并具有好的时效性。因为人工智能技术发展日新月异,如果政策推进不够快、不够实际,可能会跟不上技术演进的速度。我们希望针对人工智能行业有一些非常规的推进机制,特别是在投资方面,因为技术创新本身是一种经济活动,通过耐心资本的持续加持,人工智能创新才能走得更稳。比如中美之间的人工智能投资对比,美国无论是投资规模还是力度,都比我们国内目前要大。我们特别希望政策和投资能够使初创企业或技术创新能够持续稳定地参与到全球竞争中去。
 
3、问题:在投资领域,哪些AI视觉应用的相关行业和场景是最具前景的,最被看好的?
袁国良:视觉大模型与语言大模型相比,大家普遍感觉语言大模型不管是C端还是B端,都已经随手可用了,特别是DeepSeek出来以后,我们国内居民也能方便使用。但在视觉多模态领域,应用还不够普遍。我希望今年能看到生成成本较低、生成质量非常高、生成时间特别短的底层视觉大模型技术的出现。从大的方面看,我期待人工智能特别是视觉与产业的全方面融合:一是与工业、农业、服务业的融合;二是与智能终端的结合,包括电动车、手机、机器人、电动飞机、AR眼镜等;三是希望看到我们的产业和社会,包括政策,给大模型的落地应用提供更好的全面支持,包括新产品、新场景的开发。现在最被看好的应该是AR增强现实的演进,AR+AI支持的眼镜是一个重要方向。其次是很多智能终端,包括家庭用的割草机、除尘机等都配备了摄像头和智能模块,还有电动汽车、低空电动垂直起降飞机等都会搭载大量摄像头和大模型软件支持。
 
4、问题:从AI视觉领域来看,去年年初Sora一鸣惊人,经过一年的发展,当前视觉AI技术的最新水平是怎么样的?
梅涛:首先,处理的信号不同。大语言模型处理的是Token(令牌),是文字单词或其变种;而视觉模型处理的基本单元是像素。视觉领域最难的点是如何把视觉信号转变成具有语义的Token。其次,技术架构不同。大语言模型使用GPT架构,采用Next Token Prediction的方式,用前面的单词预测后面的单词,通过语言方式压缩知识。而视频大模型使用的是扩散模型(Diffusion Model)。扩散模型就像在清水中滴入墨汁,墨汁会均匀扩散到各个角落,我们把这个扩散过程模拟出来,用神经网络模拟每一步,然后再逆向恢复。第三,目标不同。大语言模型的目标是压缩知识、做逻辑推理;而视频模型是模拟物理世界,我们是"物理世界的模拟器",希望模拟物理世界中的人和物体、物体间的运动和结构关系。目前视频大模型的发展经历了几次升级:1. 模型架构的变化:从最初的UNIT架构,到2023年的DIT(Diffusion Transformer)架构,再到现在智象未来提出的自回归+DIT混合架构模型。混合架构提升了指令跟随能力和文字与视频的相关性,同时实现了推理加速。2. 视频效果的提升:最初只能生成3-5秒的视频,现在已经能做到10-15秒的单一镜头,对企业用户可以提供60秒的视频。故事性更好,可以做到多个镜头讲述完整的小故事。3. 画质和稳定性提升:与2023年相比,现在人物的微表情、手指、眼睛等细节表现得更好,但仍需要"抽卡"(多次尝试)。目前单个人物IP的一致性问题基本解决,但多人物IP的一致性仍是挑战。智象未来是国内唯一打通图像和视频统一预训练路径的大模型企业,我们希望未来能开发出更好的产品。
 
5、问题:现在视频大模型和产品已经把制作视频的门槛降得很低。这种颠覆性技术会不会对传统影视制作行业带来天翻地覆的改变?
袁国良:这肯定会带来改变。在专业领域,技术的提升已经非常显性、非常直观。我认为未来视觉多模态大模型底层能力的进一步发展会带来变革。现在我们还是把它作为一种效率工具、创作工具来理解,帮助制作内容。但未来很可能因为视频本身是一种高效的语言,随着技术进一步进化,视频不单是用来生成被观赏的内容,而可能成为根据用户意愿、心态、感情低成本高质量生成的、传递信息和感情的新型交互形式。发展到这一步时,它可能不再只是一个效率工具,也不再只是对营销、广告、游戏等专业领域有影响的工具,而成为我们每个人生活不可分割的必备工具。
 
6、问题:现在国产AI大模型使用频率相当高。目前国内大模型的技术水平处于怎样的阶段或梯队?
梅涛:这是个非常有意思的问题。两三个月前讨论这个问题时,如果说中国和美国在同一梯队,我们可能会有点怀疑和不自信。但在上个月DeepSeek发布后,我们确实可以很自豪地说,中国在人工智能领域已经妥妥地处于第一梯队。中国的开源模型已经掀起了一股风暴,把大模型应用的门槛降得很低,天花板却提得很高。从这个角度说,中国确实已经跻身AI领域的第一梯队。在视频AI领域,无论从底层模型产品还是从商业化角度看,中美一直是并驾齐驱的。市面上的视频生成工具,从用户访问量还是视频效果来说,国内的很多公司,包括智象未来,与美国是完全不落后的。当然,在布局上可能略有差异。美国在互联网经济、数字经济上确实比较领先,而中国可能更加强调AI和实体经济的融合。未来我们期望在多模态人工智能、机器人领域有更多像DeepSeek这样的创新主体出现。
 
7、问题:作为公司创始人兼CEO,智象未来在产品开发到应用再到落地的商业逻辑是什么?
梅涛:我们从创业第一天开始就思考如何把人工智能技术用到商业化场景中去。目前我们推出了两款产品:第一款是面向普通或专业用户的视频创作工具,在国内叫"智象"。这个产品已经服务了来自100多个国家和地区的上千万用户。任何设计师、自媒体从业者或专业/半专业用户,都可以通过他的创意在我们平台上生成各种类型的图片、视频,可以是海报、生日卡片、节日祝福视频,也可以是专业的影视镜头。我们在这个领域已经跻身全球第一行列。第二款是面向企业客户的服务,特别是为品牌商提供互动营销素材。只要在互联网上售卖商品或做广告,就可能用到我们的产品。我们会生成大量营销图案、营销视频,甚至可以指导如何制作能提升用户转化率的视频广告。举个例子,我们在通信领域为个人用户或小型企业客户开发了"AI视频彩铃"。用户可以定制彩铃,当别人打电话时,就能了解来电者是谁、今天心情如何、是什么样的人。我们的视频AI技术已经完全走入日常生活。我们也制作了很多微短剧,未来可能会与更多企业合作。
 
8、问题:智象未来在发展过程中的技术升级,其中最大的突破或最大的挑战是什么?
梅涛:在视频生成领域,模型效果非常重要。如果模型效果不好,在上面雕琢产品是很难的。目前我们在开发视频大模型时面临三大挑战:1. 故事性:如何生成适合视频创作的剧本。视频模型做得再好,也不能完全取代导演或顶级摄影师、艺术家的创意,所以能否生成有创意的剧本非常关键。2. 可控性:如何让视频大模型生成精准可控的内容,比如特定的镜头语言、推拉摇移、聚焦细节等,这些画面和人物的可控性很难做到。3. 一致性:如何保证多个人物在多个镜头中的一致性。目前单个IP(人物)的一致性问题基本解决,但多个人物在不同镜头中保持各自一致性仍是难点。针对这些挑战,智象未来做了几方面创新:1. 技术架构上引入了扩散式自回归,将Diffusion Transformer和自回归模型结合,在保证画面质量的同时降低推理耗时,未来希望实现实时生成。2. 引入全局镜头运动和局部运动联合学习,实现影视级和更生动的画面运动。3. 采用类似DeepSeek的"专家混合"(Mixture of Experts)方法,将多场景和多专家联合学习,更好满足用户的特定应用需求。未来我们希望实现三个目标:一是在1K以上分辨率下实现实时推理,满足大量等待用户的需求;二是开源我们最好的图像生成模型,让更多用户低成本使用;三是融合多模态的理解和生成,通过这种融合既能做生成,又能做检索、编辑、二创,打造开放式平台。
 
9、问题:现在国内大模型越来越多地开源,对开源这个事情怎么解读?对行业会带来怎样的影响?
梅涛:技术有两种方式:开源和闭源。一个企业选择开源还是闭源,是由市场化或商业化决定的,没有对错之分。开源是把所有技术都公开给大家使用,虽然有不同协议,但本质上是技术的普惠。短期内可能没有特别好的商业模式,但长期来看可以构建自己的生态壁垒,包括整个社区、底层硬件和上层应用。此外,一个新技术出现时要跨越两个鸿沟:第一个是从最早期感兴趣的用户到早期主流用户;第二个是从早期主流用户到大规模普通用户。DeepSeek的出现已经成功让AI技术跨越了第一个鸿沟。现在不仅中国用户,连美国用户都在使用DeepSeek。以前很多行业不知道大模型能做什么,现在从大型国企到中小企业,都在寻求构建自己的DeepSeek服务。开源带来的生态繁荣和行业变迁非常快,有利于各行业的发展。
 
10、问题:开源越来越多,未来的应用场景和商业化落地会怎样发展?
袁国良:开源后,技术被各方使用,会形成一阶反应、二阶反应甚至三阶反应。大量中间开发者和最终消费者进入后,会形成很多意想不到的商业模式和应用场景,这是一个非常好的正向循环。开源既是一种非常好的商业模式,也是有利于技术扩散的形式。如果一家公司在底层技术上研发投入巨大,在生成质量、时间消耗、算力消耗等方面都处于领先地位,然后把这些技术开源给市场免费使用,那么各种参与者,不管是直接使用者还是利用这些工具开发自己产品的开发商,都可以加入到以这个底层模型为基础的庞大生态中。因为任何团队再强大,相对于全社会的智慧和生产能力,仍然很有限。只有融入到整个社会的创新源泉中,技术才能生生不息——一方面提供给社会强大的底座能力,另一方面也从社会获取良好反馈。
 
11、问题:虽然行业在蓬勃发展,但也确实存在一些安全隐患。AI视觉行业发展过程中会存在哪些潜在的危险因素?
梅涛:我们非常重视AI治理,在很多专家委员会和峰会上都讨论过这个话题。我国网信办对上线服务有严格要求,需要经过多道审核。但未来仍存在一些风险:1. 数据风险:我们正在制定法律法规来规范用户数据安全。2. 版权风险:用户在平台上生成的内容,版权归属还没有清晰界定。3. 隐私风险:如何保证用户数据在未经允许的情况下不被滥用。
 
袁国良:从投资或商业角度看,大模型总体上还处于技术集中爆发期,从产业角度它还是很早期的阶段。在这个阶段,大模型底层能力的开发和基于这些能力开发的各种应用,以及这两种研发共同指向商业化,三者经常混搭在一起。我们看到2022年底以来,相当一批大模型公司在反思究竟是"模型第一"还是"产品第一",或者兼而有之。这是很正常的现象,因为这是全世界都在共同探索的前沿地带,没有现成规律可循,甚至移动互联网时代的商业模式对我们的借鉴意义也很有限。这既是风险地带,也是机会所在。从投资人角度看,完全回避这些风险不太现实。我们能做的是与被投公司一起,以开放心态不断重新定位创业公司在大模型技术链和产业链中的坐标,回到最初的出发点,巩固和发挥核心竞争优势。因为在任何领域你都会面临无数竞争者,所以要回到自身,回到初心,发挥最核心的竞争力。投资人和被投公司要以完全开放包容的心态理解大模型技术的热点演进,不是回避风险,而是在动态中直面风险并解决风险。
 
12、问题:投资人要对被投公司进行全方位保驾护航。对投资者来说,怎样优选出好的标的进行投资?
袁国良:我们可以观察到一系列连续的指标,但作为投资人,你不可能永远等待更多指标出现——在适当时期要果断决策、果断下场,否则就会看着好公司一骑绝尘而被甩在后面。具体来说,有两类风格突出的团队值得关注:第一类是绝对技术领先的团队。这类公司有两个特点:一是研发投入效率特别高;二是在长期和中期的技术路径判断上几乎都准确无误。这不仅意味着资金和人力的节省,更意味着时间的节省,在全球化竞争中领先一步。第二类是具有出色市场思维和产品思维的团队,能够借助开源或非开源的底座模型能力,开发切合市场需求的产品。
一财最热
点击关闭