分享到微信

打开微信，点击底部的“发现”，
使用“扫一扫”即可将网页分享至朋友圈。

每个人都可以利用AI技术成为导演| 大V空降

2024-04-11 17:20:38 听新闻

作者：大V有话说 ▪ 尹西明责编：高雅馨

虽然AI技术的发展可能导致工作的替代和文化的侵蚀，但同时，它也提供了新的就业机会和创新方式。

本期空降大V北京理工大学管理学院副研究员、北京理工大学融合发展研究基地副主任尹西明的主要观点：

①其实取代我们的不是AI，可能是比我们更会使用AI的或者大模型的人。

②意识到危机感、快速行动调整，可能比其他人更早地理解和用好AI大模型。

③AI时代，每个人都可以成为编导或导演，超级个体会加速涌现。

④在AI领域，中国可能以场景驱动的创新实现后来居上。

沉浸式与资深大V“面对面”聊天，是加入Vlubhouse就可以轻松获得的粉丝体验。

我们会不定期邀请一财号的大V空降Vlubhouse一财号粉丝群，大V将由他们聚焦的不同领域，全方位解答粉丝关于时事、消费、金融、政策等一系列困惑。

第18期大V空降活动中，我们邀请到了北京理工大学经济与管理学院副教授尹西明，与Vlubhouse粉丝进行了为时30分钟的对谈，来看看我们都聊了什么。

“OpenAI使用的数据集提高了模型的泛化能力、生成质量和涌现能力。”

问题一：能否简要介绍一下Sora等视频生成AI大模型的工作原理？这些模型在技术上有哪些突破，使得它们能够生成如此高质量的视频内容？

尹西明：Sora是在今年2月16号由OpenAI公司发布。虽然不是正式全面发布，但进行了公开内测，首个大规模文字转视频的Sora引爆了全球话题，Sora的亮相成为继OpenAI在2022年底2023年初出圈的ChatGPT之后，在AIGC领域的又一个里程碑事件。其实对于Sora的突破，Open AI官方将它定位为“作为世界模拟器的视频生成模型”，它的核心特征就是可以将文字直接描述转换为相应的动态视频内容。

Sora的创新不仅仅是技术上革命性的突破，还在于对整个AI应用环境的嵌入式地改变，或者互动的机制。因为传统的AI大模型大多是在封闭的环境中训练和应用的，尤其训练的数据集都不是实时的。但Sora的出现可能意味着AI技术，尤其是大模型，可以直接与现实世界交互。这将大大地推动AI，尤其是生成式AI（GenAI）这种通用型人工智能的新技术在各行各业的应用，而根据我们的理解，Sora的视频生成AI大模型的主要的原理或者特色就体现在三个方面。

一方面，技术上模式架构的创新。比如Sora这个视频生成大模型使用了Diffusion + Transformer的结构，大大提高了大模型的并行计算能力和表达能力；第二个方面，OpenAI相当于拥有了世界最大规模的高质量训练数据集之一，这一家公司通过使用大规模高质量的数据集，提高了模型的泛化能力、生成质量和涌现能力，而这也是OpenAI等相关的通用人工智能公司遵循叫“规模律”这个特征，通过量的增长，尤其是参数的增长，来提高涌现的能力和生成质量的体现；第三个方面，生成视频效果的革命性突破，同时实现了生成视频的生成物体的三维空间连贯性和生成物体的持久性，背后是大模型的稳定性以及算法的突破。

问题二：有人说，中国发展AI的优势是商业应用场景更多。您认为场景驱动创新，如何成为中国人工智能产业创新发展的重大机遇？

尹西明：

现在随着人工智能大模型的持续突破和百模大战，我们国内，包括国际范围内对人工智能，尤其是通用人工智能的发展存在比较大的分歧。一部分是技术信仰派，比如说会认为持续的参数提升和技术的原始性创新是人工智能发展的基本路线；另一类，侧重认识到中国在人工智能基础研究方面还存在很大短板，短期内很难跟上，但比较优势的一点就是利用庞大的应用场景做垂直领域的大模型和场景化应用，从而实现超越。

这两个观点都有各自的立足点，但作为科技创新管理和创新生态系统研究的学者，我认为，其实这两个观点都具有一定的片面性。真正的人工智能的发展，纵观Open AI发展历程，无论是ChatGPT还是Sora的发布，以及Open AI公司的发展过程，其实是大模型时代人机场三元协同驱动创新发展的成果。聚焦在中国层面的话，从Sora的发布到AIGC这一系列的突破也为中国人工智能创新驱动发展带来了很多新的突破和发展机遇。

但我们为什么又落后了一步？这在部分程度上反映了我们人工智能企业、行业在理论突破、基础大模型开发、科技成果快速转化等方面都存在典型的差距，这时候就要破局出新。

场景驱动创新可能成为中国人工智能发展的重大发展机遇，我们不仅有很多公共应用场景、商业应用场景，而且重视场景驱动创新可以加快我们将AI技术通过开源开放的方式快速在各行各业进行应用转化，取得一定的经济效应，反哺我们的研发或者企业发展。

更重要的是我认为场景驱动创新的第二个维度。一方面，场景驱动创新可以成为我们重大的发展机遇，可以从场景思维出发，更好地精准化瞄准市场复杂性、综合性的需求，加速推动像AIGC这种前沿技术向转化和产业化；第二个非常重要的是，场景驱动创新不是瞄准单点的突破或者单点的应用，而是可以促进某一个场景和某一个产业链的协同发展，推动不同行业或者跨行业技术和产业深度融合；第三点是我特别想强调的，场景驱动创新不仅仅是推动技术的快速应用，更能够通过场景化的专家知识和产业应用过程中积累反馈的高质量数据与隐性知识，反哺基础大模型的迭代和持续的突破，形成AI技术能级的跃迁。

我们也看到中国的很多人工智能企业，像华为、百度、腾讯、字节跳动、北京智源人工智能院，还有清华系的，像智谱清言、百川大模型，还有北京月之暗面科技有限公司等，这些企业其实都在探索的是场景+技术双轮驱动的AI创新和产业化的路径，而这个路线刚好是中国具有的比较大的海量的应用、海量数据，超大规模的应用市场，以及千行百业的应用场景，能够使得我们抓住场景驱动创新的范式革命机遇，构建瞄准世界前沿的中国人工智能产业创新生态，既能够加快技术的应用，实现提质增效，促进产业高质量发展，同时还能够反向牵引原创技术的突破，弥补资金不足和原创技术研究基础相对薄弱这个短板。

“Sora生成的视频逼真到普通人难以分辨。”

问题三：您认为视频生成AI大模型最终能否达到与现实无法区分的水平，打造出一个“虚拟世界”？而中国的场景创新驱动，有没有可能在这方面“后来居上”？

尹西明：

Sora发布以来，甚至有OpenAI公司自己通过Sora生成非常逼真的模型或者是视频的影像，虽然没有配备很多声音，但是其逼真程度已经实现了让没有经过专业训练或对AI有深刻认识的普通人难以分辨。在未来，Sora生成的人工智能内容产品可能很快就能实现并使受众很难与现实区分。

实际上。跟我们实时交互的人也很难识别视频中间参与聊天的人到底是真人还是由AI生成的。事实上，AI大模型生成的视频生与现实难以区分的现实，来得比我们预想的快得多。

我们换一个新的情境就更能理解了。2012年，中国的新能源汽车市场占有率非常低，只有0.07%，还不到1%，年产销量刚刚超过1万量，如果站在当时去看未来，几乎没人敢相信2035年中国新能源汽车市场占有率突破35%这个目标能实现。即便到了2020年，这个数据才增长到5%，但事实上，在2023年，（新能源汽车）市场占有率都已经快速飙升到了31.6%，而且是在疫情三四年内完成了突破式增长，而今年（2024）底则有望突破40%。可以看到，传统行业在智能化，在技术突破带来的赋能的情况下，颠覆性技术突破和产业化不再遵循线性模式，而是指数型模式，也就意味着，“未来以来”的速度比我们想象的快得多。

中国场景驱动的创新有可能后来居上。比如在媒体领域，现在央视已经做了很大突破，在很多重要场景应用了AIGC，甚至用AI生成视频并发布了相关的电影或者电视剧。同时，今年政府两会工作报告也提出，要推动“人工智能+”行动，实际上就在千行百业万企里推进人工智能的场景化应用，而大规模的产业焕新和设备更新也为人工智能的场景化应用和快速迭代提供了非常大的产业牵引。这也有可能反向填补高质量语料不足、应用基础研究的资金不足等相关短板，加快中国人工智能产业创新的突围。

“AI可能加速替代某些工作，包括创造性岗位。”

问题四：您认为AI大模型的快速发展和应用，对我们日常工作、生活和管理会带来哪些新的挑战性话题？比如人和AI的竞合关系等。

尹西明：

其实人与AI的竞合关系是一直人工智能发展的焦点议题，这背后也是从工业革命以来我们关注的技术突破跟产业或者工作替代的关系。AI的自动化，或AI的产业化应用有可能会加速替代某些工作。以前我们认为，AI只是替代一些低技能工种或者是职业。但现在，AI在艺术创作、诗歌创作甚至文学创作等创造性的岗位上，也带来一些颠覆性的表现。这时候我们就需要思考，如何重新配置人力资源、如何培养人与AI协作的能力以及同理心等。

第二个可能的挑战，随着AI在整个决策过程的作用日益增强，比如现在AI智能体或者人工智能体在大规模应用中，大大降低了原来由程序员或者是计算机专业背景所掌握的技术应用门槛和创新的门槛。AI智能体在决策的透明度、公正性，还有解释性上，防止算法偏见成为亟待解决的问题。尤其有一个非常尖锐的问题：当AI有一天AI智能体从原本辅助创新的工具，摇身一变成为我们的老板或成为我们的同事时，我们该如何跟它们心平气和地一起工作，甚至听从大老板通过智能体给我们下发的职能化决策和指挥。这其实是人的主体性遭到了冲击。

还有，我们必须了解AI大模型带来的安全和隐私的问题。以前我们只是防止数据泄露，但人工智能时代，每个人可能都已经没有隐私或者所谓的安全性。这时我们如何能够保护家人、朋友，使其提前认识到这种AI生成视频等大模型应用带来的潜在风险，尤其是对生活、工作、家庭关系的潜在冲击，防止AI的滥用和对我们个人隐私，包括国家文化主权等方面的潜在的风险。我们每个人需要提前做好认知的准备、行为（变革）的准备和能力上的储备。

国家范围内也要出台一些相应的治理或者引导性治理的规则，避免我们在人工智能，尤其是国家主权AI方面的落后。

“与AI协作，发挥人类的创造力和想象力。”

问题五：那么在AIGC时代，我们需要什么样的认知更新或能力储备，来应对挑战，成就更好的生活和个人职业发展？

尹西明：在AIGC的时代，我们首先需要更新对AI的认知，不把AI当作永远不可能追上我们，或者永远是我们的辅助。在心理上和认知上做好准备；其次，通过互联网的知识，包括借助各种免费的大模型产品帮我们理解AI的基本原理、应用范围、应用场景以及可能潜在的风险能力，便于我们更好地合规、合法和合乎逻辑、道德地应用这些新技术为工作和生活赋能。第二个比较重要的能力就是跨学科的知识和协作能力，尤其是其中所涉及的创新思维、批判性思维，还有伦理、价值观所引导的这种技术负责任的应用也非常关键。

还有非常关键的，我们在这一轮人工智能或者是技术突破性带来的变化中，不仅要对当下进行思考，还要思考未来所需要的能力组合。比如十年之后，大模型成为像90年代、10年代的电脑手机一样普遍流行的时候，那时候的教育、未来场景驱动的人才培养或者未来场景驱动的教育改革应该怎么走？我觉得目前很多人可能思考得不够深度，建议大家都多多关注，尤其是涉及到未来教育和人才培养的改革、认知思维的改变，从而更负责任地引导或应用AI，赋能美好的个人生活和社会发展。

问题六：如果使用AI制造视频，是否会涉及侵犯他人隐私，以及如何才能避免？

尹西明：首先，用AI生产视频本身就涉及真假的问题，但是否涉及恶意伪造，这可能是有一定的法律边界的限制。如果我们自己进行AI生成视频，结果语料用的是，比如说你的朋友、舍友，或者其他人的相关的视频素材，生成的目的又是为了商业化的或者非善意的目的，这种肯定涉及侵犯他人隐私和权利的问题。提高认知，注意在有一些场合尽量不要发自己的原图等，也多提醒自己的家人尤其是家中的老人。这样可能能够避免潜在的损失。

“每个人都可以利用AI技术成为编导或导演，发布个人作品。”

问题七：AI视频的生成，对影视行业、短视频行业带来哪些影响？

尹西明：从乐观主义的来，其实视频生成的AI大模型，或者是文本生成视频的AI大模型。在影视行业首先可能是一个机遇。跟大多数人的悲观观点不一样，我始终认为其实取代我们的不是AI，可能是比我们更会使用AI的或者大模型的人。从AIGC的突破，包括ChatGPT发布之后，虽然二次元影视创作，包括写作行业的很多人觉得自己是首先被革命的，那么这帮人可能是第一时间被激活了鲶鱼效应，会先意识到危机感，然后快速行动调整。而我们经过短时间的调整和使用，可能比其他人更早地理解了大模型。

在这种情况下，娱乐行业、视频行业、教育行业都可以利用Sora等生成式视频大模型，提高不管是创作，还是创造性的构想，还有发布，甚至路演等等，这些大大降低视频行业的从业门槛，个体现在有崛起的机会，每个人都可以成为编导或者导演，发布自己的短视频，甚至是基于深层次大模型发布自己的系列的短剧，这时候考验的就是创造力、想象力、发散思维，最终通过同理心的方式推动行业的发展。这就要看我们如何转危为机了。

以上是尹西明为一财号粉丝带来的独家观点分享。在4月11日（周四）晚19:30，依然会有神秘嘉宾空降Vlubhouse一财号粉丝群，和大家进行交流互动，为粉丝带来专属的内容。

Ta是谁？又会讲点啥？谜底很快揭晓。

欢迎大家叫上小伙伴，入群一起交流。