2022年,ChatGPT和Stable diffusion标志着AIGC技术的爆发。一般来说,技术驱动的经济模式发展要经历五个阶段:即产生、爆发(资本/资源介入的发展)、平稳、成熟和类要素阶段。在平稳和成熟阶段,不用考虑技术细节仅靠经济规律宏观分析就能够发现价值看到趋势;但在产生和爆发阶段,我们不能忽略对技术细节的了解,而且需要结合技术特征和经济规律才能把握变化、抓住机遇、找到穿越未来的方向,如同在火势刚开始时了解它的引燃原因从而精准采取方案一般。本文结合ChatGPT的训练原理与新知识经济理论来解释:为什么说ChatGPT乃至AIGC已经突破了数字经济而过度到了新知识经济。
实际上迄今为止OpenAI并没有公开相关ChatGPT的完整技术细节,相关ChatGPT技术原理都是从ChatGPT“出生证明”介绍上获得的。注意:本文不是技术文章,对具体的技术原理感兴趣的朋友可以参考笔者或其他作者相关的《人工智能》《深度学习》等教材或者慕课视频;但这里我们需要了解ChatGPT训练方法的思想是什么?因为这可以帮助我们进一步了解知识经济中要素的地位、变化从而确定未来的方向。
在这段话里,OpenAI阐述ChatGPT有这个几个特点(它们很重要,后面有涉及):
ChatGPT类似于InstructGPT(sibling model),这意味着可以从公开的InstructGPT分析ChatGPT;
ChatGPT通过交互对话方式训练的;
ChatGPT能够回答问题、承认并纠正错误且能够拒绝不适当的回答等(能力)。
这张出生证很短,但是它给了ChatGPT一个清晰的画像:OpenAI试图提供给一个人们高效率的、可信的、有能力的人工智能助手。
实际上这三个描述恰好决定了“产生ChatGPT”的方式,或者说ChatGPT技术原理与此有关。作为一个注释:可信人工智能是一个人工智能的发展方向,特别是当人工智能进入到一些关键性领域,例如金融、医学和军事中。我们的《中国金融科技创新发展指数报告》中提出,人工智能与金融的融合分为三个阶段,在进入到产能阶段后需要迈过两个门槛,一个是可解释门槛,一个是可信门槛。
从ChatGPT的原理图可以看到,其整体分为三个步骤,这三个步骤恰好是为了“雕琢出“需要的能力和画像。
第一步(Step1)是监督学习构建能力基础,重点是泛数据的价值和第一类知识价值模式。我们知道:有了数据,监督学习是构建能力的好方法,注意模仿学习也是可以考虑的。一些学者认为这是数字经济中重要的数据要素价值产生的典型方式,这样理解虽然没有问题,但却是因为不了解技术细节而忽略的更本质的东西:第一有质量的数据需要庞大的成本,传统思维的数据价值实现方式有边际天花板,这形成了新的数据价值阶段,从监督过度到无监督,从专业数据过度到泛数据,这是知识经济理论的必然结果,ChatGPT以及大语言模型乃至AIGC必然的路径,这里的技术细节是ChatGPT乃至问答模式其实是一个“接龙“,是输入一系列输入token后预测后面的token,所以用监督学习通过获得条件概率来获得,类似于输入法,泛数据实际上解决了标注问题(能力问题),但要注意没有解决可信问题,因为回答的token(注意是一个接一个预测,这里需要了解一点自然语言处理知识)是概率分布抽样得到的,即存在随机性,一个随机做事的人,你肯定也不大容易相信;第二点实际上在现有的数字经济框架并不容易发现,需要拓展到知识经济,那就是第一类知识价值模式,ChatGPT中的P本来就含有预训练的意思,预训练技术Finetune是深度学习爆发的导火索,这显然是第一类价值模式,即知识的直接迁移和同水平组合(SLC)。需要看到的是,类似的构造能力的方式将会产生更多的方法,并在未来新的场景中产生新的应用。这一步获得的是放飞自我的小白。
第二步(step2)收集比较数据并训练奖励模型,这是构建可信能力的基础,其本质上是第三类知识经济价值模式。粗看这一块和许多传统语言模型不同,但实际上这个在2017的公开论文中就有了(即基于偏好的模式),按照InstructGPT中原理介绍,对于同样问题前面获得的放飞自我的大白会生成的ABCD共4个回答(生成多少都可以,为什么?),参与的人(专家)会给出ABCD四个答案的排序,而实际上ChatGPT是每次抽两个构建评分(大的是1,小的是0),这样可以构建6个评分结果(C(4,2))。这样构建的奖励模型实际上可以看作可信监督员,我们就称为监管机关还是监管员。
第三步(step3)强化学习架构实现固本强基,固定可信能力基础提升效率,这里涉及到第二类知识价值模式。其实这个与传统强化学习有些差异,强化学习本质上环境是奖励的载体,这里是用了第二步的奖励模型就不用考虑环境了,可以看到其实是介于强化学习和模仿学习之间,该思路也是17年的论文就有人提出了。其实这里需要看Instruct论文才能够看到更重要的细节,即这里的奖励不仅仅是第二步的奖励模型,还包括了KL散度以避免与GPT3.5产生过大的差距,可以理解为除了监管机关还有法律这个准绳,所以结果是可信的。因为它带有“可信”价值导向和资源可筛选机制,所以这是典型的第二类知识经济价值模式的体现。
深度学习刚兴起时,以监督学习为代表的训练方法促使了“标注”行业的诞生,大量的数据标注公司比人工智能企业更早获得了技术的第一桶金;而当数据要素化并逐渐称为基础设施的过程中,以ChatGPT为代表的AIGC所依赖的训练方法具有“泛数据、非监督、可信目标、通用能力”的特点,其本质从最初的数据要素三重价值逐渐转化到新知识经济的三重价值,强人工智能的道路上,经济模式也由数字经济转化到知识经济。
【参考文章】:
Vaswani, Ashish, et al. "Attention is all you need." Advances in neural information processing systems 30 (2017).
Radford, Alec, et al. "Improving language understanding by generative pre-training." (2018).
Ouyang, Long, et al. "Training language models to follow instructions with human feedback." arXiv preprint arXiv:2203.02155 (2022).
Chen, Mark, et al. "Evaluating large language models trained on code." arXiv preprint arXiv:2107.03374 (2021).
Neelakantan, Arvind, et al. "Text and code embeddings by contrastive pre-training." arXiv preprint arXiv:2201.10005 (2022).
Brown, Tom, et al. "Language models are few-shot learners." Advances in neural information processing systems 33 (2020): 1877-1901.
(作者系中央财经大学金融学院教授、博士生导师,中央财经大学中国金融科技研究中心主任,家族办公室合作与发展组织理事会主席兼首席经济学家)
七部门:建设证券期货业数字化公共服务平台 为金融机构数字化转型提供数据和技术支撑
广发证券:化债提高政府财政能力,稳定房地产市场
近年来虽然全球价值链遭受种种冲击,但仍保持总体扩张趋势,2022年全球出口的境外增加值率达24%的历史高点,比2009年高4个百分点。
山西证券:智谱发布AutoGLM催化Agent行情 CPO对光模块仍是机遇
平安证券:证券业供给侧优化加速 关注券商整合机遇与效果