分享到微信

打开微信，点击底部的“发现”，
使用“扫一扫”即可将网页分享至朋友圈。

前瞻大规模语言技术：跨语言与多模态有望短期突破

第一财经 2021-08-21 23:15:32

责编：王艺

从技术视角看，自然语言处理是比视觉、语音两大人工智能热门投资板块更为关键的更高层级智能，而大规模语言模型是这一领域取得突破的关键。微软全球合伙人、微软亚洲互联网工程院副院长、首席科学家姜大昕博士参加行知新经济云峰会数字科技专场，分享了大规模语言技术的落地实践与发展趋势。

编者按：从技术视角看，自然语言处理是比视觉、语音两大人工智能热门投资板块更为关键的更高层级智能，而大规模语言模型是这一领域取得突破的关键。微软全球合伙人、微软亚洲互联网工程院副院长、首席科学家姜大昕博士参加行知新经济云峰会数字科技专场，分享了大规模语言技术的落地实践与发展趋势。

自然语言处理并不是最受关注的人工智能细分领域，不论是投资金额、还是公司数量，视觉和语音处理才是两大热点。但从技术视角看，自然语言处理才是人工智能皇冠上的明珠。人类智能从下到上包括计算智能、感知智能、认知智能和创造智能，视觉和语音属于感知智能，而自然语言处理属于更高层级的认知智能。要构建真正的人工智能，自然语言处理是绕不过去的一步。所以，自然语言处理与视觉、语音相比相对滞后，也恰恰成为了机会所在。

大规模语言模型突破：预训练+微调新范式

自然语言处理取得重大突破是在2018年底，BERT模型横空出世，在经典的测试集上达到了超越了人类准确率的水平。BERT集成了此前深度学习在自然语言处理领域已经取得的成果，显得特别强大，主要有以下特点。

特征学习。BERT作为深度神经网络可以自动从数据中抽取有效的特征表示，避免了人工设计特征这样费时费力的步骤。

自监督学习。BERT采用了自监督的学习方式，能够自己构造训练数据，利用网页数据作为训练集，从而可以训练上亿参数大模型。

开创“预训练+微调”的新范式。这一点尤其重要，宣告了大规模预训练模型时代的到来。过去自然语言处理需要根据任务选择相应模型，导致每个任务都只能从零开始训练模型，数据无法共享、模型无法混用，小数据训练小模型限制了自然语言的应用。而BERT模型把训练拆成两步，第一步是预训练，用自监督方法从大量文本中学习语言的特征表示，得到大规模预训练语言模型，帮助模型执行不同任务。第二步是模型微调，针对特定任务，只要用比较少的数据就能训练出特定下游任务的模型，在特定任务上达到比较好的效果。打个比方，预训练模型就像本科生学习各种基础课，而微调是研究生学习专业课，基础知识掌握比较牢固，学习专业课就比较容易，这就是BERT的主要思想。

沿着BERT的思路，大家把模型做得越来越大、能力越来越强。比如2020年3月，微软推出图灵模型，参数量是上一代的10倍，达到了170亿参数；仅仅三个月后，又推出了GBT3模型，再翻了10倍，达到1750亿参数，轰动一时。国内科技公司也预训练了一批大模型，比如对标GBT3的华为盘古和腾讯盘古，分别达到了1000亿和2000亿参数，最近智源悟道发布的模型达到了1.75万亿参数。预训练技术和随之产生的大规模模型正在快速推动自然语言处理的发展，使大量落地应用成为了可能。

助力数字化转型：聚焦平台层和工具层

四年前，我们开始和企业合作，探索如何将大规模语言模型落地应用，推动数字化转型。我们接触了许多企业、也包括政府部门，发现数字化转型有一些共同的痛点。企业想要拥抱AI通常有两个选择，采购AI解决方案或者自建AI能力，但二者都有问题。如果采购会面临技术黑盒子、可拓展性差、无法与自建系统深度集成等问题；但完全自建又有技术门槛高、人力成本昂贵等问题。

经过一段时间讨论，我们找到了一条中间路线，推出了包含数据层、平台层、工具层和业务层的Carina平台。这四层中，微软主要负责平台层和工具层，把我们所擅长的技术集成到这两层，而企业则可以根据具体业务场景开发应用，这样企业可以充分利用我们的技术，我们也不需要特别深入理解企业具体业务。数据层和业务层，因为企业之间的差异较大，很难有统一解决方案，所以合作方式多种多样。

平台层的目标是围绕机器学习模型的生命周期，为企业提供模型开发、部署的环境和工具。以Carina为例，包含了训练、部署、调度和共享四大平台，在这个大框架下，我们再根据企业操作人员痛点设计具体功能和模块。经过不断开发验证和改进，这个平台已经非常稳定、好用，可以支持上千人同时协同开发。比如Carina已经在华泰稳定运行了三年多，面向信息技术部和相关业务部门，平均每天上百人使用，主要支持统一调度数据和计算资源，提供数据科学开发平台和大数据量化分析，有效提升了整体业务分析能力和策略研究效率。

工具层的目标是提供各种自然语言处理模型、调用接口和定制化工具，企业开发各种场景具体应用时可以使用。这一层要解决三个挑战：自然语言处理任务繁多、算法各异，标注数据昂贵且质量越高越贵，通用模型往往在细分领域表现不佳。为此，我们制定了“四步走”策略：

第一步，预训练大规模语言模型，我们采用了当时世界上最大的预训练模型图灵模型，这为后面所有工作打下了很好的基础。

第二步，在通用模型基础上为不同任务微调，我们使用了搜索引擎等微软各类产品积累的标注数据，有了这些数据，平台上每一个任务的表现都经过经验，可以满足工业级应用需求。

第三步，针对不同领域进一步微调，在这一步，平台提供工具让使用者可以便捷地加入知识和数据，让模型适应用户的具体场景。

第四步，把大模型压缩变成小模型部署上线，最常使用的方法是知识老师，让它产生很多训练数据，再训练一个小的学生模型，通常这个小模型只有几十兆，在CPU上也可以跑起来。

展望未来突破点：跨语言模型和多模态

大规模语言技术的未来会是什么样呢？我的观点是，常识和推理任重道远，还需要很长时间才能解决，跨语言和多模态有望在未来几年取得突破。

跨语言模型正快速发展，不仅仅是机器翻译，还包括支持上百种语言的自然语言处理任务的模型。除了学术界的研究非常活跃，工业界的跨语言模型也到了成熟落地时期，比如微软的所有产品都要求支持200多个地区的100多种语言。

目前，语料丰富的大语种已经实现了工业级应用，但是许多小语种，由于语料很少、尤其是双语拼音数据的缺乏，效果还不理想，有待研究的重点是如何把大语种的丰富语料知识应用到小语种上。另外，即使是大语种，有了落地的成熟工业级应用，但我认为也就是八、九十分的水平，最后的十分、二十分非常难拿。比如歧义，“我的钢笔没有水了”，机器会翻译成“水”，而不会理解成“墨水”；再比如缺少对应翻译，“一带一路”、“到基层去”这类内容就很难翻译，只能意译。这也是有待解决的问题。

多模态是指让计算机拥有处理语音、文本、图像、视频、知识等不同模态信息的能力。过去，语音、视觉、自然语言处理几大人工智能领域平行发展，彼此很少有交流，模型之间可以互相交流，但一个模型很难同时接受多个模态的输入。很多学者相信，人类不论接收外界信息还是表达意图，都会综合运用大脑中多个感知和认知模块，既然人类智能是多模态的，我们也应该让机器把不同模态的信息加以融合，所以多模态学习成为当前的热点方向之一。多模态的工业落地比如搜索引擎，现在可以用文本搜索到图片、视频，但如果要精确定位到想要的某一段视频，就需要文字和视频信息的紧密融合。另外，多模态研究如果能够突破，增强现实、虚拟现实、虚拟人类等方向也会得到飞跃式发展。

我一直认为要让机器理解常识，就需要机器把多种模态联系起来。我们人类获得常识的途径往往不是单纯通过文本，而是通过自身在现实世界中的体验。如果让机器也获得“自身体验”比较困难的话，就退一步，让机器能够“观察”到现实世界的体验是多模态的，这对机器理解常识也会有所帮助，从这个意义上说，多模态对推动整个通用人工智能的发展意义非常重大。

自然语言处理处于一个美好的时代，虽然还有很多问题没有解决，但是已经有很多成功的商业应用。我相信随着技术的进一步发展，一定能够更好助力数字化转型。

大模型安全国际标准正式发布两条主线布局投资机会

4月16日，世界数字技术院（WDTA）发布了《生成式人工智能应用安全测试标准》和《大语言模型安全测试方法》两项国际标准。这也是国际组织首次就大模型安全领域发布国际标准，代表全球人工智能安全评估和测试进入新的基准。据了解，这两项国际标准是由OpenAI、蚂蚁集团、科大讯飞、谷歌、微软、英伟达、百度、腾讯等数十家单位的多名专家学者共同编制而成。

04-18 10:14

中兴通讯发布数字星云3.0 持续探索大模型产业应用

04-15 12:57

建立中国创新活动的语词体系

与挺立在时代潮头的中国创新创业实践相比较，国内创新理论的系统化研究，目前尚是一棵正在成长期的稚嫩青苗。

02-20 19:52

Sora出世人工智能将引领新一轮行业变革丨焦点资讯

2月16日凌晨，OpenAI公司发布最新“文生视频”大模型Sora，并附带发布了多条由Sora生成的视频，相较于目前“文生视频”业内主流的数秒钟版本，此次发布的Sora可以一次性生成一分钟的视频。Sora的发布毫无悬念地再次引发了整个市场的高度关注。有人认为Sora创新的模型架构为大模型的发展开辟了新道路，也有人认为Sora的推出让通用人工智能到来的日期大大提前，还有市场人士表示Sora的爆红与OpenAI高超的营销密不可分。可以预见的是，Sora的横空出世，无疑将促使人工智能引领新一轮行业变革。

02-19 12:38

马凌：穿行在汉字的密林｜新春阅读

是时候来一场从汉字现代化维度铺开的读书之旅了。

02-08 11:33

一财最热

分享到：