首页 > 新闻 > 一财号

分享到微信

打开微信,点击底部的“发现”,
使用“扫一扫”即可将网页分享至朋友圈。

盘古大模型赋能城市数字化转型

2021-07-09 10:40:18

作者:田奇    责编:张健

这种一个场景,一个模型的模式开发效率很低,需要从0开始,独立调优,而且迭代艰难。这种工业化开发模式就是:预训练模型+微调的方式,一个模型可以适配多个场景,并且模型的精度更高,鲁棒性也更强,开发周期能够缩短到几天,甚至几个小时。盘古预训练大模型已经在多个行业、100多个场景成功验证,包括能源、零售、金融、工业、医疗、环境、物流等等。其中,在能源领域,盘古预训练大模型帮助行业客户实现设备能耗的智能控制,可以节约电力成本50%;在金融行业中的异常财务检测,让模型精度提升20%以上; 在尘肺检测中,病例识别准确率提升22%等等。

盘古大模型赋能城市数字化转型

众所周知,AI正在加速进入千行百业。目前AI对企业的渗透率是4%,我们预计2025年AI对企业的渗透率可以达到86%。在华为云600多个AI实践项目中,AI已经进入了30%的项目核心生产系统,帮助客户盈利能力平均提升18%。

目前AI应用最大的挑战之一就是AI应用的碎片化、定制化、作坊式的开发模式。这种“ 一个场景,一个模型”的模式开发效率很低,需要从0开始,独立调优,而且迭代艰难。如果模型达不到期望的目标,还要推倒重来,开发周期需要一个月,甚至数月。

因此,AI开发亟需一个新的模式,从作坊式向工业化转变。这种工业化开发模式就是:预训练模型+微调的方式,一个模型可以适配多个场景,并且模型的精度更高,鲁棒性也更强,开发周期能够缩短到几天,甚至几个小时。

华为云在今年四月发布的盘古预训练大模型,是系列AI大模型,包括盘古NLP大模型、盘古CV大模型、盘古多模态大模型以及盘古科学计算大模型。其中,盘古NLP大模型是业界首个千亿参数的中文预训练大模型,在CLUE打榜业界领先。

盘古有三个核心的设计原则: 一是,超大的神经网络,可以吸收海量的数据;二是,强壮的网络结构,达到性能的极致;三是,优秀的泛化能力,达到全能冠军。盘古大模型包括三个阶段:第一,预训练阶段,这是算力消耗最大的阶段;第二,模型微调与部署;第三,大模型的迭代,实现终身学习,增量学习。盘古大模型的流水线、工具集成,让训练速度更快, 效率能够提升10倍以上。

过去两年,预训练大模型获得了蓬勃发展,业界主要的玩家包括微软、谷歌、Facebook、OpenAI等等。那么,华为云盘古预训练大模型有哪些优势?

首先,盘古预训练模型拥有领先的技术创新。

盘古NLP大模型首次使用Encoder-Decoder架构,兼顾NLP理解与生成的能力,且性能领先;在NLPCC生成任务上,Rouge score取得第一,比第二名提升60% 以上。该架构多任务学习的方法,能够让大模型训练更加稳定;同时基于提示的微调, 能够在小样本学习上超越GPT系列。训练盘古NLP大模型使用了40TB的文本数据,包含了大量的通用知识,同时也沉淀了华为云的许多行业经验。盘古CV大模型在业界首次实现了模型的按需抽取,不同部署场景下抽取出的模型体积差异,动态范围可达三个数量级;提出的基于样本相似度的对比学习,凭借小样本学习能力在ImageNet上取得了业界领先的成绩。

其次,盘古预训练大模型拥有丰富的技术沉淀及应用实践。

盘古预训练大模型已经在多个行业、100多个场景成功验证,包括能源、零售、金融、工业、医疗、环境、物流等等。其中,在能源领域,盘古预训练大模型帮助行业客户实现设备能耗的智能控制,可以节约电力成本50%;在金融行业中的异常财务检测,让模型精度提升20%以上; 在尘肺检测中,病例识别准确率提升22%等等。

盘古大模型背后有众多的技术创新。过去两年,盘古大模型获得了10多个业界挑战赛冠军, 30多个专利申请,发表了70多篇IEEE、ACM期刊论文,以及120多篇CCF A类会议论文。团队的核心目标是引领工业化AI开发的新模式,降低AI使用的门槛,实现低成本、大规模的复制。盘古大模型近期会上线华为云AI开发者生态社区(AI Gallery),服务于广大开发者和客户,践行普惠AI。

盘古大模型能够支撑城市各行各业多种多样的创新、智能应用,是因为有强大的AI算法、算力和数据吞吐能力做基础,是城市数字化转型的智能基础设施。需要超大算力的基础:训练使用 2560 超大AI集群,提供澎湃算力;需要并行计算的基础:华为MindSpore多维自动混合并行技术,ModelArts E级算力调度、动态路由规划能力,为大模型训练提供最优的网络通信能力。需要海量数据处理能力的基础:华为云ModelArts平台的高效处理海量数据能力,7天完成了40TB文本数据处理。

在交通领域,比如像上海这样的大城市,每天都有大量的行人和车辆活跃在道路上。分析交通参与者的行为,及时对异常状况进行预警,是智慧交通系统的重要任务,也关系到城市的安全运转。现有算法对于标注数据的需求大、扩展性弱,无法满足万级规模视频流实时分析需求的大城市。

盘古大模型利用自身可扩展性方面的优势,在海量数据上进行训练,可以显著提升算法的精度和效率。利用自研的虚拟与现实数据混合技术,配合最新研发的层次化Transformer模块,盘古大模型能够实时处理数百路视频的实时数据,在无需任何手工标注数据的情况下,完成交通参与者的识别与分析。特别在行人重识别任务上,盘古大模型在无任何标注的前提下,逼近业界最大的行人重识别数据集MSMT17上的有监督训练精度。

未来,华为云将会把这些预训练模型开放给业界,配合盘古自研的小样本微调技术,可以大幅降低人工标注量和调优难度,赋能AI在行业的低成本、大规模复制;

在金融领域,行业专家每年需要耗费大量精力分析企业财务数据和非财务数据,挖掘企业财务舞弊的手段和动机,识别企业风险,助力企业项目审核。由于行业专家的稀缺性,很难对上千家公司的财务进行详细分析。另外,由于数据样本量小、分布极度不均衡等因素,传统机器学习已无法对企业财务数据和非财务数据进行准确的分析。

为提升行业专家的分析效率,减少人工工作量,盘古大模型对一系列模型进行了数据差异化训练,使用不同的训练数据对多个模型进行逐一训练,再将每个模型进行高效的融合,最终盘古大模型可识别10+大类财务异常、200+小类异常信号,6类舞弊动机、120+舞弊手段。在2019年有496家企业被监管处罚和问询,华为云利用盘古大模型准确预测出了其中的439家,覆盖率近90%,其中被监管处罚企业111家,盘古大模型全部命中,无一遗漏。

在医疗领域,新冠肺炎爆发后,全球的科研人员短期内发表了大量新冠相关的文章,如何从这些海量文献中提取关键知识变得非常挑战:人工整合、知识检索及分析效率低;知识抽取融合难;已有算法模型效果不佳,未结合生物医学领域语料知识,无有效工具提供全流程图谱构建平台。

基于盘古大模型,华为云构建了从文献到知识图谱的端到端分析流程,用于医学信息的抽取,同时提出了用于医学关系预测算法。该算法可以自适应地选择更恰当的专家模型对输入的数据进行预测。收益于这种自适应的模型选择和融合,盘古大模型的知识表征方法比传统的知识表征方法,准确度提升了12%。另外,华为云还打造了DeepKG for COVID-19网站,科研人员可以通过网站进行知识图谱搜索和问答,方便的获取新冠相关的知识。

作者为:华为云人工智能领域首席科学家 田奇博士,本文为其在第四届世界人工智能大会上的发言实录,有删改。

举报

文章作者

一财最热
点击关闭