首页 > 新闻 > 一财号

分享到微信

打开微信,点击底部的“发现”,
使用“扫一扫”即可将网页分享至朋友圈。

MIT打造有效提升语言注意力的硬件系统

2021-03-01 16:30:04

作者:杨磊    责编:张敏

当开发一个更具有适用性的NLP算法时,注意力机制会以关键词为中心,而不是以同等重要性对待每一个词。因此,麻省理工学院的研究人员设计了一个软硬件结合的系统,被称为SpAtten,专门用来运行注意力机制。NLP模型需要极大的计算机能力负荷,这部分得益于注意力机制的高内存要求。当前所面临的一个挑战是缺乏运行NLP模型与注意力机制的专用硬件。而且随着NLP模型越来越复杂,这个问题会越来越严重,尤其是对于长句子,需要算法优化和专用硬件来处理不断增加的计算需求。MIT的研究人员为此开发了一个名为SpAtten的系统,以更高效地运行注意力机制。

专用硬件也可能是未来解决自然语言理解关键技术的一个重要思路。

人类的语言可以是低效的,有些话是至关重要的。而另一些,则是消耗品。

反复重读这个句话,其中两个关键词,"语言"和 "低效",几乎表达了这句话的全部意思。

关键词的重要性是计算机自然语言处理(NLP)的一种流行的新工具的基础——注意力机制。当开发一个更具有适用性的NLP算法时,注意力机制会以关键词为中心,而不是以同等重要性对待每一个词。这在NLP任务中产生了更好的结果,比如检测积极或消极的情绪,或者预测一个句子中的下一个词应该是什么。

然而,注意力机制的准确性往往是以速度和计算能力为代价的。它在通用处理器上运行得很慢,就像你可能在消费级计算机中找到的那样。因此,麻省理工学院的研究人员设计了一个软硬件结合的系统,被称为SpAtten,专门用来运行注意力机制。SpAtten可以用更少的计算能力实现更精简的NLP。

"我们的系统类似于人脑处理语言的方式,"毕业于清华大学本科、斯坦福大学电子系获得博士学位的人工智能大神韩松教授的博士研究生王汉瑞说。"我们的阅读速度非常快的情况下只关注关键词。这就是构建SpAtten系统的想法。"

自2015年推出以来,注意力机制一直是NLP的福音。它被内置到最先进的NLP模型中,比如谷歌的BERT和OpenAI的GPT-3。注意力机制的关键创新是选择性--它可以根据与算法之前在训练阶段遇到的单词模式的比较,推断出句子中哪些单词或短语是最重要的。尽管注意力机制在NLP模型中被迅速采用,但它并非没有成本。

NLP模型需要极大的计算机能力负荷,这部分得益于注意力机制的高内存要求。这部分其实是NLP模型的瓶颈。当前所面临的一个挑战是缺乏运行NLP模型与注意力机制的专用硬件。

通用处理器,如CPU和GPU,在处理注意力机制复杂的数据移动和运算顺序时有问题。而且随着NLP模型越来越复杂,这个问题会越来越严重,尤其是对于长句子,需要算法优化和专用硬件来处理不断增加的计算需求。

MIT的研究人员为此开发了一个名为SpAtten的系统,以更高效地运行注意力机制。他们的设计包含了专门的软件和硬件。软件方面的一个关键的进步是SpAtten使用 "级联修剪",或者说从计算中消除不必要的数据。

一旦注意力机制帮助挑选出一个句子的关键词(称为tokens),SpAtten就会修剪掉不重要的tokens,以消除相应的计算和数据运动。注意力机制还包括多个计算分支(称为head)。

为了进一步修剪内存使用,MIT的研究人员还开发了一种名为"渐进量化 "的技术。该方法可以让算法以更小的比特单位来调度数据,并从内存中获取尽可能少的数据。较低的数据精度,对应较小的位宽,用于处理简单的句子,而较高的精度则用于处理复杂的句子。

基于软件提升的同时,MIT研究人员还开发了一种专门运行SpAtten和注意力机制的硬件架构,同时最大限度地减少内存访问。他们的架构设计采用了高度的 "并行性",即在多个处理元素上同时处理多个操作。该设计使SpAtten能够在少量的计算机时钟周期内对标记和头部。总的来说,SpAtten的软件和硬件组件相结合,消除了不必要或低效的数据操作,只专注于完成用户目标所需的任务。

系统背后的理念也体现在它的名字中。SpAtten是稀疏注意力的多义词,研究人员在论文中指出,SpAtten意为简单、节俭。这种简洁性在测试中得到了印证。

MIT的研究人员认为,SpAtten可能对那些在大部分人工智能工作负载中采用NLP模型的公司有用。未来的愿景是,消除语言冗余的新算法和硬件将降低成本,并节省数据中心NLP工作负载的电力预算。

SpAtten可以将NLP带到更小的个人设备上。可以提高手机或物联网设备的电池寿命,比如互联网连接的"东西"--电视、智能音箱等。在未来,众多的物联网设备将通过语音和自然语言与人类进行互动,NLP将是想要采用的第一个应用。

韩松教授表示,SpAtten对效率和冗余去除的关注是NLP研究的方向。"人类的大脑是稀疏的激活,因此稀疏激活的NLP模型将在未来大有可为。不是所有的词都是平等的--只注意重要的词。"

作者南京清湛人工智能研究院执行副院长

【一财号】是什么?——实践第一财经内容平台化战略,开放旗下全媒体平台的资源,依托多年来在财经领域积累的专家资源,与专业意见领袖共同致力打造一个财经领域高质量的思想交流、价值传播、能力成长的生态。

第一财经一财号获作者授权首发

版权及入驻合作请联系张老师13818218481或邮件1000V@yicai.com

举报

文章作者

一财最热
点击关闭