分享到微信

打开微信，点击底部的“发现”，
使用“扫一扫”即可将网页分享至朋友圈。

逐鹿大模型时代！度小满携手哈工大共建人工智能联合研究中心

第一财经 2023-06-02 17:52:29

作者：徐燕燕责编：郑嘉维

ChatGPT的横空出世，让全行业看清了一个大势——大模型技术正重新定义金融科技。如何把握技术变革的机遇窗口，推动金融业实现从数字化到智能化的跃升，金融科技巨头正加速布局。

6月1日，度小满与哈尔滨工业大学宣布共同成立“哈尔滨工业大学-度小满人工智能（大模型）联合研究中心”。双方将围绕大模型基座研发、大模型技术原理及其应用技术等领域展开前沿研究，旨在提升大模型的技术创新能力和实际应用效果。双方还将共同培养生成式人工智能技术领域的领军人才，推动前沿技术的产业化应用加速。

图为哈工大校长韩杰才（右）与度小满CEO朱光（左）

强强联手布局大模型研究

本次科研合作可谓强强联手。在签约仪式上，度小满CEO朱光表示，大模型时代已经开启，哈工大在人工智能基础研究、前沿理论研究上领先学界，度小满在人工智能应用上有海量数据、算力优势和工程能力，我们期待能够携手哈工大提升大模型技术的可靠性、安全性、精准性，推动技术创新成果从实验室走向规模化的产业应用，共同把握历史机遇。

哈尔滨工业大学校长韩杰才表示，度小满在人工智能、大数据等相关领域具有雄厚的技术实力和应用经验，哈工大在人工智能、大模型等领域有着深厚的研究基础，近年来取得了一系列重要成果。未来，期望双方以本次签约为契机，强强联合，优势互补，力争突破大模型领域存在的关键共性问题，共同为构筑现代金融科技体系贡献应有的力量。

百年哈工大素来有“工程师的摇篮”之誉，是中国较早拥有计算机专业的院所之一。哈工大计算机学部的自然语言处理研究团队目前是国内顶尖的研究团队之一，已将多项技术成果嵌入百度等公司的产品中。今年年初，该校的生成式人工智能技术在全世界掀起了一波人工智能浪潮，为自然语言处理技术的发展带来前所未有的机遇。

这也是度小满继与北京大学光华学院、中科院自动化研究院、西安交通大学等携手后，又一次与国内顶尖的研究院所共同探索人工智能前沿技术在金融领域的应用。

垂直行业为何需要大模型

所谓大语言模型(LLM，Large Language Model)，是指在大量数据集上预训练的巨大模型，且没有针对特定任务来调整数据。简单来说就是，相比于专用智能，大模型更像是一个会思考、会学习的“人”，而不是只适于特定场景的“机器”。

近年来，随着大模型技术不断发展，在我们的身边已经有很多的应用在具体的行业和特定场景中垂直落地，悄然改变着商业生态和产业竞争格局。比如，百度文心一言、华为盘古、商汤日日新、讯飞星火、链家的BELLA、度小满的“轩辕”等。

以近期度小满发布的千亿级中文大模型“轩辕”为例，这也是国内垂直金融行业的开源大模型。该模型是在1760亿参数的Bloom（决定输入数据如何转换为输出内容的变量）大模型基础上训练而来。

据了解，BLOOM是在2021年由1000多名志愿研究人员在一个名为「大科学BigScience」的项目中创建，并于2022年7月12日正式发布。

并且，基于这些年在金融领域的实践和积累，度小满沉淀了垂直该领域千亿tokens的中文预训练数据集。该数据集涵盖了金融研报、股票、基金、银行、保险等各个方向的专业知识。

这些经过清洗和标注的高质量数据集，不仅在通用性方面有望与ChatGPT比肩，更显著提升了大模型在金融垂直领域应用的性能。因此相较于通用大模型，度小满的「轩辕」在金融名词理解、金融市场评论、金融数据分析和金融新闻理解等金融场景任务上的表现更为突出。从对比测评中也能看到，他赢得了150次回答中63.33%的胜率，显著优于其他几个大模型。

除此之外，度小满已经将大型语言模型LLM应用在互联网文本数据、征信报告的解读上，通过用文本数据构造的预训练模型以及AI算法，能够将征信报告解读出40万维的风险变量，更好的识别小微企业主的信贷风险。今年5月份，这一工程荣获了 “吴文俊人工智能科学技术奖”。

放眼未来，大模型技术将重塑很多行业的生产方式和市场格局。大模型技术已成为金融科技3.0时代的兵家必争之地。

提高大模型在金融行业适配性

此次度小满与哈工大的联合研究，是大模型在金融垂直领域的又一次积极探索。将围绕大模型的思维链能力来源的探索、大模型长上下文建模、大模型快速适配声图文等多模态数据、不同场景下大模型输出决策的可解释性等，共计8个课题，主要是提升大模型在金融行业的安全性与可控性放在首位，提高大模型在金融行业上的适配性。

以“如何提升大模型的know unknow的能力，降低幻觉现象”这一课题为例，尽管眼下GhatGPT成为人工智能炙手可热的一项技术，但不可否认的是，ChatGPT也经常会“一本正经地胡说八道”，这种现象在生成模型中极为常见，将严重影响模型的可信度，使其难以落地。而一旦被恶意使用，如恶意生成并散播谣言，将造成严重后果，甚至污染人类的知识库。这一课题研究正是为了解决这一问题。

又比如“针对大模型训练/推理加速优化：包含硬件适配层面和模型结构优化”这一课题，针对原是语言模型安全性存在的缺陷，结合国内即将出台的相关法律法规，避免开发者利用大模型技术作恶这一问题。

此外，还有通过研究如何借助代码蕴含的丰富而复杂的逻辑，提升大模型在事实性、逻辑性问题上的表现，最终提升模型对于图像、视频的理解能力，实现大语言模型的声图文快速适配，大幅降低金融机构的内容生产成本，提升经营效率。

朱光认为，大模型技术大幅加速金融行业的智能化进程，定义行业新入口。大模型技术作为移动互联网之后最大的技术革新，从挑战性和影响力而言，堪比人工智能领域的“登月计划”，将影响未来至少二十年的发展效率和发展质量。