分享到微信

打开微信，点击底部的“发现”，
使用“扫一扫”即可将网页分享至朋友圈。

复旦MOSS团队谈最新进展：从大语言模型到多模态大模型

第一财经 2024-05-23 17:54:41 听新闻

作者：金叶子责编：刘展超

“目前我们正在探索多模态大模型不同的解决思路，一个思路就是把一切符号化。”

自去年发布MOSS并在4月开源以来，由复旦大学自然语言处理实验室开发的这个大模型有何最新进展？

在22日举行的2023年度复旦大学“十大科技进展”评选会上，复旦大学邱锡鹏教授团队的通用可信人工智能模型MOSS获选十大进展之一，该研究团队在大模型的多模态扩展和可信提升方面开展了深入研究，联合发布人工智能治理开放平台“蒲公英”，系统揭示了文本、图像、视频模型的可信问题并创新提出“六维评测框架”，推动解决了全球人工智能治理落地难的问题。

复旦大学校长、中国科学院院士金力为2023年度复旦大学“十大科技进展”获奖团队颁奖，复旦大学供图

团队成员复旦大学黄萱菁教授对第一财经介绍，基于MOSS他们有几个新进展，其中一个正在做的就是希望各类信号符号化，“目前我们正在探索多模态大模型不同的解决思路，一个思路就是把一切符号化，不管是图片、还是音乐，都要转变到一个统一的符号空间。”

她对记者解释，他们提出一个模型叫AnyGPT，能理解和推理多模态内容，如文本、语音、图像和音乐。利用离散表征统一处理各种模态，通过两阶段生成框架实现高效多模态对齐预训练。给出一段语音提示，AnyGPT 能够生成语音、图像、音乐形式的综合响应，给出文本 + 图像形式提示，AnyGPT 能够按照提示要求生成音乐。

除了上述进展之外，今年1月份，基于MOSS他们还上线了“眸思”（MouSi）”。“希望它能对视障人群提供服务，我们还开发了一个应用叫 ‘看见世界’，它能够告诉你商店里有什么商品可以购买，在路上怎么导航，另外还可以有一些娱乐模式，目前已经和一些社区展开服务。”黄萱菁说。

针对目前大模型需要的数据和算力，黄萱菁解释道，“大家知道大模型需要给它喂 ‘燃料’，也就是所谓的数据。我们收集了各种跨语言多来源的数据进行各种预处理，抽取高质量的数据来训练模型，之后还研究了人工智能反馈的对齐。”

而在算法方面，他们提出了低内存优化算法，“因为大模型训练开销非常大，世界知识永远在更新，这种算法就降低了训练大模型所需要的算力资源。”

第一财经广告合作，请点击这里

此内容为第一财经原创，著作权归第一财经所有。未经第一财经书面授权，不得以任何方式加以使用，包括转载、摘编、复制或建立镜像。第一财经保留追究侵权者法律责任的权利。
如需获得授权请联系第一财经版权部：banquan@yicai.com