首页 > 新闻 > 科技

分享到微信

打开微信,点击底部的“发现”,
使用“扫一扫”即可将网页分享至朋友圈。

大模型时代,高质量数据需求或催生“数据管理员”新职业

第一财经 2023-11-25 18:03:37 听新闻

作者:刘晓洁    责编:宁佳彦

如何定义高质量的数据,这在不久的将来是一门“艺术”,并将会诞生一份新职业——数据管理员。

“信息现在已经上升为人类独创的生产资料,是一种生产要素了。”在11月25日举办的2023全球数商大会上,中国工程院院士邬江兴对第一财经在内的媒体表示,数据经济是对信息世界更深的体会,我们发现了信息新的生产价值。

邬江兴表示,以前信息是简单交互,是了解世界的一种感知途径,但现在发现信息具有增值的价值,这些信息如果用数据经济的概念汇总起来,就是生产资料。

美国硅谷人工智能研究院院长、创始人皮埃罗·斯加鲁菲(Piero Scaruffi)同样表示, “数据是21世纪的石油”,尤其当下已经来到属于大模型的人工智能时代,数据训练重要性突显。

美国硅谷人工智能研究院院长、创始人皮埃罗·斯加鲁菲在2023全球数商大会上

“人工智能的每一大步都是在有人开发出合适的数据集之后迈出的。”皮埃罗举例表示,1997年深蓝电脑击败国际象棋世界冠军时,IBM刚创建了国际象棋游戏的数据集;2009年,李飞飞创建了ImageNet,3年后深度学习能够以前所未有的方式识别图像;Deep Mind创建了超过15万个围棋游戏的数据集,1年后,AlphaGo击败了世界围棋大师;开放人工智能在2018年创建了一个互联网文本数据集,随后GPT2问世。

“就像我们的石油正在耗尽一样,互联网上高质量语言数据的总储量可能在3年内耗尽,这结论来自于科学家的论文,”皮埃罗认为,数据集对人工智能的进步非常重要,但今天我们的数据正在耗尽,世界虽然正在产生大量数据,但很多数据都不是高质量的,“比如没有高质量的数据,ChatGPT有时会给出非常愚蠢的答案,它基于所有可能的数据训练,而其中一些数据质量并不好。”

但对于如何定义高质量的数据,皮埃罗认为这没有一个简单的答案,他认为在不久的将来这是一门“艺术”,并将会诞生一份新职业——数据管理员,“他是该领域的专家,知道哪些是好的数据,不仅对于人类专家是好数据,对机器来说可能也是。”每一个领域的专家会成为这些数据的保管人。

皮埃罗举了一个例子,许多医院实际上都有高质量的数据,“医生必须查看数千甚至数万份记录才能理解这些数字,但是如果随机抽取一些关于人们的数据,四处询问他们的健康状况,如果你不得不处理这些数据,那就不是高质量的数据。“

在采访中皮埃罗谈到了数据共享是个解决问题的好方向,但挑战在于“创造动力”,企业、机构等都很难有动机共享数据,“欧盟有一项官方的倡议,鼓励欧洲各地公司共享数据,但结果非常令人失望。”必须激励各方共享,但创造动力并不是一件容易的事,尤其跨境会更加困难。

成立于2021年底的上海数据交易所,其重要目的就在于推动数据要素的流通和共享,释放数字红利。此次会上发布的数据显示,预计2023年上海数交所全年数据交易额突破10亿元,2023年以来,数交所单月数据交易额已超1亿元。

预计到今年年底,上海数交所累计挂牌数据产品数量将达2000个。据了解,上海数交所已构建了多个应用场景的运营体系,其中,已基本建成金融板块,涵盖银行、保险、证券等业务场景;初步建成航运交通板块,涵盖海情、公路、车辆、卫星、建设等场景;国际等板块建设正在推进中,涵盖国际专利的相关应用等场景。

2023年,上海数交所明确了数商的重点培育方向,主要涵盖数据产品开发、数据资产评估、数据合规等11类数商,拟定数商管理、服务和激励计划等制度体系,通过提供资质认证、业务赋能、培训支持、市场对接等服务,帮助数商提升专业能力,拓展业务范围,促进数商生态的繁荣发展。

可信性是数据要素流通使用的前提条件和核心要求。上海数交所已经联合邬江兴领衔的复旦大学大数据研究院完成了数据交易内生可信交付框架的顶层设计,将可信交付融入业务场景。

展望未来,邬江兴认为,数据基础设施建设还任重道远,现阶段只能叫信息基础设施,在这之上信息技术是尽力而为地传送,不保证安全,但数据基础设施要保证产品质量,“未来的高级阶段就要围绕着打造产品和生产资料,形成一整套的管理质量保证体系,没有质量保证体系和评估体系,就没有交易,没有交易,就谈不上数字经济。”

举报
第一财经广告合作,请点击这里
此内容为第一财经原创,著作权归第一财经所有。未经第一财经书面授权,不得以任何方式加以使用,包括转载、摘编、复制或建立镜像。第一财经保留追究侵权者法律责任的权利。 如需获得授权请联系第一财经版权部:021-22002972或021-22002335;banquan@yicai.com。

文章作者

一财最热
点击关闭