分享到微信

打开微信，点击底部的“发现”，
使用“扫一扫”即可将网页分享至朋友圈。

GPT-4o的高昂代价

第一财经 2024-06-25 21:50:27 听新闻

作者：张湖月 ▪ 杨颂责编：任绍敏

GPT-4o会像一个黑洞那样吸入一切离它太近的材料，从而增加自身质量，积累用户输入的每一条信息，无论是文本、音频文件还是图像。

随着GPT-4o的推出，OpenAI再次证明了自己是世界上最具创新精神的人工智能公司。这款无缝整合了文本、语音和视觉能力的全新多模态人工智能工具速度明显快于之前的型号，大大提升了用户体验。不过GPT-4o最吸引人的地方或许在于它是免费的——至少看起来是这样。

使用GPT-4o无需支付订阅费。相反，用户支付的是自己的数据。GPT-4o会像一个黑洞那样吸入一切离它太近的材料，从而增加自身质量，积累用户输入的每一条信息，无论是文本、音频文件还是图像。

GPT-4o不仅会吞噬用户自己的信息，还会吞噬在与人工智能服务交互过程中泄露的第三方数据。假设你正在查找某一篇《纽约时报》文章的内容摘要。你截图并分享给GPT-4o，后者会读取截图并在几秒钟内生成所需的摘要。对你来说互动已经结束了，但OpenAI却掌握了你提供的截图里所有的受版权保护的材料，它可以利用这些信息来训练和增强自身模型。

正在这样做的并不止OpenAI一家。在过去一年中包括微软、Meta、谷歌和X（从前的推特）在内的许多公司都悄悄更新了自身隐私政策，从而有可能允许它们收集用户数据并将其用于训练生成式人工智能模型。尽管那些头部人工智能公司已经在美国遭遇了大量诉讼（原因是它们未经授权就将受版权保护的内容用于此目的），但它们仍然如往常一般渴求数据，毕竟获得的数据越多建立的模型也就越好。

OpenAI是如此迫切需要更多数据，以至于有报道称它违反YouTube平台规则转录了超过100万小时的视频。YouTube的母公司谷歌并未对OpenAI采取法律行动，这或许是为了避免对自己从YouTube视频中收集相关资料的行为负责，因为这些视频的版权其实归创作者所有。

借助GPT-4o，OpenAI正在尝试一种不同的做法，那就是通过将收集行为下放给庞大且不断增长的用户群——他们被免费服务的承诺所吸引——去获取海量的多模态数据。这种做法与众所周知的科技平台商业模式如出一辙：无论是搜索引擎还是社交媒体都不向用户收取任何服务费用，同时从应用跟踪和数据采集中获利——这就是哈佛大学教授索珊娜·祖波夫所谓的“监视资本主义”。

当然，用户可以禁止OpenAI将他们与GPT-4o的“聊天记录”用于模型训练。但这种明摆着的方法——在ChatGPT的设置页面上——会自动禁用用户的聊天记录，导致用户无法访问自己的过往会话。但除了阻碍用户选择退出模型训练外，这两个功能之间并不存在明显关联。

如果用户想在不丢失聊天记录的情况下退出模型训练，他们首先必须知道还存在另一种方法——因为OpenAI只突出显示了第一个选项——然后一定得浏览OpenAI的隐私门户网站——这是一个包含多个步骤的过程。简而言之，OpenAI在退出训练选项上附加了巨大的交易成本，目的就是让用户不去选择退出。

即使用户同意将其数据用于人工智能训练，仅凭这项同意也无法防止版权侵权，因为用户提供的数据实际上并不属于他们。因此他们与GPT-4o的互动会对共享内容的创造者产生溢出效应——经济学家称之为“外部效应”。从这个意义上讲同意的意义其实不大。

虽然OpenAI的众包活动可能会导致侵犯版权，但追究它或类似公司的责任并非易事。人工智能生成的结果很少会与它所依据的数据高度相似，这使得版权持有者很难确定自身内容是否被用于模型训练。此外公司可能会声称自己并不知情：用户在与公司服务互动的过程中提供了内容，那么公司怎么能知道这些内容是从哪里来的呢？

创作者和出版商们采用了许多方法来防止自己的内容被人工智能训练黑洞吸走。一些公司引入了技术解决方案来阻止数据搜刮。还有一些公司更新了服务条款，禁止将其内容用于人工智能训练。上个月，全球最大唱片公司之一的索尼音乐致函700多家生成式人工智能公司和流媒体平台，警告它们未经明确授权不得使用其内容。

但只要OpenAI能够利用“用户提供”这一漏洞，这些努力都将是徒劳的。要解决GPT-4o的外部性问题，唯一可信的办法就是监管机构限制人工智能公司收集和使用用户共享数据的能力。

（张湖月系香港大学法学教授，杨颂系伦敦商学院教授）