分享到微信

打开微信，点击底部的“发现”，
使用“扫一扫”即可将网页分享至朋友圈。

通向可信AGI，周伯文提出AI-45°平衡律兼顾安全与性能

第一财经 2024-07-04 13:03:22 听新闻

作者：刘晓洁责编：宁佳彦

“出现对这些风险担忧，根本原因是我们目前的AI发展是失衡的。”

当前，以大模型为代表的生成式人工智能快速发展，但随着能力的不断提升，模型自身及其应用也带来了一系列潜在风险的顾虑，包括数据泄露、滥用、隐私及版权相关的内容风险，以及恶意使用带来伪造、虚假信息等相关的使用风险，还有人担心人工智能是否会对就业结构等社会系统性问题带来挑战。

“出现对这些风险的担忧，根本原因是我们目前的AI发展是失衡的。”7月4日，在2024世界人工智能大会暨人工智能全球治理高级别会议（WAIC 2024）的开幕式全体会议上，上海人工智能实验室主任、首席科学家，清华大学惠妍讲席教授周伯文发表演讲时提出一个技术主张，要探索人工智能45°平衡律（Towards AI-45°Law）。

实现安全与性能共同增长的“AI-45°平衡律”

周伯文提到，总体上我们在AI模型安全能力方面的提升，还远远落后于性能的提升，这种失衡导致AI的发展是跛脚的，业界称之为“Crippled AI”。

目前的AI发展趋势是，在Transformer为代表的基础模型架构下，加以（大数据-大参数量与大计算）的尺度定律（Scaling Law），目前AI性能呈指数级增长。与此形成对比的是，在AI安全维度典型的技术，如：红队测试、安全标识、安全护栏与评估测量等，呈现零散化、碎片化，且后置性的特性。

不均衡的背后是二者投入上的巨大差异。“如果对比一下，从研究是否体系化，以及人才密集度、商业驱动力、算力的投入度等方面来看，安全方面的投入是远远落后于AI能力的。”周伯文认为，要避免这样的“Crippled AI”发展，我们应该追求的是TrustWorthy AGI，可信的通用人工智能。

周伯文认为，可信AGI需要能够兼顾安全与性能，需要找到AI安全优先，但又能保证AI性能长期发展的技术体系，他把这样一种技术思想体系叫做“AI-45°平衡律” （AI-45° Law）。具体来说，这种思想指的是，从长期的角度来看，我们要大体上沿着45度安全与性能平衡发展，平衡是指短期可以有波动，但不能长期低于45°（如同现在），也不能长期高于45度（这将阻碍发展与产业应用）。这个技术思想体系要求强技术驱动、全流程优化、多主体参与以及敏捷治理。

实现AI-45°平衡律也许有多种技术路径。以上海AI实验室为例，团队最近在探索一条以因果为核心的路径，并把它取名为可信AGI的“因果之梯”，他们将可信AGI的发展分为三个递进阶段：泛对齐、可干预、能反思。

“泛对齐”主要包含当前最前沿的人类偏好对齐技术。但需要注意的是，这些安全对齐技术仅依赖统计相关性而忽视真正的因果关系，可能导致错误推理和潜在危险。

“可干预”主要包含通过对AI系统进行干预，探究其因果机制的安全技术，例如机械可解释性、对抗演练等，它可以通过提高可解释性和泛化性来提升安全性，同时也能提升AI能力。

“能反思”则要求AI系统不仅追求高效执行任务，还能审视自身行为的影响和潜在风险，从而在追求性能的同时，确保安全和道德边界不被突破。这个阶段的技术，包括基于价值的训练、因果可解释性、反事实推理等。

“目前，AI安全和性能技术发展主要停留第一阶段，部分在尝试第二阶段，但要真正实现AI的安全与性能平衡，我们必须完善第二阶段并勇于攀登第三阶段。”周伯文认为，沿着可信AGI的“因果之梯”拾级而上，可以构建真正可信AGI，实现人工智能的安全与卓越性能的完美平衡。

第一财经广告合作，请点击这里

此内容为第一财经原创，著作权归第一财经所有。未经第一财经书面授权，不得以任何方式加以使用，包括转载、摘编、复制或建立镜像。第一财经保留追究侵权者法律责任的权利。
如需获得授权请联系第一财经版权部：banquan@yicai.com