乘坐着自动驾驶的汽车去上班,在单位使用人工智能助手画图、翻译、整理会议纪要、制作PPT,下班前呼叫AI煮饭、启动洗衣机……这些曾经科幻电影中才有的情节今天都变成了现实,大模型和Agent智能体正为我们带来前所未有的智能体验。
但是,你是否担心过,有一天自动驾驶的汽车可能会突然擅自改变了路线、AI会在你的会议纪要中偷偷动起了手脚,而你家里的所有电子设备也可能联合起来一起罢工。
甚至有一天,你身边的人工智能会像《流浪地球》中的智能量子计算机MOSS一样,认为“延续人类文明的唯一办法就是毁灭人类”,而最终成为了你的敌人……
确保大模型和智能体能够安全、可靠地按照人类的指令运行,在今天已经成为了越来越重要的事情,我们的主人公就是这样一位每天在和大模型的安全打交道的人。
孙博文,1991年出生,蚂蚁集团可信AI“蚁天鉴”技术负责人、AI工程基础设施总监,主要从事AI安全相关的技术研发。
孙博文
蚂蚁集团可信AI“蚁天鉴”技术负责人
AI工程基础设施总监
从机器人的身体到大脑
和很多男生一样,孙博文在中学就对机械产生了浓厚的兴趣,他被机器人的钢铁外壳深深吸引,于是选修了学校开办的机器人编程课。在课堂上他学会了给机器人的大脑编写程序,把识别到的信号变成机器人的运行策略,让机器人可以按照设定路线行走、避障。
在这个过程中他逐渐发现,机器人有一个漂亮的外壳并不是最酷的,让机器人能根据人的指令完成各种各样的动作才更厉害。从那时开始,他的兴趣从机器人的身体变成了机器人的大脑。
在清华大学自动化系的机器人实验室里,他了解了更多人工智能的知识,并尝试把它们应用在传感器技术和算法上。那段时间,人工智能领域发生了很多让孙博文大受震撼的事情,比如在英国雷丁大学举办的一场图灵测试中,计算机软件第一次通过了测试,成功地让人类相信它是一个13岁的男孩,这台计算机也成为了有史以来第一个具有人类思考能力的人工智能设备。
而在之后当阿尔法狗战胜了围棋世界冠军李世石,从小就下围棋的孙博文更加强烈地意识到人工智能如果都已经可以在围棋上战胜人类,那么未来它一定有无数可以发展的领域。本科毕业后,带着对人工智能的无限期待,他前往美国继续学习计算机。
捍卫自己的算法,我和面试官吵了一架
硕士毕业后,孙博文做出了回国的决定。当时出行领域非常火爆,他觉得有很多事情可以做,自己手上又有一套可行的算法,他相信这套算法可以用来撮合乘客和司乘关系,比如规划行车路径怎么走会更快、让用户等车时间更短等等,最终实现运力和用户需求的匹配。
他打算带着这套算法去一家出行企业的研究院寻找工作机会。前几轮面试都还顺利,但在最后一轮面试的时候,他却和院长因为对算法的态度不同而发生了激烈的争执。
这次并不顺利的面试没有影响孙博文对自己算法的信心,他决定换个地方把它实现。最终他带着算法加入了一家初创的出行公司,他的想法也在公司用户的快速增长中得到了印证,他努力捍卫的算法得到了回报。
2020年,在这家初创公司事业上小有成就的孙博文,因为爱情从北京来到了上海,加入了蚂蚁金服团队,而这一次,他觉得自己迫切需要挑战的是人工智能飞速发展带来的安全问题。
打造大模型安全测评“智能体”,用魔法打败魔法
ChatGPT引爆了新一轮AI浪潮,在人们期待大模型能够为各行各业带来颠覆性变革的同时,也不得不承认,大模型创造了新机遇,但也带来了新的安全风险。在支付宝,孙博文就负责大模型安全项目的技术研发,目标是确保人工智能系统在生成内容时的准确性和安全性。
他和团队的产品名叫“蚁天鉴”,它分为“蚁鉴”和“天鉴”两部分,既能进行大模型安全的智能检测,同时又对检测出的风险做出防御。这个“智能体”检测平台提供全流程自动化的安全测评工具,同时还能给大模型拍X光,针对大模型的内在神经元进行X光扫描来做探查和判断,定位可能引发风险的神经元,并进行编辑修正。这个过程也被我们戏称为“用魔法打败魔法”。
在日常的研发过程中,孙博文和他的团队像打游戏一样,用红蓝攻防模式来提升大模型的安全性。红队负责构造攻击场景、模拟攻击手段,蓝队则负责防御和修复漏洞。孙博文笑着告诉我们,攻防缺一不可,只有这种以攻促防的不断博弈,攻防双方才都会成长起来。
做一个清醒的“淡人”
随着大模型的兴起,AI能够处理越来越复杂、越来越广泛的任务,它不再局限于某一个特定领域,医疗、教育、金融、娱乐等多个行业都希望能在大模型的加持下加速实现自己行业的迭代升级。
同时,随着“百模大战”后大模型价格战燃起,大模型团队也在面临更激烈的竞争。在孙博文眼中,这正是一个“蓬勃而又混乱”的AI时代。而在两个多小时的采访中,我们发现身处在这种“蓬勃而又混乱”中的孙博文,却是一个名副其实的“淡人”。他始终都在淡淡地讲述,淡淡地回忆,即使在谈到过去几年技术上遇到的惊涛骇浪时,他也一直保持着淡淡的笑容。
孙博文说,AI安全这个表面风平浪静、实则危机四伏的行业适合自己,也锻炼了自己。这个领域未来涉及面会更广、技术迭代会更快,很多人可能觉得目前的安全评测机制相对落后于技术本身的发展,但事实上,先生长再抑制它的问题,是很多科技创新领域都会遇到的正常现象。
现在,不论是政府还是企业都在越来越重视AI包括大模型和智能体带来的安全问题。2023年国家网信办已经发布意见稿,进一步规范生成式人工智能的发展,让大家既能用上AIGC的能力,又让它安全可控,各个部门都在尝试把安全防控尽量往前置去做,也正因为如此,他对用魔法打败魔法始终充满了信心。
已超额完成5亿元首关目标,明年将完成二关目标,实现首期总规模10亿元。
相比于2021年百强榜单,山东、浙江、广东、湖北、河北、福建等地入榜城市数量增加。其中,山东表现突出,新入榜3个城市。
“低空经济也需要一个科普的过程。”贺天星表示,“以前,大家看待低空经济会觉得可能需要十年八年甚至几十年的发展,现在通过进博会,可以看到未来两三年甚至明年就可以(实现)。”