首页 > 新闻 > 科技

分享到微信

打开微信,点击底部的“发现”,
使用“扫一扫”即可将网页分享至朋友圈。

AI“既帮助好人也帮助坏人”,变革浪潮下大模型面临隐私和数据风险

第一财经 2023-06-30 21:08:47

作者:吕倩 ▪ 刘晓洁    责编:李娜

在火热的AIGC浪潮下,技术带来变革的同时,其阴暗面也越来越多被关注。

近日,一批匿名人士向OpenAI及其投资方微软公司发起集体诉讼,指责被告方从互联网上窃取和挪用了大量个人数据和信息来训练AI工具。起诉书声称“OpenAI在用户不知情的情况下,使用这些‘窃取’来的信息”。

再倒回前两个月,“AI换脸”诈骗曾引起很大讨论,据包头警方消息,骗子通过智能AI换脸和拟声技术,佯装好友对福州某科技公司法人代表实施了诈骗,10分钟内其被骗430万元。

在火热的AIGC浪潮下,技术带来变革的同时,其阴暗面也越来越多被关注。

“人工智能就如同双面人,既帮助好人,也帮助坏人。善用AI可以创造很好的功能,但如果不能做好安全管理,AI可以带来危险。”在C3安全大会上,英普华亚太及日本区技术副总裁周达伟表示,在过去很注重的是远程安全和应用安全,但在大模型的产业互联网的时代,会更注重数据安全。

大模型背后的网络安全

“去年年底到今年年初,生成式AI带来了灯塔式的指引,从国家到所有的企业都在拥抱这次变革。”亚信安全首席研发官吴湘宁在大会上表示,大家都希望通过人工智能、大数据、区块链、物联网等技术来改变现状。

但AI系统越来越大,本身的安全就是一个关键。亚信安全首席安全官徐业礼在采访中表示,“这里面涉及到AI投毒,模型被篡改,包括AI系统本身有边界防护端点防护的能力。”AI可以做坏事,也可能生成一些误导的信息,此外大量使用AI,尤其是境外的AI可能导致数据的泄露,这都是非常大的风险和问题。

亚信安全终端安全产品总经理汪晨认为,一方面,AI技术可以帮助甄别出病毒软件的DNA,即使他们进行了伪装,也能识别出其是黑是白;但另一方面,因为AI需要通过大量数据训练才能获得能力,如果用黑客污染过的数据进行训练,训练出的模型就会存在漏洞。如何确保训练数据的准确率和精准度,是目前面临的新挑战。

对于最近兴起的AI换脸诈骗,徐业礼对第一财经表示,这属于较为特别的网络安全问题,绝大部分针对个人发生,换成高管的照片或者模拟高管的声音录制一段语音发给员工,要求汇款转账,这些情况防不胜防,且由于AIGC的出现,诈骗实施起来越来越简单,成本极低。

徐业礼认为,对于一个管理较好的公司,这类诈骗绝大部分情况下不会发生,而主要发生在安全意识不强、汇款等流程极不完善的小规模企业。对于亚信这样的网络安全公司来说,一般也能通过邮件和公司的系统监测到商业诈骗邮件,对诈骗网站和钓鱼网站进行识别检测。

AI一直在安全领域有所应用。徐业礼介绍,在ChatGPT出现前的AI 1.0时代,亚信更多用AI做判断,做分类和聚合,亚信早期产品很多引擎都大量使用AI技术,包括2018年开始的卷积神经网络都用得很频繁。

不过,如ChatGPT这样的大模型是一个革命性的改变。ChatGPT事实上已经可以理解为过了图灵测试的终极阶段,达到了一般人的智能,如今AI行业也从1.0时代到了2.0时代,AI的功能越来越丰富,生成式AI能够模仿人、复制安全专家的能力,加速系统的自动化运营。

吴湘宁介绍,在过去安全行业已经可以通过自然语言的识别,通过报警、日志发现关键的威胁点,形成威胁图谱,但做威胁图谱的解读、写威胁分析报告,还需要专门的运维人员或安全专家,但今天随着大模型技术的发现,可以更容易把专家的知识和大模型进行结合,从而自动生成报告。

AI训练面临信息风险

在训练大模型中,作为必备要素的数据还面临着信息安全、来源确权等方面的挑战。

除了OpenAI被起诉使用用户数据进行用户画像或广告推广等商业用途,此前三星员工在与ChatGPT聊天过程中也发生过信息泄漏事故。

三星有员工要求聊天机器人检查敏感数据库源代码是否有错误,此外还有员工要求ChatGPT帮助其优化代码,以及将会议记录输入ChatGPT并要求它生成会议记录。

腾讯安全天御研发工程师周维聪对第一财经记者表示,在三星的案例中信息已存在风险,大模型提供方理应在该环节具备审核拦截能力,提示用户该环节中存在严重的泄露隐私风险。

周维聪表示,对于企业方,首先在技术层面可以对用户隐私信息进行相应的提取。另外,如果用户输入的内容涉及隐私相关信息,技术侧也可以鉴别出来,不会将这部分数据用于模型训练或商业产品的能力打造上。

另外,周维聪表示,腾讯安全会提示合作方使用数据时,合法获得经过用户确权的数据,未经确权的数据不会被保存下来,“这是一个需要严格遵守的点。”

实际在现实生活中,除了经过确权的信息数据,更多的是广泛分布于互联网的分散的用户数据信息,对于这部分信息的使用,周维聪对记者表示,平台一般会以严格的技术规范数据合规流程,每一家厂商理应都在遵循这样的流程。因为除了要确保数据经过用户授权,也是因为数据一旦用于开发其他能力,有可能涉及人脸、声纹等敏感信息,这类信息在合规流程上都会被严加控制与监管。“行业内部都会有这样一个标准,只是目前还没有达到通用化的程度。”周维聪表示。

腾讯安全内容风控产品经理李镐泽对第一财经表示,AIGC的内容安全是一个全链路的问题,从模型训练、标注、应用到应用之后的舆情监控各个环节都可能引入内容安全的风险,因此在应用AIGC大模型时,也应从全链路进行内容风控。其次从审校方面,也需要从连贯性、逻辑性等方面来保证数据质量,去除高风险内容。第三是版权方面的风险也需要警惕。

全链路也包括了事后阶段。李镐泽表示,事后阶段是指在大模型产品上线、用户使用之后,企业也应注重平台舆情监测,相应减少或避免相关风险。

至于全链路中哪个环节目前遭遇的AI安全风险最为密集,李镐泽对第一财经记者表示,问题的爆发主要伴随业务的分布情况而发生,从AIGC场景来看,厂商目前主要集中于先训练模型、再逐步投入应用的阶段,因此爆发的问题主要在训练与内容生成这两个环节。

以OpenAI为警示,在具体政策法规尚未明确的情况下,企业在获取数据进行大模型训练时,也需走在严格的审核流程中。今年4月,根据《中华人民共和国网络安全法》等法律法规,国家互联网信息办公室起草了《生成式人工智能服务管理办法(征求意见稿)》。《意见稿》指出,用于生成式人工智能产品的预训练、优化训练数据不含有侵犯知识产权的内容;数据包含个人信息的,应当征得个人信息主体同意或者符合法律、行政法规规定的其他情形。

李镐泽对记者表示,《意见稿》的出台比较及时地响应了当下火热的AIGC发展趋势,也给各个企业、包括想做AIGC大模型的企业提供了一些指引和机会,这是一个比较好的趋势。

举报
第一财经广告合作,请点击这里
此内容为第一财经原创,著作权归第一财经所有。未经第一财经书面授权,不得以任何方式加以使用,包括转载、摘编、复制或建立镜像。第一财经保留追究侵权者法律责任的权利。 如需获得授权请联系第一财经版权部:021-22002972或021-22002335;banquan@yicai.com。

文章作者

相关阅读

AI手机时代的到来:电子消费企业加速AI转型,探索智能未来

进入2024年,国内各大电子消费厂商纷纷加速AI领域布局。诸多手机品牌AI战略发布会,宣布将正式进入AI手机时代,并公布AI手机新成果。多家市场调研机构表示,AI 电脑和AI手机全球出货量将在2024年快速增长,AI手机出货量有望率先破亿。

02-22 12:21

影视行业“护城河”逐渐变浅?文字转视频AI模型对影视行业的深度影响

近日,Open AI再次扔出一枚深水炸弹,发布了首个文生视频模型Sora。据介绍,Sora可以根据文本直接输出长达60秒的视频,并且包含高度细致的背景、复杂的多角度镜头,以及富有情感的多个角色。Sora的出现代表AI成为全能影视人才入局影视行业,挑战着影视行业原有的几大“护城河”,这将改变影视制作生产格局,拉开影视新序幕,打开光影新视野。

02-18 10:27

用户需要怎样的行业大模型?︱AI大模型十问(六)

编者按:ChatGPT爆火后,AI大模型层出不穷,面向行业的垂直大模型也陆续发布。那么,怎么才算一个合格的行业大模型?行业数据哪里来?如何将行业know how更好地融入大模型?第一财经推出“十问AI大模型”专题,进一步追问与解密。

01-30 15:28

2023国内大语言模型发展盘点(三)—发展难点与未来展望

在全球范围内,大型语言模型的发展正在迅速推进。国内已经具备了多个具有先进技术与创新能力的额模型,但在数据处理、技术标准以及隐私问题等方面仍然存在不容忽视的障碍。本文将深入分析中国在大型语言模型发展中所遇到的主要瓶颈,并尝试提出针对性的政策建议,以期推动国内在该领域的持续发展。

01-16 01:40

2023国内大模型发展情况盘点(二)--中美大模型情况发展比较

截止2023年5月,中国已成功发布超过79个拥有10亿以上参数的基础大语言模型,相同等级模型下,美国发布数量达到100个。全球范围内累计推出的10亿以上参数大语言模型总数为202个,其中中美两国所发布的模型总数占比近90%。相关数据体现国内于大型语言模型开发领域已跻身领先行列,本文将通过中美大型语言模型发展比较深入了解发展现状。

01-14 23:06
一财最热
点击关闭