首页 > 新闻 > 科技

分享到微信

打开微信，点击底部的“发现”，
使用“扫一扫”即可将网页分享至朋友圈。

AI“既帮助好人也帮助坏人”，变革浪潮下大模型面临隐私和数据风险

第一财经 2023-06-30 21:08:47

作者：吕倩 ▪ 刘晓洁责编：李娜

在火热的AIGC浪潮下，技术带来变革的同时，其阴暗面也越来越多被关注。

近日，一批匿名人士向OpenAI及其投资方微软公司发起集体诉讼，指责被告方从互联网上窃取和挪用了大量个人数据和信息来训练AI工具。起诉书声称“OpenAI在用户不知情的情况下，使用这些‘窃取’来的信息”。

再倒回前两个月，“AI换脸”诈骗曾引起很大讨论，据包头警方消息，骗子通过智能AI换脸和拟声技术，佯装好友对福州某科技公司法人代表实施了诈骗，10分钟内其被骗430万元。

在火热的AIGC浪潮下，技术带来变革的同时，其阴暗面也越来越多被关注。

“人工智能就如同双面人，既帮助好人，也帮助坏人。善用AI可以创造很好的功能，但如果不能做好安全管理，AI可以带来危险。”在C3安全大会上，英普华亚太及日本区技术副总裁周达伟表示，在过去很注重的是远程安全和应用安全，但在大模型的产业互联网的时代，会更注重数据安全。

大模型背后的网络安全

“去年年底到今年年初，生成式AI带来了灯塔式的指引，从国家到所有的企业都在拥抱这次变革。”亚信安全首席研发官吴湘宁在大会上表示，大家都希望通过人工智能、大数据、区块链、物联网等技术来改变现状。

但AI系统越来越大，本身的安全就是一个关键。亚信安全首席安全官徐业礼在采访中表示，“这里面涉及到AI投毒，模型被篡改，包括AI系统本身有边界防护端点防护的能力。”AI可以做坏事，也可能生成一些误导的信息，此外大量使用AI，尤其是境外的AI可能导致数据的泄露，这都是非常大的风险和问题。

亚信安全终端安全产品总经理汪晨认为，一方面，AI技术可以帮助甄别出病毒软件的DNA，即使他们进行了伪装，也能识别出其是黑是白；但另一方面，因为AI需要通过大量数据训练才能获得能力，如果用黑客污染过的数据进行训练，训练出的模型就会存在漏洞。如何确保训练数据的准确率和精准度，是目前面临的新挑战。

对于最近兴起的AI换脸诈骗，徐业礼对第一财经表示，这属于较为特别的网络安全问题，绝大部分针对个人发生，换成高管的照片或者模拟高管的声音录制一段语音发给员工，要求汇款转账，这些情况防不胜防，且由于AIGC的出现，诈骗实施起来越来越简单，成本极低。

徐业礼认为，对于一个管理较好的公司，这类诈骗绝大部分情况下不会发生，而主要发生在安全意识不强、汇款等流程极不完善的小规模企业。对于亚信这样的网络安全公司来说，一般也能通过邮件和公司的系统监测到商业诈骗邮件，对诈骗网站和钓鱼网站进行识别检测。

AI一直在安全领域有所应用。徐业礼介绍，在ChatGPT出现前的AI 1.0时代，亚信更多用AI做判断，做分类和聚合，亚信早期产品很多引擎都大量使用AI技术，包括2018年开始的卷积神经网络都用得很频繁。

不过，如ChatGPT这样的大模型是一个革命性的改变。ChatGPT事实上已经可以理解为过了图灵测试的终极阶段，达到了一般人的智能，如今AI行业也从1.0时代到了2.0时代，AI的功能越来越丰富，生成式AI能够模仿人、复制安全专家的能力，加速系统的自动化运营。

吴湘宁介绍，在过去安全行业已经可以通过自然语言的识别，通过报警、日志发现关键的威胁点，形成威胁图谱，但做威胁图谱的解读、写威胁分析报告，还需要专门的运维人员或安全专家，但今天随着大模型技术的发现，可以更容易把专家的知识和大模型进行结合，从而自动生成报告。

AI训练面临信息风险

在训练大模型中，作为必备要素的数据还面临着信息安全、来源确权等方面的挑战。

除了OpenAI被起诉使用用户数据进行用户画像或广告推广等商业用途，此前三星员工在与ChatGPT聊天过程中也发生过信息泄漏事故。

三星有员工要求聊天机器人检查敏感数据库源代码是否有错误，此外还有员工要求ChatGPT帮助其优化代码，以及将会议记录输入ChatGPT并要求它生成会议记录。

腾讯安全天御研发工程师周维聪对第一财经记者表示，在三星的案例中信息已存在风险，大模型提供方理应在该环节具备审核拦截能力，提示用户该环节中存在严重的泄露隐私风险。

周维聪表示，对于企业方，首先在技术层面可以对用户隐私信息进行相应的提取。另外，如果用户输入的内容涉及隐私相关信息，技术侧也可以鉴别出来，不会将这部分数据用于模型训练或商业产品的能力打造上。

另外，周维聪表示，腾讯安全会提示合作方使用数据时，合法获得经过用户确权的数据，未经确权的数据不会被保存下来，“这是一个需要严格遵守的点。”

实际在现实生活中，除了经过确权的信息数据，更多的是广泛分布于互联网的分散的用户数据信息，对于这部分信息的使用，周维聪对记者表示，平台一般会以严格的技术规范数据合规流程，每一家厂商理应都在遵循这样的流程。因为除了要确保数据经过用户授权，也是因为数据一旦用于开发其他能力，有可能涉及人脸、声纹等敏感信息，这类信息在合规流程上都会被严加控制与监管。“行业内部都会有这样一个标准，只是目前还没有达到通用化的程度。”周维聪表示。

腾讯安全内容风控产品经理李镐泽对第一财经表示，AIGC的内容安全是一个全链路的问题，从模型训练、标注、应用到应用之后的舆情监控各个环节都可能引入内容安全的风险，因此在应用AIGC大模型时，也应从全链路进行内容风控。其次从审校方面，也需要从连贯性、逻辑性等方面来保证数据质量，去除高风险内容。第三是版权方面的风险也需要警惕。

全链路也包括了事后阶段。李镐泽表示，事后阶段是指在大模型产品上线、用户使用之后，企业也应注重平台舆情监测，相应减少或避免相关风险。

至于全链路中哪个环节目前遭遇的AI安全风险最为密集，李镐泽对第一财经记者表示，问题的爆发主要伴随业务的分布情况而发生，从AIGC场景来看，厂商目前主要集中于先训练模型、再逐步投入应用的阶段，因此爆发的问题主要在训练与内容生成这两个环节。

以OpenAI为警示，在具体政策法规尚未明确的情况下，企业在获取数据进行大模型训练时，也需走在严格的审核流程中。今年4月，根据《中华人民共和国网络安全法》等法律法规，国家互联网信息办公室起草了《生成式人工智能服务管理办法（征求意见稿）》。《意见稿》指出，用于生成式人工智能产品的预训练、优化训练数据不含有侵犯知识产权的内容；数据包含个人信息的，应当征得个人信息主体同意或者符合法律、行政法规规定的其他情形。

李镐泽对记者表示，《意见稿》的出台比较及时地响应了当下火热的AIGC发展趋势，也给各个企业、包括想做AIGC大模型的企业提供了一些指引和机会，这是一个比较好的趋势。

第一财经广告合作，请点击这里

此内容为第一财经原创，著作权归第一财经所有。未经第一财经书面授权，不得以任何方式加以使用，包括转载、摘编、复制或建立镜像。第一财经保留追究侵权者法律责任的权利。
如需获得授权请联系第一财经版权部：banquan@yicai.com