首页 > 新闻 > 中国经济论坛图文频道

分享到微信

打开微信，点击底部的“发现”，
使用“扫一扫”即可将网页分享至朋友圈。

最前沿丨港科大教授：我们已经有办法解决数据开发和隐私保护之间的难题

第一财经 2019-09-24 16:18:48

作者：许姗姗 ▪ 臧哲责编：于璐

最前沿丨港科大教授：我们已经有办法解决数据开发和隐私保护之间的难题

国际人工智能联合会议理事会主席、香港科技大学教授杨强在“2019世界人工智能大会”上发表演讲时，对人工智能深度学习需要的数据支撑和用户隐私保护之间的冲突进行了阐述。他指出：深度学习离不开数据支撑，但数据的有效聚合是难题。可通过联邦学习的方法，在保护隐私的情况下建立数据共享通用模型。

杨强

国际人工智能联合会议理事会主席香港科技大学教授

我们知道人工智能，尤其是今天像深度学习这样的成就是离不开大数据的。我们一方面面临数据割裂，大家没有大数据来训练人工智能。另一方面，法律法规和社会的要求又在各方面并没有说特别的促进数据的融合，那么安全就变成我们一个非常严格的要求。那么在这两者之间大数据的形成，就变成我们一个挑战。

那么我们如何应对这个挑战呢？我们提出的这个方法和方向叫做联邦学习。那么它大概的概念是这样的，如果我们能够有办法把这个数据的各个拥有方，把他们的数据在数据不出本地的情况下把模型给建立起来，并且让这个模型能够共享，那么在建立模型的过程中不违反用户的隐私，这整个的建模的过程就叫联邦学习的框架和算法。用这个联邦学习的概念可以保证每一个终端的数据都不出本地，只是一个加密的模型，它的一些参数被传递到云端，在云端加以整合、加以更新，并且把通用、更新的模型再传递到终端。用这样的一个方法就能保证用户隐私，同时又能共享一个通用模型。所以这样的一个模型不仅仅需要一个机器学习的算法，尤其是需要一个分布式的机器学习算法。那么在分布式机器学习算法之上还要有各种加密的算法，那么在这个基础上我们仔细的分析了一下，发现一共有三种模式来进行联邦学习。

第一种模式叫做横向联邦学习，它的意思就是说我们有不同的机构，它的每一个机构都有一部分的用户，但是它们不同的机构是共享一些用户的特征。那么它们可以把这个模型通过横向联邦学习给更新、给聚合，那么在这个过程中可以保护隐私。还有一种叫做纵向联邦学习，它的意思是说虽然不同的机构可能不共享一些用户的特征，但是它们却共享一些用户的ID，它们共享某些用户，它是在不同的机构都有服务，那么就可以利用这些散落在各地的数据形成一个整体的模型联邦，这个也可以进行加密，也可以进行用户隐私的保护，使得各个机构的数据都不出本地。最后大家可以问，如果我既不共享特征又不共享用户怎么办呢？在这个场景下我们也提出一个新的算法，叫做联邦迁移学习。它可以利用迁移学习的算法，能够把这两方数据的模型的本质给挖掘出来，能够把这个抽象的模型加以聚合。那么在这个聚合的过程中，保护用户隐私也取得了非常大的成功。

最后我要提出一下，虽然联邦学习的框架是最近才提出来的，但是它在产业界的应用已经有长足的进展。这些应用都离不开一个概念叫做生态，就是说大家要有一个共同的愿望在一起来建立，所以这种生态的建立也是需要不断地去倡导的。机器学习离不开大数据，大数据离不开安全，保护隐私的考虑。那么联邦学习是既能够建立大数据模型又能够保证数据安全和用户隐私的一个有力的工具。谢谢大家。

（更多精彩内容，请关注第一财经•中国经济论坛）

监制：傅娆

制片编导：

吴磊

许姗姗

臧哲