鱼与熊掌可以兼得——“联邦迁移学习”直面小数据与隐私关切挑战
| 来源:前沿科学【字号:大 中 小】
人工智能领域目前的发展十分迅猛,具有广阔的市场前景。2018年,独立咨询公司Gartner提出,到2022年,人工智能的商业价值预计会达到3.9万亿美元。中国方面,清华大学发布的《中国人工智能发展报告2018》显示,2017年中国人工智能市场规模达到238亿元,同比增长67%,预计2019年我国人工智能市场增速将达75%。
除了市场的普遍看好,中国政府也十分重视人工智能领域的发展。在2017年相继印发《新一代人工智能发展规划》和《促进新一代人工智能产业发展三年行动计划》,旨在抢抓重大战略机遇,引导产业发展。
算法、算力和数据是支撑人工智能发展的三大基石。近年来,以深度神经网络为代表的机器学习算法蓬勃发展,计算机硬件不断升级,算法和算力不足的问题已经初步得到了解决,互联网大数据的兴起又解决了过去数据不足的问题。人工智能的第三次浪潮席卷而来。
人工智能遭遇两大困境
既然我们终于打破了过去限制人工智能发展的种种阻碍,那么,未来人工智能的发展道路是否就一马平川了呢?
现实并没有那么简单,尤其是大数据的需求还远没有得到满足。大部分企业和机构所拥有的很多是小数据,而且数据孤岛现象日益严重。社会对隐私安全的关切也日益加强,立法机构纷纷引入数据保护和隐私权益的相关法案。这些因素,使得数据的获取、交换、聚合成了大问题,而这些困境很可能导致这次人工智能浪潮因数据的制约再次陷入低谷。
首先,小数据问题极大地制约了大数据的可用性。虽然互联网每天产生数以亿计的数据,然而其中真正有用的高维度、高质量数据却很少。除此之外,数据的标签对于进行人工智能的分类任务必不可少,但是大多数数据都缺少分类标签,且获取标签的成本巨大,数据标签的拥有方(如金融机构)和用户行为数据的拥有方(如互联网企业)不能简单地把各自的数据互通。在医疗领域,对数据进行标注的必须是具有专业素养的医生,但是医生的工作时间有限导致标注量稀少,极大限制了高质量数据的产生。有人估计,如果把医疗数据交给第三方公司标注,需要一万人用十年的时间才能收集到有效的数据。由此可见,人工智能在小数据和数据孤岛问题上面临着严峻的形势。
其次,近年来人们对数据隐私保护的关切,导致大数据难用的困境雪上加霜。2018年欧盟出台了《通用数据保护条例》(General Data Protection Regulation,GDPR)来保护欧盟公民的数据隐私,违者会面临巨额罚款。该法案的很多规定都会给人工智能带来影响,尤其是在数据使用方面。比如,用户不仅可以拒绝贡献出自己的数据,还可以反悔并撤回已经提交的数据。由此可见,如果数据收集方不能给出让用户放心的隐私保护方法,数据不足的问题会成为人工智能发展的障碍。
即使用户同意贡献出数据,也必须保证数据不能离开收集方,这就对目前常见的多方合作训练模型的模式产生巨大冲击。例如,多家零售企业的数据无法联通形成大数据,因此每家公司只能用自己的小数据训练出效果比较差的模型。这也就是通常我们所说的“数据孤岛”问题。对隐私的关切使得数据之间像孤岛一样被分隔开,无法汇聚在一起产生更强大的作用。
总之,小数据与隐私关切这两大问题在“数据”这块基石上产生了裂痕,随时有可能让人工智能再次陷入低谷。
两大困境期待解决方案
事实上,目前已经有一些针对这两大困境的解决尝试方案。但是,这些方案都比较孤立,没有在真正意义上完全消除大数据使用的隐患。
针对数据质量低、数量少的问题,传统的解决方法是使用迁移学习。迁移学习,简言之,就是把在某个领域的数据或知识迁移到其他相似的领域,也就是让模型具有“举一反三”的能力。目前,在某些领域我们拥有充足的数据量,已经有训练结果比较成熟的模型,如果能把这些模型的能力“迁移”到数据量匮乏的领域,就能够解决数据质量低或标注不足的问题。目前一个成功的商业案例是第四范式公司为企业提供的车贷营销模型。由于车贷样本数量比较少,且缺乏标注,因此不易建模。但是微信上有大量小额贷款的数据,也可以建立效果很好的模型。因此,一种很好的解决方法是先根据小额贷款数据构建模型,之后将模型迁移到车贷问题上,这样就能够利用迁移学习在数据不足的情况下也能取得不错的效果。
显而易见,迁移学习的成果可以建立在多个数据拥有方合作的基础上。例如,在车贷的例子中,需要车贷公司与微信小额贷款合作才能实现模型在相近领域之间的迁移。然而,目前的隐私关切使直接的迁移学习应用不再有效,因为传统的迁移学习没有特别考虑隐私安全问题。在包括前面提到的GDPR等隐私法规的制约下,企业间的这种数据和模型间的合作将变得困难无比,一个数据匮乏领域的研究者可能根本没有办法通过合法的途径获得其他领域的数据或模型。
事实上,目前也有在隐私保护约束下让个人或企业之间联合训练模型从而打破数据孤岛壁垒的尝试性方法,被叫做“联邦学习”。它是由谷歌最早提出的一种使个人手机用户在原始数据不离开各自手机终端的基础上,联合训练一个公共模型的方法。具体而言,每个用户在本地的安卓手机上根据自己的隐私数据建立一个小模型,这个模型经过加密后上传到云端,云端在不解密的情况下把这些用户发来的小模型聚合成大模型。因为用户上传的模型是加密的,因此数据是安全的,用户的个人隐私得到了保护,同时云端通过聚合小模型实现了模型的联合训练。
我们的研究把联邦学习从谷歌简单的模型平均方法扩展到机构间的安全分布式联合建模,分为横向联邦学习与纵向联邦学习。横向联邦是针对谷歌用户这样的用户特征相同但是样本不同的场景,而纵向联邦则是针对用户样本重叠但特征不同的多机构合作建模场景。
然而,现实应用中面临的小数据问题,使得样本维度或特征维度至少有一者相同的数据少之又少。联邦学习虽然基本满足了GDPR关于隐私保护的要求,但是并没有解决小数据的问题。那么,有没有什么方法可以从根本上同时解决这两个问题,从而使大数据的使用变得不再困难呢?我们给出了一个可能的出路,即“联邦迁移学习”。
“联邦迁移学习”突破数据壁垒
为了同时解决小数据与隐私关切问题,我们首先提出了联邦迁移学习的技术方案。该方案不需要聚合或交换多方数据,能够保证在小数据上使用迁移学习建模时不泄露隐私,而使用联邦学习时知识可以迁移。
具体而言,我们考虑这样的场景,有多个数据拥有方,他们之间出于隐私保护的考虑不能够交换数据,同时各方数据集中的用户样本和用户特征重叠部分较少,即各自的样本数据较少并且数据不能聚合到一起。事实上,这样的场景在当前十分常见,因为现实中的数据很难满足样本或特征维度相同,而联邦迁移学习便是用来解决这类建模场景的一种通用方案。它通过迁移学习来解决数据规模小和标签样本少的问题,同时又能基于联邦学习框架来保护数据拥有者的隐私,最终实现了“鱼和熊掌兼得”的效果。
为了更好地阐述其具体流程,我们以两个数据拥有方的场景为例来简单介绍联邦迁移学习。假设有两家企业A和B要联合训练一个机器学习模型,他们分别拥有各自的用户数据,但是共有的用户比较少,同时两家企业位于不同领域,因此用户特征的交集也较少。出于保护用户隐私的考虑,A和B不能直接通过交换数据与迁移学习来训练模型。面对这样的小数据且需要隐私保护的训练场景,我们便可以使用联邦迁移学习方法来建模。
首先进行加密样本对齐,由于两家企业的用户部分仅有少量重合,故需要采用加密样本对齐的方法来确定共有用户。其次进行加密的迁移学习模型训练,即在迁移学习过程中通过加密传递计算的中间结果。这种方法可以同时适用于样本迁移、特征迁移与模型迁移。在整个训练过程中,A和B的数据均保存在本地,并且训练过程中的数据交换也不会导致隐私泄漏。最后是效果激励。
联邦迁移学习方法解决了为什么不同机构要加入到联邦中共同建模的问题。我们可以用一个永久数据记录机制(如区块链),来建立一个让参与方都满意的共识机制以估计各方的贡献,基于这个贡献奖励对联邦有作用的机构,从而激励更多数据拥有方加入到联邦中。
垂直领域实现技术落地
联邦迁移学习可以被简单地扩展到多方合作的情形,从而真正实现隐私保护下的小数据迁移学习。下面介绍两个案例来看联邦迁移学习技术如何与垂直领域结合发挥作用。
第一个例子是在金融领域的应用。金融行业对于数据的隐私和安全性十分看重,不同机构的数据无法被直接汇聚到一起训练模型,同时小数据的问题也一直困扰着金融行业。因此,借助联邦迁移学习来训练联合模型是一个不错的选择。
以智慧零售为例,该业务涉及到的特征主要有用户购买行为、用户个人偏好和产品特点这三部分,但这三部分数据很可能分散在三个不同的企业。比如说,银行拥有用户的购买行为数据、社交网站拥有用户的个人偏好数据、购物网站拥有产品数据。在这样的场景下数据壁垒很难打破,且三方数据通常是异构的,传统的机器学习模型无法直接在异构数据上进行学习,而联邦迁移学习正是解决这些问题的关键。首先,联邦学习的方法能够在保护各企业数据隐私的前提下联合训练模型。其次,迁移学习的方法能够解决小数据与异构数据的问题。这样,联邦迁移学习便突破了传统人工智能技术在金融领域的局限。
第二个例子是在医疗领域的应用。以IBM“沃森”系统为例,作为人工智能在医疗领域最著名的应用之一,最近却被曝光曾经在一次模拟中错误开出可能致死的药物。为何会产生这样的误诊呢?“沃森”使用的训练数据本应包括病症、基因序列、检测结果等数据特征,但是在实际中,这些数据无法全部获得,并且大量数据缺少标注。
数据的不足与标签的缺失导致机器学习模型训练效果不理想,这成为了目前智慧医疗的瓶颈之一。那如何突破这一瓶颈呢?如果所有的医疗机构能够将数据汇集起来进行迁移学习模型训练,那模型质量会有质的突破,但这一想法在现实中却由于医疗数据包含大量敏感信息而无法实现。应用联邦学习的方法能够在不聚集各医疗机构数据的情况下训练模型,同时,迁移学习可以解决标注数据缺失严重的问题,进一步提高模型效果。由此看来,联邦迁移学习在智慧医疗领域必将起到举足轻重的作用。
当前人工智能的发展在数据层面临着小数据与隐私关切两大严峻挑战。传统的迁移学习与新兴的联邦学习都无法同时完美解决这两大问题。联邦迁移学习的提出为打破数据屏障、建立统一的解决框架提供了可能性。它能够在不交换数据的情况下利用多方数据和迁移学习技术共同训练模型,即“数据不动、模型动”。这一方法在确保隐私和数据安全的情况下突破了数据壁垒,实现了共赢。期待未来联邦迁移学习能够在各个垂直领域落地开花,使人工智能带来的红利落实到社会的各个角落。
(原文刊载于《前沿科学》2019年第2期)