2019-09-25_「转」数据孤岛问题解决了，但联邦学习的安全性怎么办？-行业资讯-网站开发软件制作-北京网站开发_Ui设计_软件开发_YOLO_3D高斯_云服务器购买浙江网站建设-浙江网站开发|浙江网站制作|浙江网络公司-网络科技有限公司--北京网站开发_Ui设计_软件开发_YOLO_3D高斯_云服务器购买浙江网站建设-浙江网站开发|浙江网站制作|浙江网络公司-网络科技有限公司-

数据孤岛问题解决了，但联邦学习的安全性怎么办？作者 | 星云 Clustar 团队编辑 | 陈思 AI 前线导读：在本文中，星云 Clustar 团队提出了一个名为 FedMF 的联邦学习环境下的安全矩阵分解框架，并使用真实的数据集进行测试，测试结果验证了 FedMF 的可行性。此外，星云 Clustar 的团队还讨论了 FedMF 在未来研究中应用的挑战。更多优质内容请关注微信公众号“AI 前线”（ID：ai-front）随着人工智能时代的到来，大数据是人工智能产业化中不可或缺的基石。然而，我们目前正面临着数据隐私保护和数据孤岛这两方面的难题，这限制了 AI 智能产业化的发展。在数据隐私保护方面，重视数据隐私和安全已成为世界性的趋势，去年 5 月欧盟「数据隐私保护条例」(General Data Protection Regulation,GDPR) 即是对人工智能传统的数据处理模式提出了新的挑战。再加上人工智能训练时所需要的数据会涉及到很多领域，不同的公司之间，甚至是同一个公司的不同部门之间数据无法自由流通，这就形成了一个个“数据孤岛”。如何在满足数据隐私、安全和监管要求的前提下，让人工智能系统能够更加高效、准确的共同使用各自的数据，是当前人工智能发展的一个重要课题。联邦学习（Federated Learning）是一种新兴的人工智能基础技术，在 2016 年由谷歌最先提出；此后，国际人工智能专家、微众银行首席人工智能官杨强教授的带领下首次提出了“联邦迁移学习”，并通过领衔联邦学习国际标准 (IEEE 标准) 制定、开源自研联邦学习框架 Federated AI Technology Enabler(简称 FATE) 等来推动联邦学习技术在行业中的落地。FATE 是全球首个工业级别联邦学习框架，可以让企业和机构在保护数据安全和数据隐私的前提下进行 AI 协作。这些举措让联邦学习有望成为下一代人工智能协同算法和协作网络的基础。在本文中，星云 Clustar 团队提出了一个名为 FedMF 的联邦学习环境下的安全矩阵分解框架，并使用真实的数据集进行测试，测试结果验证了 FedMF 的可行性。此外，星云 Clustar 的团队还讨论了 FedMF 在未来研究中应用的挑战。以下是由星云 Clustar 团队带来的论文解读：本文围绕 6 个角度来讲述这篇论文，研究意义、先行概念、分布式矩阵分解、联邦矩阵分解、实验评估结果、下一步研究方向。研究意义以 General Data Protection Regulation 为代表，政府开始出台各类规章和法律条文，用来加强对隐私性数据的保护力度，学院机构以及工业企业也因此开始关注隐私保护机器学习这一技术领域。目前推荐系统是一个广受关注的研究课题，矩阵分解是常见的技术手段。然而，传统的矩阵分解推荐系统，会泄漏用户的评分信息、特征向量，可能大家会觉得泄漏这两种信息不重要，但是通过这两种信息，恶意攻击者可以进行 inference attack，也就是从这两种信息推断用户的性别、年龄、住址，而后面的这些信息都属于非常隐私的数据。目前针对这类问题，主要有 2 中解决方案：Obfuscation-based 和 Full-Homomorphic encryption-based。前者主要采用的方法是通过将用户的原始偏好数据进行混淆后，再发送到中央服务器，以实现某种程度上的隐私保护。显而易见的是，这种方法会导致预测精度的损失。为了保证预测精度，Full-Homomorphic encryption-based 方法引入了一个第三方的私密服务提供商，然而这种方法会增大系统实现难度，同时这类私密服务提供商的可靠性难以保障，一旦他们与推荐服务节点存在不正当合作关系，那对用户来说，任何信息都毫无隐私可言。先行概念在正式介绍我们的方法前，首先需要了解 2 个概念： Horizontal Federated Learning：用户的特征空间相同，然而用户群体不同。这类问题下，我们一般规定，用户是诚实的，系统的目标是保护用户的隐私，免于受到诚实但好奇的服务器的侵犯。Homomorphic Encryption：一种仅享有数据处理权，但不具备数据访问权的方法。换句话说，这种方法允许任何第三方对已经加密过的数据进行运算，而不可以在运算前对数据进行解密。在矩阵分解推荐系统中，我们通常会拿到一个稀缺的用户评分矩阵 X，而我们的任务是通过计算出 user profile 矩阵 U 和 item profile 矩阵 V，来将 X 中的空缺信息补全。一般来说，SGD（Stochastic Gradient Descent，随机梯度下降）是用来解决矩阵分解的主流方法。具体 loss function 和 updating formula 的定义如图所示。分布式矩阵分解显而易见的，想要保护用户的隐私，就是将服务器与用户的数据进行隔离，避免服务器对用户数据的直接访问，所以我们希望用户可以把自己的数据保留在本地。基于此，我们设计了一个分布式的矩阵分解系统，在这个系统中，所有的评分数据都掌握在用户手中。一个全局的 item profile 矩阵为所有用户提供一个本地的 update，同时用户将会把 gradient 传回给服务器，用来更新 item profile。总结来说，服务器只会收到用户的 gradient，不会收到用户的任何评分信息。这样看来，我们的任务目标就实现了，但是让我们再思考一个问题，传输 gradient 就真的能保障用户隐私了吗？如果已知任意 2 个连续 step 的 gradients，已知 user profile 的更新公式，我们可以求得一个多元高阶方程组 7、8、9。求解这个方程组的过程比较复杂，我们在这里不对求解过程做过多描述，仅仅把结果展示在途中。在等式 24 中，u 是唯一的未知量，并且我们已知 u 一定存在一个实数解。我们可以利用一些迭代方法（比如牛顿法）来求得一个数值解。当我们算出 u，评分信息 r 就可以利用等式 25 求解出来。总结来说，我们刚刚证明了在矩阵分解场景下，gradient 会泄漏用户的信息。那么我们又该怎么解决这个问题呢？联邦矩阵分解我们的解决方案是对系统中加入 homomorphic encryption，也就是联邦矩阵分解系统。假设用户和服务器已经实现了对密钥的生成和分发，其中服务器拥有公钥，用户拥有彼此相同的私钥，那么整个系统就可以分为 4 个步骤：第一步，对参数进行初始化，参数包括 item profile 矩阵和 user profile 矩阵，与此同时服务器对 item profile 使用公钥进行加密；第二步，服务器提供加密后的 item profile 矩阵，供所有的用户来进行下载；第三步，用户进行本地的 update，这一步中可以拆分成若干个环节：用户首先下载加密后的 item profile 矩阵，并将其解密成一个 plaintext V，然后用户会进行本地的 update 并计算 gradient，最后用户会对 gradient 进行加密并且将 ciphertext 发给服务器；接下来让我们回到整体的架构，在第四步，服务器在接收到加密后的 gradient 之后，会根据附加的 homomorphic encryption 对 item profile 矩阵进行更新，请注意，服务器会提供给用户最新一次加密后的 item profile 用作下载，此时我们就需要再一次回到第二步。整个系统通过重复第二、三、四步，会实现整个训练过程。一般来说，用户的评价信息由一个系数矩阵组成，这也就意味着一个用户的评价其实是非常有限的。因此，两个不同的设置在我们的系统中是 implemented。这两个设置会遵循系统的各个环节然而会在用户的上传环节由些许的不同。其中一种设置叫做 fulltext，在这种设置中，用户会对所有的 item 都会上传 gradient，当用户对某一个 item 不做出评价时，gradient 为 0；另外一种设置叫做 parttext，用户只会将评价后的 item 的 gradient 进行上传。这两种方式有利有弊，parttext 会泄漏哪些 item 是用户打过分的，同时在计算效率上表现更好，而 fulltext 不会泄漏用户的信息，但是会需要更多的计算耗时。实验评估结果为了测试我们设计的系统的可行性，我们使用了一个 MovieLens 上一个真实的电影评分数据集，这个数据集包括了 100K 个评分信息，由 610 个用户对 9724 个电影的打分组成。这个数据集也被用于很多其他的矩阵分解研究工作中。在图中的参数配置下，表 1 显示了每次迭代过程中，使用 parttext 方法和 fulltext 方法的耗时（一次迭代，是指所有 610 名用户上传的 gradient 被用来更新一次 item profile 矩阵）。无论是 parttext 还是 fulltext，当 item 数量不是很多时，这两种方法的耗时都比较少，同时我们可以观察到，耗时会随着 item 数量的增加而增长。与 fulltext 相比，parttext 会占用更少的时间，然而 parttext 会泄漏一部分信息。值得一提的是，parttext 会比 fulltext 提升了 20 倍的效率。为了验证我们的系统不牺牲任何准确度，我们在一个小规模的数据集上做了一系列实验。我们采用 RMSE 来作为度量指标，参考图 4 和表 2，标准矩阵分解和联邦矩阵分解的评估结果是非常相近的，区别不足 0.3%。如此小的区别是由于在联邦矩阵分解中，为了简化 implementation，服务器会对 itemvector 进行更新，仅当所有的用户都上传了他们的 gradient。在一般的矩阵分解中，服务器会更新 itemvector 当任何用户提供了 gradient。如果这些设置都相同的话，评估结果就会完全一致。图 2 和 3 显示了随着 item 数量的变化，用户和服务器的更新时间的比例的变化。从图可见，约 95% 的时间用于了服务器的更新，这就意味着如果我们增加了服务器的算力，或者提升 homomorphic encryption 方法，以降低密文计算的复杂度，则计算效率会有显著提升。这就是我们下一步要做的主要工作。下一步研究方向最后，想和大家介绍一下我们未来研究工作的 3 个主要方向：更加有效的 homomorphic encryption。如上文提到的，约 95% 的时间都花在服务器 update 上，其中计算主要用于密文。如果我们可以提升 homomorphic encryption 的效率，我们的系统表现会大幅提升。在 fulltext 和 parttext 中。实验已经显示 parttext 比 fulltext 效率更高，但是 parttext 会暴露用户对哪些 item 进行了评分。这个信息，即使没有确切的评分，可能依旧会泄漏用户敏感信息 [Yang et al., 2016]。或许我们可以要求用户上传更多的 gradient，而不仅仅是评分后的 items，但不是全部的 items，这样做可以相比较 fulltext 增加系统效率，同时不会泄漏评分的 item。更多安全定义。目前我们用了经典的 horizontal 联邦学习安全定义，这个定义架设了参与方的诚实性，以及服务器的 honest-but-curious。接下来我们可以去探索更具挑战的安全定义，比如如何去建立一个安全的系统以应对 honest-but-curious 的服务器，同时有一些用户是恶意的，甚至有一些参与方会与 server 联合谋策。以上就是本篇论文的主要内容，感谢您的阅读。作者介绍本文第一作者为星云 Clustar 算法工程师、香港科技大学计算机博士在读柴迪、星云 Clustar 首席 AI 科学家北京大学助理教授、博士导师王乐业（按姓氏拼音排序），第二作者为星云 Clustar 创始人、香港科技大学教授陈凯，第三作者为微众银行首席人工智能官、香港科技大学教授杨强。本文已发表在 IJCAI 2019 Federated Machine Learning Workshop，IJCAI 国际人工智能联合会议是全球人工智能领域最权威的学术会议。你也「在看」吗？??

上一篇：2020-03-27_新冠CT判读准确率达96%，阿里AI是怎么做到的？｜ AICon

下一篇：2022-11-25_罗永浩创立的 AR 公司细红线完成 5000 万美元融资

TAG标签：

网站开发网络凭借多年的网站建设经验，坚持以“帮助中小企业实现网络营销化”为宗旨，累计为4000多家客户提供品质建站服务，得到了客户的一致好评。如果您有网站建设、网站改版、域名注册、主机空间、手机网站建设、网站备案等方面的需求...
请立即点击咨询我们或拨打咨询热线：13245491521 13245491521 ，我们会详细为你一一解答你心中的疑难。项目经理在线

13245491521

与我们取得联系