隐私计算又称隐私保护计算,是指在保护个人隐私(数据)的前提下,实现数据的价值。隐私计算做到了数据的“可用但不可见”,既实现了数据价值的流通,又实现了数据的隐私保护。
近些年,我国公民对隐私保护的意识越来越强。随着《数据安全法》和《个人信息保护法》的提出,我国个人隐私数据保护提升到了法律的高度。
(1)隐私计算是如何产生的
随着云计算、大数据等技术的不断发展,信息系统服务中针对用户数据的收集整理、分析预测技术不断成熟。各种基于位置跟踪、行为偏好记录所产生的定向服务,例如:可以通过社交媒体进行信息交换与自我表露,利用智能交通系统实现实时路况查询、智能导航系统规划出行路线等等服务,这些服务为人们日常生活提供诸多便利的同时,也引起了大家对隐私的关注。
一方面,用户在享受这些服务时,产生的数据让人们不可避免地面临隐私泄漏问题。数据本身具有易复制、易传播、一经分享无法追踪等特点,数据泄露的风险以及数据泄露后所造成的后果是无法预估的。另一方面,数据是21世纪的重要资产,大数据的发展不断提升人民的生活质量。大数据时代,数据挖掘能够推动技术变革与业务创新。
既需要防止隐私信息泄露,又需要大数据推动技术变革与业务创新,如何在两者之间找到平衡点,“隐私保护计算”由此诞生。
(2)隐私计算中数据的“可用但不可见”
商业角度:“可用”的目的是要解决商业问题,为数据制造者和数据的需求者带来价值;“不可见”是实际商业模式可运行、可落地的基本游戏规则。“可用不可见”从商业角度理解,是让数据共享与协作可以成为商业事实、发挥数据要素价值的一种商业准则。在这一准则下数据制造者可以安全地实现数据价值变现,需求方可以借助外部数据解决自身的业务问题,从而完成了基于数据合作的商业闭环。
技术角度:数据的“可用”是指对初始数据和隐私数据进行加密处理,在计算环节要通过加密传输去完成数据的虚拟融合。“不可见”指的从技术角度屏蔽了敏感信息和隐私数据,为不可分享或者不能分享的数据加上一层安全的“防护罩”,从而实现事实上对隐私数据的保护。
原理角度:首先要明确“可用”是对业务方而言的,只有业务方或需求方有资格对数据源说数据有没有价值、有多大价值。其次,“可用”的对象特指机构间达成合作的那部分需要加密保护的数据,当然业务方最终想要的并不一定是这部分加密后数据,而是基于这部分加密数据与自身数据完成联合计算后的结果。很多情况下业务方要的是数据的价值和结果,而非数据本身。“可用”是一种商业上的共识,是业务方对数据能带来价值的认可,是双方在数据安全协作方式上的认同,也是双方建立合作关系的基础。“可用”还是有一定的标准和要求,不同的机构对其标准认定可能不同。“不可见”的第一个问题就是对谁可见、对谁不可见?当数据源与业务方建立合作时,双方要约定可合作的数据内容,当然还包括哪些数据需要密文传输和计算。在数据操作权限上,可以设置哪些是具备“可见”资格的人,哪些数据是不可见的?数据源方不愿意或不方便对外开放的数据都可以让它们“不可见”,或者在与业务方合作时对业务方进行加密处理。在隐私计算领域,“不可见”指的是原始数据和敏感信息不离开本地数据库、不脱离私域在联合计算时用密文进行传输和计算。当然,联合计算时所传输的中间参数不能倒推出原始值。例如:我昨天吃了一顿大虾,大虾经过我身体的吸收,今天去医院查身体,查出胆固醇高,医生能判断出我昨天吃高蛋白的食物,但医生无法得知具体是哪种食物。如何做到“不可见”?目前实现数据的“不可见”有三种技术路径,分别为密码学、联邦学习和可执行环境。“可用”与“不可见”是具有一定的关系的,“不可见”是数据“可用”的基础,“不可见”是前提和手段,“可用”是结果和目标。
隐私计算的应用场景:隐私计算与我们的生活息息相关,应用场景很多,如下图11-2-1。
在医疗行业,隐私计算可帮助医疗机构在不泄漏患者隐私的前提下,将患者的电子病历、用药情况等敏感个人信息提供给药物研究者,用于开发研究药物的真实数据样本。厦门作为国家医疗健康大数据的首批试点城市,现已构建了基于隐私计算的健康医疗数据应用开放平台。该平台中健康医疗数据可在数据脱敏、治理的基础上向数据的使用者授权开放。数据使用者获得授权后,并不能下载原始数据,而需依靠第三方应用或自己开发的程序利用沙箱计算等安全计算方式对原始数据进行挖掘。
在金融行业,国内隐私计算产品目前主要应用于风控和获客,即多家金融相关机构在不泄露客户个人信息的前提下对客户进行联合画像和产品推荐,以在多头借贷等场景下有效降低违约风险。在国家金融监管趋势渐严的大背景下,隐私计算可在不泄露各方原始数据的前提下,促成金融相关机构联合参与风控模型建设。通过分布式模型的训练与优化,各方提交至风控模型建设的参数不会在去中心化的计算过程中暴露,从而保护了各方的数据私密性。