美NIST为政府数据集去标识化提供指导
| 来源:【字号:大 中 小】
2023年9月14日,美国国家标准与技术研究院(NIST)发布《政府数据集去标识化:技术与治理》报告,描述了去标识技术的使用情况,以便进行有意义的统计分析,同时防止或限制个人和机构信息泄露的风险,为使用去标识技术的政府机构提供具体指导。
在使用去标识技术之前,机构应评估去识别的目标以及发布去识别数据可能带来的潜在风险。此外,各机构应确定一种数据共享模式,例如发布去标识的数据,基于已标识数据发布合成数据,提供包含去标识的查询接口,或在非公共保护区域共享数据。各机构还可创建一个披露审查委员会,监督去标识过程,或采用可衡量性能水平的去标识标准,进行重标识研究,以评估相关风险。
目前主要的几种去标识技术包括移除标识符、转换准标识符和使用模型生成合成数据进行去标识。通常使用特殊的软件工具来进行数据去标识处理,并计算重识别的可能风险。然而,并非所有仅掩盖个人信息的工具都能满足去标识的要求。该报告还提供一份详尽的参考文献列表、一份术语表和一份特定去标识工具列表,展示了目前可用工具,但并不意味着NIST推荐或认可这些工具。
政府机构可使用去标识技术向研究人员和公众提供数据集,同时最大限度地减少数据中个人隐私的泄露。目前主要有三种去标识模式,包括:使用传统的去标识技术来提供数据,这些技术依赖于移除标识信息(直接标识符)和转换部分标识信息(准标识符);创建合成数据集;通过查询接口提供数据。这些模式可在单个数据集中混合使用,为不同的用户或预期用途提供不同类型的访问权限。
当机构采用正式的隐私保护模式(如差分隐私)时,隐私保护可得到加强,因为这些系统使用的数学模型旨在确保隐私保护,而不管未来数据的发布以及重标识。然而,这些系统的数学基础非常新颖,政府内部在使用这些系统方面几乎没有经验。因此,在采用这些系统代替传统去标识方法之前,机构应了解这些系统将产生的影响。
使用去标识技术的机构应建立合适的管理结构,以支持去标识、数据发布和发布后的监测工作。此类结构中通常包括披露审查委员会以及适当的教育、培训和研究工作。不同的司法管辖区可能对去标识数据的定义和使用有不同的标准和政策。在一个司法管辖区被视为去标识的信息,在另一个司法管辖区可能是可标识的。
在治理和管理层面,去标识管理包括确定去标识过程的目标和考虑数据发布参与者面临的风险,NIST建议各机构:考虑数据生命周期的所有阶段;考虑不同的数据共享模型,包括数据使用协议、合成数据和使用区域等补充保护措施;利用“五个安全”,这是一种评估风险的方法;成立披露审查委员会,监督去标识政策的实施;在可能的情况下,遵循现有的去标识标准。
在技术层面,去标识的技术过程应借鉴过去几十年来发展起来的最佳实践。NIST建议各机构:进行数据调查,以确定与数据相关的去标识要求;识别数据中的标识符和准标识符,并选择一种方法对每个标识符进行去标识;考虑现有的辅助数据,这些数据可用于实施重标识攻击;在可能的情况下,将安全措施与去标识相结合,进行深度防御,并考虑使用合成数据或交互式查询界面;在可能的情况下,使用正式的隐私技术来量化与去标识数据发布相关的隐私损失;验证去标识数据的实用性和隐私性,特别是为去标识设定准确性目标,以使数据的准确性满足目标需求。
在软件层面,各机构一般应:利用自动化的、可重复的、基于软件的方法来执行去标识;仔细考虑用于实施去识别的软件,以确保所使用的算法经过验证,且软件能正确使用这些算法;考虑软件工具的效率、可扩展性和可重复性,评估工具输出的准确性。
信息来源:
https://www.nist.gov/publications/de-identifying-government-datasets-techniques-and-governance