原创《个人信息保护法》发布解读之（三）当隐私遇上大数据

时间:1753-01-01 作者: 来源:搜狐

原标题：《个人信息保护法》发布解读之（三）当隐私遇上大数据

在企业的数字化转型中，数据不再仅仅是停留在信息系统后台的信息载体，而是为业务赋能的宝贵资源。通过分布式存储等基础设施来高效处理来自于多渠道的海量大数据，已然成为企业使用数据赋能的不二选择。

《个人信息保护法》的发布，对于快消、零售、医疗健康、金融、互联网、物流等处理大量个人信息的行业而言，在其利用大数据技术处理通过多触点、全渠道收集的用户个人信息，帮助企业了解用户、提升业绩、产生价值的同时，无疑也为企业的个人信息保护提出了新的挑战。

图1：消费品行业大数据平台常见隐私风险示意

大数据的个人信息保护关注重点

安永将通过本文为您解读在《个人信息保护法》语境下，企业在应用大数据技术过程中应当关注的五大重点：

一）数据合法基础：多渠道个人信息处理的授权同意管理

“巧妇难为无米之炊”，数据源是大数据平台挖掘价值的基础。目前企业的个人信息来源通常可归为如下两类：

一方数据：

企业通过自建的个人信息收集渠道或触点所收集得来的用户个人信息，如网站、手机App、微信小程序、线下门店、营销活动Html5页面等。企业对第一方数据收集的方式、具体信息类型、收集频率、用户旅程等有着直接的决定权。

三方数据：

模式A：企业通过在第三方平台建立用户触点所间接收集的个人信息，如微信用户资料、UnionID、天猫用户资料等。企业往往对这部分数据的获得方式有一定的控制权，但所收集的具体方式和类型、频率等会受到第三方平台的限制。
模式B：企业通过第三方服务间接获得的用户在第三方触点所留下的个人信息，如企业进行在线广告投放后所获得的用户设备信息、用户行为信息；如通过爬虫从第三方网站所获得的数据。企业获得这部分数据时往往不会与用户有直接的接触。

对于大部分企业来说，采用大数据处理个人信息的合法性基础通常仅能依赖《个人信息保护法》第十三条第一项，即“取得个人的同意”。授权同意管理是企业个人信息保护的关键能力之一，而对于企业数据处理能力的核心系统——大数据平台来说，授权同意管理直接影响着其合法利用个人信息为业务赋能的能力。

针对上述所提到的数据源，在获得个人同意的过程中均可能面临不同的挑战。

一方数据：

对于第一方数据而言，尽管企业可以通过隐私协议、弹窗或其他交互形式来获得用户的授权同意，但由于大数据处理目的繁多且存在较大的可扩展性，如何满足《个人信息保护法》第十四条中“该同意应当由个人在充分知情的前提下自愿、明确作出”的要求仍需企业在用户界面、文本和交互形式等方面下足心思。

三方数据：

模式A：对于该模式下所收集的用户个人信息而言，企业应当满足《个人信息保护法》第二十条“两个以上的个人信息处理者共同决定个人信息的处理目的和处理方式的，应当约定各自的权利和义务”的要求。而在实践中，大部分企业在与大型互联网平台的合作中的议价能力较低。因此，企业对于这部分个人信息的处理需遵守渠道平台的统一规则，以及平台与用户之间的个人信息保护政策中所规定的条款。
模式B：该模式下的三方数据，企业往往会通过合同的形式来约定数据处理的范围以及数据安全、获取授权同意的责任归属，但企业通常较难验证第三方数据的实际授权情况。若数据提供方未获得个人信息主体的授权同意，或企业处理活动超出了个人信息主体授权同意的范围，则会将企业陷入违法收集使用个人信息的不利境地。即使是在《个人信息保护法》发布生效之前，第三方违法收集个人信息的执法案例也已屡见不鲜，在某些情况下，第三方违法收集个人信息也会将合规风险转移至企业本身。如在2021年天津市的一个判例中，某公司“明知”Wi-Fi探针产品违法违规收集用户电话号码的情况下，仍然使用该产品，被天津市一中院判决该企业买卖该产品的合同无效，并没收所有违法所得。

挑战不止于收集个人信息时获得授权同意。在保证合法性基础的前提下，如何基于授权同意来对大数据的处理方式进行限制，也是企业使用大数据技术应当关注的重点与难点。用户授权同意有多个维度：渠道、数据范围、处理方式、同意状态、授权期限等，每一个维度的变化都有可能会影响到企业对数据处理方式、用户触达方式的变化，如下图所示：

图2：用户授权同意情况示意

此外，根据《个人信息保护法》第十五条，基于个人同意处理个人信息的，个人有权撤回其同意。企业除了在用户触点保障用户撤回授权同意的权利，内部数据处理平台中也应当及时同步授权同意的状态，这对企业的隐私保护团队、产品团队和技术团队都提出了不小的挑战。

应对策略

面对繁杂的授权同意管理，安永建议：

► 企业应建立组织内一致、高颗粒度的用户授权管理机制。在大数据处理系统中，通过技术手段实现对用户授权同意状态的自动化、及时性管理，保证用户提供、改变、撤回授权同意，以及在用户授权同意情况较为模糊的情况下，有效管理相关联的数据处理活动，并留下合规性审计证据。

► 企业应建立完善的数据引入管理机制。在向大数据平台导入数据（无论是一方数据或是三方数据），均应进行个人信息保护影响评估，确保数据在大数据平台中的处理活动在用户授权范围内。针对三方数据，应在合同条款中明确数据合法性的责任、数据使用目的的限制等要求，并在必要时进行适当的尽职调查。

► 企业应实施隐私设计机制以实现多触点、细粒度的用户授权同意管理机制，确保采集一方数据的触点在设计之初便有着细颗粒度的用户授权同意机制，并通过用户界面为用户提供充分的透明性和决定权。

二）弱化身份指向：个人信息的去标识化处理

《个人信息保护法》第五十一条规定，“个人信息处理者应当根据个人信息的处理目的、处理方式、个人信息的种类以及对个人权益的影响、可能存在的安全风险等，采取下列措施确保个人信息处理活动符合法律、行政法规的规定，并防止未经授权的访问以及个人信息泄露、篡改、丢失：…”　（三）采取相应的加密、去标识化等安全技术措施；…”

去标识化是企业实施个人信息保护、有效降低个人信息安全风险的重要手段之一，也是企业打开数据主动权的重要方式。去标识化是指通过对个人信息的技术处理，使其在不借助额外信息的情况下，无法识别或者关联个人信息主体的过程。

而在海纳百川的大数据平台中，存储着海量的个人信息，一旦存在泄露点，将可能对个人信息主体权益产生巨大影响。因此，将大数据平台内用于业务处理的个人信息进行必要的去标识化处理，并与原始信息进行隔离存储，以及实施严格的访问控制，将会很大程度上降低数据泄露的风险。

在实践中，如何确保去标识化的有效性、降低重标识风险，与此同时确保信息的业务价值不被损害，为诸多企业带来了不小的挑战。例如，我们观察到部分企业将电话号码、用户设备标识符等信息进行简单地散列处理后（如仅进行MD-5处理），便认为已对个人信息进行了充分的去标识化处理。然而这种处理方式尽管看似满足去标识化的定义，但实则极易重新定位到个人，如通过彩虹表攻击等方式便可轻易恢复信息原文，甚至设备标识符等部分数据在进行了MD-5处理后仍然可以在诸多数据服务厂商直接定位到个人、关联个人的其他属性，那么如果数据被泄露，则极易遭受营销者攻击。在大数据平台中，各类表面看似难以定位到个人的属性信息，一旦经过大数据平台的多数据源关联，都极易通过背景知识攻击、检察官攻击等形式进行恶意利用，侵害用户权益。1）

图3：重标识攻击场景释义

在现实中，重标识攻击也早就不仅仅停留在理论层面。早在2006年8月，美国某互联网公司公开了数量级超千万条目的匿名化日志信息，而被一名记者证明尽管进行了匿名化，该数据集仍能够轻易分析、定位到具体个人，并通过实际演示识别出一名老年人的家庭信息、健康信息。

应对策略

企业应当意识到，去标识化工作不仅仅是为一个个字段进行脱敏处理，而应当是完整的管理闭环。安永建议：

► 制定、实施数据分级分类及保护制度，对大数据平台中存储的数据进行发现和识别，并针对不同敏感级别的数据采取不同的保护措施。

► 针对不同级别和类别的个人信息，建立适用于企业不同场景的个人信息去标识化技术指引，如针对大数据分析建模、用户画像、测试、报告等。企业可参考《GB/T 37964-2019 信息安全技术个人信息去标识化指南》制定去标识化的标准和指引，对于部分特殊行业，还可参考行业监管部门的指导性建议，如《JR/T 0171-2020个人金融信息保护技术规范》中，提供了个人金融信息隐藏规则的示例。

► 恰当采用统一的平台和工具来进行数据去标识化处理，保证实施规则与设计要求相符合，实施效果可控，防止出现依赖于工程师安全意识而导致去标识化效果无效的情况出现。如在数据清洗过程依据设定规则对数据静态脱敏，或针对大数据存储组件如Hive、Hbase等结合用户的权限提供动态数据脱敏功能，实现精细化的数据访问控制。

三）个人权益保护：大数据处理和自动化决策的监督管理

基于大数据的智能决策为业务目的赋能，是大数据的价值所在，也是大数据的“危险”之处。

今年7月，浙江省一起针对“大数据杀熟”的判决引起了舆论轩然大波。某旅游服务平台由于对一名“钻石贵宾”顾客提供溢价超过100%的酒店价格而被顾客以“大数据杀熟”等为由告上法庭，最终法院判决该平台“退一赔三”。

早在2020年11月10日，国家市场监督管理总局便发布了《关于平台经济领域的反垄断指南（征求意见稿）》，对平台的“大数据杀熟”做出了针对性的规定。而在《个人信息保护法》第二十四条中，更是将此要求扩展到了全部个人信息处理者：“个人信息处理者利用个人信息进行自动化决策，应当保证决策的透明度和结果公平、公正，不得对个人在交易价格等交易条件上实行不合理的差别待遇。”

若大数据算法由于设计本身或训练数据集的偏差而导致算法带有歧视，同时企业对大数据处理结果缺乏有效控制，那么除了“大数据杀熟”以外，还可能会对个人信息主体其他合法权益带来更加严重、更加隐蔽的损害。比如，

► 当广告主采用大数据分析全域流量进行广告投放时，若对自动化决策管控不足，消费者的隐私权则容易遭遇侵犯，消费者会感受到“被监控”；

► 人力资源行业或平台采用大数据分析来进行自动化决策时，若管控不足则可能会产生就业歧视问题；

► 除此之外，医疗健康、信贷、交易等方方面面，不一而足。

针对这一点，《个人信息保护法》在第二十四条做出规定：“通过自动化决策方式作出对个人权益有重大影响的决定，个人有权要求个人信息处理者予以说明，并有权拒绝个人信息处理者仅通过自动化决策的方式作出决定。” 并在第五十五至五十六条中要求，利用个人信息进行自动化决策前，应进行个人信息保护影响评估，对个人权益的影响及安全风险等方面进行评估。

应对策略

企业在业务运营过程中，应当建立大数据处理结果和自动化决策的监督和管理机制：

► 在算法设计与模型训练时应对算法的歧视、数据集的偏差进行有效评估和管控，合理平衡个人信息主体权利，并建立问责追责制度。

► 在进行个人信息自动化决策处理前，应进行个人信息保护影响评估（个人信息影响评估方法请见本系列第二期《主动进取，审慎经营|《个人信息保护法》发布解读之（二）企业能力构建》），深入分析决策结果对个人信息主体合法权益的影响，应进行用例审阅和审批，并在使用过程中定期（至少每年一次）进行影响评估，以在必要情况下进一步采取保护个人信息主体的措施。

► 在大数据平台数据处理与自动化决策的功能下，应当提供有效的人工干预能力，并支持对自动化决策结果进行人工复核。

► 建立透明性机制，为个人信息主体提供便利的查询、咨询和投诉渠道，为处理机制进行充分的说明和解释，并提供不针对个人的选项与停止自动化决策的服务方式。

►提供救济渠道，在个人信息主体权益受到损害时，为主体提供救济和补助、补偿。

四）安全基础保障：大数据平台的网络安全技术防护

数据安全是个人信息保护的基础，没有数据安全，个人信息保护便是无源之水、无本之木。《个人信息保护法》第九条规定，“个人信息处理者应当对其个人信息处理活动负责，并采取必要措施保障所处理的个人信息的安全。”

对于大数据平台来说，传统的信息安全控制仍然适用，如数据传输、数据加密、网络边界安全、应用安全等。但由于大数据常见开源架构在设计初期对安全的考虑不足和大数据的天然特性等因素，给企业也带来了新的安全风险，而这些平台级别的安全风险会直接或间接导致数据泄露的风险。我们以Hadoop的数据湖为例，常见的安全风险如下：

大量不同类型及不同敏感程度的数据汇聚所导致的数据泄露风险

Hadoop集群设计之初，就是通过分布式的系统对海量的数据进行存储。基于业务的需要，不同数据源的数据会被导入到集群中。不同数据在集群内、不同系统之间进行流转，当其中一个环节遭遇攻击或未授权访问，则导致大规模的数据泄露风险。

Hadoop及其生态环境的组件自身安全管控措施不足所导致的访问控制缺失风险

Hadoop核心在于有效地存储处理大量数据，早期的Hadoop基于这一前提，整个机器集群和访问它的所有用户都是可信网络的一部分，这意味着Hadoop未启用强有力的安全措施。虽然目前Hadoop已经采用了包括Kerberos在内的身份鉴别及访问控制的组件来确保整个集群的安全，但由于这些安全组件不是默认安装及启用，很多企业若在设计之处未引入安全部门，可能会导致访问控制缺失。

Hadoop平台给予用户更大的自由度而导致的越权风险

Hadoop平台与其他的企业内部服务有很大的不同，部分操作需要用户提供Linux 操作系统的命令行Shell，或提交代码至集群中运行。自由度的提升所带来的风险也是增加的，拥有操作系统权限的用户可能会绕过应用层的权限控制，用户提交的代码可以直接执行操作系统的命令，并对操作系统作出更改或操作。

Hadoop的服务器及开放服务数量所导致的运维风险

Hadoop整个集群中会包括少则几十台、多则成百上千台服务器，这么多服务器中的账号需要一套标准化的方法进行管理。而现实情况中，运维人员往往会使用同一个账号来管理集群中的服务器，或者集群开放了未配置恰当访问控制的服务端口如Spark默认的端口8088、19888、18088等。2020年曾有一家广告公司的DMP平台由于端口暴露在互联网上并未设置安全认证方式而导致数十亿条用户记录被泄露。

应对策略

大数据平台的安全技术防护，是保护其所承载处理的个人信息的根基。因此，企业在大数据平台建设过程中应平衡安全与便利性之间的关系，采取必要的、符合大数据特性的安全控制措施。安永针对大数据平台的安全技术防护思路提出如下建议：

► 建立覆盖数据全生命周期的安全防护，如数据源的认证、传输加密、数据加密存储、数据流动检测等技术。以加密为例，当需要对大数据平台中的存储数据进行静态加密时，可启用HDFS层的透明加密或者Hive/HBase/SparkSQL中的列级加密；若需要对数据传输进行加密，无论是对外提供的服务如JDBC，或内部不同服务间如HDFS、Hive的通信，均可启用SSL来进行加密。

► 引入身份认证和细粒度访问控制机制，包括用户和组件，防止数据的未授权访问。以Hadoop为例，集群应启用Kerberos服务，保证用户访问集群时必须通过服务所需要的安全认证方式。同时，不同的用户对于不同级别和类型的数据，应具有细粒度的访问权限控制，如通过Ranger进行权限管控。

► 从被动防御向主动检测转变，提前识别数据泄露风险。利用用户行为日志，如权限管理、数据使用、操作行为等多维度的审计日志，结合业务使用场景制定规则，对异常行为进行分析与监控，主动发现数据泄露的隐患点，及时采取补救措施。

► 保证大数据平台基础设施安全，如针对主流平台建立基本安全配置基线，配合自动检查任务，确保所有组件的配置项符合基线要求等。

五）运营持续合规：嵌入式的个人信息保护运营能力

大数据平台在企业中扮演着越来越重要的角色，其定位不再仅限于数据开发人员，主要业务部门还包括了风控团队、市场营销团队、会员团队、数字化团队等。随着数据类型的增加、业务场景的复杂化，诸多问题会逐渐凸显出来。比如：

► 数据所有者不明朗：在很多应用场景下，数据所有权不清晰，可能导致数据处理、分享活动授权混乱，若出现问题无法定责；

► 数据流不清晰：若前期未制定规范的数据导入和导出流程，并及时对数据进行记录与发现，可能导致大数据平台运行一段时间后，无人知晓大数据平台中所存储数据的类型，以及对接的上下游数据流动情况；

► 数据滥用风险增长：随着业务发展的加速，数据挖掘、分析建模会逐步深入，若未能对大数据平台中的数据处理活动进行风险评估和记录，可能导致个人信息被滥用，并对个人权益造成负面影响。

应对策略

如本系列第二篇《主动进取，审慎经营|《个人信息保护法》发布解读之（二）企业能力构建》中所述，个人信息保护是一项在企业范围内具有影响的工作，涉及多个职能、组织和角色。对于大数据平台的个人信息保护来说尤为如此。

个人信息保护流程应嵌入至企业数据管理的全生命周期中。不论是在元数据管理、主数据管理、数据质量管理等数据治理工作中，还是数据引入、数据分析处理、数据外发需求处理过程，亦或是在数据服务团队进行需求实现、分析建模过程，都需要隐私团队、安全团队、数字化团队、业务团队等各团队在各司其职的同时进行相互配合，将个人信息保护融入大数据的日常运营流程中，进而覆盖管控节点，形成有效的二道防线。

图4：数据安全合规运营应嵌入至日常数据运营操作流程中

大数据为个人信息保护带来的机遇

大数据技术在为个人信息保护带来诸多挑战的同时，也带来了许多机遇。大数据平台往往含有企业大部分重要的个人信息，是个天然的“企业个人信息中枢”，助力企业个人信息保护工作的落地实施。如：

►用于数据清册与数据血缘。企业可以通过可视化手段，了解企业不同渠道的个人信息血缘关系，并形成近乎实时的个人信息数据清册，直观了解企业个人信息收集情况。

► 用于实现数据主体权利。企业可以利用大数据平台作为核心系统辅助实现个人信息主体权利。如当用户索取一份副本或查询自己的个人信息时，企业不必在多个系统内“奔波”，而是通过大数据平台采用标准模板，进行“一站式”服务，快速响应个人信息主体请求。

►用于作为个人信息统一出口。企业可以将大数据平台作为统一的个人信息外发出口，而不是让不同应用系统中的个人信息随意下载和流动而难以管控，有利于提高数据流动的透明性，并增强对于数据传输的监控与审计。

此外，大数据技术的应用也不仅限于业务使用，在审计、风险监控等方面也有着诸多应用。随着《个人信息保护法》和《数据安全法》的出台与生效，相信企业数据安全、隐私保护相关的内控工作要求也会逐步上升，大数据技术将可以协助企业进行更加智能、有效的审计与控制。

小结

《个人信息保护法》为大数据带来了极大的挑战，大数据中的个人信息保护不仅关乎合规，更关乎着客户对企业的信任。企业应当视挑战为机遇，将个人信息保护打造成为企业大数据应用中的内生能力和核心价值，使其为企业赋能的同时帮助企业与客户间建立信赖。

不论是大数据系统还是其他产品，企业该如何将个人信息保护嵌入其中，从而使其在上线伊始就做到合规、为企业赢得客户信赖？敬请期待《主动进取，审慎经营|《个人信息保护法》发布解读之（四）产品隐私设计》。

参考文献：

1） A Method for Evaluating Marketer Re-identificationRisk

本文是为提供一般信息的用途所撰写，并非旨在成为可依赖的会计、税务、法律或其他专业意见。请向您的顾问获取具体意见。返回搜狐，查看更多

责任编辑：

声明：该文观点仅代表作者本人，搜狐号系信息发布平台，搜狐仅提供信息存储空间服务。

免责声明：本网站部分文章和信息来源于互联网，本网转载出于传递更多信息和学习之目的，并不意味着赞同其观点或证实其内容的真实性。如转载稿涉及版权等问题，请立即联系管理员，我们会予以更改或删除相关文章，保证您的权利。对使用本网站信息和服务所引起的后果，本网站不作任何承诺。