人工智能时代个人信息匿名化处理进退之策
人工智能时代个人信息匿名化处理进退之策
一、数据是当前人工智能发展的关键瓶颈
1. 扩大数据供给是人工智能发展的必然趋势
2025年8月21日,国务院发布《关于深入实施“人工智能+”行动的意见》,从国家战略层面明确提出要加快推动人工智能技术创新与应用落地,加强数据供给创新。2025年12月25日,国家数据局进一步出台《关于加强数据科技创新的实施意见》,将数据要素的供给、流通与高质量利用作为支撑人工智能等前沿技术发展的关键抓手,强调要推进高质量数据供给、促进数据流通利用。
2. 制约人工智能时代数据供给的原因
然而,人工智能大语言模型的数据供给面临数据来源合法性的先天缺陷。就个人信息的数据来源而言,现行《个人信息保护法》下的“告知+同意”机制已无法适应人工智能时代的需求,究其原因有二:
其一,未能区分人工智能时代与非人工智能时代数据处理活动的差异。非人工智能时代,数据处理活动的目的是通过处理个人信息和用户画像进而向特定用户提供个性化服务,因此有必要识别并触达特定个人。而人工智能时代特别是生成式人工智能时代,数据处理活动的目的是将数据用于大模型训练进而向不特定用户提供服务,其关注点是数据的训练价值而不是利用数据识别和触达特定个人。
其二,现有的个人信息保护制度没有区分人格权保护和财产权保护,对属于人格权范畴的隐私信息和属于财产性利益的非隐私信息采用同样的人格权保护机制。除非属于同意的例外情形,如果没有获得个人信息主体同意,属于人格权范畴的隐私信息和属于财产性利益的非隐私信息都不能被合法利用。
3. 匿名化处理可能是解决人工智能时代数据供给问题的钥匙
目前对于解决人工智能时代数据供给问题的探索比较集中于如何突破现有的“告知+同意”框架,直接将人工智能场景下的个人信息收集作为同意的例外。本文则是在不突破个人信息保护基本框架的前提下,探讨如何发掘匿名化处理在数据来源合法性问题上的制度价值。本文通过比较欧盟、美国和中国匿名化和去标识化处理的监管思路和方法,提出匿名化处理或是解决人工智能时代个人信息保护和数据供给矛盾的钥匙。
二、他山之石:欧美的解法与启示
1. 欧盟:“告知+同意”机制下的“相对匿名化”尝试。
在全球数据治理体系中,欧盟的《通用数据保护条例》(GDPR)是最早也是最具影响力的制度框架之一。对于如何合法获取个人数据问题,GDPR给出了一个非常清晰的基本逻辑:要么事先获得个人数据主体的同意或适用同意豁免,[1]要么在收集前达到“匿名化”状态从而不再属于个人数据。[2]
1.1 经过假名化处理的去标识化数据不属于匿名化数据
GDPR所谓“匿名化信息”是指无法“关联”或“识别”自然人的信息。判断自然人是否可以识别,应当考虑数据控制者或其他主体所有合理可能(reasonably likely)的手段,包括识别所需的成本、时间、技术条件和技术进步等所有客观因素。
换言之,GDPR项下的匿名化状态是一种不区分主体角色、不区分主观状态,而注重客观识别性的匿名化。这意味着,即使经过“假名化处理”的数据对数据接收方来说已无法识别,只要数据收集方可以识别,该数据就仍属于个人数据。因此,如果没有获得同意,从源头上数据收集方就不能向数据接收方提供假名化数据,数据接收方也不能单独或结合其他数据接收方的假名化数据识别个人。
1.2 数据接收方视角的“相对匿名化”尝试与退缩
欧盟严格的匿名化标准在司法实践中曾有过短暂的松动尝试。2023年4月26日,欧盟普通法院(General Court of the EU)在SRB v. EDPS一案[3]中采用了以“数据接收方识别能力”为核心的匿名化判断标准。法院认为,站在数据接收方角度,原告SRB作为数据收集方对原始数据的假名化(pseudonymization)处理已经使数据接收方无法识别个人数据主体,因而视为达到匿名化状态不再属于个人数据,从而原告分享该假名化数据不需要告知个人数据主体并获得同意。
然而,这一从数据接收方视角判断匿名化标准的思路很快被上诉法院否定。2025年9月4日,欧盟法院(CJEU)在SRB v. EDPS案的上诉案件EDPS v. Single Resolution Board案[4]中明确:首先,假名化这个概念本身就意味着存在额外信息可以识别个人,而这些信息的存在决定了假名化数据不能被视为匿名化数据。其次,数据是否可识别应以数据控制者收集数据时的识别能力判断。即使数据接收方无法凭借假名化数据加以识别,只要数据控制者在收集时可以识别个人数据主体,该去标识化后的假名化数据就仍属于个人数据,数据控制者向第三方提供假名化数据就仍需要告知个人数据主体并获得同意。至此,在匿名化标准问题上,欧盟从数据接收方无法识别的“相对匿名化”尝试,退回到了以数据控制者在数据收集时的识别能力为判断标准的“绝对匿名化”。
2. 美国:“宽进严出”的数据收集和流通机制
2.1 通过现有的行政、合同、侵权法体系而非专门个人信息保护立法实现对个人信息的保护
作为判例法国家,美国没有统一的专门性个人信息保护成文法,其个人信息保护立法主要由联邦行业性规范与州专门立法共同构成。在联邦层面,有《健康保险可携性和责任法案》(HIPAA)、《金融服务现代化法案》(GLBA)、《儿童在线隐私保护法》(COPPA)等行业性、特别性规范,以及《联邦贸易委员会法案》(FTC Act)确立的“禁止不公平或欺骗性商业行为”一般性规范[5];在州层面,并不是每个州都有个人信息保护专门性立法,比较成熟的有《加州隐私权法》(CPRA)、《加州消费者隐私法》(CCPA)、《弗吉尼亚州消费者数据保护法》(VCDPA)等。在判例法、成文法、联邦法、州法交织的法律体系下,美国没有像欧盟采取专门立法而是通过既有法律体系解决个人信息保护问题。
2.2 “禁止不公平或欺骗性商业行为”前提下宽松的“告知+选择权”机制
传统上,美国以“告知+选择权”(Notice + Choice)模式作为个人信息保护的核心框架。企业通过隐私政策等方式告知消费者个人信息收集、使用及共享的情况,并在此基础上给予消费者是否接受隐私政策的选择权,包括“选择退出”(opt-out)和“选择加入”(opt-in)两种模式[6]。前者意味着,除非明示反对,消费者被默认同意企业收集其个人信息;后者类似于GDPR的事前同意,企业仅在消费者明示同意后才能收集其个人信息。
除非有特殊情形,立法默认“选择退出”模式。以《加州隐私权法》(CPRA)为例,企业主要承担告知义务,仅需通过隐私政策等方式向消费者披露收集个人信息的类别、目的以及信息共享情况,便可收集消费者个人信息[7],除非消费者行使选择退出权(opt-out)[8]。仅在特殊情形下,事前同意(opt-in)被作为额外保护机制引入,例如收集敏感个人信息或16周岁以下未成年人信息[9]。
尽管美国个人信息保护法律体系在数据收集环节一般并不要求获得同意,但根据《联邦贸易委员会法案》第5条,企业的数据处理活动受限于一般性的“禁止不公平或欺骗性商业行为”义务。企业如果没有适当履行告知义务、没有按告知的内容和方式处理数据、没有按规定依法获得同意、没有履行“去标识化”义务和“不得识别”承诺,都可能构成“不公平或欺骗性商业行为”。
2.3 企业的“去标识化”义务和“不得识别”承诺
美国联邦法和州法没有使用“匿名化”概念,而是要求企业履行“去标识化”义务,使数据无法合理关联或识别到个人。《美国联邦贸易委员会报告》提到,若企业满足以下三项要求,即可认定数据无法“合理关联”(reasonably linkable)到特定消费者或设备:(1)采取合理措施确保数据已去标识化(de-identified);(2)公开承诺将以去标识化方式保有和使用数据,并承诺不会对数据进行识别尝试;(3)通过合同禁止第三方对数据进行识别尝试。[10]
对于何为“去标识化”,《加州隐私权法》规定,不能合理推导出或关联到特定消费者的信息即达到“去标识化”状态,前提是掌握该信息的企业达到以下三项要求:(1)采取合理措施确保信息不能与消费者或家庭关联;(2)公开承诺以去标识化方式保有和使用信息,并且不得尝试对信息进行识别,除非只是为了判定其去标识化处理是否满足本条规定要求而对信息进行的识别;(3)通过合同要求数据接收方遵守本条所有规定。
从上述规定可以看出,美国法下的去标识化数据并非技术上无法识别,而是数据收集方承诺不会尝试识别,是一种依赖数据收集方自我约束的“相对匿名化”状态。而欧盟法下的“匿名化信息”是指数据收集方在合理条件下无法合理关联或识别个人的客观状态,并不依赖数据收集方的自我约束,是既无法识别、也无法尝试识别的“绝对匿名化”状态。可见,受限于“禁止不公平或欺骗性商业行为”义务,美国法下的数据收集方在满足去标识化和不尝试识别(包括通过合同要求第三方不尝试识别)的条件下,可以保有和利用具有潜在识别能力的数据,因而契合人工智能时代的数据供给需求。
2.4 严厉的法律后果确保企业恪守“不得识别”承诺
美国数据收集环节的“低门槛”并不意味着宽松监管,而是将监管重点放在“事后问责”。一旦企业的数据处理活动与其承诺不符,或存在误导或不公平情形,FTC会通过“和解令”(Consent Order)实施强制性救济,包括删除违规收集的数据、禁止继续使用相关信息,甚至要求企业删除基于这些信息训练出的算法模型。这种要求企业“清除模型及其派生成果”(algorithmic disgorgement)的严厉处罚,已在Everalbum案[11]中得到适用。鉴于严厉的事后监管措施,企业在宽松的个人信息收集机制下会主动恪守“去标识化”义务和“不得识别”承诺。
2.5 过失侵权责任机制为企业履行“去标识化”义务和恪守“不得识别”承诺提供激励
在FTC执法的行政监管之外,美国还基于传统的侵权法框架以过失侵权责任机制保护个人信息。过失侵权(negligence)责任的构成要件包括义务(duty)、对义务的违反(breach)、损害(damages)和因果关系(causation)四个要件。结合《美国联邦贸易委员会报告》和《加州隐私权法》提到的三项义务,如果企业没有尽到合理注意义务导致泄露隐私,则消费者可以通过主张侵权责任寻求救济。
在过失侵权责任制度下,若企业的数据处理活动未违反法定和约定义务(duty),即使发生了损害后果,企业也不构成过失侵权(negligence)。例如,在Zappos Customer Data Security Breach Litigation[12]案中,尽管Zappos的数据泄露事件导致约2400万消费者的账户信息被泄露,但法院认为Zappos已采取加密处理用户数据等合理安全措施履行了注意义务,且消费者未能证明数据泄露造成了实质性损害,因此企业无需对数据泄露承担责任。
由于企业可以通过证明其履行了去标识化义务和恪守不得识别承诺而主张不存在过失从而不构成侵权,因此基于过失的侵权责任机制客观上起到了激励企业积极履行注意义务和恪守承诺的作用。
三、中国对人工智能时代个人信息匿名化处理的突破尝试
1. “告知+同意”机制下“匿名化处理”的制度价值
在如何合法获取大模型训练数据这一问题上,中国同样面临与欧盟类似的制度约束,但在既有法律框架下形成了不同的实践回应。在当前的《个人信息保护法》下,凡属于个人信息的数据,包括去标识化后与其他数据相结合可以识别个人的数据,都应当在收集前取得个人信息主体同意。只有在数据收集前已达到匿名化状态从而不属于个人信息的情况下[13],方可不经同意收集。
显然,目前中国的匿名化处理存在概念模糊、门槛过高的问题。作为《个人信息保护法》制度设计的一部分,匿名化处理在人工智能时代的数据处理活动中应当进一步发挥其制度价值。中国已在行政法规和国家标准层面就匿名化处理的作用、范围、方法等方面开展有益尝试,但还需要探索一系列配套措施方可以进一步释放匿名化处理的合规价值和技术价值。
2. 《网络数据安全管理条例》意味着可以通过事后“匿名化处理”合法化事前未经同意的个人信息收集,体现了匿名化处理的合规价值
2025年1月1日生效的《网络数据安全管理条例》第24条规定:“因使用自动化采集技术等无法避免采集到非必要个人信息或者未依法取得个人同意的个人信息,以及个人注销账号的,网络数据处理者应当删除个人信息或者进行匿名化处理。”该条规定承认了一个现实:在大规模、无差别、系统性自动化数据收集场景中,存在“无法避免采集到非必要个人信息、未依法取得同意或因个人注销账号而无法合理取得同意的个人信息”的情形。
此时,企业可以通过事后删除或匿名化处理,在未取得个人同意的情况下先行收集、处理个人信息。与《个人信息保护法》下未经同意或未达到匿名化状态不得收集相比,《网络数据安全管理条例》意味着数据收集方可以通过事后匿名化处理合法化事前未经同意的个人信息收集活动,体现了匿名化处理在人工智能时代数据收集场景的合规价值。需要注意的是,《网络数据安全管理条例》并没有交代匿名化处理的含义、标准和方法。
3. 《匿名化处理指南》尝试引入数据接收方视角的“相对匿名化”标准,提供了降低隐私泄露风险的匿名化处理方法,体现了匿名化处理的技术价值
2025年8月27日发布的《数据安全技术 个人信息匿名化处理指南及评价方法(征求意见稿)》(“《匿名化处理指南》”),在技术规范层面对匿名化的判断标准作出了细化。《匿名化处理指南》第4.1条“目标要求”规定:“匿名化结果同时满足下列两项要求:(1)无法识别:在数据接收方限定场景与设定环境风险下,结果数据不可识别特定自然人;(2)不能复原:在合理可得的技术与资源下,结果数据不能被恢复为原始个人信息。”
《匿名化处理指南》引入了数据接收方视角,没有提及数据收集方视角,是一种相对匿名化处理。相对匿名化处理不能等同于《网络数据安全管理条例》和《个人信息保护法》项下的匿名化处理,无法完全解决合规问题。但是,不论个人信息收集是否合规,相对匿名化处理均有助于降低隐私泄露风险,更接近于美国法下的去标识化处理,其实质是通过技术手段防止造成侵权损害后果。
4. 细化行政处罚裁量基准,为企业履行注意义务提供激励
2025年8月1日生效的国家互联网信息办公室《网信部门行政处罚裁量权基准适用规定》第十四条规定:网信部门适用行政处罚裁量权基准,判断违法行为性质、情节以及社会危害程度等,应当综合考量多项因素,其中包括:(一)违法行为的具体方法或者手段,当事人实施违法行为的主观过错程度;(二)违法行为的持续时间、发生次数,违法行为造成的社会影响、危害后果。
就个人信息处理而言,如果数据收集方采取了合理措施,比如,将匿名化处理后的数据与原始数据相互隔离,仅将匿名化处理后的数据用于大模型训练,通过技术手段或制度约束限制识别尝试,要求数据接收方不得尝试识别匿名化处理后的数据等措施,客观上会起到降低甚至排除数据泄露风险的作用,主观上也有利于降低过错程度。因此,即便未达到《个人信息保护法》下的匿名化状态,数据收集方仍可以轻微的主观过错和较小的损害后果请求从轻、减轻甚至不予处罚。
四、合规启示
在我国现行个人信息保护框架下,应根据数据收集方和数据接收方的角色,区分合规风险和侵权风险,建立精细化、多层次的数据合规体系:
1. 增设人工智能场景下个人信息处理活动的“告知+同意”机制
从合规角度来说,“告知+同意”仍然是人工智能场景下个人信息处理活动的基础性合规措施。企业在数据收集环节,不论是电商、外卖、出行、游戏、社交、支付或整个集团生态内,应当在隐私政策中告知人工智能场景下个人信息处理活动的范围、目的、用途、方法及共享情况,并获得个人信息主体的同意。同时,企业应提供便利的选择退出权或撤回同意的路径。如涉及向第三方分享个人信息用于大模型训练,还应获得个人信息主体的单独同意。
2. 通过事后删除或匿名化处理合法化事前未经同意的个人信息收集活动
如采集数据时不可避免地收集到个人信息,企业则应当执行严格的事后删除或匿名化处理,以合法化事前未经同意的个人信息收集活动。需要注意的是,企业以事后匿名化处理来合法化事前未经同意的个人信息收集活动,需满足“因使用自动化采集技术等无法避免采集到非必要个人信息”的条件。也就是说,除非采集的数据已经是匿名化数据,否则试图将事后匿名化处理作为事前收集个人信息的合规手段有严格的适用条件限制。
3. 做好数据收集环节的数据清洗,降低合规风险和隐私泄露带来的侵权风险
如无法合理删除个人信息,则应对数据进行去标识化清洗,确保数据收集方在合理技术条件、资源以及制度约束下无法识别和复原数据,努力达到客观的匿名化状态。数据收集方应在数据参与大模型训练之前进行去标识化清洗,从源头上避免含有个人隐私信息的数据参与大模型训练,避免大模型输出或在诱导式提问下泄露个人隐私。如向第三方提供数据,则应确保清洗后的数据对该数据接收方而言无法识别或复原。
4. 做好数据收集方内部的数据隔离,加强不得识别或复原的自我限制
在公司内部或集团内部,设立专门的数据收集部门或公司,将数据采集与大模型训练在主体、组织、流程、技术上严格分离。前端的数据部门或公司负责数据采集与数据清洗;后端的算法团队仅接收清洗后的结果数据进行大模型训练。
在集团各公司之间、公司部门之间、数据收集部门内部,通过访问权限、业务流程、数据分类、数据分别存放、数据加密等组织或技术措施,限制组织内部的识别和复原能力以及识别和复原尝试。
5. 做好数据收集方与数据接收方之间的风险隔离,限制数据接收方、数据接收方之间以及用户的识别尝试
数据收集方除了限制自身的识别、复原尝试,还需要通过合同限制数据接收方的识别、复原尝试。后者不得对结果数据进行单独的或结合其他数据(比如其他数据接收方的结果数据)尝试识别或复原。
对于大模型训练企业而言,为避免数据收集环节的合规风险,企业可以通过外部采购方式获得达到相对匿名化状态的结果数据,实现合规风险外移。
提供大模型服务的企业还应当通过《用户服务协议》和技术手段,限制用户的识别尝试,对试图窥探隐私的诱导式提问设置拒答和后台告警机制。
五、结语
匿名化处理对于解决人工智能时代的数据供给问题具有巨大制度价值。匿名化处理不应只包括将个人信息清洗到客观上完全无法识别的状态,也应包括虽然客观上仍有一定可识别性、但由于数据收集方的自我约束达到的主观上无法识别的状态。但是,数据收集方应采取去标识化以及其他组织、技术措施限制其自身或第三方的识别能力和尝试;同时,辅之以严厉的法律后果和制度激励,促使数据收集方的自我约束落到实处,从而达到可信的无法识别状态。通过一整套“组合拳”,匿名化处理既可以保护隐私,又可以打通数据供给瓶颈促进数据流通。
[注]
[1] GDPR Art. 4 (1).
[2] GDPR Recital 26.
[3] SRB v. EDPS, Case T-557/20, General Court of the European Union, 26 April 2023.
[4] EDPS v. Single Resolution Board, Case C-413/23 P, Court of Justice of the European Union, 4 September 2025.
[5] 15 U.S.C. §45(a)(1).
[6] Christopher G. Bradley, Privacy for Sale: The Law of Transactions in Consumers’ Private Data, 40 Yale Journal on Regulation 127, 140 (2023).
[7] Cal. Civ. Code §1798.100(a) (2025).
[8] Cal. Civ. Code §1798.120(a) (2025).
[9] Cal. Civ. Code §1798.120(c) (2025).
[10]Federal Trade Commission, Protecting Consumer Privacy in an Era of Rapid Change 21(2012).
[11] In the Matter of Everalbum, Inc., File No. 1923172 (FTC 11 January 2021).
[12] In re Zappos.com, Inc. Customer Data Security Breach Litigation, 884 F.3d 893, 897 (9th Cir. 2018).
[13] 《中华人民共和国个人信息保护法》第四条:个人信息是以电子或者其他方式记录的与已识别或者可识别的自然人有关的各种信息,不包括匿名化处理后的信息。