AI公司出海系列(二):不可忽视的重点欧盟数据合规挑战
AI公司出海系列(二):不可忽视的重点欧盟数据合规挑战
在AI公司出海系列文章的第一篇,笔者分析并梳理了欧盟AI法案规制脉络及五大关键要点(具体请见《AI公司出海系列(一) : 欧盟AI法案规制脉络及五大关键要点》)。在针对AI部署体系化监管的同时,欧盟监管机构对于AI研发与投放中必然会遇到的数据合规问题也保持了充分的关注,发布了一系列的框架性的咨询性文件、指南、指引等指导性文件,并积极开展了很多讨论与研究工作。与此同时,欧盟已经开始出现针对AI大模型训练及应用场景的数据合规领域的举报和监管案例。这些活跃的立法和执法动态,都在提醒有出海欧洲计划的大模型公司需要重视欧盟在数据合规方面的要求,采取妥善方案应对相关挑战。
总体来说,AI大模型企业出海由于特殊的业务模式和强监管的实际情况,所面临的数据合规要求落地比此前更为复杂,与此同时,出海欧洲的大模型公司要想在数据合规风险把控方面获得较高的确定性,也存在一定困难。这一方面是因为AI技术及应用场景的广泛且变化很快,业界实践在一定程度上领先于监管实践;另一方面,因为AI技术本身的特点及其在大模型训练中对于海量公开信息或者已有业务数据的应用,个人信息主体权益保护等问题的实践较为困难,各个公司的实践做法并不统一,且相关合规解决方案是否能有效解决风险也有待观察和讨论。
尽管如此,欧盟层面及各成员国的数据监管机构近期都在积极探索人工智能领域的数据合规问题。EDPB、EDPS、CNIL等均已出台指南和/或指引,例如《人工智能审计:人工智能审计清单》(Al Auditing:Checklist for Al Auditing)《基于大语言模型的聊天机器人使用清单》(Checklist for the use of LLM-based chatbots)等,EDPS发布的《关于生成式人工智能的数据合规指南》(Generative AI and the EUDPR: First EDPS Orientations for ensuring data protection compliance when using Generative AI systems)虽主要面向欧盟公共机构,但也仍非常具有参考价值。
本文将结合近期出台的重要指引以及数据保护机构公开的调查报告等,回顾GDPR树立的数据保护要求与基石,结合其他相关法律法规及AI大模型由于其技术与业态遇到的新挑战,梳理AI公司出海欧盟需要重点关注的5方面数据合规问题,帮助AI公司在不确定性中尽量找到确定性,有效管控出海过程中可能遇到的数据合规风险和挑战。
一、使用个人信息开展AI大模型开发、训练及迭代优化的合法性基础问题
一般互联网平台收集使用个人信息主要在提供服务的界面(例如:注册登录、下单购买等),AI大模型则在其提供服务和优化链条的每一环都基本需要采集大量的数据,且来源是多样和不同的,这给AI大模型如何有效为每一环节、每一流向的数据采集建立坚实的合法性基础带来了不少挑战。探讨这一话题则不可避免需再次回顾欧盟《通用数据保护条例》(下称“GDPR”)第6条中所明确6大合法性基础,包括但不限于获得个人信息主体的同意(consent),基于合法利益(legitimate interest),基于公共利益(public interest),履行法定义务所必需(legal obligation)等。在上述合法性基础中,对于一般商业化的AI公司而言,获得个人信息同意和基于合法利益则是最可能适用也是最相关的合法性基础:
(1)将个人信息主体同意作为合法性基础
获得个人信息主体同意是出海欧盟的企业最熟悉的合规基本功课之一了,但放到现在AI大模型业态中,仍需重新强调。企业不仅需首先梳理哪些场景适用这一合法性基础,还需考虑新的业态如何符合GDPR项下的对于有效同意精细的要求,尤其是如何充分告知。依据GDPR及EDPB的相关指引,企业如需获得有效同意,那么需同时满足4大关键要素:
a)个人信息控制者充分告知了个人信息主体;
b)个人信息主体做出的同意是明确的;
c)个人信息主体的同意是针对具体数据处理目的所做出的;
d)个人信息主体的授权同意是在自由的情况下做出的,没有受到不当的影响(例如:雇主与雇员之前通常认为存在不平等的话语权,从而存在不当影响)。
(2)将合法利益作为合法性基础
在很多情况下,个人信息控制者很难获得GDPR所要求的有效同意,例如,在数据开发阶段使用网络爬取的个人信息、使用其他业务条线中已掌握的个人信息等。如AI公司不能够做到匿名化此类数据或者大模型的开发确实需要非匿名化的个人信息,那么则需考虑其他合法性基础,而实践中我们注意到被AI公司援引最多的则是合法性基础,即为了满足个人信息控制者或者其他第三方的合法利益。
对于大部分的AI公司而言,将合法利益作为无法获得同意之外的合法性基础似乎是最佳方案,但欧盟本身对于是否确实有合法利益的审查是非常审慎的。欧盟法院(CJEU)在过往案件的审理中已建立成熟的“三阶层”审查机制,合法利益在实践中也频频遭遇挑战。例如,在数字权利非政府组织Noyb向欧盟11个数据保护监管机构发起的对Meta AI的投诉中,就将Meta AI使用合法利益作为收集处理用户数据的合法性基础作为违法行为之一[1]。就这一问题的详细分析,我们将在本系列的后续文章中,结合更多AI公司的实际做法来进行解读。
不得不提示的是,如涉及收集处理敏感个人信息,还需注意,敏感个人信息的处理是原则上被禁止的,除非满足GDPR所明确的例外情况。
二、如何落实数据准确性原则?数据标注如何开展?
数据准确性原则是GDPR的基石性原则,要求所梳理的数据应是准确、最新的。这一原则在AI大模型使用大量数据进行训练这一特点之下显得尤为重要,与AI大模型的准确性及欧盟AI法案中重点提及的数据质量要求息息相关。在实践中,AI大模型开发者主要通过标注来确保所使用数据的准确性,标注的具体标准既要考虑业务与技术需要,也需控制操作的可实践性,而标注的开展既可能使用自动化工具,也可能通过人工标注来实现。由此可见,在通过管理数据标注的要求确保数据准确性的过程中需关注较为综合的风险来源。
CNIL在其发布的《AI系统开发的数据保护指南》系列文件中专门提及了所建议的确保标注质量的一些措施,可作为有益参考。具体可以分为以下两方面:
(1)建立体系化的标注流程与标准
体系化的标注流程可以理解为标准全生命周期标准化管理,包括最为核心的标注标准的建立,标注人员数据访问权限的设置,人工干预和调整的机制,标注验证和核查的流程,标注操作日志等记录文件的保存与追踪等。
(2)引入论理委员会进行综合评估与督导
CNIL建议,作为良好实践,可以组织建立由多学科背景专家成立的伦理委员会,由伦理委员会参与标注标准的建立与实施,并加入决策数据标注与处理方案的过程。
结合目前中国AI大模型开发的实践,我们理解很多数据标注工作的开展也通过外包给第三方供应商来实现更好的成本控制。如通过外包的方式进行数据标注,那么在实践中,实际上开发者还应该注意采取足够的合同约束和技术安全保障措施,确保第三方供应商能够充分实践标注流程与标准,同时也确保第三方人员访问和操作时不会造成重大的数据安全事件。结合数据安全保护的实战经验,这类措施可能包括建立单独的操作网络和/或物理空间、对于关键人员进行背调、签订保密协议等。如果第三方位于境外,还需重点关注数据跨境传输的要求。
三、在使用个人信息开展AI大模型开发、训练等过程中,何时及如何开展DPIA?
数据保护影响评估(Data Protection Impact Assessment, 简称“DPIA”)是GDPR所明确的一项专项合规机制,要求数据控制者在特定场景下对数据处理活动进行评估,并制定风险缓释措施(如需),衡量及控制对于个人信息的风险。结合GDPR第35条的规定,欧盟在关于DPIA的指南[2]中进一步细化了需要开展DPIA的场景。EDPB指出,数据处理活动如果满足以下两个因素及以上,就应开展DPIA:
(1)开展对于个人信息主体有法律影响或类似显著影响的自动化决策;
(2)进行评估或打分活动,包括但不限于用户画像等;
(3)进行体系化监控;
(4)收集敏感数据或高度个人化的数据;
(5)大规模收集个人数据;
(6)收集弱势群体(例如未成年人)的个人数据;
(7)交叉或组合数据集;
(8)创新使用或应用新技术或解决方案;
(9)数据处理活动可能会影响个人信息主体行权或使用相关服务或履行相关合同。
AI大模型的开发、优化流程可能涉及上述的多个因素,特别是第5项、第7项、第8项,如果AI大模型所对应的产品涉及未成年人等特定人群服务,还大概率落入上述第4项所描述的范畴,因此大概率需要开展DPIA。
就DPIA的具体开展而言,GDPR并没有提供固定的方法论,而是提倡应依据具体的场景来开展风险评估,并采取措施缓释风险。企业在开展DPIA时可寻求专业机构的协助。如在此前的业务经营中已开发了成熟的DPIA流程与评估模板,仍应结合AI大模型的具体场景进行评估要素的优化与调整。
尽管从发生风险的可能性而言,DPIA的缺失并不容易查知,但DPIA是GDPR所构建的合规体系中一项重要的工具。此外,在执法实践中,我们也注意到,企业如被调查,发生违规事件和/或数据安全事件,欧盟的数据保护监管机构会将企业是否开展过事前的DPIA作为一个检查项进行考虑。例如,瑞典数据保护机构(IMY)在2023年11月对厄斯特松德市儿童和教育委员会做出的处罚中特别强调,委员会在未事前开展DPIA的情况下就将Google Workspace集成至自己的系统,导致对于儿童的个人信息主体权益造成很大的潜在风险,违反了GDPR第35条第(1)款,对其处以约20万人民币的罚款。除此之外,西班牙、希腊、荷兰、意大利等多国都有将企业未开展DPIA作为处罚原因的案例。AI产品和服务目前是欧盟监管的重点与热点,中国企业出海也特别容易受到关注,因此,DPIA不仅是一项内功,更是企业应当搭建的合规盾牌,这也是本文特别提及这一较为基础的GDPR要求的原因。
四、个人信息主体权利如何保护?
依据GDPR,个人信息主体享有访问权、更正权、删除权、限制处理权、数据可携带权、反对权和撤回同意权。本身权利及响应路径等的要求已较为成熟,但理论上而言,AI企业用于大模型训练的数据池中所涵盖的个人信息实际上也需要考虑所对应个人信息主体行权的要求,但这一业务场景下的具体实践则显得比较困难。就这一问题,CNIL在其发布的指引(征求意见稿)中有所讨论,并指出如果数据控制者确实能够识别训练所用数据池所含个人信息所对应的个人,那么应回应其行权请求。就一些重点权利的实现而言,我们结合目前出台的指引(包括征求意见稿),提炼出了AI企业针对个人信息主体提出的访问权、删除权及数据可携带权应建立的响应机制要求。因篇幅所限,在此暂不展开。
总体来说,GDPR中个人信息主体权利保护的相关机制,对于数据控制者而言提出了非常高的要求,具体实践中的尺度如何把握也暂不明朗。但不可不提的是,GDPR也设置了一些数据控制者可不响应请求的豁免,包括但不限于:
(1)数据控制者无法识别数据主体的情况;
(2)依据GDPR第12条,行权请求是毫无根据或过度的,
(3)接收请求的机构不是有关处理的数据控制者;
(4)请求是不被欧盟法律和/或成员国法律所允许的;
(5)……
当然,在这种情况下,数据控制者也应通知个人,告知其权利受到限制,并解释拒绝行使权利请求的理由。
五、个人信息跨境传输合规问题如何解决?
GDPR所树立的数据跨境传输要求是全球数据跨境传输监管框架的蓝本之一,也是执法最为活跃和深入的一项要求。对于出海的企业而言,由于算力中心和/或研发团队大概率位于中国,不可避免可能会产生数据跨境传输的问题。中国企业涉及将欧盟境内所收集的个人信息传输至境内的场景可能包括但不限于:
(1)使用欧盟居民的数据进行大模型训练以开发出更适合欧盟用户的产品和/或服务,但服务器等设施位于欧盟境外;
(2)使用欧盟境外团队进行数据标注、结果矫正、AI大模型迭代等工作;
(3)客服等团队位于欧盟境外;
(4)……
相较于其他行业而言,GDPR对于应用AIGC的行业和经营场景下跨境传输数据的行为所提出的合规要求并没有实质性变化,因此我们在此不再赘述。但如上所述,对于AI企业而言,数据跨境传输的场景相较于传统的互联网企业而言更为多样和广泛。因此,企业需要依据自身出海的情况准确识别涉及的业务场景,确保所采取的合规措施能够较为全面地覆盖,避免因跨境问题导致大额处罚或对于业务有颠覆性的调查等情况。
总结
整体而言,我们结合业务形态及监管态势,为AI出海企业梳理和总结了应重点关注的要求,举要治繁,纲举目张,避免企业产生红线性风险。上文结合业务模式对于重点关注合规要求所进行的延伸分析与合规措施,希望能为AI企业出海部署成本可控、可操作的合规方案提供有益参考。在本系列的后续文章中,我们将结合实际案例,探讨AI出海的具体实务场景所面临的一些高频问题,例如隐私政策的设置策略、标注问题等等。
[注]
[1] https://noyb.eu/en/noyb-urges-11-dpas-immediately-stop-metas-abuse-personal-data-ai
[2] Guidelines on Data Protection Impact Assessment (DPIA) and determining whether processing is “likely to result in a high risk” for the purposes of Regulation 2016/679