生成式AI的全链条数据合规要点及其风险防范
生成式AI的全链条数据合规要点及其风险防范
引 言
2025年1月,杭州深度求索公司发布的DeepSeek-R1模型在全球范围内引发广泛关注,其应用在短时间内登顶多国应用商店下载排行榜,表明我国生成式AI技术已具备国际竞争力。然而,技术的快速发展也带来了相应的数据合规挑战。从训练数据的来源合法性到生成内容的权利归属,从个人信息保护到跨境数据流动,生成式AI的全生命周期都面临着复杂的合规风险。
近年来,我国已初步建立起以《中华人民共和国网络安全法》(以下简称《网络安全法》)《中华人民共和国数据安全法》(以下简称《数据安全法》)《中华人民共和国个人信息保护法》(以下简称《个人信息保护法》)为基础,以《生成式人工智能服务管理暂行办法》为核心的人工智能监管法律框架。与此同时,欧盟《通用数据保护条例》(GDPR)等域外法规也对我国AI服务提供者的国际化发展产生了重要影响。在这种背景下,构建完善的全链条数据合规体系已成为生成式AI服务提供者可持续发展的必然要求。
本文旨在通过对现行法律法规 、监管政策的梳理,分析生成式AI在数据合规方面面临的主要挑战,并提出相应的风险防范策略,为相关企业的数据合规提供参考。
一、生成式AI数据合规的法律框架
我国已构建了相对完善的数据合规法律体系,为生成式AI的合规发展提供了制度保障。这一体系以《网络安全法》《数据安全法》《个人信息保护法》三部基础性法律为核心,辅之以各类细化规定及国家标准,形成了多层次、全方位的监管框架。
其中,《网络安全法》确立了网络运营者的安全义务,要求其采取技术措施保障网络安全和数据安全。《数据安全法》建立了数据分级保护制度,明确了数据处理者的数据安全保护义务。《个人信息保护法》则从个人信息处理的全生命周期出发,规定了告知同意、最小必要等基本原则。这些法律共同构成了生成式AI数据合规的基础性规范。
而《生成式人工智能服务管理暂行办法》作为专门针对生成式AI的监管规定,确立了“包容审慎、分类分级”的监管原则。该办法从数据来源、内容生成、用户权益保护等多个维度构建了完整的合规框架。
二、生成式AI全生命周期所涉及的数据合规及规制
(一)数据收集合规
生成式AI技术的应用,以收集数据并进行加工、训练、处理为前提,因此数据来源的合法性是整个合规链条的基础。根据《生成式人工智能服务管理暂行办法》第七条的规定,生成式AI服务提供者必须使用具有合法来源的数据和基础模型,这一要求在实践中需从两个维度确保合规:1. 所获取数据的类型;2. 数据的获取方式。
1. 所获取数据的类型
在生成式人工智能数据治理框架下,数据类型的差异直接决定了差异化的合规义务体系。
首先,针对个人信息,处理个人信息需具备《个人信息保护法》第十三条规定的合法性基础。若以“取得个人同意”作为合法性基础,则需依据《个人信息保护法》第十七条规定,向个人告知信息处理者名称/姓名及联系方式、信息处理目的与方式、处理的信息种类、保存期限等事项。《生成式人工智能服务管理暂行办法》第七条进一步明确,服务提供者处理训练数据时若涉及个人信息,须依法取得个人同意或符合其他法定情形,同时应当遵循《网络安全法》《数据安全法》《个人信息保护法》中的相关要求,并采取严格的安全保护措施。
其次,针对敏感个人信息,法律设置了更为严格的合规门槛。根据《个人信息保护法》第二十八条、第二十九条规定,个人信息处理者仅在“具有特定目的、充分必要性且采取严格保护措施”的前提下,方可处理敏感个人信息;且处理时需取得用户单独同意,并满足法律法规对敏感信息处理的其他特别要求。以换脸AI应用采集人脸信息为例,若企业需将人脸信息作为AI模型训练的必要参数,需向用户作出特别告知并取得其单独授权同意。
再次,在重要数据和核心数据的处理方面,企业应依据《数据安全法》及相关行业规定,开展数据安全风险评估,并实施与其重要程度相适应的特殊保护措施。
此外,公共数据的开发利用为生成式AI训练提供了重要来源,但其使用边界仍需谨慎把握。公共数据的使用应在合法公开的范围内进行,并遵循合理使用与可追溯原则。目前,上海、重庆等多地政府已建立起一体化公共数据平台,为AI训练提供了合法的数据来源,民间公开数据也在合规前提下被广泛运用。
2. 数据获取方式合规
从数据获取方式的角度考察,不同途径对应了不同的合规要求。
在直接收集用户数据的场景下,生成式AI服务提供者需要构建完整的告知同意机制。明确告知数据收集的类型、用途及保存期限等事项,且同意的获取需区分一般个人信息与敏感个人信息,敏感个人信息需取得用户的单独同意。同时建议生成式AI服务提供者完整留存用户的授权记录,留存期限应至少覆盖数据处理的全周期。
外部采购数据作为重要的数据获取渠道,其合规重点在于供应商管理与合同约束。虽然现行法律从促进数据要素流通的角度并未禁止商业性数据采购,但《生成式人工智能服务安全基本要求》等规范文件对商业语料采购提出了明确要求,包括但不限于:需具备法律效力的交易合同或合作协议、需对交易方/合作方提供的语料、承诺及材料进行合规审核。
网络爬虫作为高效获取数据的技术手段,其合规风险需要从多个维度进行系统评估。在技术层面,爬取手段的正当性涉及是否违反网站Robots协议、是否采用技术手段绕过访问限制、是否对目标网站的正常运行造成不当影响等关键问题。在内容层面,需要重点评估所爬取数据是否包含个人信息、商业秘密或受著作权保护的内容。在使用层面,则需警惕可能产生的不正当竞争风险,包括是否构成“实质性替代”、是否违反商业道德等。因爬取行为所涉及风险较高,AI服务提供者在向外部第三方爬取相关数据时,应妥善遵守关于爬虫抓取的合规要求,避免因此产生民事责任,甚至触发行政、刑事责任。
(二)数据处理及使用合规
数据处理是生成式AI技术落地的核心环节,其合规性直接关系到用户权益保护与技术创新边界的平衡。该阶段的合规风险主要聚焦于用户授权数据的二次利用。
从法律规范层面看,《个人信息保护法》第二十三条明确规定,个人信息处理目的、处理方式发生变更的,应当重新取得个人同意。这意味着,若生成式AI服务提供者最初收集数据的目的为“即时响应用户需求”,后续拟将其用于“模型优化训练”,必须履行单独告知义务并获取新的授权。GDPR亦规定,若个人信息被用于收集之外的其他目的,数据控制者需评估“二次利用”的目的是否与初始收集目的兼容。若不兼容,则需要为新目的获取新的合法性基础。就合法性基础而言,EDPB在Opinion 28/2024中分析阐述了AI场景下“合法利益”的适用条件。若具体业务场景中需要适用“合法利益”这一合法性基础,需要严格遵守Opinion 28/2024有关意见。
二次利用的潜在风险集中于数据泄露与权益滥用。当用户数据进入训练数据库后,存在被模型“记忆”并在对其他用户的响应中被模型无意披露的风险,既可能泄露个人隐私,也可能侵犯商业秘密。正是基于此原因,国外多家知名企业要求员工谨慎使用ChatGPT等生成式AI产品。2024年4月,我国支付清算协会也发布相关倡议,要求从业人员谨慎使用此类工具,避免数据跨境泄露风险。
(三)数据内容与质量合规
在生成式AI的监管体系中,数据治理对数据内容的合法性、安全性及数据质量的规范性亦提出明确要求,而数据清洗作为保障数据内容与质量的核心手段,既是法律法规的要求,也是提升生成式AI服务质量的内在需求。
从法律层面看,《生成式人工智能服务管理暂行办法》构建了数据内容与质量管控的基础框架。其第四条明确生成式AI服务需遵循核心原则,包括禁止生成危害国家安全、传播暴力色情等违法有害内容,防范民族、性别等维度歧视,尊重知识产权与他人合法权益,并提升服务透明度及生成内容准确性。第七条则针对训练数据处理活动进行细化规定,强调数据与基础模型来源合法,保护知识产权与个人信息,同时通过有效措施提升训练数据的真实性、准确性、客观性及多样性,且需符合《网络安全法》《数据安全法》《个人信息保护法》等法律法规要求。
数据清洗的实施亦有助于生成式AI服务质量提升。在合规标准方面,《生成式人工智能服务安全基本要求》通过附录A负面清单,明确需规避的违规内容范畴(如违反核心价值观、歧视性内容、侵犯权益内容等),为企业自查纠偏提供参照。在实施路径上,建议通过“机器过滤+人工审核+投诉响应”的多元机制开展数据清洗,重点聚焦个人信息保护与知识产权领域以规避侵权风险,同时需按法规要求开展数据标注及质量评估,确保语料的准确性与安全性。
(四)数据存储合规
生成式AI的数据存储合规,核心关注点为数据存储地点与存储期限的规范性,同时需提升数据泄露风险的应对能力。在存储地点方面,企业应优先选择数据本地存储,非必要不进行跨境存储,以规避跨境存储及访问可能引发的多区域规制冲突。在存储期限方面,需依据“最小必要原则”收集并处理含个人信息在内的各类数据,并结合行业属性、数据类型及相关法律法规要求,确定数据的最短必要存储期限,避免因长期存储带来合规风险。
此外,企业还需建立数据泄露风险防控方案与应急预案,以应对生成式AI应用过程中潜在的数据安全事件。例如,ChatGPT在企业应用场景中曾多次发生数据泄露事件,此类案例为行业敲响了警钟。
(五)数据跨境合规
数据存储的地域选择进一步引出了生成式AI的数据跨境合规问题,除一般数据与个人信息跨境传输需遵循的授权同意规则外,企业还需重点警惕潜在的数据跨境风险。实践中,生成式AI运营涉及的数据跨境情形主要包括两类:一是数据出境,如境内企业将服务器部署于境外导致训练信息向境外传输,或采购、嵌入境外生成式AI产品/服务进行加工训练;二是数据入境,如境内企业使用境外语料训练自有生成式AI产品,或境外生成式AI产品将生成结果传输至境内。
当前各国均对数据出境(而非数据入境)严格规制,数据若涉及跨境传输,主要适用数据出境一方所在地的监管法律法规。例如,2025年1月28日,意大利数据监管部门收到针对DeepSeek的投诉,指控其违反欧盟及本国数据保护法规,核心问题包括:Deepseek作为共同数据控制者未在欧盟设立机构,亦未按GDPR第27条要求指定欧盟代表;其隐私政策虽表明用户数据存储于中国,但未提及标准合同条款、约束性公司规则等跨境传输保护措施,也未公开数据传输影响评估文件。同时,隐私政策在存储期限、用户权利行使方式、未成年人数据保护等方面存在信息不完整或表述模糊的问题,不符合GDPR相关条款要求。最终意大利监管部门于2025年1月30日在该地区禁用DeepSeek。
从这一案例可看出,开展跨境生成式AI服务的企业,除满足常规合规要求外,还需充分符合数据跨境传输规则,严格遵循数据出境一方所在地的监管政策,避免因跨境合规疏漏引发监管处罚。
三、结语
在生成式AI快速发展的背景下,数据作为核心生产要素,其全生命周期的合规管理已成为AI服务提供者保障业务合法运营、规避监管风险的关键。生成式AI服务提供者落实数据合规需聚焦五大核心环节:在数据来源端,按数据类型履行告知同意等合法性义务,确保语料获取渠道合规;在数据处理端,以充分授权为前提,严格限定使用范围,超出原范围时需重新获取同意;在数据质量端,通过数据清洗确保语料合法、真实;在数据存储端,强化安全保障措施与企业数据安全体系建设;在数据跨境端,先识别传输必要性与豁免情形,再依法履行出境安全评估、标准合同备案等义务,并符合境外法规要求。
这些措施相互衔接,共同推动生成式AI的数据合规建设。这不仅是企业实现稳健发展的必然选择,也能为生成式AI产业规范创新奠定基础,助力行业在合规框架下释放技术价值。