ARTICLES

专业文章

生成式AI的全链条数据合规要点及其风险防范

作者：刘新宇 2026-06-29 语音播报

引言

2025年1月，杭州深度求索公司发布的DeepSeek-R1模型在全球范围内引发广泛关注，其应用在短时间内登顶多国应用商店下载排行榜，表明我国生成式AI技术已具备国际竞争力。然而，技术的快速发展也带来了相应的数据合规挑战。从训练数据的来源合法性到生成内容的权利归属，从个人信息保护到跨境数据流动，生成式AI的全生命周期都面临着复杂的合规风险。

近年来，我国已初步建立起以《中华人民共和国网络安全法》（以下简称《网络安全法》）《中华人民共和国数据安全法》（以下简称《数据安全法》）《中华人民共和国个人信息保护法》（以下简称《个人信息保护法》）为基础，以《生成式人工智能服务管理暂行办法》为核心的人工智能监管法律框架。与此同时，欧盟《通用数据保护条例》（GDPR）等域外法规也对我国AI服务提供者的国际化发展产生了重要影响。在这种背景下，构建完善的全链条数据合规体系已成为生成式AI服务提供者可持续发展的必然要求。

本文旨在通过对现行法律法规、监管政策的梳理，分析生成式AI在数据合规方面面临的主要挑战，并提出相应的风险防范策略，为相关企业的数据合规提供参考。

一、生成式AI数据合规的法律框架

我国已构建了相对完善的数据合规法律体系，为生成式AI的合规发展提供了制度保障。这一体系以《网络安全法》《数据安全法》《个人信息保护法》三部基础性法律为核心，辅之以各类细化规定及国家标准，形成了多层次、全方位的监管框架。

其中，《网络安全法》确立了网络运营者的安全义务，要求其采取技术措施保障网络安全和数据安全。《数据安全法》建立了数据分级保护制度，明确了数据处理者的数据安全保护义务。《个人信息保护法》则从个人信息处理的全生命周期出发，规定了告知同意、最小必要等基本原则。这些法律共同构成了生成式AI数据合规的基础性规范。

而《生成式人工智能服务管理暂行办法》作为专门针对生成式AI的监管规定，确立了“包容审慎、分类分级”的监管原则。该办法从数据来源、内容生成、用户权益保护等多个维度构建了完整的合规框架。

二、生成式AI全生命周期所涉及的数据合规及规制

（一）数据收集合规

生成式AI技术的应用，以收集数据并进行加工、训练、处理为前提，因此数据来源的合法性是整个合规链条的基础。根据《生成式人工智能服务管理暂行办法》第七条的规定，生成式AI服务提供者必须使用具有合法来源的数据和基础模型，这一要求在实践中需从两个维度确保合规：1. 所获取数据的类型；2. 数据的获取方式。

1. 所获取数据的类型

在生成式人工智能数据治理框架下，数据类型的差异直接决定了差异化的合规义务体系。

首先，针对个人信息，处理个人信息需具备《个人信息保护法》第十三条规定的合法性基础。若以“取得个人同意”作为合法性基础，则需依据《个人信息保护法》第十七条规定，向个人告知信息处理者名称/姓名及联系方式、信息处理目的与方式、处理的信息种类、保存期限等事项。《生成式人工智能服务管理暂行办法》第七条进一步明确，服务提供者处理训练数据时若涉及个人信息，须依法取得个人同意或符合其他法定情形，同时应当遵循《网络安全法》《数据安全法》《个人信息保护法》中的相关要求，并采取严格的安全保护措施。

其次，针对敏感个人信息，法律设置了更为严格的合规门槛。根据《个人信息保护法》第二十八条、第二十九条规定，个人信息处理者仅在“具有特定目的、充分必要性且采取严格保护措施”的前提下，方可处理敏感个人信息；且处理时需取得用户单独同意，并满足法律法规对敏感信息处理的其他特别要求。以换脸AI应用采集人脸信息为例，若企业需将人脸信息作为AI模型训练的必要参数，需向用户作出特别告知并取得其单独授权同意。

再次，在重要数据和核心数据的处理方面，企业应依据《数据安全法》及相关行业规定，开展数据安全风险评估，并实施与其重要程度相适应的特殊保护措施。

此外，公共数据的开发利用为生成式AI训练提供了重要来源，但其使用边界仍需谨慎把握。公共数据的使用应在合法公开的范围内进行，并遵循合理使用与可追溯原则。目前，上海、重庆等多地政府已建立起一体化公共数据平台，为AI训练提供了合法的数据来源，民间公开数据也在合规前提下被广泛运用。

2. 数据获取方式合规

从数据获取方式的角度考察，不同途径对应了不同的合规要求。

在直接收集用户数据的场景下，生成式AI服务提供者需要构建完整的告知同意机制。明确告知数据收集的类型、用途及保存期限等事项，且同意的获取需区分一般个人信息与敏感个人信息，敏感个人信息需取得用户的单独同意。同时建议生成式AI服务提供者完整留存用户的授权记录，留存期限应至少覆盖数据处理的全周期。

外部采购数据作为重要的数据获取渠道，其合规重点在于供应商管理与合同约束。虽然现行法律从促进数据要素流通的角度并未禁止商业性数据采购，但《生成式人工智能服务安全基本要求》等规范文件对商业语料采购提出了明确要求，包括但不限于：需具备法律效力的交易合同或合作协议、需对交易方/合作方提供的语料、承诺及材料进行合规审核。

网络爬虫作为高效获取数据的技术手段，其合规风险需要从多个维度进行系统评估。在技术层面，爬取手段的正当性涉及是否违反网站Robots协议、是否采用技术手段绕过访问限制、是否对目标网站的正常运行造成不当影响等关键问题。在内容层面，需要重点评估所爬取数据是否包含个人信息、商业秘密或受著作权保护的内容。在使用层面，则需警惕可能产生的不正当竞争风险，包括是否构成“实质性替代”、是否违反商业道德等。因爬取行为所涉及风险较高，AI服务提供者在向外部第三方爬取相关数据时，应妥善遵守关于爬虫抓取的合规要求，避免因此产生民事责任，甚至触发行政、刑事责任。

（二）数据处理及使用合规

数据处理是生成式AI技术落地的核心环节，其合规性直接关系到用户权益保护与技术创新边界的平衡。该阶段的合规风险主要聚焦于用户授权数据的二次利用。

从法律规范层面看，《个人信息保护法》第二十三条明确规定，个人信息处理目的、处理方式发生变更的，应当重新取得个人同意。这意味着，若生成式AI服务提供者最初收集数据的目的为“即时响应用户需求”，后续拟将其用于“模型优化训练”，必须履行单独告知义务并获取新的授权。GDPR亦规定，若个人信息被用于收集之外的其他目的，数据控制者需评估“二次利用”的目的是否与初始收集目的兼容。若不兼容，则需要为新目的获取新的合法性基础。就合法性基础而言，EDPB在Opinion 28/2024中分析阐述了AI场景下“合法利益”的适用条件。若具体业务场景中需要适用“合法利益”这一合法性基础，需要严格遵守Opinion 28/2024有关意见。

二次利用的潜在风险集中于数据泄露与权益滥用。当用户数据进入训练数据库后，存在被模型“记忆”并在对其他用户的响应中被模型无意披露的风险，既可能泄露个人隐私，也可能侵犯商业秘密。正是基于此原因，国外多家知名企业要求员工谨慎使用ChatGPT等生成式AI产品。2024年4月，我国支付清算协会也发布相关倡议，要求从业人员谨慎使用此类工具，避免数据跨境泄露风险。

（三）数据内容与质量合规

在生成式AI的监管体系中，数据治理对数据内容的合法性、安全性及数据质量的规范性亦提出明确要求，而数据清洗作为保障数据内容与质量的核心手段，既是法律法规的要求，也是提升生成式AI服务质量的内在需求。

从法律层面看，《生成式人工智能服务管理暂行办法》构建了数据内容与质量管控的基础框架。其第四条明确生成式AI服务需遵循核心原则，包括禁止生成危害国家安全、传播暴力色情等违法有害内容，防范民族、性别等维度歧视，尊重知识产权与他人合法权益，并提升服务透明度及生成内容准确性。第七条则针对训练数据处理活动进行细化规定，强调数据与基础模型来源合法，保护知识产权与个人信息，同时通过有效措施提升训练数据的真实性、准确性、客观性及多样性，且需符合《网络安全法》《数据安全法》《个人信息保护法》等法律法规要求。

数据清洗的实施亦有助于生成式AI服务质量提升。在合规标准方面，《生成式人工智能服务安全基本要求》通过附录A负面清单，明确需规避的违规内容范畴（如违反核心价值观、歧视性内容、侵犯权益内容等），为企业自查纠偏提供参照。在实施路径上，建议通过“机器过滤+人工审核+投诉响应”的多元机制开展数据清洗，重点聚焦个人信息保护与知识产权领域以规避侵权风险，同时需按法规要求开展数据标注及质量评估，确保语料的准确性与安全性。

（四）数据存储合规

生成式AI的数据存储合规，核心关注点为数据存储地点与存储期限的规范性，同时需提升数据泄露风险的应对能力。在存储地点方面，企业应优先选择数据本地存储，非必要不进行跨境存储，以规避跨境存储及访问可能引发的多区域规制冲突。在存储期限方面，需依据“最小必要原则”收集并处理含个人信息在内的各类数据，并结合行业属性、数据类型及相关法律法规要求，确定数据的最短必要存储期限，避免因长期存储带来合规风险。

此外，企业还需建立数据泄露风险防控方案与应急预案，以应对生成式AI应用过程中潜在的数据安全事件。例如，ChatGPT在企业应用场景中曾多次发生数据泄露事件，此类案例为行业敲响了警钟。

（五）数据跨境合规

数据存储的地域选择进一步引出了生成式AI的数据跨境合规问题，除一般数据与个人信息跨境传输需遵循的授权同意规则外，企业还需重点警惕潜在的数据跨境风险。实践中，生成式AI运营涉及的数据跨境情形主要包括两类：一是数据出境，如境内企业将服务器部署于境外导致训练信息向境外传输，或采购、嵌入境外生成式AI产品/服务进行加工训练；二是数据入境，如境内企业使用境外语料训练自有生成式AI产品，或境外生成式AI产品将生成结果传输至境内。

当前各国均对数据出境（而非数据入境）严格规制，数据若涉及跨境传输，主要适用数据出境一方所在地的监管法律法规。例如，2025年1月28日，意大利数据监管部门收到针对DeepSeek的投诉，指控其违反欧盟及本国数据保护法规，核心问题包括：Deepseek作为共同数据控制者未在欧盟设立机构，亦未按GDPR第27条要求指定欧盟代表；其隐私政策虽表明用户数据存储于中国，但未提及标准合同条款、约束性公司规则等跨境传输保护措施，也未公开数据传输影响评估文件。同时，隐私政策在存储期限、用户权利行使方式、未成年人数据保护等方面存在信息不完整或表述模糊的问题，不符合GDPR相关条款要求。最终意大利监管部门于2025年1月30日在该地区禁用DeepSeek。

从这一案例可看出，开展跨境生成式AI服务的企业，除满足常规合规要求外，还需充分符合数据跨境传输规则，严格遵循数据出境一方所在地的监管政策，避免因跨境合规疏漏引发监管处罚。

三、结语

在生成式AI快速发展的背景下，数据作为核心生产要素，其全生命周期的合规管理已成为AI服务提供者保障业务合法运营、规避监管风险的关键。生成式AI服务提供者落实数据合规需聚焦五大核心环节：在数据来源端，按数据类型履行告知同意等合法性义务，确保语料获取渠道合规；在数据处理端，以充分授权为前提，严格限定使用范围，超出原范围时需重新获取同意；在数据质量端，通过数据清洗确保语料合法、真实；在数据存储端，强化安全保障措施与企业数据安全体系建设；在数据跨境端，先识别传输必要性与豁免情形，再依法履行出境安全评估、标准合同备案等义务，并符合境外法规要求。

这些措施相互衔接，共同推动生成式AI的数据合规建设。这不仅是企业实现稳健发展的必然选择，也能为生成式AI产业规范创新奠定基础，助力行业在合规框架下释放技术价值。

上一篇：欧洲新兴投资高地——塞尔维亚的法律环境与合规要点下一篇：从阿莫西林原料药争端看欧盟药品供应链保护：Sandoz 的投诉与企业应对指南（下篇）

打印中伦文章

法律报告 >

《新经济系列：低空经济法律与合规指南》

出版物 >

【中伦三十周年系列文集】

月度精选 >

中伦深度观察2026年6月

专业文章

最新交易

中伦助力某国际知名快消企业完成2026年FIFA世界杯营销合规项目

中伦助力科森科技向LYFE Capital出售科森医疗100%股权

最新动态

最新荣誉

ARTICLES

生成式AI的全链条数据合规要点及其风险防范