创新与著作权的平衡:Thomson Reuters v. ROSS Intelligence 案对AI训练数据的规制
创新与著作权的平衡:Thomson Reuters v. ROSS Intelligence 案对AI训练数据的规制
一.引言
人工智能与知识产权法的交叉领域正迅速发展,并在全球范围内变得至关重要。近期,美国特拉华地区法院审理的“汤森路透企业中心有限公司等诉罗斯智能公司”(Thomson Reuters Enterprise Centre GmbH et al. v. ROSS Intelligence Inc.,以下简称‘Thomson Reuters v. Ross Intelligence’)一案,是美国在利用受著作权保护的材料进行AI训练方面具有里程碑意义的判决。考虑到中国作为全球AI发展领域的领先者,此案的判决结果及其法律逻辑无疑具有深远的全球影响。本文旨在介绍此案,解释其关键方面,并分析其对中国AI产品研发活动中,尤其是在训练数据来源方面的法律风险和启示[1]。
二.案件背景
Thomson Reuters v. Ross Intelligence案件源于法律数据库内容被用于人工智能训练的纠纷。原告汤森路透公司(Thomson Reuters)运营大型法律数据库Westlaw,收录了几乎美国所有法院判决,并由编辑团队为每个判决要点撰写主题提要(headnote),配以相应的键号体系(Key Number System)分类。主题提要是对判决法律要点的简明陈述,键号则是按法律议题给每个提要编号,方便律师查找处理相同法律问题的其它案例[2]。被告Ross Intelligence公司是一家法律人工智能初创企业,试图开发一款AI法律检索工具,让用户用自然语言提问,快速提供相关的法律案例、法规和分析,从而简化传统的法律研究流程[3]。为实现这一功能,Ross需要大量训练数据来进行训练。
Ross公司最初曾请求许可使用Westlaw数据库的数据来训练其AI,但遭汤森路透拒绝。随后,Ross与第三方咨询公司LegalEase Solutions合作,使用LegalEase提供的大量法律问题摘要和相关案例,称为“Bulk Memos”,供AI训练使用。对于Bulk Memos的部分内容,LegalEase提供的Bulk Memos在内容和结构上与原Westlaw数据库的内容高度相似。汤森路透发现后起诉Ross侵犯其主题提要和键号体系的著作权[4]。
本案的裁判要点在于:未经授权复制他人数据库中受著作权保护的内容用于AI训练,是否构成侵权;美国著作权法下“合理使用(fair use)”的抗辩是否适用于这种情况?
三.合理使用原则
本案涉及的核心法律是美国著作权法(在本文中,“copyright law”译为“著作权法”)及其合理使用原则(17 U.S.C.§107)。合理使用允许在特定情况下未经授权使用受保护作品,例如为了评论、教育等目的[5]。案件由第三巡回上诉法院法官Bibas(临时指派担任特拉华联邦地区法官)审理。在各方提起的简易判决动议中,法官先是倾向于将合理使用交由陪审团认定,但后来重新审视证据后改变立场,改为由法官直接裁定合理使用问题[6]。2025年2月,法院作出部分简易判决,认定Ross未经许可使用Westlaw编辑内容训练AI不属于合理使用,构成对汤森路透著作权的侵犯。
判断是否构成合理使用,法院要综合考虑四要素[7]:
•①用途和性质(包括使用是否具有商业性及是否具有变革性[8]);
•②受保护作品的性质;
•③使用量和实质性;
•④对原作品市场或价值的影响。
Ross公司提出合理使用抗辩,认为其对数据的使用具有变革性目的(训练AI属创新)且最终产品并未包含原文,从而应受§107保护。不仅如此,Ross还质疑这些主题提要是否有足够独创性受著作权保护,并提出“无意侵权”“著作权滥用”等抗辩。
在综合四要素后,法院进行了利益权衡。Bibas法官明确指出:第一和第四要素支持原告,第二和第三要素支持被告。但鉴于第二要素权重相对较轻,而第四要素至关重要,整体平衡倾向于认定不构成合理使用。法官在简易判决中裁定Ross未经许可复制汤森路透编辑内容用于AI训练已构成直接侵权,Ross关于合理使用的抗辩以及著作权滥用、并入理论(merger)等抗辩均不成立。需要说明的是,法院裁定的部分简易判决意味着在法律责任上Ross已被判侵权成立,但仍有个别事实问题留待审理,例如部分提要著作权是否已过期无效等。
四.关于“变革性使用(transformative use)”的认定
法院在分析合理使用的第一个要素——使用的目的和性质时,着重讨论了“变革性”(transformative)使用概念。按照美国最高法院最近在Andy Warhol Foundation v. Goldsmith案中的解释,如果被诉二次使用与原作品的目的“相同或高度近似”,且属于商业性质,那么除非有其他正当理由,第一区分因素将倾向于不构成合理使用。换言之,只有当新使用赋予原作品新的目的或不同性质(further purpose or different character)时,才具有变革性。在本案中,Bibas法官认为Ross对汤森路透内容的使用缺乏变革性:Ross利用主题提要训练AI,其最终目标是提供一个功能近似的法律检索工具,与Westlaw平台本身的用途并无二致。正如判决中指出的,Ross拿这些提要来更容易地开发一个竞争性的法律检索工具。Ross的AI是将用户的法律问题与已有判决相匹配,这与Westlaw利用提要和键号检索相关案例的过程极为相似。因此,从直观上看,Ross的使用目的和汤森路透原作品的用途高度重合——都是为了让法律从业者更便捷地检索判例。法官据此认定Ross的使用并非变革性的,因为它的目的和性质并没有进一步的目的或与汤森路透的作品有不同的性质。这一判断直接指向第一区分因素不利于合理使用成立。
值得注意的是,Ross辩称其复制行为发生在产品开发的中间阶段,最终用户并不会看到Westlaw的提要原文。这类似于软件领域常见的“中间复制”问题,即为了实现互操作性而临时复制受保护代码的情形。确有先例支持中间复制在特定条件下属于合理使用,例如第九巡回上诉法院在Sega v. Accolade案和Sony v. Connectix案中分别认定:为开发兼容游戏或设计新平台,对计算机程序代码进行中间复制是变革性的使用,因其目的是实现新品功能,与原用途不同。此外,2021年美国最高法院在某版权纠纷案中也认为,被告复制原告API代码用于手机平台具有合理使用性质,因为API接口本质上功能性强,复制对实现新的兼容用途是必要的。然而,Bibas法官明确区分了上述案例与Ross案:首先,上述案例涉及的是计算机代码的复制,而本案复制的是文字性作品(编辑性法律内容)。法律在判断合理使用时,对待功能性程序代码与文学作品是不同的——程序往往以功能为导向,包含非表达的功能要素,而文字作品主要承载表达性创作。正如法院引用上述2021年美国最高法院某版权纠纷案所言:计算机程序不同于图书、电影等文学作品,其几乎总是服务于功能目的,因此针对程序的合理使用考虑不一定适用于文字作品。其次,即便在软件案中,法院也是基于“复制的必要性”来认定中间复制合理:例如2021年美国最高法院某版权纠纷案中被告复制API是不同程序相互对接所必需的;Sony和Sega案中被告若不复制代码就无法获取非保护要素或实现产品兼容。而Ross案并不存在必须复制汤森路透提要才能训练法律AI的技术障碍——Ross完全可以自行阅读公开的判决并编写自己的摘要来训练模型,并非别无他法。正如判决中指出的,汤森路透创建的任何内容,并非Ross不能靠自己创造或通过合法手段获得的。综合以上,法院认为Ross将原告编辑内容用于相同目的的商业行为并不具备变革性,其试图以“中间技术步骤”来为复制开脱的理由也不成立。Bibas法官在判决书中坦言,此前他曾据Sony/Sega案例倾向于将第一区分因素交由陪审团判断,但经过更深入分析后认识到这些软件中间复制案例与本案差异明显,本案应回归最高法院在Warhol案中强调的“目的对比”框架。他总结道,Ross获取提要只是为了更方便地开发一个直接与Westlaw竞争的法律检索工具;所以Ross的使用不具变革性。由此,第一个因素(包括商业性和变革性)整体倾向于原告汤森路透,不支持合理使用。
五.其它合理使用要素
在认定第一区分因素不利于被告后,法院继续分析了其余三个要素。第二要素(作品性质)方面,Westlaw的主题提要和键号属于编辑性整理作品,虽具有一定独创性,但主要围绕公开的法律事实和理念,创作性相对有限。Bibas法官指出,这类法律注释作品的创造力显著低于纯文学艺术作品,因此在合理使用判断中,不应像高度原创作品那样给予强保护。他认定第二区分因素偏向Ross一方(有利于合理使用抗辩),但也提醒该因素在以往案例中“很少起决定性作用”(在“电子图书馆”一案中,法院亦曾评价第二要素通常权重不高)。
第三要素(使用的数量和实质性)上,Ross通过LegalEase实际复制了数千条主题提要用于训练,这无疑是大规模全文复制。表面看,大量复制倾向不利于合理使用;但法院更关注向公众提供了多少原作内容。Ross的最终产品(AI检索结果)给用户看的并不是Westlaw的提要,而是相关联的司法意见全文,且这些法院判决本身不受著作权保护。也就是说,Ross复制汤森路透内容仅作为内部训练之用,并未向公众输出这些受保护表达。根据“电子图书馆”案的原则,应考量实际向公众提供了多少原作内容,以及这种提供是否可能成为原作的替代品。在本案中,用户无法通过Ross的产品获取汤森路透的编辑性表述,因此第三要素总体上对Ross有利。法官也驳回了Ross关于“只用了Westlaw提要库一小部分”的辩解,指出即使复制占比不高,若涉及作品精华部分仍可能过度(正如Harper & Row v. Nation案中非法引用福特总统回忆录的300字已被视为取走作品“核心”)。不过在Ross案,法官最终认为由于未向公众提供提要文本,第三要素可以判定偏向Ross。
Campbell v. Acuff-Rose等先例确立了第四要素——对原作市场或潜在市场的影响——是最重要的考虑因素。法院需评估被告的使用是否替代了原作在现有市场的需求,或妨碍了权利人开发衍生市场的可能性。Bibas法官指出,汤森路透原作品的现有市场显然是法律检索平台服务,而潜在衍生市场则包括将编辑内容授权用于AI训练的数据市场。他回顾自己在先前意见中曾有顾虑,认为Ross的产品也许服务于一个不同用途的新市场,不一定构成Westlaw的替代品,并且当时不确定汤森路透是否有意涉足AI训练数据市场。然而,重新审视事实后,法院认为这些顾虑并不存在:即便按对被告最有利的事实看,Ross开发该AI工具的意图就是打造Westlaw的市场替代品,争夺相同的客户群。Ross自己也承认其产品直接与Westlaw竞争。至于汤森路透尚未将提要内容商业化为AI训练数据包并不重要——关键在于此类潜在市场本属于权利人合法预期范围,侵权人不应通过不授权复制来抢占先机。法官强调,哪怕原告尚未进入该衍生市场,只要这种市场可能存在且会受影响,第四要素也应认定不利于被告;举证说明这些市场不存在或不受影响的责任在于被告,但Ross未能提供足够证据。此外,Ross主张其产品有助于公众更便捷获取法律信息,应被视为对公共利益有利。然而法院指出,美国司法判决文本本身是自由公开的,公众有权免费查阅法律原文,但公众无权要求获取汤森路透对法律的解析。正如判决书中所言:“著作权法鼓励人们开发有益社会的事物,例如优质的法律检索工具。这些开发者有权因此获得报酬”。也就是说,法律需要在公共利益与激励创作之间取得平衡。允许Ross不付费直接拿走汤森路透辛勤编辑的成果来牟利,会损及此平衡。不仅公共利益主张不足以豁免,Ross复制行为实际上损害了汤森路透应有的收益。法院进一步区分了2021年美国最高法院某版权纠纷案案情:在该案中,被复制的API之所以重要,是因为大量用户习惯于该接口,属于软件行业特有情形;而Ross完全可以独立创造类似的法律要点摘要来训练AI,并不存在必须使用汤森路透提要的情形,因此对原告权益的侵蚀缺乏正当性。综上,第四要素明显倾向于原告汤森路透,认为Ross的使用对原作品现有及潜在市场都有负面影响。
总体而言,该判决从司法层面对AI训练数据的著作权使用边界进行了划定,即:若AI训练使用他人受著作权保护的内容,且用途与原作品市场相竞争,则难以被认定为合理使用。
六.与中国法律的对比分析
与美国开放性的合理使用原则不同,中国著作权法采用封闭式的法定许可与合理使用列表。中国《著作权法》第24条列举了若干种无需许可的使用他人作品情形(合理使用),例如个人学习研究、课堂教学、新闻报道等,但并未包含“大数据/AI训练”的情形。这意味着,在中国,像Ross这样为商业目的大量复制他人作品用于AI训练,一般不在法定的合理使用范围内。我国业界也注意到这一立法缺口。有学者建议利用著作权法第24条中的兜底款,通过修改实施条例增设“数据训练”的合理使用例外,并辅以“三步检验法”限制,以平衡技术创新和著作权保护。不过截至目前,这仍只是理论建议,相关法律尚无明文规定[9]。
虽然中国尚未出现像“Thomson Reuters v. Ross Intelligence”案这样直接涉及AI训练数据著作权的判例,但中国法院在AI生成内容的著作权问题上已经做出了一些重要的裁决。
例如,北京互联网法院在2023年11月的一起案件中裁定,AI生成的图像如果体现了人类在提示和参数选择方面的智力投入,则可以享有著作权。法院认为,通过设计角色呈现方式、选择和安排提示以及设置相关参数等方式,原告投入了一定的智力劳动,使得生成的图像并非仅仅是机器的机械产物,而是体现了原告的个性化表达,因此构成受著作权法保护的作品。这一判决与美国版权局的立场形成对比,后者通常要求作品必须由人类创作才能获得著作权 [10]。然而,广州互联网法院在2024年2月的一起案件中裁定一家AI公司因提供用户生成奥特曼图像的服务而侵犯了著作权 [11]。法院认为,AI生成的奥特曼图像与原著作权作品高度相似,侵犯了原告的著作权。该案还强调了AI服务提供商有义务采取合理措施防止用户利用其平台侵犯他人著作权。此外,常熟市人民法院也判定AI生成的图像可以在一定条件下具有著作权 [12]。这些案例表明,中国法院在承认AI生成内容可能享有著作权的同时,也强调了不得侵犯现有著作权作品的原则。
在监管层面,中国也正在积极制定与AI和数据相关的法律法规和指导方针。中国国家互联网信息办公室(CAC)于2023年发布了关于生成式AI模型训练数据使用的指导意见,其中包括对使用受著作权保护信息的规定。同年生效的《生成式人工智能服务管理暂行办法》要求生成式AI服务提供者使用来源合法的数据和基础模型,尊重知识产权。此外,2024年发布的生成式AI服务管理条例草案提出了更详细的安全措施,包括对训练数据的安全评估,以及避免使用含有非法或有害内容的数据。这些监管举措表明,中国的监管部门正在努力构建一个既能促进AI发展,又能保障数据安全和知识产权的框架。
七.对中国AI行业的启示
“Thomson Reuters v. Ross Intelligence”案的判决结果对中国的AI行业,特别是那些开发法律科技或类似依赖大量数据进行训练的AI应用的企业,具有重要的警示意义。尽管中美两国的法律框架和具体判例有所不同,但著作权保护的基本原则是全球性的。
此案突显了即使是间接使用受著作权保护的材料(例如用于AI训练),也可能构成侵权,尤其是在开发与著作权所有者产品直接竞争的产品时。美国法院拒绝接受Ross 公司关于其使用主题提要(headnotes)作为“中间步骤”的转换性使用抗辩,这警示中国企业在进行类似操作时需要格外谨慎。这意味着,仅仅因为AI的最终输出不直接复制训练数据,并不能保证训练过程本身不构成侵权。在涉及AI训练的案件中,法院可能会关注整个使用过程,而不仅仅是最终的输出。因此,中国AI企业在数据来源方面也面临风险。从互联网平台抓取包含受著作权保护材料的数据来训练AI模型,即使AI的输出不直接再现这些材料,也可能被视为侵权行为。
此外,中国AI企业还需注意,除了民事侵权风险,违反监管要求也可能带来行政风险。《生成式人工智能服务管理暂行办法》要求训练数据具有“合法来源”且不侵犯他人知识产权。如果企业的数据集包含未经许可的受著作权保护内容,被监管机关发现或被投诉举报,可能被责令删除侵权数据、限期整改,严重者甚至会影响产品上线进度。因此,合规应当贯穿AI研发全流程。
八.合规建议
针对上述风险,中国AI企业在产品研发时应制定周详的数据合规策略:
•优先使用合法公开数据或授权数据: 尽可能使用公共领域或权利人许可的数据来训练模型。例如,法律领域可以利用公开发布的司法判决书原文(不受著作权保护的政府作品),避免使用他人整理的编辑性注释内容。又如训练通用语言模型,可优先选取政府公告、科学论文(作者授权开放访问)或Creative Commons协议许可的文本。对于受著作权保护的素材(文学作品、新闻稿等),应通过正式授权、购买著作权数据库等途径获取。
•控制数据使用范围和比例: 遵循最小必要原则,不超范围地收集受保护内容。如果出于算法效果需要引用少量他人作品片段,应确保使用量在合理限度内(如只占整体数据很小部分且不包含作品核心精华部分),并仅用于训练而非直接向用户提供原文。如果可能,尽量对数据进行去标识化和转换处理,例如提取特征而非保留可逆的全文,降低侵犯权益的风险。
•建立内部审查和响应机制: 企业应建立训练数据的审核流程,对数据来源、著作权状态进行标注分类。对于不确定是否侵权的素材,咨询法律专家意见或寻求权利人许可。保存数据获取和使用的记录,以备将来举证善意和技术用途之需。一旦收到权利人投诉,及时启动应对预案,必要时删除有争议的数据并调整模型,避免事态扩大。
•关注法律和政策动向: 持续关注国内著作权立法、司法实践对AI训练的态度。如果相关法律有新的例外规定或案例判决,应及时调整合规策略。例如,若未来中国引入“数据挖掘例外”规则,企业也需确保自身做法符合具体条件。同时,关注海外类似案件走向(如美国同类诉讼、欧盟文本数据挖掘指令等),因为中国企业的产品可能在海外市场面临同样法律考验。
九.结语
综合来看,Thomson Reuters v. Ross Intelligence案体现了著作权法在AI时代对数据使用的红线:技术创新不能成为无视他人知识产权的借口。行业参与者在AI的开发和发展中应以此为鉴,在追求技术突破的同时,将法律合规作为重要考量。从长期看,只有尊重著作权、积极寻求授权合作,才能在避免法律风险的前提下安心拓展AI产品功能,推动产业健康发展。平衡好创新与著作权保护,中国的AI产业才能行稳致远。
[注]
[1] 本文分析引用了 Thomson Reuters Enterprise Centre GmbH v. Ross Intelligence Inc., No. 1:20-CV-613-SB (D. Del. Feb. 2025) 判决书及相关评述.
[2] Westlaw, Wikipedia, https://en.wikipedia.org/wiki/Westlaw (last visited Mar. 19, 2025).
[3] 参考Features, Ross Intelligence, https://www.rossintelligence.com/features (last visited Mar. 19, 2025).
[4] 需要指出,美国判决书原文属于公共领域,但Westlaw添加的编辑性内容(如主题提要)具有独创性,因此受《美国著作权法》保护;Ross并未直接向用户展示这些提要文本,而是将其作为训练AI的数据集。
[5] Fair Use, Digital Media Law Project, http://www.dmlp.org/legal-guide/fair-use (last visited Mar. 19, 2025).
[6] Stuart D. Levi et al., Court Reverses Itself in AI Training Data Case, Skadden (Feb. 2025), https://www.skadden.com/insights/publications/2025/02/court-reverses-itself-in-ai-training-data-case.
[7] 17 U.S.C.§107.
[8] Campbell v. Acuff-Rose Music, Inc., 510 U.S. 569 (1994).
[9] 参考Shuimei Liu, Copyright Fair Use in the People's Republic of China--on the Road of Development: A Comparative Copyright Analysis of Chinese and the U.S. Fair Use, and Proposals for Corresponding Legislation in China (Dec. 2021) (dissertation, Maurer School of Law - Indiana University).
[10] Morgan Lewis, 北京法院认可人工智能生成图像的著作权保护, (2024年1月),https://www.morganlewis.com/blogs/sourcingatmorganlewis/2024/01/beijing-court-approves-copyright-protection-for-ai-generated-images.
[11] Baker McKenzie,中国:关于AI生成作品著作权保护的里程碑式法院裁决, (2024年4月),https://insightplus.bakermckenzie.com/bm/intellectual-property/china-a-landmark-court-ruling-on-copyright-protection-for-ai-generated-works.
[12] 新华日报,江苏首例、全国第二例AIGC著作权侵权案件落槌引人深思——AI生成作品,谁才是真正的创作者,(2025年3月)。