浅析ChatGPT版权侵权诉讼案例及境内相关法律法规概览
浅析ChatGPT版权侵权诉讼案例及境内相关法律法规概览
2022年11月30日,OpenAI研发的通用聊天机器人ChatGPT(Chat Generative Pre-trained Transformer)问世,2023年,ChatGPT开始受到来自作家、喜剧演员等社会各界人事的起诉。前述诉讼案件,大多数法院的判决都尚未公开或是诉讼程序尚未终结,法院尚未作出判决,因而部分案件的法院判决结果仍然处于不明朗的状态。
2024年2月12日,美国联邦北加州地区法院(以下简称“法院")作出过程性的Order(决定书),该Order部分驳回了喜剧演员Sarah Silverman、Christopher Golden及Richard Kadrey(以下合称“原告")针对OpenAI(以下或称“被告")提起的指控。针对此事项,美国大量媒体报道,如“Judge dismisses most of Sarah Silverman’s copyright infringement lawsuit"(法官驳回了Sarah Silverman的大部分版权侵权诉讼)(VentureBeat);“OpenAI Scores Court Victory"(OpenAI赢得法庭胜利)(Forbes); “Sarah Silverman, Authors See Most Claims Against OpenAI Dismissed by Judge"(Sarah Silverman及作者大多数针对OpenAI的指控被法官驳回)(Hollywood Reporter)。是否像大部分美国媒体报道的那样,这个Order代表了OpenAI的部分胜利呢?
一、案情概要
1. 原告诉因
2023年7月7日,原告方起诉OpenAI未经授权擅自使用他们的书籍来训练其ChatGPT语言模型,构成了版权侵权、不正当竞争、玩忽职守及不当得利。原告诉称ChatGPT能够生成其版权作品的准确摘要,而只有在ChatGPT接受过这些作品的培训后才有可能生成该等摘要。原告方共计提出六项指控:
(1)Direct Copyright Infringement 直接侵犯版权
(2)Vicarious Copyright Infringement(Count II)间接侵犯版权
(3)Violation of Section 1202(b) of the Digital Millennium Copyright Act("DMCA") 违反《数字千年版权法》(“DMCA")第1202(b)条
(4)Unfair Competition under Cal. Bus. & Prof. Code § 17200 不正当竞争
(5)Negligence 玩忽职守
(6)Unjust Enrichment 不当得利
2. 美国联邦加州北地区法院作出的决定书
OpenAI除了第(1)条直接侵犯版权以外,要求法院驳回其余的五项指控。根据2024年2月12日法院发出的Order,法院驳回了原告第(2)、(3)、(5)、(6)项指控,就第(4)项不正当竞争,法院指出,如原告的指控属实,即被告使用原告受版权保护的作品来训练他们的语言模型以获取商业利益,那么被告的行为可能构成不公平的做法,因此,原告可以继续就不正当竞争进行索赔。但是,对于驳回的部分,Martinez-Olguin法官仍允许原告在2024年3月13日之前提交修改后的申诉。
我们将判决中驳回部分指控的说理,总结如下:
• 针对第(2)项指控:由于间接侵犯版权指的是一方有权利和能力控制侵权活动,并且在侵权活动中有直接的经济利益,该方可能对他人实施的侵权行为承担责任,原告的指控应当基于存在第三方(如ChatGPT的使用者)对原告版权侵权的行为。如果需要成功证明存在第三方对原告版权侵权的行为,则需要证明第三方使用ChatGPT输出的内容是“抄袭"(copying)或“非法挪用"(unlawful appropriation)。就被告方输出的内容,一方面,并非原告方作品的直接复制,不构成“抄袭"(copying);另一方面,原告方未提供证据证明输出内容和受版权保护的材料之间有实质性的相似之处,即构成“非法挪用"(unlawful appropriation),因此不存在第三方对原告版权侵权的基础事实。
• 针对第(3)项指控:违反《数字千年版权法》(“DMCA")第1202(b)条,指故意删除或更改任何版权管理信息(copyright management information,“CMI",包括标题、作者、版权拥有人、使用作品的条款及条件)、传播作品或传播作品的副本。一方面,原告方指控OpenAI从内部数据库中删除CMI,但未能证明与潜在的侵权行为存在因果关系;另一方面,原告方未能明确说明OpenAI的输出到底借鉴的是受版权保护的书籍还是书籍复制件,综上,不构成对DMCA第1202(b)条的违反。
• 针对第(5)项指控:玩忽职守赔偿责任的成立前提为被告有一般的注意义务,但法院认为原告未能证明被告有义务保护原告的作品,因此此项指控不成立。
• 针对第(6)项指控:不当得利系指由于错误、欺诈、胁迫或要求而获得利益,由于原告没有指控OpenAI通过欺诈、错误、胁迫或请求不公正地从原告的版权作品中获得利益,因此这一指控不成立。
二、案例解读
首先,对我们认为最关键的一项指控——第(1)项直接侵犯版权,被告并未提出驳斥。其次,根据“一、2.美国联邦北加州地区法院作出的决定书"所总结的内容,实质上,法院对大部分指控的驳回原因都由于原告方未提供足够或者恰当的证据证明,停留在事实不成立的层面。《纽约时报》(New York Times Co.)对OpenAI等提起的诉讼引起了广泛关注,不仅因为原告的显赫地位,还因为该报提供的证据表明,OpenAI的聊天机器人实际上逐字逐句地说出了《纽约时报》文章中的冗长段落。这使得《纽约时报》可以断言,聊天机器人正在蚕食其工作的市场,这可能使法官认为这是不构成合理使用的一个因素。本案中,原告没有提供证据来支持这一说法,这就是促使Martínez-Olguín法官驳回了原告方的一些版权索赔的申请,但法官在Order末提出让原告补充、修改起诉书,并将基于此重新进行判断。如果原告真的能够证明ChatGPT输入了其享有版权的作品进行训练呢?
加州大学法学院(UC College of the Law)知识产权法专家罗宾·费尔德曼(Robin Feldman)表示:“很难想象你能把精灵放回瓶子里——法院会裁定,在任何情况下、任何时候都不得使用生成式人工智能。与此同时,很难想象生成式人工智能最终可以在任何时候自由地使用受版权保护的材料做任何事情。"显然,人工智能聊天机器人将继续存在,但人工智能机器人的商家也不能免费使用受版权保护的作品,这本质是新生行业与版权的角力。
回顾以往新技术与版权的纠纷,如唱片业和广播公司通过80多年前达成的许可协议解决了他们在广播和电视播放音乐方面的纠纷,该协议的本质不仅包括广播和电视台,还包括“流媒体服务、音乐会场地、酒吧、餐馆和零售场所"。(这并不是说,作者们一定会得到合理的报酬)。也许,OpenAI版权系列纠纷的终点也会是:双方达成一项足够公平的财务安排,得到法官的认可。
截至目前,就更广泛的问题我们尚未能从这封判决中解读出法院的态度,即利用互联网抓取的材料进行人工智能训练是否构成广泛的版权侵权,以及人工智能开发中合理使用界限的问题。
三、中国有关人工智能立法现状
1. 《生成式人工智能服务管理暂行办法》—部门规章
2023年8月15日,国家互联网信息办公室2023年第12次室务会会议审议通过,并经国家发展和改革委员会、教育部、科学技术部、工业和信息化部、公安部、国家广播电视总局同意,正式实施了部门规章《生成式人工智能服务管理暂行办法》(国家互联网信息办公室令第15号,下称“《办法》")。《办法》规定:
尊重知识产权、商业道德,保守商业秘密,不得利用算法、数据、平台等优势,实施垄断和不正当竞争行为;[1]支持行业组织、企业、教育和科研机构、公共文化机构、有关专业机构等在生成式人工智能技术创新、数据资源建设、转化应用、风险防范等方面开展协作。[2]推动生成式人工智能基础设施和公共训练数据资源平台建设。促进算力资源协同共享,提升算力资源利用效能。推动公共数据分类分级有序开放,扩展高质量的公共训练数据资源。鼓励采用安全可信的芯片、软件、工具、算力和数据资源。[3]
生成式人工智能服务提供者(以下称提供者)应当依法开展预训练、优化训练等训练数据处理活动,遵守以下规定[4]:
(一)使用具有合法来源的数据和基础模型;
(二)涉及知识产权的,不得侵害他人依法享有的知识产权;
(三)涉及个人信息的,应当取得个人同意或者符合法律、行政法规规定的其他情形;
(四)采取有效措施提高训练数据质量,增强训练数据的真实性、准确性、客观性、多样性;
(五)《中华人民共和国网络安全法》、《中华人民共和国数据安全法》、《中华人民共和国个人信息保护法》等法律、行政法规的其他有关规定和有关主管部门的相关监管要求。
在生成式人工智能技术研发过程中进行数据标注的,提供者应当制定符合本办法要求的清晰、具体、可操作的标注规则;开展数据标注质量评估,抽样核验标注内容的准确性;对标注人员进行必要培训,提升尊法守法意识,监督指导标注人员规范开展标注工作。[5]
2. 《著作权法》
在中国的法律体系下,著作权侵权内容广泛,涉及对著作人身权、著作财产权甚至对邻接权利益的侵害。侵害方式的多样性,包括直接侵权、间接侵权、违约侵权、侵犯邻接权等多种形式,引起版权所有者的精神权利和经济权利的损害。
利用互联网抓取的材料进行人工智能训练有可能涉及的网络版权侵权类型主要包括:
(一)未经著作权人或表演者许可,复制、发行、表演、放映、广播、汇编、通过信息网络向公众传播其作品或录有其表演的录音录像制品的[6];
(二)剽窃他人作品的[7];
(三)未经著作权人或者与著作权有关的权利人许可,故意删除或者改变作品、版式设计、表演、录音录像制品或者广播、电视上的权利管理信息的,知道或者应当知道作品、版式设计、表演、录音录像制品或者广播、电视上的权利管理信息未经许可被删除或者改变,仍然向公众提供的[8];
3. 《国务院关于积极推进“互联网+"行动的指导意见》—行政法规
早在2015年7月1日,我国国务院已经出台了《国务院关于积极推进“互联网+"行动的指导意见》(国发〔2015〕40号),国家鼓励培育发展人工智能新兴产业。建设支撑超大规模深度学习的新型计算集群,构建包括语音、图像、视频、地图等数据的海量训练资源库,加强人工智能基础资源和公共服务等创新平台建设。进一步推进计算机视觉、智能语音处理、生物特征识别、自然语言理解、智能决策控制以及新型人机交互等关键技术的研发和产业化,推动人工智能在智能产品、工业制造等领域规模商用,为产业智能化升级夯实基础。[9]
四、对境内AI企业的建议
《著作权法》规定,如果侵犯著作权或者与著作权有关的权利的,侵权人面临的法律后果是应当按照下列标准进行赔偿:
按权利人因此受到的实际损失给予赔偿或者按侵权人的违法所得给予赔偿;权利人的实际损失或者侵权人的违法所得难以计算的,可以参照该权利使用费给予赔偿;对故意侵犯著作权或者与著作权有关的权利,情节严重的,可以在按照上述方法确定数额的一倍以上五倍以下给予赔偿;权利人的实际损失、侵权人的违法所得、权利使用费难以计算的,由人民法院根据侵权行为的情节,判决给予五百元以上五百万元以下的赔偿;赔偿数额还应当包括权利人为制止侵权行为所支付的合理开支。[10]
从目前看来,从《著作权法》框架内,未经授权利用互联网抓取的材料进行人工智能训练,利用其输出内容进行谋利,有可能会侵犯他人合法著作权。但是如要求境内AI企业对在网络上抓取的所有材料获取原版权所有者的授权可能也不现实。
我们建议可以采取滞后性操作,对于有明确使用原作品的,在输出内容中标注原作者信息。同时声明,如引起纠纷或有合法权利第三人主张权属,可在查明属实后,双方协商支付版权使用费用。随着网络技术的发展,避免侵权行为的技术措施不断成熟,AI公司应当学习和借鉴国内外AI平台的经验和做法,同时加强在交互比对等防范侵权技术方面的研发和运用,从而实现促进AI创作和侵权风险防范同步发展,在实现高收益的同时做到强保护。
[注]
[1] 《生成式人工智能服务管理暂行办法》第四条第三项
[2] 《生成式人工智能服务管理暂行办法》第五条第二款
[3] 《生成式人工智能服务管理暂行办法》第六条第二款
[4] 《生成式人工智能服务管理暂行办法》第七条
[5] 《生成式人工智能服务管理暂行办法》第八条
[6] 《中华人民共和国著作权法》(“《著作权法》")第五十三条第(一)项
[7] 《著作权法》第五十二条第(五)项
[8] 《著作权法》第五十三条第(七)项
[9] 《国务院关于积极推进“互联网+"行动的指导意见》
[10] 《著作权法》第五十四条