AI案例解读: 24年9月德国法院判决——AI训练数据集符合著作权保护的例外
AI案例解读: 24年9月德国法院判决——AI训练数据集符合著作权保护的例外
案情介绍
LAION,全名Large-scale Artificial Intelligence Open Network(大规模人工智能开放网络),自我介绍为提供数据集、工具和模型以供机器学习之用的非盈利组织[4]。LAION在其网站上提供了一个名为“LAION 5B”[3]的图像-文本对数据集,免费向公众开放。就是一种表格文件,其包括互联网上可公开获取图像的链接,然后在图像下方提供了文本形式的图像说明和图像内容来源。该“XXX”数据集包括58.5亿个这样的图像-文本对,可用于训练所谓的生成式人工智能。
该数据集的大致工作方法是,从某网站获取一个现成的图片URL链接及文本描述数据集,接下来LAION提取URL,并从图片各自的原始存储地下载图片,再用软件检查现成的图片内容描述与图片可见的内容实际上是否一致,不一致的就滤除。对于留下来的图片,就将元数据,尤其是URL和图片描述,提取出来放到新的数据集“LAION 5B”中。
在上述处理过程中,也涉及到了本案的涉案图片,是从某图片库的网站上下载的,带有该图片库的水印。在图片库的使用说明网页上,至少自2021年1月13日起,载有用英文自然语言表述的说明“您不可以:(…)18. 出于任何目的使用自动程序、小程序、机器人或类似工具访问 XXX.com 网站或网站上的任何内容,包括(仅举例说明)下载内容、编制索引、搜刮或缓存网站上的任何内容”。
K先生(以下称“原告”)称自己为涉案图片的作者并起诉了LAION(以下称“LAION”或“被告”)侵犯著作权,尤其是侵犯德国《著作权和邻接权法(著作权法)》(以下称《著作权法》)[2]第16条规定的复制权。
争议焦点分析
本文主要关注以下争议焦点:
1)LAION对涉案图片未经授权的使用,是否落入《著作权法》第60d条(以下称“60d”)规定的、以科学研究为目的的文本和数据挖掘(Text und Data Mining,缩写TDM)例外。
2)LAION对涉案图片未经授权的使用,是否落入《著作权法》第44b条(以下称“44b”)规定的、目的不受限的TDM例外。可以理解为,44b不排斥商业和盈利目的TDM。该争议焦点中主要讨论,原告是否通过图片库网站上的英文自然语言写就的声明,成功从第44b的TDM例外中Opt-out(退出)。换言之,原告是否通过该声明保留了其复制权,从而使得44b的TDM例外对其不适用。
裁判理由分析
1)关于60d“以科学研究为目的的TDM例外”,法庭认为,涉案图片带有水印,使用前本应先征得作为作者的原告同意,然而被告根据60d获得了法定授权。
60d条款相关部分非官方译文如下,供参考:
“§ 第 60d 条 以科学研究为目的的文本和数据挖掘
(1) 以科学研究为目的的文本和数据挖掘(第 44b 条第(1)款和第(2)款第 1 句)根据以下规定获得授权。
(2) 研究机构有权进行复制。研究组织是指大学、研究机构或其他从事科学研究的机构,条件是它们
1、不追求商业目的、
(…)”
从中可以理解,如果同时满足a)文本和数据挖掘,即TDM,b)科学和研究目的,c)非商业目的,和d)研究机构,则可能能够适用60d的例外。
关于a)TDM,相关的条款44b定义了,TDM指的是对单件或多件数字作品或数字化作品进行自动分析,以获取信息,特别是有关模式、趋势和相关性的信息。而被告的图像-文本对正是为了获得“相关性”信息而进行的复制,因此该复制属于TDM。
关于b)科学和研究目的,科学研究一般是指有方法、有系统地追求新的知识,然而,这种“追求”不应狭义理解为仅涉及直接获取新知识的工作步骤。被告创建数据集虽然还没获取到新知识,但却是未来将该数据集用于获取新知识的基础工作步骤。为此,被告将数据集免费公开,由此提供给人工神经网络研究领域使用,就足够了。至于该数据集是否如原告所说会被商业公司用来训练和改进其AI系统,并不重要。商业公司的研究也是研究。还有,被告是否也将其数据集用于开发自己的AI模型,在上述背景下不再讨论。
关于c)非商业目的,在判断研究是否为非商业目的时,仅考虑科研行为的具体类型,不考虑研究机构的组织形式和经济来源。在本案中,被告毫无争议地将数据集“LAION 5B”向公众免费开放,这已足够。
关于d)研究机构,判决书中没专门定义,但是从上面对b)的讨论中可以看出,是认可了被告的研究机构身份。而这也在接下来关于被告是否被私营公司影响的讨论中得到进一步确认。具体地,研究机构如果与对该研究机构有决定性影响且优先获得科研成果的私营公司合作,则不能援引60d规定的例外。法庭认为,原告没有证明 XXXX 公司对被告有决定性的影响,也没有其他明显的证据可以证明该影响。可以理解,认可了被告的研究机构身份,才有这部分讨论。
综上,法庭认为被告在“LAION 5B”数据集场景中对原告作品的使用,落入了60d规定的“以科学研究为目的的TDM例外”,因此不侵犯著作权。
2)关于44b“目的不受限的TDM例外”,法庭首先说了,是否满足该条例外是存疑的,但因为已适用了66d,所以不需要再做决定了。不过对44b,还是进行了很值得关注的讨论,主要是,原告是否通过在图片库网站上提供了机器可读的权利保留声明,进而从44b中Opt-out(退出),即不能再以44b为由,不经许可地使用原告的作品。上文中说过,原告的声明是用英文自然语言写的,关于其是否满足“机器可读”是有争议的。法庭倾向于认为该声明是机器可读的,因为DSM-RL第4条规定的权利保留“也可通过最先进的技术”来进行。那么理解自然语言文本内容类的AI应用自然也算是“最先进的技术”。当然这不是对每个案件普遍适用的,至少需要看作品被使用时的技术发展阶段。
案件评述
本文在此补充关于60d和44b的立法背景。德国《著作权法》是1965年9月16日发布的,随着社会和科技的进步,该部法律也与时俱进。在2019年6月7日起实施的欧盟《单一数字市场版权指令》(DIRECTIVE (EU) 2019/790 on copyright and related rights in the Digital Single Market,简称DSM-RL)[5]中包括了一系列为适应数字化环境而更新的著作权保护例外和限制,其中第三条和第四条涉及TDM例外。而60d和44b当前有效的版本正是对DSM-RL的适配,于2021年6月7日起实施,其中60d对应于DSM-RL第三条,44b对应于第四条[6],[7]。60d的当前版本是对原有法条的大幅修改,包括新增“为TDM而进行的复制…”,44b整体为新增。
因此,可以理解为,2021年,60d和44b(的当前有效版本)为了支持数字技术发展,尤其是支持机器学习和AI发展应运而生,并且为此对著作权做了一定程度的限制。
而本案正是司法机关实际运用60d和44b来解决AI训练数据集引发著作权纠纷,且在判决结果中依据60d支持了AI(相关)技术开发者这一方,从而备受瞩目。
需要说明的是,本案是一审判决,当事人可能还会提上诉。
不过不论上诉法院、甚至更高级法院的观点如何,本案将“以科学研究为目的”理解为可以是为获取新知识的准备步骤;不因机构的私营或商业性质而否定其科研活动;在判断是否非商业目的时,仅考虑当前是否免费向社会公开而不考虑公开后是否会被商业化利用;以及认为AI技术使得自然语言做出的权利保留声明成为“机器可读的”,等等,都将影响和贡献于AI法治进步。
本案是域外判例,但AI技术的发展是普遍的,在技术发展的过程中也都难免与著作权或者其他权益产生竞争。因此,不论在国内还是国外进行AI技术开发应用以及进行文学、艺术、软件代码等创作,都建议借鉴本案,关注和理解相关法域里立法与司法实践随着AI技术发展而产生的变化,从而能够及时更新策略,有效保护自己的合法利益。
[注]
[1] LG Hamburg 310 O 227/23,参见例如https://openjur.de/u/2495651.html
[2] https://www.gesetze-im-internet.de/urhg
[3] https://freelens.com/politik-medien/bericht-zum-gerichtsverfahren-laion-e-v-kneschke/
[4] https://laion.ai/
[5] https://eur-lex.europa.eu/eli/dir/2019/790/oj
[6] https://www.bmj.de/SharedDocs/Downloads/DE/Gesetzgebung/RefE/RefE_Urheberrecht.pdf?__blob=publicationFile&v=3
[7] https://dejure.org/gesetze/UrhG