机器学习作品的类型化及其著作权责任
机器学习作品的类型化及其著作权责任
引言
随着人工智能的智能化程度越来越高,传统视野下的著作权制度遭到了前所未有的挑战。以深度学习算法为核心的人工智能系统实现了引人瞩目的成就,比如腾讯写作机器人Dreamwriter撰写的财经报道,专业人员认为与媒体记者日常的消息稿无异[1],微软人工智能产品小冰于2017年独立创作并出版了诗集《阳光失了玻璃窗》[2],微软小冰又于2019年在中央美术学院美术馆展出首个个展《或然世界》[3]。目前学界和实务界关于人工智能输出端的生成物是否是作品以及归属于谁的话题热度不减,而对人工智能训练过程中输入端的机器学习作品是否涉嫌侵犯著作权的问题则讨论不多。人工智能的前期训练是人工智能“创作"的必要条件,而目前主流的训练算法以深度学习为核心,并且需要海量的训练数据作为人工智能学习和成长的“养料",人工智能训练团队对海量数据的获取以及输入,势必存在侵犯著作权的风险。因此,对于以输入海量作品作为训练数据的机器学习是否有侵权之嫌、是否可以适用合理使用制度提出侵权抗辩以及中国当前著作权体系是否能够对这种新的行为进行认定是本文要探讨的内容。
一、机器学习的概念和类型划分
机器学习的主要研究对象是人工智能,是对能通过经验自动改进的计算机算法的研究。深度学习,是指采用深度模型进行机器学习的学习方法,它学习的是样本数据的内在规律和表示层次。[4]
1、机器学习怎么“喂养"数据?
以深度学习为核心算法、海量训练数据为学习材料的机器学习是人工智能的智能化程度不断提升的基础,而包括著作权作品在内的数据“喂养",会面临侵犯著作权的风险。以微软小冰创作诗集为例,来简要说明一下机器学习的过程:
微软小冰训练团队将1920年代起到现在的519位中国现代诗人的几万首诗歌,运用图像识别等技术数字化为计算机可读的语言,作为微软小冰训练的语料库,输入到微软小冰的诗歌生成模块中进行训练,训练人员可以设置相应的训练次数,相应训练结束后,训练人员通过诱发模块给出创作诱发信号,按照各项指标评价微软小冰训练相应次数以后创作出的诗歌,将评价信息作为反馈来完善诗歌生成模块,当训练人员认为小冰经过一定次数训练以后创作出的诗歌具有一定美感时才会停止训练。[5]我们发现,从微软小冰零基础学习写诗到创作出具有一定美感的诗歌这一过程中,可能涉及享有著作权作品的输入、对著作权作品的改编或汇编性输出,因此,这一过程中存在侵犯作品的复制权、演绎权等法律风险。
2、机器学习怎么分类?
复制权是一种依附性权利,控制复制行为的目的在于控制后续的传播和使用行为,所以,训练数据“喂养"过程中以传播效果为导向的复制很可能落入复制权的规制范畴,基于此,可以表达性内容的输出与否作为标准,将使用行为划分为表达性使用和非表达性使用。[6]
相应地,以是否有表达性内容输出为标准,将机器学习分为表达型机器学习和非表达型机器学习两类,并以机器学习的作品是否来源于特定作者为标准,将表达型机器学习进一步地划分为普通的表达型机器学习和特殊的表达型机器学习。[7]
(1)非表达型机器学习,指没有表达性内容输出的机器学习。此类典型的人工智能系统如人脸识别系统,人脸识别系统以训练人员输入的人脸照片作为训练材料,经过深度学习完成人脸照片像素点阵化——提取面部特征值——构建对应的特征值数字矩阵的识别算法训练,完成训练的人脸识别系统再基于识别算法对现实场景的识别需求作出回应。
(2)普通的表达型机器学习,指有表达性内容输出的机器学习,且用于算法学习的材料不局限于某一类特定作品,而来源于不特定的作品。比如,微软小冰将中国近现代五百多位诗人的诗歌作为语料库来训练诗歌生成模块,诗歌生成模块运用双向语言模型根据诱发源提取的多个关键词扩展成诗句,经过整诗的流畅性与连贯性检查后,输出创作的现代诗歌。[8]
(3)特殊的表达型机器学习,指有表达性内容输出的机器学习,且用于算法学习的材料来源于特定的作者。比如,微软将勃朗特将近十七万幅作品的片段作为人工智能系统的训练材料,提取作品片段的绘画细节和绘画风格训练人工智能系统创作模块,最终人工智能系统创作出与勃朗特风格近似但是不相同的作品。[9]
二、著作权合理使用之三步检验法与转换性使用
著作权法赋予著作权人的专有权利并不是一种绝对控制其所创作的作品的权利,因此,在鼓励创作者创作和促进公众获得作品这两种利益的平衡下,著作权法对专有权利在一定程度上加以限制,作出合理的例外规定。这种合理的例外规定在国际条约上体现为:
《伯尔尼公约》第9条第2款规定:成员国法律有权允许在某些特殊情况下(不经作者许可)复制作品,只要这种复制不致损害作品的正常使用,也不致无故侵害作者的合法利益。同样,在TRIPs协定和《世界知识产权组织版权条约》的规定中,条约成员国也可以对作品的专有权作出合理的限制。
(一)比较法视角看著作权合理使用的立法规制
作为国际条约的成员国,成员国国内立法中对于著作权加以限制的例外规定必须以国际条约为前提。各国立法在著作权的限制和例外上的名称和体例有很大区别,主要分为两类[10]:
1、以美国为代表的一般条款型
美国国内立法《版权法》第107条并没有以列举的形式规定“合理使用"对应的各种情形,只给出法官认定行为是否构成“合理使用"的四个考量因素:(1)使用的目的和性质,即使用是出于商业目的还是教育目的;(2)被使用作品的性质;(3)被使用部分的数量和重要性;(4)对作品潜在市场或价值的影响。
2、以欧洲大陆法系国家为代表的列举穷尽型
欧洲大陆法系国家的著作权立法通常不以“一般条款"的形式赋予法官运用自由裁量权认定行为是否构成合理使用,而是制定“权利的例外和限制条款",对是否构成合理使用的情形作出封闭性的全面列举,对不属于列举情形的行为没有适用合理使用的可能性。
我国《著作权法》的合理使用制度沿用了大陆法系国家的立法模式,但是所有区别。2010年的《著作权法》列举了合理使用的12种情形,随着这种封闭性的列举形式逐渐不适应司法实践的需求,2020年修订的《著作权法》增加了“法律、行政法规规定的其他情形"的兜底情形,在穷尽12种列举的法定情形下,给法官留下了合理使用认定上自由裁量权的开口。
(二)著作权合理使用的认定模式
各国著作权合理使用的立法虽然存在体例和名称上的不同,但是,合理使用条款背后的立法精神确是统一的,无非是各国按照本国国情和司法实践对条款的各项要件的解释偏向有所区别。对于包括机器学习作品行为的合理使用认定的法律适用中,法官主要有以下两种论证模式:
1、三步检验法
(1)特殊且特定情形
该要件对应到我国《著作权法》的合理使用条款,法官在认定未经著作权人同意,使用作品的行为是否构成合理使用的免责情形时,仅限定于列举的十二种法定情形及增加的“其他情形"。有学者认为,《著作权法》合理使用条款在明文列举的合理使用情形之外增加了一项 “其他情形"作为开放性司法解释的入口,实际上违背了“三步检验法"中特定且特殊情形的要件,因为“特定"意指著作权例外类型应由法律明确界定,而不能仅提供模糊标准。[11]
在我国法律体系中主要有三部著作权领域相关的规范性文件涉及“法律、行政法规规定的其他情形",即《计算机软件保护条例》、《信息网络传播权保护条例》和《著作权法实施条例》等,而随着技术革新以及法律的滞后性,新类型化的行为,包括机器学习作品的行为,是否构成合理使用将会面临没有法律上的认定依据的境地。
司法实践中,为应对法律失位、无法依法裁判的情况,最高人民法院2011年发布的《关于充分发挥知识产权审判职能作用推动社会主义文化大发展大繁荣和促进经济自主协调发展若干问题的意见》第8条规定:“妥当运用著作权的限制和例外规定,正确判定被诉侵权行为的合法性……在促进技术创新和商业发展确有必要的特殊情形下,考虑作品使用行为的性质和目的、被使用作品的性质、被使用部分的数量和质量、使用对作品潜在市场或价值的影响等因素。如果该使用行为既不与作品的正常使用相冲突,也不至于不合理地损害作者的正当利益,可以认定为合理使用……",这份由最高院制定发布的司法文件,突破了《著作权法》的法定列举情形的限制,实际上是引入了美国《著作权法》对于合理使用行为考量四要素,在司法实践中起到了很好的效果,如谷歌图书数字化及片段式使用案[12]。
(2)不影响作品的正常使用
“不影响正常使用"要件采取了“禁止竞争性经济利益标准",即要求合理使用行为不得与法定权利行使所获经济利益相冲突,所有法定权利所生成的收益应归属于著作权人所有。[13]该要件保护的是著作权人在权利行使过程中产生的经济利益,但是,著作权与经济利益的因果性,以及何种经济价值所包含的经济利益是《著作权法》在排除专有权的绝对控制以外所应当赋予著作权人的法益,都是司法实践中认定这一要件的难题。
另外,正常使用过程中产生的经济利益应当包括现有的和预期的利益。针对直接使用著作权作品的情形,如涉及侵犯复制权、信息网络传播权的行为,司法实践中常常以新作品是否产生了对原作品市场的替代性效应来认定行为的合法性,而针对涉及原作品的演绎权而使用作品的行为,虽然演绎作品改变原作品的表达方式,并且可能在与原作品不同的市场产生经济利益,但是,这类经济利益通常可以视为原作品正常使用过程中产生的预期的经济利益。
(3)不得不合理损害合法利益
“正常使用"从文义上讲指通常行使的权利,覆盖了过大范围的著作权市场,导致新技术发展迅猛的今天没有了新市场和新价值的空间,并且从理论上来讲,任何转换性使用行为都必然会对作品的市场价值造成影响,所以,解释“不得不合理损害合法利益"要件的重点,在于对“不合理"界限的确定。[14]不合理损害和正常使用考量的因素都在于经济利益,所以,不合理损害的利益同样延伸至预期市场,而对不合理损害的认定也在于是否对原作品市场产生替代性,以及对原作品的使用行为是否构成转换性使用等考量因素。
2、转换性使用
美国《版权法》第107条规定了合理使用,条文如下:
出于例如批评、评论、新闻报道、教学(包括供教室教学的多件复制)、学术或研究等目的……对于受版权保护的作品的合理使用,不属于版权侵权。在判断对于作品的使用在某种情况下是否构成合理使用时需要考虑以下因素:
(1)使用的目的和性质,包括是否出于商业目的或非营利的教育目的;
(2)受到版权法保护的作品的性质;
(3)被使用部分的数量和重要程度对于被使用的作品的整体的情况;
(4)这种使用对于被使用作品的潜在市场或者作品的价值的影响。
如果对于作品的使用经过上述因素的判断可以认定为合理使用,则作品还未发表的事实本身不会影响合理使用的成立。
对于是否构成合理使用四个要素的认定,美国法院判例存在不同观点,本质是基于原作品产生新价值和保护原作品合法利益的矛盾。美国联邦最高法院在“索尼案"中明确提出, 在没有证据证明的前提下,对有版权保护的作品的二次商业性使用被推定为不合理使用。[15]美国联邦最高法院在“坎贝尔案"中强调,商业性使用对于认定合理使用与否并不具有决定性,只是作为衡量合理使用的第一个因素。当二次作品越具有“转换性",其他阻碍合理使用认定的因素(比如商业性使用)的重要性就会越小。[16]美国第二巡回上诉法院在“谷歌图书案"中认为,如果复制原作品之后创作的新作品具有高度转换性、创造性,并且新作品产生的市场不构成对原作品受保护的市场实质替代,谷歌的商业性使用行为以及使用比例占原作品百分比过高都不能作为否定合理使用的正当理由。[17]
所谓“转换性使用",是指对原作品的使用并非为了单纯地再现原作品本身的文学、艺术价值或者实现其内在功能或目的,而是通过增加新的美学内容、新的视角、新的理念或通过其他方式,使原作品在被使用过程中具有新的价值、功能或性质,从而改变了其原先的功能或目的。[18]
具体有两种典型的转换性使用行为:
(1)转换内容的使用行为。其中涉及的转换主要集中于以批注、评论或再创作的方式对原作品加以改动。[19]我国首例转换性使用判决中,法官认为,“黑猫警长"等美术作品被引用在电影海报中具有了新的价值、意义和功能,其原有的艺术价值功能发生了转换,而且转换性程度较高,不会产生替代性使用,亦不会影响权利人的正常使用。[20]
(2)转换目的的使用行为。不改变作品表达,仅改变作品使用目的的行为,也被称为功能性转换。[21]在美国“谷歌图书"案中,美国法院对谷歌公司的复制行为以及片段引用行为均作出合理使用的认定,但我国法院在谷歌图书数字化及片段式使用案中就相似的案件事实,一审法院仅认为片段引用行为属于转换性使用,而复制行为被认定为侵权[22],二审法院维持原判,但指正了一审法院对谷歌公司的复制行为是否构成侵权的多项说理,认为“如果是专门为了后续的合理使用行为而未经许可复制他人作品,应当认定为合理使用行为的一个部分,同样构成合理使用",二审法院基于谷歌公司对合理使用的抗辩提供证据不足驳回了上诉,并未在实体法上对谷歌公司的复制行为是否构成合理使用作出评价[23]。
三、机器学习作品著作权责任
1、非表达型机器学习
非表达型机器学习仅有著作权作品的输入,以人脸识别系统的学习训练来看,对版权图片提取特征值并构建特征矩阵,并不涉及对作品创造性内容的提取,因此,不是表达性内容的输入,且后续训练完成的人工智能系统的应用场景也不会有表达性作品的输出,这种机器学习训练中使用作品的行为不属于著作权法意义上的作品使用,不构成著作权侵权。
2、普通的表达型机器学习
该类机器学习作品强调不特定作品的输入,比如,在微软小冰诗歌生成模块的训练中,输入五百多位诗人的诗歌作为语料库来训练小冰根据关键词扩展成诗句的能力,训练过程主要是提取原作品的高频词组表达,创作出的新作品也是根据概率分布和高频搭配等方法的词语扩展,很难形成对原作品的替代性使用,同样也不会损害原作品的市场利益,因此,可以适用合理使用进行侵权抗辩。
3、特殊的表达型机器学习
在微软的勃朗特绘画创作人工智能系统中,仅输入勃朗特三百多幅作品,并训练人工智能系统识别和分析勃朗特的绘画风格和绘画细节,包含了对表达性作品的独创性表达的提取,同时,输出的新作品具有强烈的勃朗特风格,会对原作品的市场产生替代性效应,不属于作品的正常使用,因此,该类机器学习作品不能用合理使用进行抗辩。
· 结语 ·
人工智能技术的发展不仅在于算法、算力、数据三要素的提升,也与著作权法对人工智能技术各个环节的规制与引导息息相关。本文将人工智能机器学习作品行为类型化,并对合理使用条款法律适用进行解析,在人工智能时代司法实践中有一定意义。
[注]