AIGC产品的生命周期透视(下)大模型与产品的运行合规
AIGC产品的生命周期透视(下)大模型与产品的运行合规
引言
笔者此前已在《AIGC产品的生命周期透视(上)数据与代码的授权合规》一文中就AIGC产品训练初期的数据内容、数据集以及代码的授权合规提出建议,本文将继续探讨大模型、AIGC产品的运行合规路径,从而通过上下篇将AIGC产品生命周期进行完整梳理,剖析AIGC产品从0到1过程中的合规风险,以期更好助力中国大模型和AIGC产品行业的蓬勃发展,为AIGC产品合规提供有益借鉴。
为帮助读者全面理解AIGC产品的生命周期,在上篇中笔者以下图为例将AIGC产品分为数据内容;数据集;代码、算法与程序;大模型;AIGC产品;生成内容等6个重要风险合规要点,本篇仍引用此图继续讨论剩余3个合规风险要点。
一、大模型的运行合规
1、大模型运行的风险
从上图显示的技术流程来看,大模型本质上已经脱离数据集独立运行,在经过模型对数据集进行训练后,数据集中的相关内容被“内化"成大模型一部分,由AIGC产品接入后根据用户输入而生成内容。所以,大模型可谓是AIGC产品形成流程中的核心权利节点,既是进一步开发AIGC产品、获得收益的基石,但亦要首当其冲地承担各类合规风险,是被数据内容权利人维权的首要对象。例如自2023年6月起,作为GPT系列模型的所有人,Open AI接连遭遇作家集体诉讼案,诉其在未经许可的情况下批量复制受版权保护的作品并输入到大语言模型中;除此之外,Open AI及相关公司还遭遇了30亿美金的集体诉讼,诉其未经用户同意将抓取的私人信息用于创建其人工智能产品。
从大模型内部细分来看,大模型自完成预训练始,又可分为通用版本、微调版本、优化修改形成Demo版本或衍生版本。例如在通用大模型上加入金融、法律、医药等行业的私有数据、参数进行微调,形成适用特定行业的垂直模型。当然,此类衍生和微调同样需遵守通用版本大模型的许可协议,从而避免侵害大模型权利的风险。此外,与前一环节的数据集训练不同,模型训练所使用的数据集往往采集自公开网络数据,而大模型微调环节使用的私有数据将涉及商业秘密、受竞争法保护的数据权益等,例如Bloomberg-GPT收缩其通用数据集比例至48.73%,其他51.2%属于新增的金融数据,这包括收费数据和私有数据。[1]
2、大模型运行的合规路径
(1)训练数据合规仍是根基
AIGC产品生成内容的源头实质来自于原始数据集,大模型通过训练(也是模仿学习的过程)数据集内容从而实现自我创作,但如果大模型生成内容对于训练数据的依赖性较强,即使经过训练后其自我生成的内容与数据集内容仍存在相同或相似,就将可能导致侵权风险。由此,在上篇中笔者建议,控制训练数据内容的合规是从根源上把控模型及后续产品合规的关键,例如通过原创数据内容开展训练、使用获得授权数据内容、使用清洗和优化的数据内容等,从而弥补大模型本身依赖于数据集原始数据内容的弊端。当然,大模型若能够实现真正的“独立创作",根据用户输入而生成内容能与数据集内容完全不同,亦或是能够在不接触(实际是不使用对应数据内容训练)的情形下而基于相同创意创作相同或相似作品,那么关于数据内容能否被用于模型训练的问题就需要通过合理使用抗辩解决,关于该部分此前笔者在《ChatGPT的著作权规制》一文中进行探讨分析,此处将不再展开。
(2)私有数据合规
私有数据涉及的法律风险将远远高于采集于公开网络的训练数据,且无法通过主张合理使用抗辩。由此,若开发者在微调或修改中使用私有数据打造适用特定行业的垂直模型,应与私有数据持有人进行合作,并由数据持有人提供数据集,并对数据内容作权利无瑕疵保证,同时对数据内容归属、大模型归属、生成内容权属、未来收益等进行相应约定。
当然,对于产品开发者而言,通过一次性许可取得私有数据授权,从而完全独立运行大模型及衍生AIGC产品是最优选。此外,即使取得相应授权可以利用私有数据进行模型训练与开发,但在使用中应注意保护数据所涉及的商业秘密和个人信息,此类私有数据授权往往仅是授权整体数据权益,而并未对单一数据涉及的商业秘密、个人隐私等内容获得逐一授权。此外,按照一般约定,若大模型微调使用私有数据并允许开源发布。而若大模型许可协议明确要求开源义务,开发者则应通过封装代码、管道通信等技术方式设计避免不可开源发布私有数据之义务与大模型的传染性开源协议的冲突,以免对开源协议或私有数据授权协议的违约。
(3)遵照通用许可协议
与上篇建议代码的授权合规路径相同,大模型同样是在信息技术社区进行开放共享。但在修改预训练大模型时,则需要特别注意遵守通用版本大模型的许可协议,尤其是大模型规模庞大,代码、算法繁多,将可能涉及多个不同的许可协议。对于Demo或衍生模型开发者,在增减和修改预训练大模型程序和参数时应注意避让不允许修改的代码、算法部分,部分允许修改的代码、算法可能要求在新模型的许可协议中注明修改内容,也应一并遵循。
此外,怎样识别和注意大模型是否可修改/改编、是否可商用、是否传染与强制开源、是否存在非竞争条款等,以及相对应怎样保证授权路径合规,笔者在上篇“代码合规"部分已有详细论述,此处亦不再展开。
二、AIGC产品的运行合规
1、AIGC产品运行的风险
(1)前端开发/SaaS(软件即服务)风险
经过前端开发,用户可以直接使用程序或软件获得相关服务,开发过程中如使用第三方代码,受许可协议约束,该第三方代码许可协议可能与训练代码和大模型的开源协议产生冲突,并可能限制后续修改和商用。
(2)责任主体风险
AIGC产品提供者是2023年8月15日生效的《生成式人工智能服务管理暂行办法》(以下简称“《办法》")规定的信息内容责任主体,负有网络信息内容生产者责任和网络信息安全义务,需严格遵守《办法》及《互联网信息服务深度合成管理规定》对个人信息处理、生成内容标识、投诉举报渠道等服务规范的要求。
(3)上线备案风险
根据《办法》第十七条,境内AIGC产品如向社会公众开放且“具有舆论属性或社会动员能力",应在行政机关进行算法备案。结合《具有舆论属性或社会动员能力的互联网信息服务安全评估规定》及目前的备案实践来看,绝大多数AIGC产品都负有备案义务。在网信办于2023年6月及8月公布的两批次备案信息共计151个算法中,不乏在线智能客服、商品三维图像合成、文本转语音等较为功能较为单一的算法。
(4)用户参与风险
用户输入内容可能存在知识产权侵权、涉密、违反法律法规等情形。如果该AIGC产品同步将用户输入内容纳入数据集或模型改进,则相关侵权内容可能对既有的合规数据集造成“污染",增加数据集侵权风险和违法风险。
(5)数据安全风险
使用AIGC产品产生的用户数据的使用、存储、处理和分级管理应符合数据合规要求。尤其值得注意的是,境内第三方主体在其提供的AIGC产品嵌入境外大模型API的,涉及用户数据及个人信息向境外传输,可能触及《数据安全法》《个人信息保护法》等跨境数据合规要求。
2、AIGC产品运行的合规路径
(1)冲突避免
正如笔者上篇详细论证怎样采取技术手段隔绝传染性,开发者在前端开发中首先应注意第三方许可协议是否与开源代码和模型的许可协议冲突,同时注意协议是否限制修改和商用,发现相关冲突时,采取封装代码、管道通信等技术方式进行隔离,从而避免违约风险。
(2)履行行政义务
开发者应按照《办法》履行合规要求,与注册其服务的使用者签订服务协议,明确双方权利义务。并遵守个人信息处理、生成内容标识、投诉举报、信息删除机制和算法备案等制度要求,就人工智能服务生成内容设置水印等显著标识、设立面向公众的知识产权侵权投诉渠道和违法内容投诉渠道、提前在行政机关进行算法备案。
而若AIGC产品的底层使用的是境外大模型,优先考虑将境外大模型本地化、或在境内服务器进行私有云部署,强化客户数据安全,避免数据出境带来的申报监管成本。若需采用API嵌入,则应审慎评估向用户开放的功能可能收集的数据范围、敏感度等,根据《数据安全法》《数据出境安全评估办法》等承担申报评估、与外方签署标准合同等合规义务。
(3)防范污染
从最大程度规避风险的角度来看,建议AIGC产品尽量不要存储用户输入内容进入训练数据集,以规避污染风险。2023年5月5日,Open AI表示,Open AI已有一段时间没有拿付费客户的数据训练其GPT等大语言模型。近期行业内也已有以小体量数据进行模型训练的尝试。2023年6月,微软已开始使用规模更小的数据训练模型,尽管在数据集和模型大小方面可能会比竞品模型小几个数量级,但高质量的小数据也能让模型具备良好的性能。
退一步讲,如商业考虑确有使用用户输入内容进行优化训练的需要,则建议将用户输入内容隔离于既有数据集单独存储,并对用户输入内容进行一定“清洗"。同时,在用户协议中明确其输入内容将用于AIGC产品及其大模型的优化,并在功能界面进行明显提示,要求用户就其输入内容及行为的合法合规性自负责任。开发者可根据产品性质借鉴Open AI模式,在MaaS、SaaS和API采用不同的信息收集和退出选项。例如对于通过API交互方式,适用“选择-进入(opt-in)"的模式,只有在用户明确同意的情况下,才利用API交互内容进行相关服务的优化和升级;对于通过非API方式交互例如ChatGPT,则适用“选择-退出(opt-out)"的模式,默认使用用户输入内容进行模型训练和优化,若用户不同意则不再使用。[2]
三、AIGC产品生成内容的运行合规
1、AIGC生成内容的风险
(1)用户输入情况不可控
用户可能输入违反法律法规和公序良俗、涉及仇恨、暴力类命令,或要求生成某一公众人物的形象、声音等,这些输入可能导致生成内容存在违法、侵犯人格权等情形。
最新的动态表明,部分AIGC产品已具备编辑能力,即根据用户的命令直接编辑用户输入的图像、歌曲等,这可能侵犯原作品著作权人的修改权等权利。以图像为例,如对图像中特定元素进行局部修改,例如对照片中的人脸进行AI换脸、修改照片中的某品牌名称为讽刺贬低性名称等,也可能涉嫌侵犯自然人肖像权及法人名誉权、构成不正当竞争等。
(2)生成内容的著作权侵权争议
AIGC生成内容是否构成著作权法意义上的“作品",能否作为作品获得著作权法保护,仍存在争议,此前笔者在《ChatGPT的著作权规制》一文认为,生成内容可能构成对既有著作权作品的侵权。而AIGC产品提供者是生成内容的提供方,较难通过技术中立抗辩不需承担责任。详细论证可参考笔者此前文章。
2、AIGC产品生成内容的合规路径
(1)算法优化
AIGC产品算法的优化应伴随着产品的始末,怎样实现AIGC产品真正的“独立创作"将是产品合规的最终目标。保证数据集无权利瑕疵、合理使用数据集目前仍可能存在许多障碍,而实现算法优化,尽可能增强AIGC生成内容的转化性,降低因生成内容与数据内容相似而引发的纠纷,是更加便捷的路径。
(2)过滤系统建立
正如网络平台不断升级的过滤系统,应当针对用户输入的命令设置关键词过滤并进行关联记忆,禁止大模型对部分关键词进行读取和回应,以免输出暴力、仇恨内容,且确保被过滤的命令不会回写入数据集。而对于按照用户指令编辑修改用户输入内容,仍应向用户强化提示,要求用户善尽义务,对其输入和输出内容承担法律责任。
此外,对于涉及人脸、肖像、语音、音色合成等人格要素的AIGC产出内容,在数据来源和内容产出进行“首尾双控",既确保使用人格元素获取充分授权,又要注意在输出涉及人格元素的AIGC内容时保持积极正向,以更严格的标准规避因用户输入负面指令引发的名誉权等人格权纠纷。而对于未获得人格元素授权的公众人物,AIGC产品应拒绝回应用户输入的指令。
(3)用户协议优化
对于部分产品而言,可以考虑在用户协议中采取“生成内容知识产权归属用户,平台取得永久授权"的模式,以最大程度降低因生成内容侵权带来的纠纷(具体讨论可参见笔者《以全球主流AIGC产品用户协议为例梳理AIGC生成内容的权利归属与使用限制》)。同时设置免责条款:(1)排除对生成内容合规性作任何保证;(2)要求用户就生成内容承担全部法律责任。开发者应在产品功能界面进行进一步提示,充分履行告知义务。但如前所述,由于《办法》已明确由AIGC产品提供者承担网络信息内容生产者责任,仅凭免责条款可能难以完全免除AIGC产品提供者的责任,仅能起到尽可能靠近技术中立抗辩的功能,仍需AIGC产品提供者采取前述其他合规举措,方可将AIGC生成内容的侵权风险降到最低。
四、结语
人工智能生成服务在全球范围内面临机遇和挑战,AIGC全流程合规有助于人工智能产业的蓬勃发展,也有助于内容和知识领域的向好前行。《办法》的施行是对人工智能服务进行法律规制的前序。笔者认为,开发者应重视AIGC产品的全流程合规,确保数据和代码的授权合规,重视大模型和产品的运行合规,由此促进人工智能生成内容对社会的增益,维护社会的整体利益和可持续性发展。
[注]
[1] Shijie Wu, et al. (2023). BloombergGPT: A Large Language Model for Finance, p6. https://arxiv.org/abs/2303.17564
[2] https://help.openai.com/en/articles/5722486-how-your-data-is-used-to-improve-model-performance