以Deep Seek为例分析AIGC大模型开源与闭源的法律异同
以Deep Seek为例分析AIGC大模型开源与闭源的法律异同
2025年1月20日,Deep Seek发布最新开源模型DeepSeek-R1,官网与App同步更新上线。此次模型升级主要在后训练阶段使用了强化学习技术,在仅有极少标注数据的情况下,极大提升了模型推理能力。在数学、代码、自然语言推理等任务上,性能比肩OpenAI-o1正式版。[1]值得注意的是,DeepSeek-R1同步开源模型权重,[2]并基于Qwen和Llama开源了从DeepSeek-R1中提取的6个小模型,其中32B和70B模型在多项能力上实现对标OpenAI o1-mini的效果。
此次Deep Seek开源统一使用标准化、宽松的MIT许可协议,在无需获得Deep Seek同意的情形下,使用者可进行免费的商业化使用、修改、分发、再许可和个人使用;[3]产品协议中明确用户可以通过模型蒸馏等方式训练其他模型。[4]相反,Open AI从GPT-3开始基本采取闭源策略,开源模式强调透明度和协作,而闭源模式注重稳定性和商业利益的保护,笔者在《AIGC产品的生命周期透视(上)数据与代码的授权合规》一文中论述了针对基于开源大模型进行研发或封装应注意的事项,特别是许可协议审查,应当重点关注改编、商用和传染/强制开源问题。在本文,笔者将以Deep Seek为例,分析AIGC大模型开源与闭源之间的异同。
一、大模型是否受到法律保护?
知识产权保护技术成果的专有权,大模型作为计算机软件,是《著作权法》保护的客体;同时,算法还可能作为数据处理或信息分析的方法发明专利受到《专利法》保护;非公开内容亦可作为商业秘密受到保护。由此,权利人对大模型享有法律规定的专有权利,即在一定时间内公众只能在获得权利人许可或授权的前提下方可使用。权利人将大模型开源,本质上是主动将技术成果公之于众,并通过开源协议的方式授予公众个人使用、商业性使用或训练其他技术成果,具体使用方式、范围和条件由不同类型的开源协议予以确定。
知识产权同样重视技术成果的普惠发展,即权利人享有的权利应当受到限制,例如时间限制、合理使用、法定许可等制度构建平衡了权利人的专有权和激励创新的社会价值。大模型开源通过促进技术的快速迭代、推动知识共享、促进社区的广泛参与和协作以及推动行业生态系统的建设,对社区发展具有重要意义。开发者可以自由研究核心模型代码,更好地理解底层的工作原理和优化方法,更多中小企业和个人开发者参与模型训练有助于打破大模型垄断,并降低了技术成果的开发成本和门槛,开源社区具有快速的反馈机制使得模型优化和更新迭代的速度更快。
然而,开源模式面临质量控制和违规风险挑战,闭源模型在保障技术成果的稳定和合规上具有一定优势。对于商业公司而言,是否开放技术成果除了服务于其自身的商业目的外,其意义更在于闭源模型通过限制使用途径可以防止被恶意利用或用于违反人工智能管制的目的,闭源模型采取技术手段保护部署环境,可以为处理个人信息、商业秘密、金融、医疗等敏感信息的客户提供安全和可靠的性能。
二、开源协议是什么?
开源协议被视为权利人就权利许可和保留的公开声明,通常附带开源代码一同发布,以“License.txt”为名悄然列于项目文件列表。为便于统一许可和使用,不同机构发布了典型的开源协议文件适用于特定软件和需求的主体,Github总结了主流机构的开源协议类型,[5]其中Apache和Cloud Native Computing Foundation适用Apache License 2.0协议,GNU在大部分软件中适用GPLv3协议,npm packages适用MIT或ISC协议,OpenBSD偏好ISC协议,Rust主要适用MIT协议或Apache License 2.0协议,WordPress插件和主题适用GNU GPLv2协议,Joomla扩展和模板的PHP代码需适用GNU GPLv2协议。
1、MIT协议是宽松基础的标准化协议。
MIT许可适用于任何没有限制的初期代码,该许可简短、易于理解,并且允许任何人任何形式的使用,只要保留许可协议的副本,包括版权声明,发布者可以使用不同的许可协议进行再次发布。DeepSeek-R1的开源便使用了MIT协议。同样的,Apache 2.0协议、ISC协议和BSD协议等宽松许可证均允许用户按照个人意愿使用许可进行授权。[6]
2、GPL协议具有强制传染性。
GPL许可要求用户以同样方式开源代码,即用户必须选择同样的许可协议进行开源,不允许修改后和衍生的代码做为闭源的商业软件发布和销售,因此若用户期望闭源使用,则应规避以GPL协议开源的代码。
3、Apache2.0协议提供专利授权保护。
Apache2.0协议明确授予使用用户永久免费的专利许可,因此对于大型企业来说有一定吸引力,可以规避潜在的知识产权维权风险。该协议下授权主体为每一位贡献者,授权客体包括贡献本身以及与贡献结合的被专利化的技术方案。
Github关于选择开源协议的网站指引
三、开源是否等于免费?
开源与免费是完全不同的概念,承上论述,开源是指源代码是公开可用的,任何人都可以获取、查看、修改和分发这些源代码,强调代码的开放性和可协作性,旨在促进技术的共享和创新,即对源代码的获取无需支付费用,但并非是指获取和使用软件时不需要支付费用。开源的DeepSeek是需要对调用其API服务收取费用的,服务以百万tokens为单位计费。DeepSeek API根据输入和输出的tokens数量来收费。API服务tokens是对输入输出文本进行分割后得到的最小单位,是API计费的基本单元。但个人用户使用DeepSeek通常情况下不需要付费,例如使用自然语言对话、创意写作、编程辅助等功能。但如果个人用户以开发者身份调用DeepSeek的API服务,将按照使用的tokens数量等标准支付费用。
四、能否直接使用开源大模型研发新的大模型?
答案是肯定的,开发者完全可以使用开源代码进行相关大模型开发。既然DeepSeek大模型源代码已经开源,云平台、电动汽车企业、开发者甚至国家超算互联网平台为何还调用DeepSeek API,而不直接使用开源源代码研发呢?
首当其冲的是开源协议限制,承上论述,类似DeepSeek-R1代码和模型遵循的是MIT开源许可协议,对于开发者较为友好,该协议授予了任何人复制、使用、修改、分发、售卖软件的权利,仅需在软件及其副本中保留版权声明和许可声明。其他DeepSeek系列开源AI项目的模型则遵循DEEPSEEK LICENSE AGREEMENT(Version 1.0),该协议友好度亦较为良好,其通过版权及专利授权条款授予用户复制、使用、修改、分发相关模型信息的权利,在复制或分发模型衍生品时,无衍生开源相关要求,但有模型使用场景限制,以避免模型被用于非法或危险目的。而部分开源协议将可能对开发者施加限制,例如GPL许可协议要求用户以同样方式开源代码;开发者仅可以在非商业性的开放许可证和面向创作者的低成本许可证下使用Stable Diffusion,企业或个人开发者每年收入低于100万美元,只需向Stability AI提交一份申请,即可免费将其用于包括数据微调和开发生成式AI应用等商业化用途;若年收入超过100万美元,则需付费使用。
其他原因还包括,虽然有相关源代码,但大模型开发涉及诸多复杂技术难题,例如算法优化、算力调配等。接入API可以快速部署与上线,让平台的用户进行使用。此外,DeepSeek对模型进行持续优化和维护,平台通过API接入能直接获取这些更新和优化,无需投入精力进行底层模型的研发和维护。同时,DeepSeek在数据安全和隐私保护、法律合规方面有相应的措施和技术,平台通过API接入可以利用其安全机制,确保用户数据的安全,同时降低因自身开发可能出现的合规风险。
五、Open AI为什么选择闭源?
闭源大模型意味着其大模型的源代码和核心技术不向公众开放,例如OpenAI的大模型GPT系列,其算法、架构设计以及训练方法等核心技术细节都被OpenAI严格保密,不对外公开披露。开发者和用户不能像使用开源模型那样自由获取源代码进行本地部署、修改和二次开发。若想使用OpenAI的大模型,通常只能通过OpenAI提供的API接口来进行有限的访问和调用,并且要遵循其制定的使用条款和付费模式。OpenAI将大模型闭源,可通过对技术的独家掌控来实现商业价值最大化。例如通过向企业和开发者提供付费的API服务,为不同行业定制解决方案等方式获取收入。同时,闭源也有助于OpenAI在市场竞争中保持技术优势,防止竞争对手直接借鉴或利用其技术成果,从而维持其在人工智能领域的领先地位。
六、开源与闭源的优劣之分?
开源大模型一般代码公开在如GitHub、Hugging Face等平台,全球开发者能自由获取、阅读和研究代码,基于已有代码进行修改、优化和扩展,通过提交代码、发起Pull Request等方式贡献新功能、修复漏洞,提升模型性能和功能。同时,开发者可贡献自己的数据或参与数据标注工作,丰富模型训练数据,提高模型对不同场景和任务的适应性。开发者还能以开源大模型为基础,进行二次开发,针对不同行业和领域开发出各种创新应用,拓展模型应用边界。而闭源模式限制了外部开发者对模型的改进和创新,只有模型提供商内部的团队能够进行研发工作。相比之下,开源模型能够汇聚全球开发者的智慧,推动技术的快速发展和创新。
相较于闭源模式,开源代码存在例如代码质量参差不齐、安全修复不及时、许可证冲突、版权归属混乱、缺乏专业支持等问题。开源模式通常在协议中声明不对代码的质量和适用性提供任何保证,用户在使用过程中可能需自行承担代码存在漏洞或错误、生成违规内容或使用数据违规的风险。尽管闭源模式下大模型也通常不对输出内容的准确性、适用性和安全性进行保证,这是生成式人工智能的固有合规风险之一,但其通常可以保证在一定时期内用户的正常使用,并提供相应的技术支持和维护服务。
七、开源与闭源都在面临的挑战是什么?
向用户提供服务的大模型或人工智能产品通常通过了审核备案并受到行政监管,例如我国《生成式人工智能服务管理暂行办法》《互联网信息服务深度合成管理规定》以及《网络安全标准实践指南——生成式人工智能服务内容标识方法》《人工智能生成合成内容标识办法(征求意见稿)》等法律法规和技术规范规定了训练数据安全、个人信息保护、服务评估和备案制度,有助于保障安全合规使用大模型技术。特别是在公布代码的开源模式下,高透明度有助于确保数据处理符合隐私保护要求,用户可以通过审查代码了解数据处理过程不侵犯个人信息权益和数据安全,但用户的自行使用需要实施必要的安全措施,防止数据泄露或滥用。而无论开源或是闭源,面向公众提供服务均需面临严格的数据和隐私保护要求,因为模型处理数据过程中不可避免的面临滥用个人信息、违规爬取数据、数据跨境传输等合规风险,美国已有系列针对大模型违规训练数据的诉讼案件,例如领英被诉未经许可使用用户个人信息训练AI;我国首例“AI生成声音人格权侵权案”同样认定个人声音权益及于AI声音,未经许可AI化使用原告声音构成侵权。欧盟《通用数据保护条例》(GDPR)尤其重视个人数据的保护和监管,1月28日,意大利数据保护监管机构针对DeepSeek采取了首次监管行动,声明就中国人工智能模型DeepSeek对个人数据的使用情况进行问询,要求其对数据处理的范围、目的、存储和抓取方式等关键问题进行回应。这一事件凸显了在代码源头开放的争议之外,隐私数据的处理是大模型面向公众提供服务过程中面临的严峻挑战,即使是在开源普惠理念下发展的AGI,也与闭源产品一样,难以回避个人信息和数据处理的人文困境。
[注]
[1]https://api-docs.deepseek.com/zh-cn/news/news250120
[2]https://github.com/deepseek-ai/DeepSeek-R1/blob/main/DeepSeek_R1.pdf
[3]https://github.com/deepseek-ai/DeepSeek-R1/blob/main/LICENSE
[4]https://chat.deepseek.com/downloads/DeepSeek%E7%94%A8%E6%88%B7%E5%8D%8F%E8%AE%AE.html
[5]https://choosealicense.com/
[6]https://opensource.guide/legal/#which-open-source-license-is-appropriate-for-my-project