生成式人工智能大模型训练语料数据版权治理路径优化研究_AI大模型_方案展示_ 产品方案

生成式人工智能大模型训练语料数据版权治理路径优化研究

时间：2025-11-17 来源：张夏意北京互联网法院

李强总理在近期座谈会指出，人工智能是发展新质生产力的重要引擎。大模型在训练语料来源上的合法性问题已经成为世界范围内生成式人工智能技术可持续发展的关键性议题之一。2023年7月13日，国家网信办联合国家发展改革委、教育部、科技部、工业和信息化部、公安部、国家广电总局公布《生成式人工智能暂行管理办法》（以下简称暂行办法），这是我国首次对生成式人工智能开展训练数据处理活动做出规定。2024年2月，广州互联网法院作出（2024）粤0192民初113号民事判决书，成为我国乃至全球首例生成式人工智能服务提供者侵犯他人著作权的生效判决。2024年3月,全国网络安全标准化技术委员会发布《生成式人工智能服务安全基本要求》（以下简称基本要求），对人工智能大模型语料内容来源的可追溯性进行规范。

一、问题提出：生成式人工智能大模型训练语料的版权风险

目前全球领先的生成式人工智能服务提供者（以下简称服务提供者）的优势在很大程度上源于它们使用的超大规模且高质量的专有数据。同时，在生成式人工智能大模型语料训练的各个阶段、各类型语料来源均极有可能产生版权风险。

（一）根据训练语料来源进行版权风险分析

生成式人工智能大模型的数据来源大致可以分为三种类型。第一种类型是来源于数据爬取的内容。在非公有领域情况下，未经授权对相关内容进行挖掘使用的情况，包括未经许可获取网络数据及内容、获取数据库内容、数字化非电子数据内容等方式，在语料内容非公有领域且未经许可的情况下所构成的语料库内容，具有天然的著作权侵权风险。第二种类型是通过签订授权合同的形式获取语料内容的方式。部分情况下虽然服务提供者能够提供合同，但因合同相对方本身未获有效授权，所以并未获取版权合法性，通常这种情况下为服务提供者与集体管理组织、数据库网站运营者签订的合同，在此情况下，著作权侵权风险较高。第三种方式是通过购买数据库的方式。在当前我国数据库产业发展现状来看，购买正版数据库并不意味着服务提供者规避了所有的版权风险，其仍面临时权利人向数据库企业授权不清晰、不完整，或者数据库企业缺乏授权的情况。

（二）根据大模型运行阶段进行版权风险分析

一般情况下，生成式人工智能大模型的工作原理可分为三个部分：数据输入——机器学习——结果输出，其输出的结果与用户输入的内容一起，作为新的数据源，从而产生循环。在训练语料数据输入的阶段，也就是对于其通过各种方式所收集训练语料的复制行为过程，构成复制权侵权可能性很高。在训练语料数据输出的阶段，存在构成改编权、汇编权、信息网络传播权侵权风险。

二、现状检视与原因分析：规范中的高合规性要求与运行中的高版权风险并存

（一）无法纳入现有豁免规则的版权壁垒困境

我国对于合理使用制度采取“封闭式”的立法模式，虽然2020年新修订的著作权法第二十四条第十三款新增了合理使用的兜底条款，但在事实上仅将合理使用解释的开放性留给了立法者，而非司法者。在该种立法模式下，将生成式人工智能使用他人作品进行语料训练纳入合理使用兜底条款难度极高。生成式人工智能大模型训练不论是从商业化的主体，营利性的目的，还是大量复制与利用作品的情况，均无法被现有合理使用制度涵盖。此外，生成式人工智能大模型训练同样不属于“期刊转载”、“广播电台和电视台使用他人已发表的作品制作广播和电视节目”等情形，难以匹配适用。

（二）高版权风险的运行现状

种种迹象表明，生产式人工智能行业正在经历对如同互联网早期飞跃发展“非法兴起”的关键而漫长的阶段。主要原因如下：一是侵权行为具有隐蔽性。生成式人工智能大模型训练行为本质上是一种机器内部的非外显性作品利用行为，版权人存在发现模型侵权、举证模型侵权以及侵权内容比对等方面的判定困境。在大多数情况下，若在输出端难以判断人工智能生成物与原作品构成实质性相似，那么原告主张其享有权利的作品被非法作为大模型训练语料，存在在技术上的难以解释性与举证上的难以实现性。二是海量数据意味着需要获取来源各异的海量权利主体的授权，并承担及其高昂的人力成本、时间成本交易成本。训练语料数据产业兴起时间较短，形成稳定市场模式与价值评估需要更长的时间，目前权利主体与大模型开发者具有不同的价值预期，加大了权利人与大模型开发者达成有效协议的难度。

三、路径优化：探索鼓励创新发展与版权规制并存的治理路径

（一）利益考量：适度向鼓励人工智能产业创新发展倾斜

训练语料数据版权与大模型的创新发展之间呈现出“负相关性”。即对于训练语料数据版权的严格限制会对生成式人工智能大模型创新发展形成阻力。世界各国，特别是发达国家，已经充分认识到了放松对于大模型训练语料数据版权限制的重要意义。给予生成式人工智能大模型服务提供者一定程度的版权责任豁免，是一种发展趋势。

（二）规则突破：纳入合理使用制度

合理使用制度作为版权的权利限制制度，设立初衷在于激励创新、促进传播、破除版权壁垒，随着人工智能产业的跨越式发展，合理使用制度应在技术发展背景下重新考量。在我国，如何将生成式人工智能训练语料数据纳入合理使用的范围有三种不同的思路。第一种思路是在现有的封闭条款中，突破已有限制。第二种思路是纳入兜底条款范畴，司法创设新情形空间，这一思路与封闭式的立法模式与立法目的相悖，亦可能导致司法在其他情形中过度适用兜底条款。第三种思路是以立法模式创设第十三个封闭式条款，有学者建议在著作权法第二十四条后增加“（十三）为人工智能创作复制、改编他人作品，以及将创作成果以广播、信息网络传播方式向公众提供”。笔者赞同第三种思路，但认为应当再次基础上限缩范围，一是仅限于训练语料输入阶段，在人工智能输出结果与原权利人享有版权作品高度相似且具有商业性质的情况下，不宜认定为合理使用；二是及时认定符合合理使用的条件，违反技术措施仍应适用《著作权法》第四十九条的规定认定侵权。

（三）制度探索：构建“选择退出”默示许可制度

有学者认为我国实际已经开始了默示许可的探索，只是制度设计不够明显。我国在“叶根友诉无锡肯德基案”中，运用“合同解释默示许可”，认为书库权利人将其作品免费上传至网络，未限制使用的行为构成“默示许可”。对于生成式人工智能大模型训练中使用他人版权作品的行为，构建默示许可制度，一方面有利于服务提供者提升获取语料的数量、质量，降低其获取语料的成本，另一方面也给予版权人适当补偿与选择退出的权利，对于大模型时代的数据规模高需化与“版权蟑螂”问题的解决，均具有现实意义。我国著作权法第二十六条对于对于许可使用规定了“本法规定可以不经许可的除外”的例外条款，“选择退出”默示许可制度可以在司法解释或行政法规中予以规定。

（四）治理路径：形成多方协同治理格局

生成式人工智能大模型训练语料数据的版权治理，要构建与技术影响程度相匹配的治理能力体系，整合行政监管、企业治理、技术保障等多种类型的治理能力, 共同应对大模型时代人工智能对人类带来的不确定性挑战。在不限制技术创新发展的同时，革新旧有的著作权制度，使其符合生成式人工智能内容创作、传播和利用的权益保护和惠益分享体系，在保障国家训练语料数据安全与意识形态安全，激烈国内自主创新的基础上，在训练语料数据来源、训练方式、版权治理等方面推动国际协同。

责任编辑：广汉

生成式人工智能大模型训练语料数据版权治理路径优化研究

热门推荐