Bartz诉Anthropic案:开源代码训练AI版权第一案

AI版权诉讼升级:Bartz诉Anthropic案引发开源社区与大模型训练数据合法性争议
2024年6月,美国加州北区联邦地方法院正式受理原告Sarah Bartz等六名开源开发者对AI公司Anthropic提起的集体诉讼(Case No. 3:24-cv-03417)。该案虽表面沿袭了此前GitHub Copilot案(Andersen v. GitHub)、Meta Llama案(Doe v. Meta)的“训练数据版权侵权”路径,但其核心主张具有突破性——原告明确指控Anthropic在未获授权、未提供署名、未遵守GPL-3.0等强传染性开源许可证条款的前提下,将数百万行受保护的开源代码(包括Linux内核、GCC编译器、VS Code插件等关键基础设施组件)大规模纳入Claude系列模型的预训练语料库,构成对《美国版权法》第106条及开源许可证合同义务的双重违反。此案迅速被业界视为“开源代码训练AI第一案”,其判决结果或将直接重构全球大模型数据合规的底层逻辑。
开源许可的法律效力:从道德共识到司法强制力
过往AI训练数据争议多聚焦于“合理使用”(fair use)抗辩——即主张模型训练属非表达性、转化性使用,不侵害原作品的市场价值。但Bartz案首次将战场前移至许可证合同维度。原告援引自由软件基金会(FSF)长期坚持的法理立场:GPL等Copyleft许可证并非单方面授权,而是附条件的法律契约;使用者若分发衍生作品(如闭源商用大模型),即触发“以相同许可证发布源代码”的义务。Anthropic未公开Claude的训练数据集构成、未披露是否包含GPL代码、亦未提供对应模型权重的源码或等效替代方案,已实质性违反GPL-3.0第5条(分发要求)与第6条(修改版本声明义务)。
值得注意的是,FSF于2024年7月12日罕见发布《关于Bartz诉Anthropic案的正式声明》,明确指出:“当AI系统通过学习受GPL保护的代码而生成功能等效的代码时,该AI模型本身即构成GPL项下的‘修改版本’(modified version)……拒绝履行GPL义务,等同于放弃使用该代码的权利。”这一表态标志着自由软件运动从技术伦理倡导者,正式转型为AI治理的关键司法参与者。FSF的介入不仅强化了原告的法理基础,更向行业发出清晰信号:开源许可不再是“君子协定”,其条款具备可强制执行的合同约束力。
技术现实与法律拟制的张力:模型是否构成“衍生作品”?
Anthropic的潜在抗辩路径在于挑战“模型即衍生作品”这一法律拟制。技术上,大语言模型并不存储原始代码副本,而是通过梯度下降习得统计模式;其输出代码是概率采样结果,并非对训练数据的机械复现。支持者常援引Google v. Oracle案中最高法院对API结构“功能性”与“表达性”的区分,主张模型权重属于“思想”而非“表达”,应排除版权保护。
然而,Bartz案原告提交的技术证据直指这一论点的脆弱性:Claude-3在多项编程基准测试(HumanEval、MBPP)中展现出对特定GPL项目(如GNU Coreutils)独有函数命名规范、错误处理逻辑的高保真复现能力;其生成的C代码片段与Linux内核某驱动模块存在超过12处连续字符级重合,且均非通用语法结构。这暗示模型可能已内化特定项目的“表达性选择”,而不仅是抽象思想。若法院采纳此观点,则“衍生作品”的认定标准将从“物理复制”转向“功能性表达再现”,极大扩展版权法在AI时代的适用边界。
开源社区的集体行动:从被动防御到主动规制
Bartz案背后是开源生态日益增强的组织化维权能力。原告团队由Software Freedom Conservancy(SFC)提供法律支持,该组织已建立开源许可证合规审计数据库,可追溯代码贡献者授权链条;同时联合GitHub、GitLab等平台推动“训练数据溯源标签”(Training Data Provenance Tag)标准草案,要求模型发布者声明训练集是否含GPL代码及合规处置方式。这种技术-法律双轨策略,正将开源社区从AI数据供应链的“沉默供应方”,转变为规则制定的“主动规制方”。
更深远的影响在于商业模式重构。当前主流开源AI模型(如Llama、Mistral)虽宣称“开源”,但其许可证(Llama 2 Community License、Apache 2.0)刻意规避Copyleft条款,实质形成“源码可见但不可自由商用”的灰色地带。Bartz案若胜诉,将倒逼企业建立严格的训练数据许可证审查机制(License-Aware Training, LAT),甚至催生新型“合规数据集”市场——由FSF认证的、经人工审核剔除GPL代码的训练语料库,或成为大模型厂商的必备准入资质。
全球监管共振:超越美国法庭的治理外溢
尽管案件发生在美国,其辐射效应已显现于全球政策场域。欧盟《人工智能法案》(AI Act)附件III将“通用AI模型”列为高风险系统,要求提供“训练数据摘要”并确保“版权合规”;法国数据保护机构CNIL近期启动专项调查,评估本地AI初创企业训练数据来源合法性;中国《生成式人工智能服务管理暂行办法》第十二条亦明确规定“尊重知识产权”,要求服务提供者“采取有效措施防止侵犯知识产权”。Bartz案的司法论证,正为这些监管框架提供关键判例支撑。
值得警惕的是,过度严苛的版权扩张可能抑制创新。正如Hacker News上开发者所言:“若连阅读GitHub公开仓库都需律师背书,开源协作精神将荡然无存。”平衡之道在于精细化规则设计——例如区分“非商业研究用途”与“商用模型训练”,或为符合特定透明度标准的模型创设“有限合理使用”例外。唯有在保障创作者权益与维系知识公地之间找到支点,AI时代的数据治理体系才真正具备可持续性。
Bartz诉Anthropic案远不止是一场版权官司。它是一面棱镜,折射出数字时代知识生产范式的根本性裂变:当代码既是工具又是作品、当模型既是产品又是作者、当开源既是理想又是法律武器,我们亟需的不是简单回归旧法,而是构建一套尊重技术本质、回应社区诉求、兼顾创新激励的新型数字产权秩序。这场庭审的槌声,或许正是新秩序诞生前最清晰的序曲。