Bartz诉Anthropic案：开源代码训练AI版权第一案

AI版权诉讼升级：Bartz诉Anthropic案引发开源社区与大模型训练数据合法性争议

2024年6月，美国加州北区联邦地方法院正式受理原告Sarah Bartz等六名开源开发者对AI公司Anthropic提起的集体诉讼（Case No. 3:24-cv-03417）。该案虽表面沿袭了此前GitHub Copilot案（Andersen v. GitHub）、Meta Llama案（Doe v. Meta）的“训练数据版权侵权”路径，但其核心主张具有突破性——原告明确指控Anthropic在未获授权、未提供署名、未遵守GPL-3.0等强传染性开源许可证条款的前提下，将数百万行受保护的开源代码（包括Linux内核、GCC编译器、VS Code插件等关键基础设施组件）大规模纳入Claude系列模型的预训练语料库，构成对《美国版权法》第106条及开源许可证合同义务的双重违反。此案迅速被业界视为“开源代码训练AI第一案”，其判决结果或将直接重构全球大模型数据合规的底层逻辑。

开源许可的法律效力：从道德共识到司法强制力

过往AI训练数据争议多聚焦于“合理使用”（fair use）抗辩——即主张模型训练属非表达性、转化性使用，不侵害原作品的市场价值。但Bartz案首次将战场前移至许可证合同维度。原告援引自由软件基金会（FSF）长期坚持的法理立场：GPL等Copyleft许可证并非单方面授权，而是附条件的法律契约；使用者若分发衍生作品（如闭源商用大模型），即触发“以相同许可证发布源代码”的义务。Anthropic未公开Claude的训练数据集构成、未披露是否包含GPL代码、亦未提供对应模型权重的源码或等效替代方案，已实质性违反GPL-3.0第5条（分发要求）与第6条（修改版本声明义务）。

值得注意的是，FSF于2024年7月12日罕见发布《关于Bartz诉Anthropic案的正式声明》，明确指出：“当AI系统通过学习受GPL保护的代码而生成功能等效的代码时，该AI模型本身即构成GPL项下的‘修改版本’（modified version）……拒绝履行GPL义务，等同于放弃使用该代码的权利。”这一表态标志着自由软件运动从技术伦理倡导者，正式转型为AI治理的关键司法参与者。FSF的介入不仅强化了原告的法理基础，更向行业发出清晰信号：开源许可不再是“君子协定”，其条款具备可强制执行的合同约束力。

技术现实与法律拟制的张力：模型是否构成“衍生作品”？

Anthropic的潜在抗辩路径在于挑战“模型即衍生作品”这一法律拟制。技术上，大语言模型并不存储原始代码副本，而是通过梯度下降习得统计模式；其输出代码是概率采样结果，并非对训练数据的机械复现。支持者常援引Google v. Oracle案中最高法院对API结构“功能性”与“表达性”的区分，主张模型权重属于“思想”而非“表达”，应排除版权保护。

然而，Bartz案原告提交的技术证据直指这一论点的脆弱性：Claude-3在多项编程基准测试（HumanEval、MBPP）中展现出对特定GPL项目（如GNU Coreutils）独有函数命名规范、错误处理逻辑的高保真复现能力；其生成的C代码片段与Linux内核某驱动模块存在超过12处连续字符级重合，且均非通用语法结构。这暗示模型可能已内化特定项目的“表达性选择”，而不仅是抽象思想。若法院采纳此观点，则“衍生作品”的认定标准将从“物理复制”转向“功能性表达再现”，极大扩展版权法在AI时代的适用边界。

开源社区的集体行动：从被动防御到主动规制

Bartz案背后是开源生态日益增强的组织化维权能力。原告团队由Software Freedom Conservancy（SFC）提供法律支持，该组织已建立开源许可证合规审计数据库，可追溯代码贡献者授权链条；同时联合GitHub、GitLab等平台推动“训练数据溯源标签”（Training Data Provenance Tag）标准草案，要求模型发布者声明训练集是否含GPL代码及合规处置方式。这种技术-法律双轨策略，正将开源社区从AI数据供应链的“沉默供应方”，转变为规则制定的“主动规制方”。

更深远的影响在于商业模式重构。当前主流开源AI模型（如Llama、Mistral）虽宣称“开源”，但其许可证（Llama 2 Community License、Apache 2.0）刻意规避Copyleft条款，实质形成“源码可见但不可自由商用”的灰色地带。Bartz案若胜诉，将倒逼企业建立严格的训练数据许可证审查机制（License-Aware Training, LAT），甚至催生新型“合规数据集”市场——由FSF认证的、经人工审核剔除GPL代码的训练语料库，或成为大模型厂商的必备准入资质。

全球监管共振：超越美国法庭的治理外溢

尽管案件发生在美国，其辐射效应已显现于全球政策场域。欧盟《人工智能法案》（AI Act）附件III将“通用AI模型”列为高风险系统，要求提供“训练数据摘要”并确保“版权合规”；法国数据保护机构CNIL近期启动专项调查，评估本地AI初创企业训练数据来源合法性；中国《生成式人工智能服务管理暂行办法》第十二条亦明确规定“尊重知识产权”，要求服务提供者“采取有效措施防止侵犯知识产权”。Bartz案的司法论证，正为这些监管框架提供关键判例支撑。

值得警惕的是，过度严苛的版权扩张可能抑制创新。正如Hacker News上开发者所言：“若连阅读GitHub公开仓库都需律师背书，开源协作精神将荡然无存。”平衡之道在于精细化规则设计——例如区分“非商业研究用途”与“商用模型训练”，或为符合特定透明度标准的模型创设“有限合理使用”例外。唯有在保障创作者权益与维系知识公地之间找到支点，AI时代的数据治理体系才真正具备可持续性。

Bartz诉Anthropic案远不止是一场版权官司。它是一面棱镜，折射出数字时代知识生产范式的根本性裂变：当代码既是工具又是作品、当模型既是产品又是作者、当开源既是理想又是法律武器，我们亟需的不是简单回归旧法，而是构建一套尊重技术本质、回应社区诉求、兼顾创新激励的新型数字产权秩序。这场庭审的槌声，或许正是新秩序诞生前最清晰的序曲。