Bartz诉Anthropic案：AI训练版权争议升级

AI版权诉讼升级与开源社区立场分化：Bartz v. Anthropic案引发FSF公开表态及行业连锁反应

2024年第四季度，美国加州北区联邦地方法院受理的Bartz v. Anthropic案迅速跃升为生成式AI领域最具象征意义的版权争议之一。该案原告——前Anthropic工程师、自由软件倡导者Michael Bartz——指控Anthropic在未经许可、未署名、未补偿的前提下，将其在GitHub等平台公开发布的数千行高质量开源代码（主要为MIT与Apache-2.0许可项目）纳入Claude系列模型训练语料库，并在模型输出中复现其独创性逻辑结构与实现范式，构成对《美国版权法》第106条规定的复制权、改编权及署名权的系统性侵害。与此前GitHub Copilot案聚焦“代码补全是否构成衍生作品”，以及NYT v. OpenAI案侧重新闻文本的商业性摘要不同，Bartz案首次将矛头精准指向模型训练阶段对开源贡献者个体劳动成果的结构性吸纳，并首次由开源社区内部资深实践者以原告身份发起司法挑战——这不仅是一场法律诉讼，更是一次关于“开源契约精神能否穿透AI黑箱”的价值重申。

FSF罕见发声：从技术中立到伦理介入的范式转向

面对此案，自由软件基金会（FSF）于2025年1月12日发布题为《On the Bartz v. Anthropic Lawsuit: Why Free Software Principles Demand Accountability in AI Training》的正式声明——这是FSF自2017年《AI and Free Software》白皮书以来，首次就具体司法案件发表立场声明。声明明确指出：“当AI公司以‘合理使用’为盾牌，将数百万行遵循GPL、MIT等自由许可证的代码‘蒸馏’为不可追溯的统计模式时，它们实际上在解构自由软件最核心的互惠契约：即任何受益于自由代码的衍生作品，都必须以同等自由条件回馈社区。”FSF特别强调，Anthropic在训练数据文档中刻意隐去代码来源、拒绝提供可验证的数据集清单、且未在Claude模型权重或API响应中嵌入任何归属信息，已实质性违背《GNU GPL》第5条关于“显著通知”的要求。这一表态标志着FSF完成了从“技术中立观察者”到“开源伦理守门人”的战略转向——其关切已不止于许可证合规，更延伸至AI时代知识生产链中贡献者尊严与数字劳工权益的制度性保障。

开源阵营深度撕裂：实用主义派与原则主义派的治理分歧

FSF的强硬立场并未获得开源社区一致支持，反而激化了长期存在的路线分歧。以Linux基金会旗下LF AI & Data为代表的技术务实派认为，当前诉讼策略存在重大风险：若法院认定模型训练本身即构成版权侵权，将导致所有主流大模型（包括Llama、Mistral等开源模型）面临追溯性责任，进而迫使企业全面转向封闭数据集，最终扼杀开源AI生态。该派系主张推动《AI训练数据透明度法案》立法，要求强制披露训练数据来源比例，但反对以版权诉讼倒逼模型开源。与此形成尖锐对立的是以Software Freedom Conservancy（SFC）为首的“原则主义联盟”，其联合32个开源项目维护者签署公开信，援引美国最高法院在Campbell v. Acuff-Rose案中确立的“转化性使用”四要素测试，指出Anthropic未对Bartz代码进行实质性再创作，仅作概率性重组，不满足“新表达、新目的、新功能”的转化要件。两派分歧的本质，是开源运动在AI纪元遭遇的根本性拷问：当“自由”被算法重新定义，“共享”是否仍需以“可审计”为前提？

资本逻辑的暗流涌动：估值重构与治理失衡的双重压力

法律争议正加速催化资本市场的敏感反应。据彭博终端数据显示，Anthropic在2024年Q4完成新一轮融资后，其二级市场股权报价较峰值回落37%，而同期Eightco（一家专注AI基础设施的风投机构）却宣布以12亿美元增持OpenAI股份，成为其最大外部股东。这种反向操作绝非偶然：Eightco在内部备忘录中直言，“OpenAI通过Azure云服务绑定微软、构建私有数据飞轮的路径，虽牺牲部分开源声誉，但显著降低了版权诉讼的暴露面；而Anthropic坚持‘宪法AI’框架却未建立同等强度的数据合规审计机制，使其成为风险溢价最高的标的。”更值得警惕的是，多家律所已启动针对Anthropic董事会的尽职调查，焦点直指其2023年批准的《训练数据豁免政策》——该政策允许高管团队单方面决定是否对特定开源项目执行“数据排除协议”。当法律风险开始直接映射为股权流动性折价，AI公司的治理结构正面临前所未有的合法性检验。

技术反制的萌芽：可验证训练溯源与社区自治工具链

危机亦催生创新。在Hacker News近期热议的YC W26项目Sitefire中，开发者提出“训练数据指纹”（Training Data Fingerprint, TDF）协议：通过为每份开源代码注入轻量级、不可擦除的哈希水印，并在模型推理层部署实时比对模块，使任何调用者均可验证输出是否源于特定训练源。尽管技术可行性尚存争议，但其理念已获FSF背书。与此同时，Debian社区正测试“许可证感知型爬虫”（License-Aware Crawler），该工具能自动识别GitHub仓库的许可证类型与贡献者声明，在抓取前生成合规性报告并触发人工审核流程。这些草根技术方案表明，开源社区正尝试绕过司法滞后性，以工程化手段重建AI时代的信任基础设施。

Bartz v. Anthropic案远未终结，但其掀起的涟漪已清晰勾勒出AI发展的新临界点：当代码不再是静态文本而是流动的训练燃料，当“自由软件”概念必须容纳“可解释的模型权重”，当FSF的声明与Eightco的注资同步登上财经头条——我们终将明白，真正的技术革命从不只关乎参数规模，而在于它如何重塑人类协作的基本契约。开源运动正站在十字路口：是退回许可证文字的堡垒，还是以更激进的透明性设计，为AI文明铺设一条不背叛初心的轨道？答案不在法庭判决书中，而在下一个commit里。