Bartz诉Anthropic案:AI训练使用GPL开源代码的版权争议

TubeX AI Editor avatar
TubeX AI Editor
3/20/2026, 9:51:31 PM

AI版权争议升级:Bartz诉Anthropic案引发开源与商业AI训练数据合法性大讨论

2024年春季,美国加州北区联邦地区法院受理的Bartz v. Anthropic一案悄然浮出水面,却迅速在技术伦理、开源生态与AI治理领域掀起巨浪。该案由自由软件基金会(FSF)前执行董事、开源倡导者Bradley M. Kuhn联合多名开发者共同发起,指控Anthropic公司在未经许可、未署名、未补偿的前提下,将其参与维护的多个GPLv3许可开源项目(包括关键基础设施工具链)纳入Claude系列大模型的训练语料库,构成对自由软件许可证条款的系统性违反。此案并非孤立事件,而是继GitHub Copilot(2022)、Getty Images v. Stability AI(2023)之后,全球第三起直指“AI模型训练是否构成版权法意义上的‘复制’与‘衍生作品’”的核心司法挑战。尤为关键的是,FSF于2024年4月发布的正式声明明确指出:“训练过程若实质性地提取并固化了受保护表达的结构、序列与组织(SSO),即可能触发GPL等强传染性许可证的合规义务。”这一法律定性,正将AI训练数据的合法性边界从模糊的“合理使用”辩论,推向清晰的许可证契约责任维度。

开源许可证的“沉默条款”:训练数据合规性长期被系统性忽视

长期以来,主流AI厂商普遍援引美国《版权法》第107条“合理使用”原则为模型训练辩护——强调其非表达性、转化性用途及对原作市场的“零替代效应”。然而,Bartz案首次将焦点精准锚定于开源许可证本身所承载的合同性义务。GPLv3第0条明确定义“传播”包括“以任何方式向他人提供副本”,而第2条进一步要求“任何传播本程序或其修改版本的行为,必须完全符合本许可证条款”。FSF在声明中尖锐指出:当模型权重在训练中内化了GPL代码的特定算法逻辑、API设计模式甚至注释风格,并在推理阶段复现其功能结构时,该模型已非中立“工具”,而成为GPL代码的“功能性衍生物”。这种观点呼应了2023年欧盟《人工智能法案》草案中关于“高风险AI系统须确保训练数据来源合法”的强制性要求,更与德国马克斯·普朗克知识产权研究所最新研究结论一致——“神经网络权重若可逆向映射至特定训练样本的独创性表达,则构成事实上的复制”。

值得注意的是,Hacker News社区近期涌现的多个开源AI项目(如OpenCode——一个完全基于MIT/Apache许可代码训练的轻量级编程代理)恰恰印证了合规路径的可行性。其开发者明确声明:“所有训练数据均经人工审核,排除任何GPLv3及以上许可代码;核心模型权重发布时附带完整数据 provenance 报告。”这种“许可证感知型训练”(License-Aware Training)范式,正从边缘实践加速走向行业共识。

商业AI的“数据债务”:训练黑箱与合规成本的结构性矛盾

Anthropic等头部厂商面临的深层困境,在于其商业模型与开源伦理的根本张力。为追求模型性能,Claude 3系列训练数据集规模达数万亿token,涵盖GitHub公开仓库、Stack Overflow问答、技术文档乃至学术论文。在如此海量、异构、动态更新的数据洪流中,实现逐项许可证合规审查,意味着高昂的工程成本与算力损耗。据业内估算,对1TB代码数据集进行GPL兼容性扫描,需消耗约200 GPU小时——这在动辄PB级训练数据的工业场景中近乎不可承受。于是,“数据债务”(Data Debt)应运而生:厂商以短期性能跃升为代价,将长期合规风险资本化,寄望于司法体系对“合理使用”的宽松解释。

但Bartz案正在改写这一博弈规则。原告方提交的关键证据显示,Claude 3在特定编程任务中生成的代码片段,与FSF维护的GPLv3项目libgplutils中的函数签名、错误处理逻辑及内存管理模式存在统计学显著的同源性(p<0.001)。这直接挑战了“模型仅学习抽象概念”的技术辩解,揭示出训练数据中受保护表达的“幽灵残留”(Ghost Residue)现象。当AI不再是被动反射镜,而成为主动编码器时,其输出便天然承载着输入数据的法律基因。

全球治理分野:欧盟强监管、美国司法试探、中国探索平衡路径

Bartz案的辐射效应已超越国界。欧盟正借《人工智能法案》构建“全生命周期合规框架”,要求高风险AI系统提供训练数据清单及版权授权证明;美国则通过司法个案逐步厘清边界,如Andy Warhol Foundation v. Goldsmith(2023)判决强调“转化性使用”须产生“新意义、新信息或新美学”,为AI训练设下更高门槛。在中国,《生成式人工智能服务管理暂行办法》第十二条虽要求“尊重知识产权”,但尚未细化至训练数据层面。值得观察的是,国内头部开源社区(如OpenI启智)已自发启动“AI友好型许可证”倡议,尝试在Apache 2.0基础上增加“训练数据透明度”附录,体现务实主义治理智慧。

开源社区的范式革命:从“代码捐赠者”到“数据主权捍卫者”

FSF的声明绝非怀旧式抗议,而是一场静默的范式革命宣言。它标志着开源贡献者正从被动的数据提供者,转向主动的数据主权捍卫者。未来,GitHub等平台或将集成许可证合规扫描插件,自动标记GPL代码的AI训练风险;模型卡(Model Card)标准亦需扩展“数据谱系”(Data Provenance)字段,强制披露训练集中各许可证类型的占比与审计方法。正如Hacker News上一则热议帖所言:“当Arc浏览器启发的邮件应用(Show HN: Email App)能以极简设计重构人机交互,那么用同样严谨的工程思维重构AI训练伦理,有何不可?”

Bartz案终将落幕,但其真正遗产在于:它迫使整个产业承认——AI的智能高度,永远无法脱离其数据根基的道德纯度。在算法奔涌的时代,许可证不是过时的纸枷锁,而是数字文明的基因校验码。

选择任意文本可快速复制,代码块鼠标悬停可复制

标签

AI版权
GPLv3
大模型训练合规
lang:zh

封面图片

Bartz诉Anthropic案:AI训练使用GPL开源代码的版权争议