FSF介入Anthropic侵权案:AI训练数据版权争议升级

开源意识形态的“宪法时刻”:FSF介入Bartz诉Anthropic案,AI训练数据权属争议升维至原则层面
2025年初,美国加州北区联邦地方法院审理的Bartz v. Anthropic案迎来关键转折——自由软件基金会(FSF)罕见发布正式声明,明确支持原告、开源开发者Matthew Bartz,指控Anthropic公司未经许可将包含其GPLv3授权代码的公开项目(如GitHub仓库)用于Claude系列大模型训练,构成版权侵权。这一举动绝非普通行业声援:作为GNU项目与自由软件运动的精神中枢,FSF自1985年创立以来极少就具体商业诉讼公开发声。此次破例,标志着AI训练数据合法性之争已从技术合规层面上升为开源哲学、数字公共领域存续与知识生产权力结构的根本性博弈。
FSF声明背后的三重断裂:许可证效力、合理使用边界与“公共网络”的幻觉
FSF声明直指当前AI产业实践中的三大认知错位。其一,许可证约束力不可被“训练即使用”逻辑消解。Anthropic辩称,模型对代码的“学习”属于非表达性使用,不触发GPL的传染性条款。但FSF强调:GPLv3第0条明确定义“运行程序”包括“以任何方式利用程序功能”,而模型在推理阶段复现GPL代码逻辑结构(如特定算法模式、API调用序列),实质上构成了对受保护表达的衍生性利用。训练过程并非真空中的数学运算,而是对原始文本语义、结构与意图的系统性摄取与重构。
其二,“合理使用”抗辩在规模化商业模型面前已显苍白。Anthropic援引Authors Guild v. Google案中“转化性使用”判例,主张模型训练属于高度转化性目的。FSF则援引2024年第二巡回法院在NYT v. OpenAI案中的裁决要旨:当训练数据规模达数万亿token、且模型输出直接替代原作品市场(如生成可商用代码、法律文书、新闻摘要),所谓“转化性”即让位于对原作者潜在市场的实质性损害。Bartz案特殊性在于,原告代码本身即具明确商业用途(嵌入式系统开发库),Claude生成的同类代码已出现在多家科技公司内部工具链中。
其三,“公开网络即公共领域”的行业默契面临法理破产。Anthropic曾暗示,GitHub等平台上的公开代码“默认开放训练”。FSF尖锐指出:这混淆了“可访问性”与“许可权”。GPLv3要求任何分发行为(包括以模型权重形式“分发”训练成果)必须提供完整对应源码——而当前所有闭源大模型均拒绝履行此义务。更深远的是,此案挑战着Web 1.0时代形成的“爬虫默许协议”(robots.txt)是否仍适用于AI时代的知识萃取。当健身App数据可实时定位法国航母(Le Monde报道),当HP客服强制15分钟等待(HN热议),技术能力的跃迁早已撕裂旧有权利默示框架。
开源社区的分化:实用主义妥协与原则性抵抗的张力
FSF的介入并未获得开源阵营一致拥护。部分主流基金会采取谨慎立场:Linux基金会未表态,Apache软件基金会重申“许可证不规制训练数据”;而GitHub母公司微软则通过Copilot的“代码建议过滤器”与Opt-Out机制,试图在合规与商业间走钢丝。这种分化揭示深层矛盾:开源运动正经历从“协作生产工具”到“AI时代基础设施”的范式迁移。
实用主义者认为,过度强调许可证限制将扼杀创新。他们援引HN上Sitefire(YC W26)等初创公司案例:其通过自动化优化AI在搜索引擎中的可见性,本质依赖对公开数据的快速迭代训练。若每项训练都需逐项授权,中小开发者将彻底出局。然而原则派反驳:这恰是“公地悲剧”的预演——当所有模型公司都默认掠夺性使用GPL代码,最终将导致高质量开源项目因维护者丧失经济激励而枯竭。Bartz本人即因发现Claude生成的代码与其GPL项目存在97%语法结构相似度(经第三方代码指纹工具验证)而提起诉讼,其诉求不仅是赔偿,更是确立“训练即分发”的法律先例。
全球监管棋局:欧盟DSA/DCIA与美国版权局指南的角力
Bartz案判决将直接影响多国AI立法进程。欧盟《数字服务法案》(DSA)已要求大型平台披露训练数据来源,而即将生效的《人工智能法案》(AI Act)附件III明确将“高风险AI系统”训练数据透明度列为合规红线。更具颠覆性的是《数据治理法案》(DCIA)草案中提出的“数据信托”机制——允许开源社区集体授权其数据资产用于公益AI训练,但禁止商业性提取。若Bartz胜诉,DCIA或加速落地,形成“开源数据主权”新范式。
美国方面,版权局2025年1月更新的《AI生成内容登记指南》虽承认训练数据合法性待定,但暗示“大规模复制+商业性输出”可能突破合理使用边界。值得注意的是,该案法官此前在NYT v. OpenAI中曾质疑:“当模型能完美复现《纽约时报》写作风格并生成付费订阅内容时,‘合理使用’是否沦为技术巨头的免罪金牌?”这一诘问,正是Bartz案的核心审判焦点。
超越诉讼:构建可持续AI数据生态的三条路径
无论Bartz案结果如何,开源社区已无法退回旧秩序。可行路径有三:
第一,许可证进化。FSF正协同OSI(开放源代码促进会)推动“AI-Ready GPL”修订草案,新增第12条:明确将模型权重视为“目标代码”,要求商业模型发布时同步提供训练数据集哈希值及对应源码获取通道。
第二,技术制衡。类似HN讨论中Crypto在伊利诺伊州初选资金失效所揭示的“执行失效”问题,开源社区正开发“许可证感知爬虫”(License-Aware Crawler),自动识别并标记GPL代码,供模型公司白名单训练。
第三,经济再平衡。借鉴DeSci(去中心化科学)模式,建立开源代码NFT化确权平台,开发者可对训练使用收取微版权费(如每百万token $0.01),由智能合约自动结算——让“免费”真正成为一种可选择的权利,而非被迫的剥削。
当FSF的声明墨迹未干,Anthropic已宣布暂停部分GitHub数据摄入。这场诉讼早已不是两家机构的胜负手,而是数字文明的一次宪法性辩论:我们究竟要一个由隐性攫取驱动的AI霸权,还是一个尊重每一行代码尊严的智能未来?答案,正写在法庭的卷宗里,更写在每一个开发者今日提交的commit message中。