AI模型版权争议升级：Bartz诉Anthropic案与开源社区法律立场分化

近期，美国加州北区联邦地方法院受理的Bartz et al. v. Anthropic, PBC集体诉讼（案号5:24-cv-03297）标志着AI版权治理进入全新阶段。该案并非泛泛质疑大模型训练行为，而是首次以具体技术路径为靶心——原告指控Anthropic在训练Claude 2/3系列模型时，系统性爬取并使用了包括Stack Overflow、GitHub公开代码库、Reddit技术讨论帖及大量CC-BY-SA许可内容在内的数十亿条文本数据，且未履行署名义务、未提供原始许可信息、亦未对衍生作品作合规标注。尤为关键的是，原告援引《数字千年版权法》（DMCA）第1201条“规避技术措施”条款，主张Anthropic绕过Stack Overflow等平台设置的robots.txt禁爬规则及API访问限制，构成非法获取受保护作品。此案已获美国电子前沿基金会（EFF）支持，并迅速引发自由软件基金会（FSF）、Apache软件基金会（ASF）及Linux基金会（LF）三大开源治理主体的罕见联合关注。

开源阵营的立场裂变：从技术中立到权责共担

传统上，开源社区对AI训练数据问题持审慎观望态度。但Bartz案爆发后，FSF于2024年6月发布《AI训练与自由软件许可证的适用性声明》，首次明确将Copyleft原则延伸至AI场景：“当模型权重本身构成对GPL或AGPL代码的‘衍生作品’时，其分发必须附带完整源代码及对应许可证”。该立场直指Anthropic将Claude权重以闭源API形式商用的行为——若训练数据含AGPL代码，则模型输出可能触发传染性授权义务。与此形成鲜明对比的是ASF的务实路线：其法律顾问团队强调“模型权重是数学表达而非代码”，援引Google v. Oracle判例中“API结构不受版权保护”的逻辑，主张训练过程属于合理使用范畴。而Linux基金会则采取折中策略，推动建立“AI训练数据透明度框架”（AITDF），要求成员企业披露训练数据来源比例、清洗方法及许可合规审计报告，但拒绝预设法律定性。

这种分化揭示出开源生态的根本张力：FSF坚守意识形态底线，ASF侧重工程实践弹性，LF则试图构建可操作的治理基础设施。三者分歧不仅关乎法律解释，更深层指向开源运动在AI时代的身份重构——是继续作为软件许可证的守门人，还是转型为数据伦理与模型治理的协作者？

技术溯源困境：当“微调”成为版权规避新接口

Bartz案的现实紧迫性，在于其与另一桩技术事件形成镜像共振：2024年5月，Kimi开发者月之暗面被曝其开源模型Kimi-Mini遭开发工具Cursor公司下载后，经LoRA微调并集成至付费IDE插件中商用。马斯克在X平台公开确认该行为“符合当前法律灰色地带”，并调侃“下次该起诉我的Grok是否用了Twitter数据”。此事暴露出当前版权框架的三重失效：

训练数据溯源不可验证：现有模型权重无法反向解析训练集构成。即使Anthropic声称“仅使用公开数据”，也无法证明其未混入受版权保护的付费文档或私有代码片段；
微调行为法律定性模糊：现行版权法对“衍生作品”的界定基于人类创作意图，而LoRA适配器仅修改0.1%参数，是否构成新作品？法院尚未形成统一标准；
商业再授权链条断裂：Cursor对Kimi-Mini的商用未获得月之暗面授权，但后者采用Apache 2.0许可证，明确允许商用及再分发——此时许可证效力是否覆盖微调后的商业服务形态？

技术现实正持续挑战法律滞后性。正如MacBook M5 Pro搭载Qwen3.5本地运行所展示的：当算力下沉至终端，模型分发将彻底去中心化，传统“服务器端API管控”模式失效，版权合规必须前移至数据采集与模型训练源头。

企业合规策略的范式转移

Bartz案判决虽未落地，但已实质性重塑产业实践。头部科技公司正加速推进三项变革：

数据采购转向“白名单制”：微软Azure AI已终止爬取公开网页，转而与Reuters、AP等机构签订数据授权协议，单笔合同金额超2亿美元；
模型分发嵌入合规层：Hugging Face新推“LicenseGuard”工具，自动扫描模型卡（Model Card）中的许可证声明，拦截AGPL权重上传至商业Hub；
投资逻辑加入法律尽调：红杉资本最新AI投资备忘录明确要求：“所有被投企业需提供第三方审计的训练数据谱系图（Data Pedigree Map），缺失者一票否决”。

值得注意的是，这种合规升级正催生新型技术瓶颈。如法国《世界报》通过分析Strava健身APP用户轨迹，实时定位戴高乐号航母位置——此类“元数据聚合”已游离于传统版权法之外，却可能触发《通用数据保护条例》（GDPR）的敏感处理限制。AI版权争议正从“内容复制”演进为“行为推断”的法律博弈。

结语：在确定性真空中构建韧性治理

Bartz案的价值不在于其最终判决结果，而在于它迫使整个技术生态直面一个残酷事实：当模型能力超越人类理解阈值时，法律不能再依赖“善意假设”或“技术中立”话术。FSF的激进立场、ASF的实用主义与LF的框架探索，共同构成一张应对不确定性的多维网络。未来真正的突破点，或许不在法庭之上，而在技术底层——如利用零知识证明验证训练数据来源、通过联邦学习实现数据不动模型动、或建立跨司法辖区的AI训练数据交易所。在版权确定性真空持续存在的当下，唯有将法律原则转化为可验证的技术约束，才能让创新真正行稳致远。