AI模型版权争议升级:Bartz诉Anthropic案与开源社区法律立场分化

TubeX AI Editor avatar
TubeX AI Editor
3/20/2026, 6:51:27 PM

AI模型版权争议升级:Bartz诉Anthropic案与开源社区法律立场分化

近期,美国加州北区联邦地方法院受理的Bartz et al. v. Anthropic, PBC集体诉讼(案号5:24-cv-03297)标志着AI版权治理进入全新阶段。该案并非泛泛质疑大模型训练行为,而是首次以具体技术路径为靶心——原告指控Anthropic在训练Claude 2/3系列模型时,系统性爬取并使用了包括Stack Overflow、GitHub公开代码库、Reddit技术讨论帖及大量CC-BY-SA许可内容在内的数十亿条文本数据,且未履行署名义务、未提供原始许可信息、亦未对衍生作品作合规标注。尤为关键的是,原告援引《数字千年版权法》(DMCA)第1201条“规避技术措施”条款,主张Anthropic绕过Stack Overflow等平台设置的robots.txt禁爬规则及API访问限制,构成非法获取受保护作品。此案已获美国电子前沿基金会(EFF)支持,并迅速引发自由软件基金会(FSF)、Apache软件基金会(ASF)及Linux基金会(LF)三大开源治理主体的罕见联合关注。

开源阵营的立场裂变:从技术中立到权责共担

传统上,开源社区对AI训练数据问题持审慎观望态度。但Bartz案爆发后,FSF于2024年6月发布《AI训练与自由软件许可证的适用性声明》,首次明确将Copyleft原则延伸至AI场景:“当模型权重本身构成对GPL或AGPL代码的‘衍生作品’时,其分发必须附带完整源代码及对应许可证”。该立场直指Anthropic将Claude权重以闭源API形式商用的行为——若训练数据含AGPL代码,则模型输出可能触发传染性授权义务。与此形成鲜明对比的是ASF的务实路线:其法律顾问团队强调“模型权重是数学表达而非代码”,援引Google v. Oracle判例中“API结构不受版权保护”的逻辑,主张训练过程属于合理使用范畴。而Linux基金会则采取折中策略,推动建立“AI训练数据透明度框架”(AITDF),要求成员企业披露训练数据来源比例、清洗方法及许可合规审计报告,但拒绝预设法律定性。

这种分化揭示出开源生态的根本张力:FSF坚守意识形态底线,ASF侧重工程实践弹性,LF则试图构建可操作的治理基础设施。三者分歧不仅关乎法律解释,更深层指向开源运动在AI时代的身份重构——是继续作为软件许可证的守门人,还是转型为数据伦理与模型治理的协作者?

技术溯源困境:当“微调”成为版权规避新接口

Bartz案的现实紧迫性,在于其与另一桩技术事件形成镜像共振:2024年5月,Kimi开发者月之暗面被曝其开源模型Kimi-Mini遭开发工具Cursor公司下载后,经LoRA微调并集成至付费IDE插件中商用。马斯克在X平台公开确认该行为“符合当前法律灰色地带”,并调侃“下次该起诉我的Grok是否用了Twitter数据”。此事暴露出当前版权框架的三重失效:

  1. 训练数据溯源不可验证:现有模型权重无法反向解析训练集构成。即使Anthropic声称“仅使用公开数据”,也无法证明其未混入受版权保护的付费文档或私有代码片段;
  2. 微调行为法律定性模糊:现行版权法对“衍生作品”的界定基于人类创作意图,而LoRA适配器仅修改0.1%参数,是否构成新作品?法院尚未形成统一标准;
  3. 商业再授权链条断裂:Cursor对Kimi-Mini的商用未获得月之暗面授权,但后者采用Apache 2.0许可证,明确允许商用及再分发——此时许可证效力是否覆盖微调后的商业服务形态?

技术现实正持续挑战法律滞后性。正如MacBook M5 Pro搭载Qwen3.5本地运行所展示的:当算力下沉至终端,模型分发将彻底去中心化,传统“服务器端API管控”模式失效,版权合规必须前移至数据采集与模型训练源头。

企业合规策略的范式转移

Bartz案判决虽未落地,但已实质性重塑产业实践。头部科技公司正加速推进三项变革:

  • 数据采购转向“白名单制”:微软Azure AI已终止爬取公开网页,转而与Reuters、AP等机构签订数据授权协议,单笔合同金额超2亿美元;
  • 模型分发嵌入合规层:Hugging Face新推“LicenseGuard”工具,自动扫描模型卡(Model Card)中的许可证声明,拦截AGPL权重上传至商业Hub;
  • 投资逻辑加入法律尽调:红杉资本最新AI投资备忘录明确要求:“所有被投企业需提供第三方审计的训练数据谱系图(Data Pedigree Map),缺失者一票否决”。

值得注意的是,这种合规升级正催生新型技术瓶颈。如法国《世界报》通过分析Strava健身APP用户轨迹,实时定位戴高乐号航母位置——此类“元数据聚合”已游离于传统版权法之外,却可能触发《通用数据保护条例》(GDPR)的敏感处理限制。AI版权争议正从“内容复制”演进为“行为推断”的法律博弈。

结语:在确定性真空中构建韧性治理

Bartz案的价值不在于其最终判决结果,而在于它迫使整个技术生态直面一个残酷事实:当模型能力超越人类理解阈值时,法律不能再依赖“善意假设”或“技术中立”话术。FSF的激进立场、ASF的实用主义与LF的框架探索,共同构成一张应对不确定性的多维网络。未来真正的突破点,或许不在法庭之上,而在技术底层——如利用零知识证明验证训练数据来源、通过联邦学习实现数据不动模型动、或建立跨司法辖区的AI训练数据交易所。在版权确定性真空持续存在的当下,唯有将法律原则转化为可验证的技术约束,才能让创新真正行稳致远。

选择任意文本可快速复制,代码块鼠标悬停可复制

标签

AI
lang:zh

封面图片

AI模型版权争议升级:Bartz诉Anthropic案与开源社区法律立场分化