article_image

🔗 原文链接

多位知名作家指控 Facebook 母公司 META 通过 BitTorrent(BT)技术非法下载超过 80TB 的盗版电子书,用于训练人工智能模型。

事件核心:下载盗版书训练 AI

2025 年 2 月,作家理查德・卡德里(《暗黑奇幻》系列作者)、莎拉・斯尔弗曼(喜剧演员兼作家)等人向法院提交诉讼,指控 Meta 从 LibGen、Z-Library 等盗版电子书平台下载大量书籍,用于训练其大型语言模型(如 Llama 系列)。Meta 虽承认下载行为,但强调 “未分享文件”,试图规避非法传播指控。

BT 技术的特点在于用户下载时同时上传数据(即 “做种”)。但 Meta 在法庭文件中辩称:

  • 公司采取了 “预防措施”,确保下载完成后立即停止分享文件。
  • 数据来自 “公开的在线资源”,相当于 “从数字图书馆借书”。

然而,原告方提交的内部证据显示:

  • Meta 员工调整 BT 设置 “将做种量降至最低”。
  • 为避免追踪,下载时未使用公司服务器,转而通过第三方网络进行。

“这就像下载盗版电影后立刻关闭软件,但技术上讲,下载过程中仍会短暂分享数据。” 网络安全专家指出。

法律争议:盗版数据训练 AI 是否双重违法?

原告提出两项核心指控:

  1. 版权侵权:未经许可将书籍用于 AI 训练。
  2. 违反加州数据法(CDAFA):非法获取受保护的数字内容。

Meta 的反驳策略:

  • 将争议限制在版权法框架内,主张 “下载≠传播”。
  • 强调书籍内容本身可通过公共图书馆获取,不存在 “非法入侵数据库” 行为。

作家阵营则强调:“如果 AI 公司都通过盗版数据省钱,创作者将失去合理收入。” 数据显示,涉案数据集包含数百万本书,涵盖文学、学术、畅销小说等多类别。

行业震动:AI 训练数据合规性遭质疑

此案暴露 AI 行业的 “数据荒” 困境。为训练更强大的模型,科技公司需海量文本,但获取正版授权成本高昂。2024 年的一项研究显示,主流 AI 训练数据中约 30% 可能涉及版权争议。

潜在影响:

  • 若法院认定 “下载即违法”,AI 公司需彻底重构数据获取方式。
  • 若 Meta 胜诉,可能催生 “盗版数据洗白” 产业链,通过技术手段规避法律风险。

尽管案件聚焦书籍版权,但普通用户也需警惕:

  • 内容创作者风险:社交媒体帖子、博客文章可能成为 AI 训练素材。
  • 正版权益削弱:盗版数据泛滥或导致原创内容价值下降。
  • AI 服务质量:基于低质盗版数据训练的模型,可能输出错误信息。

“这不仅是作家的战斗,更关乎数字时代的知识产权规则。” 法律学者评论道。

案件下一步:证据博弈与行业观望

目前 Meta 已要求法院驳回 CDAFA 指控,主张版权法优先。原告律师则表示将深入调查 Meta 的内部通信,寻找 “做种” 证据。法庭预计在 2025 年秋季听取双方辩论。

与此同时,微软、谷歌等公司正密切关注此案。某 AI 初创公司负责人坦言:“判决结果将决定我们每年数百万美元的数据预算该投向何处。”

这场法律拉锯战,或将成为 AI 发展史上的标志性事件。而对于普通用户而言,它正悄然重塑人类与机器 “学习” 知识的规则边界。


author_avatar

UNTAG 官方