META：没抓到我做种就不算盗版

多位知名作家指控 Facebook 母公司 META 通过 BitTorrent（BT）技术非法下载超过 80TB 的盗版电子书，用于训练人工智能模型。

事件核心：下载盗版书训练 AI

2025 年 2 月，作家理查德・卡德里（《暗黑奇幻》系列作者）、莎拉・斯尔弗曼（喜剧演员兼作家）等人向法院提交诉讼，指控 Meta 从 LibGen、Z-Library 等盗版电子书平台下载大量书籍，用于训练其大型语言模型（如 Llama 系列）。Meta 虽承认下载行为，但强调 “未分享文件”，试图规避非法传播指控。

BT 技术的特点在于用户下载时同时上传数据（即 “做种”）。但 Meta 在法庭文件中辩称：

公司采取了 “预防措施”，确保下载完成后立即停止分享文件。
数据来自 “公开的在线资源”，相当于 “从数字图书馆借书”。

然而，原告方提交的内部证据显示：

Meta 员工调整 BT 设置 “将做种量降至最低”。
为避免追踪，下载时未使用公司服务器，转而通过第三方网络进行。

“这就像下载盗版电影后立刻关闭软件，但技术上讲，下载过程中仍会短暂分享数据。” 网络安全专家指出。

法律争议：盗版数据训练 AI 是否双重违法？

原告提出两项核心指控：

版权侵权：未经许可将书籍用于 AI 训练。
违反加州数据法（CDAFA）：非法获取受保护的数字内容。

Meta 的反驳策略：

将争议限制在版权法框架内，主张 “下载≠传播”。
强调书籍内容本身可通过公共图书馆获取，不存在 “非法入侵数据库” 行为。

作家阵营则强调：“如果 AI 公司都通过盗版数据省钱，创作者将失去合理收入。” 数据显示，涉案数据集包含数百万本书，涵盖文学、学术、畅销小说等多类别。

行业震动：AI 训练数据合规性遭质疑

此案暴露 AI 行业的 “数据荒” 困境。为训练更强大的模型，科技公司需海量文本，但获取正版授权成本高昂。2024 年的一项研究显示，主流 AI 训练数据中约 30% 可能涉及版权争议。

潜在影响：

若法院认定 “下载即违法”，AI 公司需彻底重构数据获取方式。
若 Meta 胜诉，可能催生 “盗版数据洗白” 产业链，通过技术手段规避法律风险。

尽管案件聚焦书籍版权，但普通用户也需警惕：

内容创作者风险：社交媒体帖子、博客文章可能成为 AI 训练素材。
正版权益削弱：盗版数据泛滥或导致原创内容价值下降。
AI 服务质量：基于低质盗版数据训练的模型，可能输出错误信息。

“这不仅是作家的战斗，更关乎数字时代的知识产权规则。” 法律学者评论道。

案件下一步：证据博弈与行业观望

目前 Meta 已要求法院驳回 CDAFA 指控，主张版权法优先。原告律师则表示将深入调查 Meta 的内部通信，寻找 “做种” 证据。法庭预计在 2025 年秋季听取双方辩论。

与此同时，微软、谷歌等公司正密切关注此案。某 AI 初创公司负责人坦言：“判决结果将决定我们每年数百万美元的数据预算该投向何处。”

这场法律拉锯战，或将成为 AI 发展史上的标志性事件。而对于普通用户而言，它正悄然重塑人类与机器 “学习” 知识的规则边界。

META：没抓到我做种就不算盗版

目录

更多文章

Obsidian 的 PC 端同步方案，无代码搞定 Git 同步

如何解决 iPhone 拍照过度锐化的问题

将外文电子书翻译成双语对照版本，并在任何设备上阅读

如何用 RSS 订阅 YouTube 和 Bilibili 频道

为什么要禁止 RSS 阅读器中出现图像

事件核心：下载盗版书训练 AI

法律争议：盗版数据训练 AI 是否双重违法？

行业震动：AI 训练数据合规性遭质疑

案件下一步：证据博弈与行业观望