Meta被曝非法下载80TB图书训练AI模型

侵权事件曝光

据科技新闻网站Ars Technica首次报道，Facebook母公司Meta（Meta）因在AI模型训练中使用未经授权的作者作品而面临版权诉讼。在证据开示阶段，多份内部邮件揭示了公司在获取训练数据方面的争议行为。

侵权规模与方式

上个月公开的法庭文件显示，Meta从在线图书馆LibGen（Library Genesis）和Z-Library（Z-Library）这两个"影子图书馆"下载了超过80TB的内容，包括付费新闻、学术文章和完整图书。起诉方指出，这些邮件清楚地记录了Meta在明知侵犯版权的情况下，仍继续使用这些未经授权的作品。

内部争议与规避

多位Meta员工在邮件中表达了对使用盗版内容的担忧。一位员工明确指出："使用盗版材料应该超出我们的道德底线"，并将LibGen比作海盗湾网站，强调其行为涉嫌侵犯版权。

为规避风险，公司采取了所谓的"隐身模式"，将下载和分享行为转移到Facebook官方服务器之外。有研究人员建议通过VPN访问这些资源，甚至在邮件中自嘲"用公司笔记本电脑下载盗版感觉不对"。

高层知情与竞争压力

起诉方提供的证据表明，包括首席执行官马克·扎克伯格（Mark Zuckerberg）在内的Meta高层管理人员知悉这一情况。更值得注意的是，内部邮件显示Meta员工认为竞争对手OpenAI（OpenAI）也在使用LibGen的数据，这促使公司将获取盗版内容视为保持竞争力的必要手段。

法律与伦理争议

如果互联网档案馆（Internet Archive）作为数字图书馆都不被允许借出图书，那么Meta这样的科技公司使用大量盗版内容训练AI模型的行为更值得质疑。这一事件也凸显了《数字千年版权法》（Digital Millennium Copyright Act）在AI发展中可能发挥的制衡作用。