美國法官判決Anthropic以版權書籍來訓練AI模型屬於合理使用

情境示意图，

美国作家Andrea Bartz等人代表多位创作者，2024年8月针对开发Claude模型与聊天机器人的AI新创Anthropic提起集体诉讼，控告其在训练语言模型时大规模使用来自非法来源的电子书。联邦法官William Alsup周一（6/23）裁定，虽然AI训练本身可视为合理使用，但Anthropic储存未授权书籍的行为可能侵犯著作权，将于今年12月进入审判程序，成为生成式AI产业中关键的著作权判例。

控方主张Anthropic大规模使用盗版书籍来训练AI模型，未取得授权或付费，涉嫌侵犯著作权。

事实上，此一诉讼过程揭露了Anthropic自2021年起便大规模搜集盗版电子书的行为，包括下载了内含近20万本电子书的Books3资料集，自著名盗版电子书网站Library Genesis取得逾500万本书籍，以及从另一个盗版网站Pirate Library Mirror下载200万本书籍，并将它们存在自家中央图书馆中。

Alsup认为，将书籍内容用以训练大型语言模型，其目的与性质是转化的，亦即AI训练属于创造新内容的转化性用途，而非用来取代原作；且Anthropic模型并未向公众再现原著的创意原素，也没有模仿任何作者可识别的风格，符合公平使用原则。

然而，Alsup也指出，以所下载的盗版书籍来建立永久的资料库无法被免责，应该要进行正式审理，以判定是否购成侵权并计算潜在赔偿。

依照美国的著作权法，侵权赔偿介于750美元至15万美元之间，就算以最低的750美元来计算，Anthropic存放逾700万本盗版书籍的赔偿费用将是逾50亿美元的天价。

总之，此一裁决被视为是生成式AI领域首起针对「AI训练是否属于合理使用」作出明确判决的案例，认为大型语言模型属于高度转化，另也向AI业者示警，若未经授权取得受保护作品依然得承担法律后果。

美国法官判决Anthropic以版权书籍来训练AI模型属于合理使用