美国法官判决Anthropic以版权书籍来训练AI模型属于合理使用

情境示意图,

美国作家Andrea Bartz等人代表多位创作者,2024年8月针对开发Claude模型与聊天机器人的AI新创Anthropic提起集体诉讼,控告其在训练语言模型时大规模使用来自非法来源的电子书。联邦法官William Alsup周一(6/23)裁定,虽然AI训练本身可视为合理使用,但Anthropic储存未授权书籍的行为可能侵犯著作权,将于今年12月进入审判程序,成为生成式AI产业中关键的著作权判例。

控方主张Anthropic大规模使用盗版书籍来训练AI模型,未取得授权或付费,涉嫌侵犯著作权。

事实上,此一诉讼过程揭露了Anthropic自2021年起便大规模搜集盗版电子书的行为,包括下载了内含近20万本电子书的Books3资料集,自著名盗版电子书网站Library Genesis取得逾500万本书籍,以及从另一个盗版网站Pirate Library Mirror下载200万本书籍,并将它们存在自家中央图书馆中。

Alsup认为,将书籍内容用以训练大型语言模型,其目的与性质是转化的,亦即AI训练属于创造新内容的转化性用途,而非用来取代原作;且Anthropic模型并未向公众再现原著的创意原素,也没有模仿任何作者可识别的风格,符合公平使用原则。

然而,Alsup也指出,以所下载的盗版书籍来建立永久的资料库无法被免责,应该要进行正式审理,以判定是否购成侵权并计算潜在赔偿。

依照美国的著作权法,侵权赔偿介于750美元至15万美元之间,就算以最低的750美元来计算,Anthropic存放逾700万本盗版书籍的赔偿费用将是逾50亿美元的天价。

总之,此一裁决被视为是生成式AI领域首起针对「AI训练是否属于合理使用」作出明确判决的案例,认为大型语言模型属于高度转化,另也向AI业者示警,若未经授权取得受保护作品依然得承担法律后果。