AI训练版权重大判决:合法扫描可接受,盗版下载仍侵权

本文作者:游云庭律师,题图来自:AI生成

通用人工智能的训练素材是不是需要取得版权许可的问题一直是版权人和人工智能公司博弈的焦点,近日美国加州北区法院连出两个简易判决,对通用人工智能训练做出认定,构成合理使用。

虽然两案都是个案,但这是中美两个人工智能科技领先的国家的法院第一次对此问题给出了答案,今天笔者就和大家聊聊这两个案子涉及的法律问题。

 

一、案情简介

作家诉Anthropic案

三位作家起诉Anthropic公司,指控其使用盗版材料训练其Claude模型系列。原告指称Anthropic从盗版网站免费下载了数百万本受版权保护的书籍,并将其数字化以构建一个中央图书馆,然后使用这些书籍训练其大语言模型,特别是Claude。

Anthropic后来购买了原告的书籍纸质书籍,然后撕掉装订、剪裁页面,然后将其扫描保存至中央电子图书馆,但仍然保留了从盗版网站获取的书籍副本。

 

法院经审理后认定:将合法购买的纸质书籍数字化属于合理使用,并且使用这些数字副本来训练大语言模型也具有足够的变革性,因此也属于合理使用。但非法下载的图书副本的使用未被认定为合理使用。后续法院将对Anthropic公司非法下载的盗版内容及其造成的损害进行审判。

 

作家诉Meta案

原告是13位作家,发现他们的作品被Facebook和Instagram的母公司Meta用于训练人工智能,遂起诉。

审理查明,Meta需要图书训练人工智能,曾先和出版社协商,发现除了要支付上亿美元授权费用,谈判也会很复杂,因为图书版权多数在作者手里,遂转向盗版获取,其利用bt种子下载了大量盗版图书,而bt是P2P技术,在下载的同时也会上传盗版文件。

 

法院判决Meta的行为构成合理使用,驳回了原告的版权侵权指控。判决认定,Meta的使用具有高度的转换性,因为其目的是开发能够生成多样化文本的工具,而不是简单地复制或替代原告的书籍

虽然原告的书籍是高度表达性的作品,受到较强的版权保护,且Meta复制了原告的书籍的全部内容,但由于Meta的Llama模型不会输出任何有意义的部分原告的书籍内容,这种使用是合理的。同时,尽管原告的书籍市场可能受到间接竞争的影响,但原告未能提供足够的证据证明这种影响,因此Meta的行为不构成市场替代。

 

二、判决的意义

目前的人工智能训练,有两大博弈,一个是版权人和人工智能公司的博弈。另一个是重点发展人工智能产业的国家,如中国和美国,和加强合规监管的国家,如欧盟间的博弈。

 

版权人和人工智能公司的分歧

如果训练素材需要授权,那人工智能公司如果获取授权需要和每个版权人单独谈,会耗费很高的时间成本和金钱成本,发展就会慢非常多,同时,在关键的高质量内容上,还会受制于传统的版权人,比如纽约时报这样的大型出版集团。此时,人工智能公司就只能使用超过版权保护期的内容进行训练了,目前的版权保护期,中国是至少50年,美国是95年

 

OpenAi公司曾在给英国上议院的一封回函中提到:由于当今的版权几乎涵盖了所有类型的人类表达,包括博客文章、照片、论坛帖子、软件代码片段和政府文件,因此如果不用受版权保护的材料,就不可能训练出当今领先的人工智能模型。

将训练数据限制在一个多世纪前创建的公共领域书籍和绘图可能会产生一个有趣的实验,但不会提供满足当今公民需求的人工智能系统。

 

虽然Meta案中法院认为:这项判决并不代表Meta使用受版权保护的材料来训练其语言模型是合法的。它仅仅代表这些原告提出了错误的论点,并且未能提供支持其正确论点的证据。

但加州北区法院的两位法官确实在不同的案件中选择支持了人工智能公司的观点,判决如果生效,会让训练行为脱离了版权权利人的控制,是人工智能产业的一大产业博弈胜利。

 

国际监管分歧

使用版权内容训练是不是构成合理使用,还涉及国与国之间的博弈,中美两国人工智能产业起步较早,政策上对人工智能训练的版权问题比较宽松,美国法院到现在才出了第一个通用人工智能涉及训练的判决,我国更是如此,实际法院目前搁置审理,推迟为此类案件定性,给产业发展以时间。

 

而欧盟的合规则较严格,其现有法规就要求人工智能服务者为版权人提供退出选项,英国也在立法考虑此选项。

如果这个法规被严格执行,可以想见所有的大型版权机构,唱片公司联盟、电影公司联盟、出版社联盟、图片公司联盟,都会毫不犹豫地向人工智能公司发出通知,要求不得将其作品作为训练素材,除非人工智能公司支付版税,这实际上会使人工智能公司被迫删除多数训练素材。

 

三、判决解决了哪些问题?

目前,人工智能训练涉及的版权问题主要有三方面,数据的取得,数据的训练和数据的输出,下面逐一介绍。

 

美国的版权法律对合理使用的认定有四要素:使用的目的和性质,包括此类使用是否属于商业性质或用于非营利性教育目的;受版权保护作品的特性;所使用部分相对于整个版权作品的数量和实质性;以及使用对版权作品的潜在市场或价值的影响。人工智能涉及的合理使用问题需要套用这四要素进行比对。

 

数据的取得:下载盗版素材用于训练不算合理使用

如果训练素材是盗版,意味着人工智能服务有使用未经授权的素材进行训练的版权原罪。对这个问题,Anthropic案的判决做了很好的回应。法院认为盗版获取无合理理由,从盗版来源复制的中心图书馆副本不能适用合理使用,而且,通过后来购买同一作品的副本,无法撤销因盗版副本造成的损害。

所以即使训练用途合理,但初始复制行为(盗版下载)本身侵权,无法通过后续合理使用抗辩。同时,法院认定,若书籍未被用于训练且长期保留,构成“永久性通用图书馆”,超出合理使用范围。而Meta案并没有做这方面的分析,主要原因是Anthropic公司被诉后做了训练素材正版化的努力,而Meta没有,所以法院就没有分析此问题。

 

笔者认为,如果我国法院如果审理此类案件,除非版权人能证明人工智能公司使用了盗版内容进行训练,否则,法院可能不会就人工智能公司素材来源做正版和盗版的区分,而会将案件审判聚焦于训练行为是否构成合理使用。

 

数据的取得:在线取得的数据有争议

写到这里,笔者想到几个问题:如果OpenAi购买到创刊以来所有的《纽约时报》,然后和Anthropic公司一样,把报纸扫描做出电子图书馆,并销毁报纸原件,这样他们用纽约时报内容做训练不也合法了。

再进一步,如果他们购买了纽约时报的会员,利用会员身份下载所有原版文章,然后进行训练,是不是也是合法的?

 

根据Anthropic案的判决,买报纸扫描电子版训练肯定是合法的,买会员下载电子版如果是系统许可的应该也是合法的,但如果系统对于会员访问文章的数量有限制的,则下载行为不一定合法。

同时,如果网站有付费墙的技术保护措施,但被人工智能公司破解了,这种情况下获得的内容是不是侵权的?根据我国《著作权法》,破解技术保护措施获取内容的行为构成版权侵权,性质和本案中的下载盗版文件相同,所以以破解技术保护措施下载的付费内容进行训练的,不构成合理使用。

 

还有一个问题,人工智能公司大规模抓取在线内容,多数情况下甚至漠视了网站的robots文件,这种情况下获得的内容是不是侵权的? 

这里我们基于我国法律讨论,我国是以《反不正当竞争法》规制此类行为的,绕过robots文件爬取内容并不侵犯版权,但涉嫌不正当竞争。所以,绕过robots文件抓取的内容进行训练,并不算以侵犯版权的内容进行训练。但这部分训练素材的取得是不是合规,可能还要看法院的认定。

 

数据的取得:将正版图书转化为电子版构成合理使用

Anthropic公司在美国的诉讼中,购买到了涉案的三位原告的正版图书作品,根据判决书,Anthropic公司聘请了谷歌图书馆项目的负责人作为他们的扫描负责人,他们购买了数以百万计的图书,将其拆开扫描成电子版,然后保存了扫描的电子版并销毁了纸质版图书。

 

该行为被法院认定构成合理使用,理由是:将合法购买的实体书扫描为数字格式,这种转换仅为方便存储和检索,未新增复制或分发;且扫描行为是为了建立公司内部研究图书馆,而非直接用于商业化或替代原作品市场;合法购买的书籍转换为数字格式后,未新增复制或分发,未对原作品的销售市场造成负面影响;同时,美国法院在类似案例(如谷歌图书案)中认定,将实体书扫描为数字格式以提供搜索功能属于合理使用。

 

笔者认为,这里法院体现出了对人工智能产业有利的导向性。

人工智能公司购买书籍作为训练素材,一方面训练时书籍会被人工智能记忆下来,另一方面一本书的电子版可以用来训练无数次,这个和个人买一本书读一下,使用方式可谓天差地别。但法院在本案中认定了,只要人工智能公司训练用的书籍是正版就行,而且可以把书转化成电子版,以后反复使用。

 

数据的训练:训练行为本身构成合理使用

在训练行为本身构成合理使用问题上,加州北区法院的两个判决虽然做出了相似的认定,但逻辑还是有不同的:

 

Anthropic案中,训练人工智能的行为被认为是高度变革性的,类似于人类学习和创作的过程,因此偏向合理使用。法院认为,当用户用文本提示Claude时,Claude迅速以模仿人类阅读和写作的方式回应文本。Claude之所以能够这样做,是因为人文主义训练了Claude,或者更准确地说,训练了支撑各种Claude版本的大型语言模型,使用的是从人文主义汇编的中心图书馆中挑选的书籍和其他文本。

 

Meta案判决的逻辑则是原告举证不力,法院认为Meta的使用具有高度的转换性,因为其目的是开发能够生成多样化文本的工具,而不是简单地复制或替代原告的书籍。但重点是,尽管原告的书籍市场可能受到间接竞争的影响,但原告未能提供足够的证据证明这种影响,因此Meta的行为不构成市场替代。

 

同时,判决还认为人工智能训练可能通过市场稀释间接损害原作品市场。例如,Ai生成大量同类作品(如浪漫小说、新闻文章)可能挤占人类作者的市场份额,削弱创作激励。即使人工智能未直接复制原作品,但其生成的竞争内容若泛滥成灾,仍可能构成市场损害。

 

数据的输出:向用户输出训练数据涉嫌侵权

对于人工智能公司要不要就输出内容进行限制,避免输出和训练素材一致的内容的问题上,其实根据目前所有国家著作权法的规定都是明确的,输出的内容不能侵犯他人版权,也就是说,如果人工智能输出了和训练素材相同或者近似的内容,则涉嫌侵权。这在本文讨论的两个案例里,人工智能公司都做了预防。

 

Anthropic案中,判决书查明,原告没有主张任何大语言模型提供给用户的输出内容侵犯了他们的作品。因为Claude设置了技术围栏,以确保没有任何侵权输出传达给用户。

Meta案中,判决书查明,在利用下载文件训练人工智能时,Meta做了预训练,以防止它们“记忆”并输出训练数据中的某些文本,包括受版权保护的材料,经测试。专家也无法让任何模型生成超过50个单词和标点符号的原告书籍内容。

 

我国也有两个案例,广州互联网法院和杭州互联网法院先后对两起奥特曼版权人起诉人工智能公司的案件进行了判决,也都认定人工智能公司根据用户要求输出带奥特曼特征的美术作品构成侵权。

 

数据的输出:绕开技术措施诱导人工智能输出训练数据的争议

目前业界审理的很多案件中,有一个问题比较有争议,就是如果用提示词多次调校人工智能,诱导其输出和训练素材相同相似的作品,是不是也涉嫌侵权。

比如纽约时报诉OpenAi的案件中,OpenAi就认为纽约时报故意操纵模型进行反流(反流,英文为Regurgitation,医学名词,也称“反刍”,指经过咀嚼的食物从胃返回到嘴里,笔者注),因为其采取了一些措施来限制无意中的记忆,防止在模型输出中出现重复内容。所以,这种操纵行为不是对OpenAi技术的适当使用,也违反了其使用条款。

 

这里笔者认同OpenAi的观点,因为人工智能公司已经采取了技术措施防止复现训练素材内容,此时通过提示词多次调校让人工智能回复出训练素材内容,就不是一个普通用户能实现的方法,法院审理时也可能会将其认定为破坏技术保护措施的行为,所以应该不会就此追究人工智能公司的侵权责任。

 

最后,随着美国两个人工智能训练涉及版权问题判决的做出,笔者预计我国近期应该也会有进展,目前业界比较关注的几个涉及人工智能训练合理使用的案件,近期说不定会出一审判决。

 

本文作者:游云庭,上海大邦律师事务所高级合伙人,知识产权律师。Email: yytbest@gmail.com,本文仅代表作者观点。