Patronus AI发表可用来侦测LLM有否输出侵权内容的CopyrightCatcher API

Patronus AI研究人员根据热门书籍内容建立100个提示,来测试知名大型语言模型输出内容是否涉及侵权,结果显示,GPT-4、Mixtral-8x7B-Instruct-v0.1生成内容涉及复制既有版权内容的比例,高于Claude-2.1以及Llama-2-70b-chat。(图片来源/Patronus AI)

专门开发大型语言模型(LLM)评估工具的Patronus AI,本周发表了CopyrightCatcher API,可用来侦测LLM的输出结果有否含有侵权内容。

Patronus AI表示,LLM的训练资料经常含有受到版权保护的内容,也很容易自这些内容生成精确的复制品,而替在生产系统中建置及使用LLM的企业带来重大的法律与声誉风险,例如OpenAI、Anthropic及Microsoft都曾面临来自作者、音乐出版业者,或是《纽约时报》的侵权诉讼。

在美国的著作权法中,存在著合理使用范围,亦即在基于研究、教学或新闻等前提下,可未经版权所有人同意而有限使用这些受到版权保护的内容。

为了检查LLM的侵权状况,Patronus AI研究人员从Goodreads的热门单抽取了受到版权保护的书籍样本,基于这些书籍建立了100个提示,其中有50个要求LLM生成书籍的第一段,另外50个则提供书籍中的片段,再要求LLM生成,再用以测试OpenAI的GPT-4 、Mistral的Mixtral-8x7B-Instruct-v0.1、Anthropic的Claude-2.1,以及Meta的Llama-2-70b-chat。

研究人员发现有44%的提示让GPT-4生成侵权内容,有22%的提示令Mixtral-8x7B-Instruct-v0.1生成侵权内容,让Claude-2.1与Meta的Llama-2-70b-chat生成侵权内容的提示比例,则各自是8%与10%。

Patronus AI说明,他们无法直接评估模型输出是否侵犯版权,因此检查了模型所生成的文字中,是否包含从版权书籍中直接复制的100个及以上的字元(100个字元大约可构成14~25个单字),在理想的情况下,为了最大限度地减少版权侵权风险,模型应该要避免逐字复制书中的文本,而是要解释文本所要传达的概念。

此一对抗性版权测试或许有些严格,毕竟它询问的是书籍的第一段,或者是要求LLM完成书籍中基于片段的文字,若LLM的生成以其它的文字取代,则有失真实。

不论如何,Patronus AI据此开发了CopyrightCatcher API,可用来侦测LLM何时从书籍等文字来源精确地复制内容,同时彰显输出中任何受到版权保护的文字。

除了抓出生成中的侵权内容之外,先前Patronus AI已推出可用来侦测商业敏感资讯的LLM资料集EnterprisePII,以及针对LLM回答金融问题能力的基准测试FinanceBench