非营利的EleutherAI释出集结合法开放资料的AI训练资料集

图片来源: 

Hugging Face

非营利的AI研究组织EleutherAI上周发布了Common Pile v0.1,这是个AI训练资料集,所搜集的资料全部属于开放授权或公有领域,且利用该资料集训练出的2个7B模型,发现它们的表现并不亚于LLaMA、MPT、PRJ-INCITE或Qwen等知名模型。

EleutherAI创立于2020年,是个非营利的AI研究机构,亦被称为OpenAI的开源版。 甫释出的Common Pile v0.1收录超过30种来源的逾8TB的纯文字,该资料集采用严格的授权过滤机制,仅保留采用创用CC BY、CC BY-SA或CC0协议的内容,涵盖生物医学领域的PubMed Central、数理科学领域的ArXiv、GitHub Archive、StackExchange、Ubuntu IRC、USPTO专利资料集及维基百科等。

Common Pile v0.1的重点是它们皆属于公开授权及公有领域,明确排除了不符合开放意义的资料,避免侵权问题,并提升训练资料集的透明度。

EleutherAI还利用Common Pile v0.1训练了两个7B参数模型,其中的Comma v0.1-1T以1兆个Token作为训练量,Comma v0.1-2T则使用了2兆个Token进行训练。

当比较Comma v0.1-1T与LLaMA、MPT及PRJ-INCIT等模型时,发现Comma v0.1-1T在ARC-C、MMLU、BoolQ、SIQA、HumEval及MBPP等基准测试上胜出。

若是比较Comma v0.1-2T与OLMo Twin、Llama 2及DeepSeekLLM,Comma v0.1-2T也在ARC-E、MMLU、SIQA及HumEval上的表现最为突出。

EleutherAI认为,使用未授权资料可能引发法律与伦理争议,因此应该建立一套完全由开放授权或是公有领域组成的资料集,而且实验也发现,这些基于开放资料集的模型在许多测试中的表现也与主流模型相当,彰显出开放资料也能训练出高品质的语言模型,将能鼓励社群持续搜集与扩展开放授权资料,朝向合法、可持续及伦理的AI模型发展路线。