Google公布解决幻觉的AI模型DataGemma

图片来源: 

Google

AI模型以产生幻觉及误导性的答案为人诟病,Google上周公开最新模型DataGemma,号称大幅降低幻觉问题。

Google表示,DataGemma是第一个将大型语言模型(LLM)和来自Google开源知识图谱(knowledge graph)Data Commons的各种现实世界资料连结的案例,目的在借由以现实世界的统计资讯构连LLM,以减少AI幻觉。

目前Google已经在Hugging Face公布DataGemma模型程式码及其他资讯。

Data Commons是Google建立且开源的知识图谱,资料源是值得信赖的组织,像是联合国、世界卫生组织、美国疾管局、和美国人口普查局等。Data Commons涵括健康、经济、人口和环境等多种主题,包含超过2400亿丰富资料点,统计变项横跨数万种。Data Commons使用者可以Google开发的AI自然语言介面查询,研究人员可以查询像是非洲电力普及率增长最大的国家,或是收入和美国各郡糖尿病关系之类的议题。

针对Data Commons资料源,Google利用二种方法提升DataGemma的理解能力,以更贴近事实。一是检索交错生成(Retrieval-Interleaved Generation,RIG),二是检索增强生成(Retrieval-Augmented Generation,RAG)。第一种方式中,当用户以DataGemma生成回应,它会从Data Commons寻找统计资料并取得答案。Google说,RIG方法并不新,但特别用在DataGemma框架的作法却是唯一。

图片来源/Google

第二种方式中,当用户查询DataGemma时,它会运用Gemini 1.5长脉络空间,先从Data Commons取得上下文资讯,再生成回应,借此减少幻觉、提升回应品质。

Google之前已利用开源的Gemma和Gemma 2为基础,使用RIG和RAG微调出变种版本,而这次则是以Gemma 2为基础,再以RIGRAG方法,分别生成DataGemma 2个27B版本变种,现已分别在Hugging Face平台公开。Google计划持续改善方法,最后会将这些方法学整合到开源的轻量模型Gemma,以及Gemini家族模型。一开始将局部开放给少数人试用,再阶段性逐步扩大开放。