Nvidia推出可建置企业级聊天机器人的生成式AI微服务NeMo Retriever

Nvidia,让企业能够连接大型语言模型与企业资料,在其人工智慧应用程式提供精确的回应。该服务是NeMo系列的新产品,供企业能够使用Nvidia最佳化演算法,建置生产就绪的检索增强生成(Retrieval-Augmented Generation,RAG)人工智慧应用。

NeMo Retriever为一个语意检索微服务,让开发者可以简单地客制化问答应用程式。该服务能够被部署在云端或是本地环境中,支援生成式人工智慧应用程式。借由使用Nvidia最佳化演算法,NeMo Retriever可以提供更加精准的回应。此外,开发者能够将其与云端和资料中心里的业务资料连接,以便终端使用者透过简单的对话提示,快速获得准确且最新的讯息。

透过NeMo Retriever企业便可在其应用程式中加入检索增强生成功能,官方提到,其提供了先进且商业化的模型和微服务,并对延迟和吞吐量进行了最佳化。NeMo Retriever所使用的模型经过负责任且可稽核的资料训练,开发者可选用不同的预训练模型,并且依据使用案例自定义模型。

NeMo Retriever中的Retrieval QA Embedding模型,能够将文字资讯转换成为密集的向量表示,以方便搜寻向量资料库,检索和终端使用者查询最相关的档案。NeMo Retriever中的Retrieval QA Embedding模型为Transformer编码器,是一个E5-Large-Unsupervised模型的微调版本,具有24层,嵌入大小为1,024,经过私有和公开资料集进行训练,最大支援512个token输入。

开发者可以透过Retrieval QA Embedding Playground API来存取该服务,由于Retrieval QA Embedding模型为E5-Large-Unsupervised微调版本,因此也适用类似的输入格式要求,开发者在发出请求的时候,需要指定片段资讯(Passage)以及查询(Query)。

经Nvidia电信、IT、咨询和能源产业的客户内部资料集评估,Retrieval QA Embedding模型在模拟检索增强生成情境的Recall@5指标中表现最好,而且在学术基准测试NQ、HotpotQA、FiQA和TechQA上,Retrieval QA Embedding模型在平均NDCG@10指标上超越其他开源和商业检索模型。