Amazon公布多模態AI模型家族Nova

图片来源:

AWS

在re:Invent大会上，Amazon Web Services（AWS）公布自有多模态AI模型家族Amazon Nova。

Amazon Nova家族是AWS首次推出涵括文字、图片和影片的多模态AI模型，包含6款模型，于Amazon Bedrock平台上提供给企业用户。这些模型包括Amazon Nova Micro，为纯文字模型，价格也最便宜。Amazon Nova Lite能处理文字、图片和影片输入。Amazon Nova Pro强调是整合高准确率、速度及成本效益的多模态模型。Amazon Nova Canvas及Amazon Nova Reel分别为state-of-the-art图片及影像生成模型。Nova Reel只需在提示中输入一帧图片，即可生成一段短影片。

其次还有具备处理复杂理解任务，可作为蒸馏自制模型的教师模型Amazon Nova Premier，是AWS最强大的多模态模型，预计2025年问世。

目前Nova已在美国东岸的Amazon Bedrock平台提供。而Micro、Lite、Pro则在另二个美国AWS区域（regions）上线。价格则视Bedrock而定。最便宜（Nova Micro）为每千字词输入/输出$0.000035及$0.00014美元。

AWS指出，Nova家族支援200种语言，其中Micro、Lite、Pro版比Amazon Bedrock的其他同等级模型价格便宜至少75%，也是该平台上速度最快的模型。

在Bedrock平台上，AWS用户可透过API存取这些以及早先提供的其他模型。Nova模型也支援微调及蒸馏。用户可以自有资料提供范例，借此训练并提升模型准确度，或是当成教师模型，以蒸馏出专门用途的小模型。

此外，Nova模型可和Bedrock知识库（Knowledge Bases）整合，且具备优异的撷取增强生成（Retrieval Augmented Generation，RAG）能力，让企业用户以公司自有资料为grounding基础，确保模型生成内容的准确性。另外，企业也能将Nova模型与代理人程式串联，透过API存取公司内部系统和资料，完成工作流程自动化。

AWS预计2025年再推出二款Nova成员模型，包括一款口语输出／输入（speech-to-speech）及原生的多模态输出／输入（multimodal-to-multimodal）模型。

Amazon公布多模态AI模型家族Nova