AI趋势周报第257期: Mistral AI用Mamba架构打造程式码生成模型

Mistral AI用Mamba架构打造出程式码生成模型Codestral Mamba,具70亿参数。

重点新闻(0719~0725)

Mamba     Mistral AI     程式码  

Mistral AI用Mamba架构打造程式码生成模型

Mistral AI最近开源一款70亿参数的程式码生成模型Codestral Mamba,特别的是,这款模型不以Transformer架构为基础,而是采用后来出现的Mamba 2架构。Mistral AI解释,有别于主导AI发展的Transformer架构模型,Mamba架构可处理线性时间推论,意味著无论输入长度如何,模型都能处理且快速回应。

而Codestral Mamba专精程式码生成,可发挥Mamba长文输入的优势,支援Python、Java、C、C++、JavaScript、Bash,以及Swift和Fortran等程式语言。该模型也通过256K Token的上下文检索能力测试,代表使用者可在本地端部署模型、搭配RAG来执行推论。就模型本身的表现来说,不论是人类评估还是其他基准测试,Codestral Mamba大多胜过同大小的模型,如CodeLlama、CodeGemma等。使用者可从Hugging Face下载原始权重,也能在la Plateforme平台测试模型表现。  Llama 3.1    Meta    开源  

Meta终于开源Llama 3.1 405B了

日前,Meta开源了Llama系列语言模型的最新款Llama 3.1 405B,具4,050亿个参数,脉络长度达12.8万个字符(Token),支援8种语言,是Meta迄今开发的最大模型,号称是全球第一个达顶尖水准的开源模型。Meta创办人暨执行长祖克柏还特别强调开源AI的重要性,认为开源才是AI的未来。

进一步来说,该模型有2个版本,包括Llama 3.1 405B和Llama 3.1 405B Instruct。Llama 3.1 405B是在近15兆个Token上进行训练,经测试,Llama 3.1 405B在通用基准测试IFEval、数学测试GSM8K、推论测试ARC Challenge等测试中,都胜过GPT-4、GPT-4o和Claude 3.5 Sonnet。但在人类专家评估中,则与GPT-4-0125、Claude 3.5 Sonnet的表现不相上下,但明显不及GPT-4o。  客制化    生成式AI     Nvidia  

Nvidia推出企业级模型客制化平台AI Foundry

最近,Nvidia推出最新解决方案AI Foundry,可让企业在Nvidia云端上客制化生成式AI模型,提供了从专案规画、合成数据生成、模型微调、RAG、模型安全防范到模型评估和部署等一系列功能。Nvidia说明,AI Foundry整合了Nvidia云端平台DGX Cloud、Nvidia NeMo平台和第三方工具,可搭配多种底层模型来进行客制化。

AI Foundry提供的模型,包括了Nvidia Nemotron和开源模型,如Llama 3.1 405B、CodeGemma、Gemma、Mistral和Mixtral,以及微软Phi-3、StarCoder2等。除了Nvidia本身的资源,企业还能用Nvidia合作伙伴提供的AIOps和MLOps平台,来开发AI Foundry模型,包括Cleanlab、DataDog、Dataiku、Dataloop、New Relic、Scale等。企业客户也能将在AI Foundry客制的模型,连同优化的引擎和标准API输出为Nvidia NIM推论微服务,在AI加速基础设施上执行。图片来源/Mistral AI、Hugging Face、Meta

  AI近期新闻 

1. Meta AI扩大支援7种语言

2. Nvidia与Mistral AI携手释出企业级AI模型Mistral NeMo

3. AWS旗下AI平台如Amazon Bedrock、SageMaker开始支援3款Llama 3.1模型和Mistral Large 2模型

资料来源:iThome整理,2024年7月