AI趨勢周報第257期： Mistral AI用Mamba架構打造程式碼生成模型

Mistral AI用Mamba架构打造出程式码生成模型Codestral Mamba，具70亿参数。

重点新闻(0719～0725)

Mamba Mistral AI 程式码

Mistral AI用Mamba架构打造程式码生成模型

Mistral AI最近开源一款70亿参数的程式码生成模型Codestral Mamba，特别的是，这款模型不以Transformer架构为基础，而是采用后来出现的Mamba 2架构。Mistral AI解释，有别于主导AI发展的Transformer架构模型，Mamba架构可处理线性时间推论，意味著无论输入长度如何，模型都能处理且快速回应。

而Codestral Mamba专精程式码生成，可发挥Mamba长文输入的优势，支援Python、Java、C、C++、JavaScript、Bash，以及Swift和Fortran等程式语言。该模型也通过256K Token的上下文检索能力测试，代表使用者可在本地端部署模型、搭配RAG来执行推论。就模型本身的表现来说，不论是人类评估还是其他基准测试，Codestral Mamba大多胜过同大小的模型，如CodeLlama、CodeGemma等。使用者可从Hugging Face下载原始权重，也能在la Plateforme平台测试模型表现。 Llama 3.1 Meta 开源

Meta终于开源Llama 3.1 405B了

日前，Meta开源了Llama系列语言模型的最新款Llama 3.1 405B，具4,050亿个参数，脉络长度达12.8万个字符（Token），支援8种语言，是Meta迄今开发的最大模型，号称是全球第一个达顶尖水准的开源模型。Meta创办人暨执行长祖克柏还特别强调开源AI的重要性，认为开源才是AI的未来。

进一步来说，该模型有2个版本，包括Llama 3.1 405B和Llama 3.1 405B Instruct。Llama 3.1 405B是在近15兆个Token上进行训练，经测试，Llama 3.1 405B在通用基准测试IFEval、数学测试GSM8K、推论测试ARC Challenge等测试中，都胜过GPT-4、GPT-4o和Claude 3.5 Sonnet。但在人类专家评估中，则与GPT-4-0125、Claude 3.5 Sonnet的表现不相上下，但明显不及GPT-4o。 客制化 生成式AI Nvidia

Nvidia推出企业级模型客制化平台AI Foundry

最近，Nvidia推出最新解决方案AI Foundry，可让企业在Nvidia云端上客制化生成式AI模型，提供了从专案规画、合成数据生成、模型微调、RAG、模型安全防范到模型评估和部署等一系列功能。Nvidia说明，AI Foundry整合了Nvidia云端平台DGX Cloud、Nvidia NeMo平台和第三方工具，可搭配多种底层模型来进行客制化。

AI Foundry提供的模型，包括了Nvidia Nemotron和开源模型，如Llama 3.1 405B、CodeGemma、Gemma、Mistral和Mixtral，以及微软Phi-3、StarCoder2等。除了Nvidia本身的资源，企业还能用Nvidia合作伙伴提供的AIOps和MLOps平台，来开发AI Foundry模型，包括Cleanlab、DataDog、Dataiku、Dataloop、New Relic、Scale等。企业客户也能将在AI Foundry客制的模型，连同优化的引擎和标准API输出为Nvidia NIM推论微服务，在AI加速基础设施上执行。图片来源／Mistral AI、Hugging Face、Meta

AI近期新闻

1. Meta AI扩大支援7种语言

2. Nvidia与Mistral AI携手释出企业级AI模型Mistral NeMo

3. AWS旗下AI平台如Amazon Bedrock、SageMaker开始支援3款Llama 3.1模型和Mistral Large 2模型

资料来源：iThome整理，2024年7月

AI趋势周报第257期： Mistral AI用Mamba架构打造程式码生成模型

重点新闻(0719～0725)