AI趨勢周報第250期：Google一篇論文揭示LLM如何處理無限長文字輸入

Google团队设计一种无限注意力机制，能将压缩的记忆纳入普通注意力机制中，并将遮罩的局部注意力和长期线性注意力机制，结合在单一个Transformer区块。

图片来源:

萤幕截图

重点新闻(0405～0411)

LLM Google 文长

Google一篇论文揭示LLM如何处理无限长文字输入

Google最近揭露一种Transformer大型语言模型（LLM）的新扩展方法，可利用有限的记忆体和运算资源，来处理无限长的文字输入。Google在《Leave No Context Behind》论文中说明这项新方法，他们设计一种无限注意力（Infini-attention）机制，将压缩的记忆纳入普通注意力机制中，并将遮罩的局部注意力和长期线性注意力机制，结合在单一个Transformer区块，能让模型具备完整的上下文知识。

这个无限注意力机制，可重复使用标准注意力的键、值和查询状态，来进行长期记忆整合与检索。有别于丢弃旧的键值（KV），无限注意力方法将旧键值储存在压缩的记忆体，并用注意力查询状态来检索值，以便处理之后的序列。这个修改Transformer注意力层的作法，能支援模型的连续预训练和微调，进而让LLM可以处理无限长度的文字。

经测试，使用这个方法的模型，在长文语言模型测试基准中，表现都比基准模型要好，甚至可实现114倍的理解率。他们也发现，10亿参数的LLM采用该方法，可将输入值长度扩展至100万个序列，还能实现密钥检索任务。最后，他们实验显示，采用无限注意力机制的80亿参数模型，在文长50万的书籍摘要任务中能达到SOTA表现。 Gemini Google 生成式AI

Google生成式AI助理Gemini for Google Cloud正式亮相

在本周举行的Google Cloud Next ’24上，Google正式发表Gemini for Google Cloud，是一款以大型语言模型Gemini驱动的生成式AI助理，按不同功能分为不同助理，包括Gemini Code Assist、Gemini Cloud Assist、Gemini in Security Operations、Gemini in BigQuery、Gemini in Looker和Gemini in Databases等。Google将Gemini打造成统一的AI品牌，不只于今年2月将聊天机器人Bard更名为Gemini，还以Gemini品牌全面取代先前发表的AI助理Duet AI。

其中，Gemini Code Assist是先前的Duet AI for Developers，可协助开发者在VS Code和JetBrains等热门程式编辑器中建置应用程式。Gemini Cloud Assist则是应用程式生命周期管理工具，能提供有关应用程式的设计、部署、管理和排除故障的个人化建议。Gemini in Security Operations则是继承Duet AI in Security Operations，新版已将Gemini整合至Chronicle安全营运平台，能更轻松侦测、调查与回应威胁。

Gemini in BigQuery可协助资料工程师和分析师，用自然语言从海量资料中分析或找出有价值的资讯。Gemini in Looker则是商业智慧工具，可以聊天方式与资料库对话，或用来建立图表和报告。Gemini in Databases则让Database Studio具备生成、摘录SQL的能力，也允许使用者从Database Center中管理所有资料库或资料库迁移。 LLM 联发科 生成式AI

联发科推出生成式AI服务平台、最新繁中LLM

联发科技日前一口气发表生成式AI服务平台MediaTek DaVinci（又称达哥）和繁中大型语言模型MR BreeXe。首先，达哥最初是为集团内部开发，目的是要提高生产力，平台内建API库、提示优化引擎、扩充外挂库、模型库和分析引擎等重要元件。其中，外挂库可用来扩充生成式AI模型知识、减少AI幻觉，模型库则包含常见的大型语言模型（LLM），如Google Gemini、GPT-3.5/4V、Whisper、Claude 3和AWS Bedrock服务等，联发科技自己最新打造的模型BreeXe也纳入其中。

今年，联发科技优化该平台，新添智慧助理架构，能让使用者不必写任何程式码，就能打造自己的智能秘书。这个版本的平台就是达哥2.0，还具备4个主要商店，包括AI模型、扩充外挂、提示范本、知识库（DVCs）等，另也配备许多功能，包括DocChat、VideoChat、WebChat和Plug-ins。另一方面，这次揭露的繁中模型MR BreeXe是以Mixtral 8x7B模型为基础，以大量繁中资料预训练而成，在繁体中文基准测试TMMLU+和MT Bench TW上超越GPT-3.5。该模型也对台湾常见的地端应用特别优化，要提高产业界使用生成式AI和检索增强生成（RAG）的体验。使用者可透过达哥平台使用MR BreeXe，它还支援全地端与部分地端场景，也能依需求进行少样本学习和微调客制化。 GPT-4 Turbo with Vision 视觉 OpenAI

OpenAI GPT-4 Turbo with Vision上线

OpenAI最近加入视觉能力的基础模型GPT-4 Turbo with Vision已正式上线，供付费用户存取。现在，付费客户可透过API存取，也能用JSON模式或函式呼叫方式发出请求。

GPT-4 Turbo with Vision是OpenAI的大型多模态模型，整合自然语言处理和视觉理解能力，可分析用户上传的图片并以文字回应。最新模型和GPT-4 Turbo同样具有128K个Token脉络，且训练资料已更新到2023年12月。GPT-4 Turbo with Vision去年12月已先行整合到微软Azure AI服务。图片来源／Google、苹果、OpenAI

摄影／王若朴

AI近期新闻

1. Meta揭露最新一代AI晶片MTIA

2. 吴恩达开设LLM非结构化资料处理课程

3. Google新推2款Gemma系列模型，分别用于程式开发和研究

资料来源：iThome整理，2024年4月

AI趋势周报第250期：Google一篇论文揭示LLM如何处理无限长文字输入

重点新闻(0405～0411)