Google发表Gemini 1.5,可支援长达100万个Token的脉络

图片来源: 

Google

Google周四(2/15)发表了最新的Gemini 1.5模型,它最多可支援长达100万个Token的脉络,意谓著它得以一次处理大量资讯,例如1小时的影片,11小时的音讯,超过3万行的程式码,或是超过70万字的内容。最先采用Gemini 1.5模型的产品为Gemini 1.5 Pro,这是Google所推出的中型多模态模型,其标准脉络长度为12.8万个Token,但Google允许少数的开发者与企业客户可透过AI Studio及Vertex AI预览其100万个Token的能力。

Google Gemini是Google用来挑战OpenAI GPT的作品,不过,它是个多模态模型,可同时支援文字、图片及声音的输入。Google将Gemini规画成3种版本,分别是可于手机上运作的Gemini Nano、通用版的Gemini Pro,以及最强大的Gemini Ultra。目前Gemini Nano已被应用在Google Pixel 8及三星Galaxy S24系列手机上,并已开放开发者与企业测试Gemini Pro。

而Google在去年3月发表的AI聊天机器人Bard最初使用的是LaMDA模型,之后改用PaLM模型,再于去年12月升级至Gemini Pro模型,因而在日前直接将Google Bard更名为Gemini,并推出基于Gemini Ultra 1.0的付费机器人服务,而这也是Gemini Ultra 1.0的首个商品化应用。

在Google正努力推动Gemini 1.0之际,还不忘发表最新的Gemini 1.5,紧凑的时程显现了Google在AI领域积极追赶的强烈企图。

根据Google的说法,Gemini 1.5提供了明显强化的表现,它奠基于Google基础模型开发与架构的每一个研究及工程创新之上,以及方法的改变,包括采用新的专家混合(Mixture-of-Experts,MoE)架构,而让Gemini 1.5的训练与服务更有效率。Gemini 1.5主要采用Transformer与MoE架构,前者为一大型神经网路,后者则由众多小型的专家神经网路所组成。

Google解释,MoE模型可根据使用者所输入的类型,选择性地于其神经网路上启动最相关的专家路径,以大幅提高模型的效能。

首个基于Gemini 1.5早期测试版为中型的多模态模型Gemini 1.5 Pro,其效能类似于Gemini Ultra 1.0大型模型,并使用更少的运算。它具备标准的12.8万个Token的脉络,同时允许少数的开发者与企业客户透过AI Studio和Vertex AI于预览版中测试100万个Token的脉络。

支援100万个Token的脉络代表Gemini 1.5 Pro能够无缝分析、分类及整理大量内容,例如当提供了阿波罗11号登月任务的402页纪录时,它能够理解、识别与判断文件中的对话、事件与细节;若是提供一部44分钟的Buster Keaton无声电影时,Gemini 1.5 Pro则可准确分析各种情节点与事件,并推论出电影中容易被遗漏的小细节;也能针对10万行的程式码给出有用的解决方案、修改或解释。

随著Gemini 1.5扩大对脉络长度的支援,Google也正努力优化该模型,以改善延迟,减少运算要求,同时强化使用者体验。根据Google的规画,Gemini 1.5 Pro的基本版将支援12.8万个Token,将随著模型的改善而扩大到100万个Token,此外,其实Google内部也已成功测试了使用1,000万个Token的脉络。