Google于周二(5/14)举行的Google I/O开发者大会上,发表了十多项全新或改善的服务与产品,几乎全都围绕著人工智慧(AI),包括推出新的文字生成影片模型Veo,第六代的Google Cloud TPU──Trillium,开源视觉语言模型PaliGemma,于Gemini模型家族增添Gemini 1.5 Flash,以及于搜寻中整合AI Overviews,于Google Photo中嵌入Ask Photos with Gemini等。
Trillium TPU峰值运算性能增加了4.7倍,效率提升67%
TPU的全名为张量处理单元(Tensor Processing Unit),是Google专为神经网路机器学习所设计的特殊应用积体电路(ASIC),Google自2015年便开始于内部使用TPU,一直到2018才开始将其授权给第三方使用。
Google积极开发TPU,上一版的Cloud TPU v5p甫于去年12月发表,第六代的Trillium在高频宽记忆体(HBM)的容量与频宽都提高了一倍,晶片互连频宽也提高一倍,同时它配备第三代、专门用来处理高阶排序及推荐任务的SparseCore加速器;且其每个核心的峰值运算性能比TPU v5p增加了4.7倍,效率亦比TPU v5p多出了67%。
此外,Trillium在单一的Pod中最多可扩展到256个TPU,并可借由多层技术(Multislice Technology)及Titanium智慧处理单元拓展至数百个Pod,可造就连结数十万个晶片的超级电脑架构,以支援高性能运算任务。
想当然尔,Trillium TPU将支撑下一波AI模型的训练,除了Google DeepMind将用它来训练与服务未来的Gemini模型之外,也有其它业者已计划利用Trillium TPU来训练模型。同时Trillium TPU也会成为Google Cloud AI Hypercomputer超级电脑服务的基础。
Gemini模型家族加入新成员Gemini 1.5 Flash
原本Google的Gemini模型家族有3种版本,分别是可于手机上运作的Gemini Nano、通用版的Gemini Pro,以及最强大的Gemini Ultra,但本周添了新血Gemini Flash,由于它奠基在Gemini 1.5上,目前称为Gemini 1.5 Flash。
根据Google的解释,Gemini 1.5 Flash是利用Gemini 1.5 Pro蒸馏而成,属于Gemini 1.5 Pro的精简版,它将大模型的基本知识与技能转移到更小却更高效的模型中。它们同样支援100万个Token的脉络,但Gemini 1.5 Flash特别针对大规模容量及大规模的高频率任务进行了最佳化,它是速度最快的Gemini API版本。
尽管它仅是轻量级的Gemini 1.5 Pro,但Google强调它对于大量资讯有强大的多模态推理能力,擅长摘要、聊天应用程式、图像、影像字幕、从大量文字及表格中汲取资料等。
Gemini 1.5 Flash每100万个Token的输入费用为0.35美元,每100万个Token的输出费用则是0.53美元,比Gemini 1.5 Pro分别是3.5美元及1.75美元的价格便宜许多。
影片生成模型Veo报到
在推出了图像生成模型Imagen及音乐生成模型Lyria之后,由Google所开发的影片生成模型Veo也在本周出炉。
根据DeepMind的说明,Veo可用来生成1080p且可超过1分钟的高解析度影片,并支援不同电影与视觉风格。它可准确捕捉使用者所输入文字的细微差别及语气,还能理解各种电影效果的提示,例如延迟摄影或空拍。
Veo将使每个人都能制作影片,不管是经验丰富的制作人、企图分享知识的教育家,或只是充满抱负的创作者。
Veo的部分功能将在未来几周透过Google实验室中的新工具VideoFX,递送给部分创作者,目前属封闭预览阶段,得先提出申请。
视觉语言模型PaliGemma可将视觉资讯转为文字
本周开源的视觉语言模型(Vision-Language Model,VLM)PaliGemma则是奠基在Google的开源语言模型Gemma及视觉模型SigLIP之上,它是个多模态模型,可输入图像或文字,并生成文字,支援多种视觉语言任务,例如图像的字幕、短影片的字幕、视觉问答、阅读文字、检测物件,或是物件分割等。
PaliGemma是个小型语言模型,意谓著它不需要大量的记忆体或处理能力即可执行,适用于个人电脑、智慧型手机或物联网装置等资源受限的设备,可用来启用更多的搜寻能力,或是帮助视障人士理解周围的世界。
将AI整合至搜寻的AI Overviews与Ask Photos with Gemini
AI技术的发展最终还是要回归到应用上。即日起,Google将在美国市场全面推出AI Overviews,这是Google在去年5月发表AI搜寻测试平台Search Labs时所实验的服务之一,如今将它正名为AI Overviews。
AI Overviews奠基在Gemini模型上,由于还在发展中,目前并没有精确的定义,大抵是利用AI来协助搜寻用户找到更完整、更有组织的答案。例如当使用者搜寻「闪电与打雷的连结」时,AI Overviews就会跳出一篇完整的答案,使用者可选择简化该答案,或是要求它更细致地说明解答。
此外,Google也打算进一步强化AI Overviews的能力,借由Gemini模型的多步骤推论功能,协助解答使用者的复杂问题,认为与其将问题分成不同的搜寻,不如一次就提出复杂的问题,例如要找一家热门、位置好、交通方便而且有折扣的瑜珈教室,只要交给AI Overviews就能直接找出答案。该功能随后将透过Search Labs开放预览。
Ask Photos with Gemini则是将多模态模型应用在Google Photos的AI服务,亦即帮使用者于Google Photos中找到所需的照片,简单的像是「秀出我去过的国家公园的最佳照片。」还能进一步询问「我去年在哪里露营?」或是「我的礼券何时会过期?」
Google计划近日就会开始部署Ask Photos with Gemini,这是项实验性功能,不确定能否成为正式功能。
图片来源/Google