Google在12月揭露最新多模态模型Gemini 2.0 Flash,也推出由该模型驱动的多模态AI研究代理Project Mariner,可整合Chrome浏览器,来分析像素、文字、程式码、图片和表单等网页元素。该代理可完成复杂任务,比如可浏览网页资料、找出特定几家公司的联络资讯,并列出来给使用者。(图片来源/Google)
自2024年下半年开始,科技龙头相继揭露新进展,共通点都聚焦在AI代理。比如,AWS最新揭露3项生成式AI助理功能,能将Windows.NET程式转换为Linux版本、将VMware工作负载转换到Amazon EC2云原生环境,以及将大型主机老旧的COBOL程式转换为Java。这些新功能,都靠旗下多支AI代理分工执行。
又比如,微软在11月的Ignite大会中揭露5款生产力AI代理,专门主持会议、口译、管理专案、订单处理和提供员工自助服务等,甚至还提供客制化的低程式码开发工具,来让使用者打造符合需求的专属代理。
或是,Google用最新发表的Gemini 2.0 Flash多模态模型,开发出4款AI代理,有专门处理行动装置的代理、浏览器代理,也有专门处理多模态资料的学术用研究代理,以及程式开发代理。
从研究资料整理、专案管理、订单管理,再到大型主机系统转换,都成了AI代理新能力。
多模态AI代理将遍地开花
在这些科技龙头的发布中,多模态AI代理的身影更清晰了。比如Google开宗明义点出,用多模态模型Gemini 2.0 Flash打造的多模态AI代理,可处理语音、音讯、影片、图像和文字等多元的资料类型,也因此有了多模态的行动装置和浏览器等代理,能即时辨识萤幕中的影片、文字、图像和音讯,还与Google自己的服务整合,来管理日历、发送邮件和搜寻查询等需求。
或是Amazon执行长Andy Jassy在2024年末大会上预告,2025年将推出Nova任意多模态到多模态模型,不论是输入文字、影片、音讯还是图片,模型都能任意给出文字、图片、影片、音讯等类型的答案,可处理的资料范围更广了。AWS也计划用来发展多模态AI代理服务,自动处理更复杂的任务。
就连苹果也在2024下半年揭露多模态大语言模型MM 1.5的同时,发布MM 1.5-UI模型,不只能理解行动装置UI图示,也能懂使用者行为,可望成为iOS幕后自动作业的多模态AI代理,来与使用者对话、代替使用者与装置互动,完成任务。
多模态AI代理是什么
科技巨头大动作拥抱多模态AI代理,意味著多模态代理不只是技术杀手锏,还是2025年的重要趋势。
多模态AI代理从AI代理衍生而来,而AI代理专门借助模型的推理能力,将复杂任务拆解为一系列步骤,由不同代理分工执行,能自动使用工具、呼叫函数或即时回应API来完成工作。
而多模态模型更进阶,单一模型能处理的更多种类资料,比如文字、图片、影片和音讯等。因此,比起单纯的AI代理,多模态AI代理能理解并推理的资料类型更多,能自主决策、完成任务的范围也更广泛,举凡自动分析长篇影片、找出特定物件并连结通路网站,都不是难题。
多模态AI代理如何影响产业
多模态AI代理开始落地,将如何影响企业?
国际调查研究机构Gartner直言,这类智慧代理不需要明确的输入,但可以接收指令、建立计划并自主使用工具来完成任务,产出动态输出。
Google以Gemini 2.0 Flash打造的多模态AI代理,就是一例。因为,这款模型经多模态训练,不只能进行文字和图像输出任务,还能产出语音回复,甚至能自动呼叫第三方函数、Google搜寻和程式码执行等工具,就连即时的多模态API呼叫也没问题,能即时处理萤幕当下的影片或音讯。
具体实例就是该模型驱动的浏览器多模态AI代理Project Mariner,可自动浏览网页、自动点击分页并找出所需资讯,比如使用者只需给出特定公司名单、要求代理找出联络方式,多模态AI代理就会自动搜寻网页、浏览公司网站并列出联络资讯,将繁琐的人工作业自动化。
又或是,Google云端在2025 AI产业冲击文章中举例,已有零售业者开始使用多模态AI代理来优化客服中心,当民众打电话到客服中心询问,语音经转录为文字分析后,自动产生更聪明的语音回复给民众。
AWS也举例,金融产业可用多模态代理和工具,来分析文字类、音讯、图像等资料,再加上情绪分析、投资组合优化和股票查询等工具串接,来找出金融洞察、进行更准确的投资。
这些例子只是冰山一角。当多模态代理遍地开花,企业可用来自动处理更多更复杂的任务。一如Gartner所预测,2024年企业应用程式使用代理型AI的比例虽然不到1%,但到了2028年,将成长为3成,且15%的日常工作决策都能由智慧代理自主完成。