【關鍵IT新趨勢7】多模態AI代理將落地，重新定義複雜任務的處理方式

Google在12月揭露最新多模态模型Gemini 2.0 Flash，也推出由该模型驱动的多模态AI研究代理Project Mariner，可整合Chrome浏览器，来分析像素、文字、程式码、图片和表单等网页元素。该代理可完成复杂任务，比如可浏览网页资料、找出特定几家公司的联络资讯，并列出来给使用者。（图片来源／Google）

自2024年下半年开始，科技龙头相继揭露新进展，共通点都聚焦在AI代理。比如，AWS最新揭露3项生成式AI助理功能，能将Windows.NET程式转换为Linux版本、将VMware工作负载转换到Amazon EC2云原生环境，以及将大型主机老旧的COBOL程式转换为Java。这些新功能，都靠旗下多支AI代理分工执行。

又比如，微软在11月的Ignite大会中揭露5款生产力AI代理，专门主持会议、口译、管理专案、订单处理和提供员工自助服务等，甚至还提供客制化的低程式码开发工具，来让使用者打造符合需求的专属代理。

或是，Google用最新发表的Gemini 2.0 Flash多模态模型，开发出4款AI代理，有专门处理行动装置的代理、浏览器代理，也有专门处理多模态资料的学术用研究代理，以及程式开发代理。

从研究资料整理、专案管理、订单管理，再到大型主机系统转换，都成了AI代理新能力。

多模态AI代理将遍地开花

在这些科技龙头的发布中，多模态AI代理的身影更清晰了。比如Google开宗明义点出，用多模态模型Gemini 2.0 Flash打造的多模态AI代理，可处理语音、音讯、影片、图像和文字等多元的资料类型，也因此有了多模态的行动装置和浏览器等代理，能即时辨识萤幕中的影片、文字、图像和音讯，还与Google自己的服务整合，来管理日历、发送邮件和搜寻查询等需求。

或是Amazon执行长Andy Jassy在2024年末大会上预告，2025年将推出Nova任意多模态到多模态模型，不论是输入文字、影片、音讯还是图片，模型都能任意给出文字、图片、影片、音讯等类型的答案，可处理的资料范围更广了。AWS也计划用来发展多模态AI代理服务，自动处理更复杂的任务。

就连苹果也在2024下半年揭露多模态大语言模型MM 1.5的同时，发布MM 1.5-UI模型，不只能理解行动装置UI图示，也能懂使用者行为，可望成为iOS幕后自动作业的多模态AI代理，来与使用者对话、代替使用者与装置互动，完成任务。

多模态AI代理是什么

科技巨头大动作拥抱多模态AI代理，意味著多模态代理不只是技术杀手锏，还是2025年的重要趋势。

多模态AI代理从AI代理衍生而来，而AI代理专门借助模型的推理能力，将复杂任务拆解为一系列步骤，由不同代理分工执行，能自动使用工具、呼叫函数或即时回应API来完成工作。

而多模态模型更进阶，单一模型能处理的更多种类资料，比如文字、图片、影片和音讯等。因此，比起单纯的AI代理，多模态AI代理能理解并推理的资料类型更多，能自主决策、完成任务的范围也更广泛，举凡自动分析长篇影片、找出特定物件并连结通路网站，都不是难题。

多模态AI代理如何影响产业

多模态AI代理开始落地，将如何影响企业？

国际调查研究机构Gartner直言，这类智慧代理不需要明确的输入，但可以接收指令、建立计划并自主使用工具来完成任务，产出动态输出。

Google以Gemini 2.0 Flash打造的多模态AI代理，就是一例。因为，这款模型经多模态训练，不只能进行文字和图像输出任务，还能产出语音回复，甚至能自动呼叫第三方函数、Google搜寻和程式码执行等工具，就连即时的多模态API呼叫也没问题，能即时处理萤幕当下的影片或音讯。

具体实例就是该模型驱动的浏览器多模态AI代理Project Mariner，可自动浏览网页、自动点击分页并找出所需资讯，比如使用者只需给出特定公司名单、要求代理找出联络方式，多模态AI代理就会自动搜寻网页、浏览公司网站并列出联络资讯，将繁琐的人工作业自动化。

又或是，Google云端在2025 AI产业冲击文章中举例，已有零售业者开始使用多模态AI代理来优化客服中心，当民众打电话到客服中心询问，语音经转录为文字分析后，自动产生更聪明的语音回复给民众。

AWS也举例，金融产业可用多模态代理和工具，来分析文字类、音讯、图像等资料，再加上情绪分析、投资组合优化和股票查询等工具串接，来找出金融洞察、进行更准确的投资。

这些例子只是冰山一角。当多模态代理遍地开花，企业可用来自动处理更多更复杂的任务。一如Gartner所预测，2024年企业应用程式使用代理型AI的比例虽然不到1%，但到了2028年，将成长为3成，且15%的日常工作决策都能由智慧代理自主完成。

【关键IT新趋势7】多模态AI代理将落地，重新定义复杂任务的处理方式