微软技术长Kevin Scott指出,Open Agentic Web由代理执行环境、通讯协定及外部世界3层次构成。微软发表了用来解决第一层及第三层的技术瓶颈的开源专案,并宣布全面支持第二层的MCP协定。(图片来源/微软)
微软对网路世界未来提出的新想像,以及由此而生的开源工具与框架,成了Build开发者大会最受关注的焦点。
去年,微软乘著生成式AI热潮,在开发者大会上祭出全面发展Copilot应用、开发工具及相关云地端硬体的战略。一年来,随著生成式AI技术发展,更进阶的代理式AI逐渐成为科技界焦点,微软也开始强调,自家不断推出的各式新Copilot助理,是一个个AI代理。
随著AI代理技术更加成熟,加上MCP、A2A等AI代理用的通讯协定相继推出,今年5月微软开发者大会中,微软CEO Satya Nadella大胆描绘出未来网路世界的一种可能──「Open Agentic Web」,微软要提供开发者各式各样的工具和所需基础建设,让开发者用来打造这个网路世界的新样貌。
微软对新网路时代的想像:Open Agentic Web
Open Agentic Web,这3个英文单字背后的概念,组成微软想像中的未来网际网路样貌。
首先,「Agentic」是核心概念,意指未来网际网路将充满各式各样的AI代理,执行组织与个人交付的工作。这些AI代理能处理复杂任务、存取多元资料来源、甚至与其他AI代理合作。
「Open」指是网路世界通用的开源框架与开源工具。微软期望,透过提供网路开发社群开源、简单的协定与工具,能促使网路世界更快速、更自由的发展,有如网际网路发展初期,HTTP及HTML这类简单、共通的标准,让开发者能共同打造网路新样貌。
这正是为何,推出多款与AI代理相关的企业级产品同时,微软也公布2款正在开发初期的开源专案TypeAgent与NLWeb,前者用来示范如何大幅强化AI代理记忆,后者则提供技术框架,让AI代理能有效率的存取网站内容。这两大工具,不只能在Azure上布署,亦可以部署于其他云端或地端环境。
「Web」则是指网路世界中的网站。尽管如今网际网路世界有许多资讯传递通路,微软仍聚焦世界上2亿多个活跃网站,作为AI代理搜集资料和执行任务的重要场域。他们还希望,以Web世界既有的共同协定和机制为基础,如Schema.org、RSS等,来发展支援AI代理使用网站的技术,如NLWeb。
微软技术长Kevin Scott进一步从技术架构角度来剖析Open Agentic Web的不同层次,分为Runtime(执行环境层次)、Protocol(协定层次)及World(外部世界层次)。
首先是Runtime层次的技术,这包括AI代理的记忆、推理、授权,以及实际执行任务相关技术。
Kevin Scott解释,这个层级的技术已经相当强大,甚至出现人类开发者无法充分发挥AI代理能力上限的情况。不只如此,未来AI模型还会更多、更强、更便宜,使人类能用更低的成本,交付更复杂的任务给AI代理。
不过,AI代理技术再强,如果无法有效存取所需资讯,或与外部系统沟通,最终执行任务的能力还是有限。需要通讯协定(Protocol)层次技术,来实现这件事。代表技术如MCP与A2A,分别定义AI代理如何与其他系统沟通,以及AI代理之间如何沟通。
在第三层外部世界(World)层次上,则包括了网站、网路服务和其他AI代理。此层次系统高度支援与AI代理的互动,才能让AI代理更好的穿梭于网路世界,完成任务。
微软的目标是,支援这3个层级的技术发展,来促使Open Agentic Web更加蓬勃发展。
Runtime层技术:强大记忆能力的结构式RAG
AI代理要妥善执行复杂任务,需要能推理出适当执行步骤,到不同系统执行这些步骤的权限,以及实际执行步骤的能力。执行任务过程中,AI代理需要记得每个步骤与前后步骤的关联,更需要记得过往与使用者的对话,作为背景知识。前述行为所需能力,分别需要代理执行环境(Runtime)层次的推理、授权、执行、以及记忆技术来实现。
其中,记忆力是AI代理是否具备,是其是否能执行连续或复杂任务的一大关键。然而现况是,生成式AI模型固然强大,但记忆能力有限。尤其在多轮对话或长期任务中,AI常常无法完整回忆先前对话内容或使用者偏好。
锁定此瓶颈,微软推出名为TypeAgent的开源专案。这是一组样本程式码(Sample code),示范微软如何尝试打造具有超强记忆力的AI代理,以及如何结合暂存等方法,让系统执行任务时,能减少呼叫LLM的需求。微软期待,此专案能提供一个共同方向,让微软及开源社群合作研究AI记忆力技术。
在TypeAgent示范中,AI代理可以在不提供过多上下文提示的情况下,记得使用者许久前造访过的音乐会、播放该音乐会的专辑、回想当天去过的餐厅,并用使用者资讯再次订位餐厅,展现出强大记忆力。图片来源/微软
微软将TypeAgent中示范的记忆力技术称为结构式RAG(Structured RAG),利用3大原理,来尝试强化AI代理记忆能力和回想完整度,并降低生成式AI产生幻觉的机率。
首先是利用蒸馏法(Distillation),将AI代理所使用的模型蒸馏成逻辑演算法和物件结构,而非只是蒸馏成更小的模型。这种做法,使AI代理和传统软体沟通时,可以用更结构化、更明确的指令,进而降低AI代理回忆时,产生幻觉的机率。
再来是将语意资讯转化成高资讯密度的高度结构化资料,使Transformer类语言模型的注意力可以有效聚焦在关键资讯上。如此,可以降低RAG资料所需储存空间,同时让模型聚焦在回忆所需的少量资讯,来减少遗忘或加入杂讯的可能性。
最后一点,则是透过将资料呈现成人类与AI模型都可以理解的逻辑结构,使人类可以打造搜寻图谱(Search Graph),来引导AI搜寻记忆的方向,避免AI代理在执行复杂任务时出现意外的语意理解分歧。
在今年微软开发者大会中,微软用实际的范例,来比较结构化RAG与传统RAG的成效差异,同样都是用来回忆25集的Podcast节目,要盘点这些节目中,总共提及多少本书。结构化RAG范例使用3,000个输入Token,准确回忆出63本书,若改为传统RAG范例,则只有想起15本书,但是,却需要输入2倍的Token数量。
目前,微软尝试将TypeAgent原型中展示AI代理记忆技术和任务派遣技术,转化为可供开发者使用的程式库,以利整合于各式既有AI代理应用,像是微软旗下服务,或是操作第三方服务如Spotify的AI代理。
TypeAgent技术仍处研究阶段,微软号召开发者社群一同研究,不过,官方提醒,目前不建议用于生产环境。
协定层布局:押宝MCP,所有微软产品都支援
Kevin Scott在开发者大会中多次提到,当前对AI模型的运用,远不及当前AI模型能力,尤其推理模型的能力更是没有充分利用。
他观察,除了软体开发相关应用,几乎没有成熟的AI代理应用。究其原因,他认为是AI代理发挥能力的空间不足,即使模型再强大,也无法有效执行复杂任务。
为了让AI代理充分发挥能力,微软全面押宝MCP(模型上下文协定,Model Context Tool),将其发展成AI代理的共通标准。这项来自AI新创Anthropic提出的新沟通协定,定义了LLM存取外部资料和工具时的通讯规格。协定中,提供资料的端点为MCP伺服器,请求端则是MCP客户端。
Kevin Scott说,微软看中MCP简单易用、容易普及的特性,可以成为Open Agentic Web通讯协定层的关键技术。为了支持MCP,微软旗下产品,如GitHub、Copilot Studio、Dynamics 365、Azure AI Foundry、Semantic Kernel与Windows 11等服务,也逐步开始支援这项协定。
Kevin Scott则将MCP比喻成Open Agentic Web的HTTP。如今网际网路一组重要通用规格是,根据HTTP规格设立伺服器,并用HTML作为描述内容的语言。他们希望未来,当开发者要打造伺服器,呈现内容给AI代理时,MCP能扮演HTTP的角色。至于Open Agentic Web的新HTML角色,微软希望借由他们推出的开源框架NLWeb来扮演。
外部世界层技术:推NLWeb框架支援网站对AI代理呈现内容
执行任务时,AI常需要到网路上寻找资料。当AI代理需要在网站上寻找任务相关内容,目前常见方法仍是爬虫网站内容后解析,以及模仿真人使用者,操纵鼠标在网站上来回点击以寻找资讯。这种做法,动辄花费大量时间,查询结果还不够精确。
针对此一痛点,微软挖角了Google自订搜寻负责人R. V. Guha协助打造解方:一个可以让AI代理直接和网站资料库对话的框架NLWeb。R. V. Guha也是RSS、RDF等常见网路标准发明人,也是Schema.org网站的创建者。
网站可以利用NLWeb来建立更适合AI代理或是自然语言搜寻用的索引。NLWeb利用RSS、Schema.org等描述网站内容的标准格式。网站收到查询请求时,NLWeb会结合搜寻技术和LLM技术,来拆解查询内容背后所需的资料检索请求、捞取出对应网站内容索引、再将搜寻出来的索引依照相关性排序。NLWeb框架内建MCP支援,可以用来打造自家网站的MCP伺服器,提供给AI代理更有效率的查询站上资料。
用NLWeb来来重新索引、检索、排序网站资讯,等于为网站打造了一款支援自然语言搜寻的AI搜寻功能。
网站套用NLWeb框架后,就能利用LLM能力,来处理传统搜寻机制难以理解的查询问题,图为NLWeb前端查询介面的示范,网站主也可用NLWeb来设计站内搜寻。图片来源/微软
R. V. Guha举例:「我对酪梨过敏,请推荐我酪梨吐司食谱,但酪梨使用酪梨替代品。」是极度刁难传统搜寻机制的请求,不断强调「酪梨」关键字,却不要酪梨,又要食谱中含有「酪梨吐司」概念。用LLM驱动的搜寻机制,可以轻易理解这个自然语言查询意图。NLWeb不需要任何调整,即能搜寻出符合要求的结果。
微软强调,NLWeb只是个简单的框架,核心功能是提供资料转化规则和查询规则,以及串联LLM和向量资料库。网站主可以将其部署在任意环境,并围绕著NLWeb打造各式各样的网站体验或MCP伺服器,而不限于简单的站内搜寻功能。
例如,电商可以用NLWeb支援生成式AI购物助手,来推荐商品给顾客。或者,旅游网站可以用来支援旅行规画工具,来自动安排符合使用者行程的机票、饭店、餐厅和行程。
Kevin Scott比喻,HTML是浏览器解析出内容的通用格式,NLWeb则是提供一种AI代理可以查询出网站内容的格式。呈现哪些内容、如何呈现,以及如何利用这些内容打造商业模式,都由网站主自行决定、自行打造。微软期望,NLWeb未来能获得如HTML般的普及性,成为Open Agentic Web中,AI代理与外部世界沟通的通用标准。
微软产品策略如何结合Open Agentic Web愿景
Kevin Scott强调,当Open Agentic Web的时代来临,许多底层技术不被特定厂商绑定,才能使网际网路继续蓬勃发展。诸如MCP、NLWeb、TypeAgent等技术,虽然都是大型科技公司提出,但开放所有开发者使用。微软推出后两者技术时,也强调可以部署于任何环境,并未设计专属于Azure环境的系统优化。
产品布局上,微软执行长Satya Nadella则于开发者大会中,说明微软如何锁定开发者打造Open Agentic Web的需求,从4个层次来支援这个愿景的发展,分别是应用与代理层、AI平台、资料,以及基础设施。
微软执行长Satya Nadella在开发者大会中,将微软Open Agentic Web发展策略分为应用层、开发平台层、数据层及基础建设层。其中,今年大量推出的AI代理工具多在第一层,而微软云端平台上的AI开发平台大量更新则属于第二层。图片来源/微软
基础设施层指的是Azure资料中心。Satya Nadella回顾Azure资料中心的规格与进展,例如自己是首家大规模部署NVIDIA GB200 GPU的云端业者,以及近3月开设10家新资料中心等。
今年新产品宣布集中于前3层。应用与代理层的产品,包含许多开箱可用的AI代理工具。
例如,可以协助网站可靠性工程(SRE)的AI代理、协助使用者操作多款生产力工具的Microsoft 365 Copilot AI代理等。另外,还有用No-code方式打造AI代理的Copilot Tuning等。
AI平台层的新服务,则是用来支援开发者在Azure AI Foundry平台打造、部署、管理和调度AI应用与AI代理。这些新服务包括可以快速打造和部署AI代理的Foundry Agent Service、根据任务的性质可以自动选择适合模型的Model Router,以及AI代理授权管理工具Entra Agent ID等。
微软还宣布Foundry与Windows Defender整合,来强化AI代理从开发到应用的安全性把关。他们更宣布,Elon Musk旗下xAI的模型Grok将加入AI Froundry可用模型中。
资料层的更新则聚焦于支撑AI应用程式与代理所需的资料处理能力。例如,宣布将Cosmos DB与Azure Databricks等资料库服务直接整合进AI Foundry,使AI应用能更即时存取所需资料。以及,在资料处理服务Microsoft Fabric中新增AI驱动的快速资料转换功能等。此外,还有各式用LLM或AI代理来支援资料查询及资料分析的新功能。
Satya Nadella总结:「微软希望透过一个系统性、平台性的方法,在系统每一个层级,支援开发者在Open Agentic Web中创造属于自己的机会。」