從生成式AI到代理式AI，微軟的開放式Agentic Web新戰略

微软技术长Kevin Scott指出，Open Agentic Web由代理执行环境、通讯协定及外部世界3层次构成。微软发表了用来解决第一层及第三层的技术瓶颈的开源专案，并宣布全面支持第二层的MCP协定。（图片来源／微软）

微软对网路世界未来提出的新想像，以及由此而生的开源工具与框架，成了Build开发者大会最受关注的焦点。

去年，微软乘著生成式AI热潮，在开发者大会上祭出全面发展Copilot应用、开发工具及相关云地端硬体的战略。一年来，随著生成式AI技术发展，更进阶的代理式AI逐渐成为科技界焦点，微软也开始强调，自家不断推出的各式新Copilot助理，是一个个AI代理。

随著AI代理技术更加成熟，加上MCP、A2A等AI代理用的通讯协定相继推出，今年5月微软开发者大会中，微软CEO Satya Nadella大胆描绘出未来网路世界的一种可能──「Open Agentic Web」，微软要提供开发者各式各样的工具和所需基础建设，让开发者用来打造这个网路世界的新样貌。

微软对新网路时代的想像：Open Agentic Web

Open Agentic Web，这3个英文单字背后的概念，组成微软想像中的未来网际网路样貌。

首先，「Agentic」是核心概念，意指未来网际网路将充满各式各样的AI代理，执行组织与个人交付的工作。这些AI代理能处理复杂任务、存取多元资料来源、甚至与其他AI代理合作。

「Open」指是网路世界通用的开源框架与开源工具。微软期望，透过提供网路开发社群开源、简单的协定与工具，能促使网路世界更快速、更自由的发展，有如网际网路发展初期，HTTP及HTML这类简单、共通的标准，让开发者能共同打造网路新样貌。

这正是为何，推出多款与AI代理相关的企业级产品同时，微软也公布2款正在开发初期的开源专案TypeAgent与NLWeb，前者用来示范如何大幅强化AI代理记忆，后者则提供技术框架，让AI代理能有效率的存取网站内容。这两大工具，不只能在Azure上布署，亦可以部署于其他云端或地端环境。

「Web」则是指网路世界中的网站。尽管如今网际网路世界有许多资讯传递通路，微软仍聚焦世界上2亿多个活跃网站，作为AI代理搜集资料和执行任务的重要场域。他们还希望，以Web世界既有的共同协定和机制为基础，如Schema.org、RSS等，来发展支援AI代理使用网站的技术，如NLWeb。

微软技术长Kevin Scott进一步从技术架构角度来剖析Open Agentic Web的不同层次，分为Runtime（执行环境层次）、Protocol（协定层次）及World（外部世界层次）。

首先是Runtime层次的技术，这包括AI代理的记忆、推理、授权，以及实际执行任务相关技术。

Kevin Scott解释，这个层级的技术已经相当强大，甚至出现人类开发者无法充分发挥AI代理能力上限的情况。不只如此，未来AI模型还会更多、更强、更便宜，使人类能用更低的成本，交付更复杂的任务给AI代理。

不过，AI代理技术再强，如果无法有效存取所需资讯，或与外部系统沟通，最终执行任务的能力还是有限。需要通讯协定（Protocol）层次技术，来实现这件事。代表技术如MCP与A2A，分别定义AI代理如何与其他系统沟通，以及AI代理之间如何沟通。

在第三层外部世界（World）层次上，则包括了网站、网路服务和其他AI代理。此层次系统高度支援与AI代理的互动，才能让AI代理更好的穿梭于网路世界，完成任务。

微软的目标是，支援这3个层级的技术发展，来促使Open Agentic Web更加蓬勃发展。

Runtime层技术：强大记忆能力的结构式RAG

AI代理要妥善执行复杂任务，需要能推理出适当执行步骤，到不同系统执行这些步骤的权限，以及实际执行步骤的能力。执行任务过程中，AI代理需要记得每个步骤与前后步骤的关联，更需要记得过往与使用者的对话，作为背景知识。前述行为所需能力，分别需要代理执行环境（Runtime）层次的推理、授权、执行、以及记忆技术来实现。

其中，记忆力是AI代理是否具备，是其是否能执行连续或复杂任务的一大关键。然而现况是，生成式AI模型固然强大，但记忆能力有限。尤其在多轮对话或长期任务中，AI常常无法完整回忆先前对话内容或使用者偏好。

锁定此瓶颈，微软推出名为TypeAgent的开源专案。这是一组样本程式码（Sample code），示范微软如何尝试打造具有超强记忆力的AI代理，以及如何结合暂存等方法，让系统执行任务时，能减少呼叫LLM的需求。微软期待，此专案能提供一个共同方向，让微软及开源社群合作研究AI记忆力技术。

在TypeAgent示范中，AI代理可以在不提供过多上下文提示的情况下，记得使用者许久前造访过的音乐会、播放该音乐会的专辑、回想当天去过的餐厅，并用使用者资讯再次订位餐厅，展现出强大记忆力。图片来源／微软

微软将TypeAgent中示范的记忆力技术称为结构式RAG（Structured RAG），利用3大原理，来尝试强化AI代理记忆能力和回想完整度，并降低生成式AI产生幻觉的机率。

首先是利用蒸馏法（Distillation），将AI代理所使用的模型蒸馏成逻辑演算法和物件结构，而非只是蒸馏成更小的模型。这种做法，使AI代理和传统软体沟通时，可以用更结构化、更明确的指令，进而降低AI代理回忆时，产生幻觉的机率。

再来是将语意资讯转化成高资讯密度的高度结构化资料，使Transformer类语言模型的注意力可以有效聚焦在关键资讯上。如此，可以降低RAG资料所需储存空间，同时让模型聚焦在回忆所需的少量资讯，来减少遗忘或加入杂讯的可能性。

最后一点，则是透过将资料呈现成人类与AI模型都可以理解的逻辑结构，使人类可以打造搜寻图谱（Search Graph），来引导AI搜寻记忆的方向，避免AI代理在执行复杂任务时出现意外的语意理解分歧。

在今年微软开发者大会中，微软用实际的范例，来比较结构化RAG与传统RAG的成效差异，同样都是用来回忆25集的Podcast节目，要盘点这些节目中，总共提及多少本书。结构化RAG范例使用3,000个输入Token，准确回忆出63本书，若改为传统RAG范例，则只有想起15本书，但是，却需要输入2倍的Token数量。

目前，微软尝试将TypeAgent原型中展示AI代理记忆技术和任务派遣技术，转化为可供开发者使用的程式库，以利整合于各式既有AI代理应用，像是微软旗下服务，或是操作第三方服务如Spotify的AI代理。

TypeAgent技术仍处研究阶段，微软号召开发者社群一同研究，不过，官方提醒，目前不建议用于生产环境。

协定层布局：押宝MCP，所有微软产品都支援

Kevin Scott在开发者大会中多次提到，当前对AI模型的运用，远不及当前AI模型能力，尤其推理模型的能力更是没有充分利用。

他观察，除了软体开发相关应用，几乎没有成熟的AI代理应用。究其原因，他认为是AI代理发挥能力的空间不足，即使模型再强大，也无法有效执行复杂任务。

为了让AI代理充分发挥能力，微软全面押宝MCP（模型上下文协定，Model Context Tool），将其发展成AI代理的共通标准。这项来自AI新创Anthropic提出的新沟通协定，定义了LLM存取外部资料和工具时的通讯规格。协定中，提供资料的端点为MCP伺服器，请求端则是MCP客户端。

Kevin Scott说，微软看中MCP简单易用、容易普及的特性，可以成为Open Agentic Web通讯协定层的关键技术。为了支持MCP，微软旗下产品，如GitHub、Copilot Studio、Dynamics 365、Azure AI Foundry、Semantic Kernel与Windows 11等服务，也逐步开始支援这项协定。

Kevin Scott则将MCP比喻成Open Agentic Web的HTTP。如今网际网路一组重要通用规格是，根据HTTP规格设立伺服器，并用HTML作为描述内容的语言。他们希望未来，当开发者要打造伺服器，呈现内容给AI代理时，MCP能扮演HTTP的角色。至于Open Agentic Web的新HTML角色，微软希望借由他们推出的开源框架NLWeb来扮演。

外部世界层技术：推NLWeb框架支援网站对AI代理呈现内容

执行任务时，AI常需要到网路上寻找资料。当AI代理需要在网站上寻找任务相关内容，目前常见方法仍是爬虫网站内容后解析，以及模仿真人使用者，操纵鼠标在网站上来回点击以寻找资讯。这种做法，动辄花费大量时间，查询结果还不够精确。

针对此一痛点，微软挖角了Google自订搜寻负责人R. V. Guha协助打造解方：一个可以让AI代理直接和网站资料库对话的框架NLWeb。R. V. Guha也是RSS、RDF等常见网路标准发明人，也是Schema.org网站的创建者。

网站可以利用NLWeb来建立更适合AI代理或是自然语言搜寻用的索引。NLWeb利用RSS、Schema.org等描述网站内容的标准格式。网站收到查询请求时，NLWeb会结合搜寻技术和LLM技术，来拆解查询内容背后所需的资料检索请求、捞取出对应网站内容索引、再将搜寻出来的索引依照相关性排序。NLWeb框架内建MCP支援，可以用来打造自家网站的MCP伺服器，提供给AI代理更有效率的查询站上资料。

用NLWeb来来重新索引、检索、排序网站资讯，等于为网站打造了一款支援自然语言搜寻的AI搜寻功能。

网站套用NLWeb框架后，就能利用LLM能力，来处理传统搜寻机制难以理解的查询问题，图为NLWeb前端查询介面的示范，网站主也可用NLWeb来设计站内搜寻。图片来源／微软

R. V. Guha举例：「我对酪梨过敏，请推荐我酪梨吐司食谱，但酪梨使用酪梨替代品。」是极度刁难传统搜寻机制的请求，不断强调「酪梨」关键字，却不要酪梨，又要食谱中含有「酪梨吐司」概念。用LLM驱动的搜寻机制，可以轻易理解这个自然语言查询意图。NLWeb不需要任何调整，即能搜寻出符合要求的结果。

微软强调，NLWeb只是个简单的框架，核心功能是提供资料转化规则和查询规则，以及串联LLM和向量资料库。网站主可以将其部署在任意环境，并围绕著NLWeb打造各式各样的网站体验或MCP伺服器，而不限于简单的站内搜寻功能。

例如，电商可以用NLWeb支援生成式AI购物助手，来推荐商品给顾客。或者，旅游网站可以用来支援旅行规画工具，来自动安排符合使用者行程的机票、饭店、餐厅和行程。

Kevin Scott比喻，HTML是浏览器解析出内容的通用格式，NLWeb则是提供一种AI代理可以查询出网站内容的格式。呈现哪些内容、如何呈现，以及如何利用这些内容打造商业模式，都由网站主自行决定、自行打造。微软期望，NLWeb未来能获得如HTML般的普及性，成为Open Agentic Web中，AI代理与外部世界沟通的通用标准。

我们会于另一篇文章更详细介绍NLWeb技术细节和应用方法。

微软产品策略如何结合Open Agentic Web愿景

Kevin Scott强调，当Open Agentic Web的时代来临，许多底层技术不被特定厂商绑定，才能使网际网路继续蓬勃发展。诸如MCP、NLWeb、TypeAgent等技术，虽然都是大型科技公司提出，但开放所有开发者使用。微软推出后两者技术时，也强调可以部署于任何环境，并未设计专属于Azure环境的系统优化。

产品布局上，微软执行长Satya Nadella则于开发者大会中，说明微软如何锁定开发者打造Open Agentic Web的需求，从4个层次来支援这个愿景的发展，分别是应用与代理层、AI平台、资料，以及基础设施。

微软执行长Satya Nadella在开发者大会中，将微软Open Agentic Web发展策略分为应用层、开发平台层、数据层及基础建设层。其中，今年大量推出的AI代理工具多在第一层，而微软云端平台上的AI开发平台大量更新则属于第二层。图片来源／微软

基础设施层指的是Azure资料中心。Satya Nadella回顾Azure资料中心的规格与进展，例如自己是首家大规模部署NVIDIA GB200 GPU的云端业者，以及近3月开设10家新资料中心等。

今年新产品宣布集中于前3层。应用与代理层的产品，包含许多开箱可用的AI代理工具。

例如，可以协助网站可靠性工程（SRE）的AI代理、协助使用者操作多款生产力工具的Microsoft 365 Copilot AI代理等。另外，还有用No-code方式打造AI代理的Copilot Tuning等。

AI平台层的新服务，则是用来支援开发者在Azure AI Foundry平台打造、部署、管理和调度AI应用与AI代理。这些新服务包括可以快速打造和部署AI代理的Foundry Agent Service、根据任务的性质可以自动选择适合模型的Model Router，以及AI代理授权管理工具Entra Agent ID等。

微软还宣布Foundry与Windows Defender整合，来强化AI代理从开发到应用的安全性把关。他们更宣布，Elon Musk旗下xAI的模型Grok将加入AI Froundry可用模型中。

资料层的更新则聚焦于支撑AI应用程式与代理所需的资料处理能力。例如，宣布将Cosmos DB与Azure Databricks等资料库服务直接整合进AI Foundry，使AI应用能更即时存取所需资料。以及，在资料处理服务Microsoft Fabric中新增AI驱动的快速资料转换功能等。此外，还有各式用LLM或AI代理来支援资料查询及资料分析的新功能。

Satya Nadella总结：「微软希望透过一个系统性、平台性的方法，在系统每一个层级，支援开发者在Open Agentic Web中创造属于自己的机会。」

从生成式AI到代理式AI，微软的开放式Agentic Web新战略