【微軟Build 2024 AI戰略2】微軟打造更快更聰明AI筆電Copilot+ PC的關鍵

图片来源／微软

在5月下旬的微软Build 2024大会上，微软执行长Satya Nadella一口气揭露数十项新突破，还点出今年的2大重要AI战略：支撑起AI开发和应用的Copilot技术架构，以及号称史上最快的AI系列笔电Copilot+ PC。

大会进入Copilot+ PC主题时，Satya并未直接亮相AI笔电新品，而是兴致勃勃地聊起一个重要基础：Windows Copilot Runtime。微软官网将它形容为「Copilot技术架构到Windows作业系统的延伸」，Satya则称：「它会让Windows成为最好的AI开发平台！」甚至还比喻，就像Win32带起图形使用者介面GUI应用风潮一样，Windows Copilot Runtime也将带起AI应用大爆发。

这是因为，Windows Copilot Runtime是专为Windows作业系统设计的底层函式库，内建多种模型API和工具，能用来更快、更有效率地执行AI开发工作和AI应用。

微软执行长Satya Nadella指出，Windows Copilot Runtime是微软AI笔电Copilot+ PC的重要基础，以函式库、本地端模型与API为核心，来驱动高阶AI应用与体验。图片来源／微软

特点1：专为AI设计的Windows函式库

进一步来说，Windows Copilot Runtime的核心是「Windows Copilot函式库与本地端模型」，向下支援微软AI框架和工具链，向上可用来发展AI应用程式、提供一致的使用体验。这3大层次加起来，就是一套完整的端到端Windows AI生态系统，「Windows Copilot Runtime就是这样的系统」，微软官网如此说明。

就Windows Copilot函式库与本地端模型来说，它包括一系列即用型本地端API，这些API由40多个本地端AI模型和Windows内建的DiskANN等演算法驱动，使用者可用来打造AI应用和体验。

第一波API在6月对开发者开放，包括工作室特效（Studio Effects）、即时字幕翻译（Live Caption）、OCR、回顾使用者活动（Recall User Activity）和语言模型Phi Silica等。接下来，Windows Copilot函式库预计还会新添向量嵌入、检索增强生成（RAG）、文本摘要等API。其中，向量嵌入API还能用来打造开发者自己的向量储存库，能介接专属App的资料，更客制化回答问题。

如何使用这些API？微软举例，开发者不需任何程式码，就能在Copilot+ PC系列笔电上，将Studio Effects整合至自己的应用程式，比如创意滤镜、人像模糊化、注视提词机（Eye contact teleprompter）等。或是使用即时字幕翻译API，来替音档和影片即时添加字幕。

而驱动这些API的本地端模型，则有40多款小型语言模型，如Phi系列模型、近期新打造的Phi-3-vision，以及专为Copilot+ PC和NPU设计的33亿参数SOTA模型Phi-Silica，延迟更低、更省能源。这意味著，所有Copilot+ PC都内建40多个小型语言模型。

特点2：支援多款AI框架与工具

除了函式库与模型，Windows Copilot Runtime还支援底层AI框架与工具，像是微软既有的AI框架DirectML、ONNX Runtime等。

Satya揭露底层工具2大亮点，开发者透过Windows中用于机器学习的高效能低阶API：DirectML，就能获得Windows作业系统对PyTorch开发框架的原生支援（开发者预览版）。这意味著，Hugging Face上的上千个模型终于能在Windows中执行，而且微软也正式推出GPU对PyTorch的支援，NPU支援也即将上线。

另一亮点是WebNN，也就是网页原生的机器学习框架，可在Windows作业程式中透过DirectML和ONNX Runtime Web来执行。同样是开发者预览版，WebNN的出现，能让开发者更好地利用笔电硬体资源，来提供更好的AI网页App体验。这2项就是Windows Copilot Runtime的底层工具亮点。

特点3：更多原生与第三方AI应用

不只支援AI工具，Windows Copilot Runtime还能向上发展AI应用与体验，这部分有2大特点，一是微软用Windows Copilot Runtime自建的AI应用程式，如使用者活动回顾（Recall）、图像创作（Cocreator）、即时字幕翻译、风格编辑（Restyle Image）等。

其中，回顾是透过对萤幕快照，将这些资讯转为向量、储存在语义索引中。当使用者想搜寻先前看过的资讯时，就能在回顾中手动卷动时间轴搜寻，或输入关键字，来启动向量语意辨识、快速找出所需内容。这些快照皆储存在本地端，使用者可随时删除，或在设定中设置不想留存快照的特定网站或应用程式。但日前，为顾及使用者隐私，微软预设回顾为关闭状态。

再来，图像创作则以小型语言模型和Stable Diffusion等共5款模型驱动，可根据文字提示和简单笔画，来即时生成逼真的图像。即时字幕则支援笔电上任何音讯的语言翻译，可将40多种语言翻译为英文，离线也行。不只开发这些应用，微软还用来优化既有的智慧助理Copilot，比如能在笔电上与玩家语音对话、给玩家XBox游戏Minecraft的破关建议。

除了自建的AI应用，微软Windows Copilot Runtime还正整合多个第三方应用程式，如专业级影像处理程式Davinci Resolve、影像剪辑程式CapCut、通讯软体WhatsApp、声音手势控制程式Cephable、文件注解程式LiquidText和Adobe系列应用等，要用NPU来优化这些程式的AI功能。

因此微软自建的AI应用程式，使用者可在Copilot+ PC笔电中开箱即用，要是在这系列笔电使用微软整合的第三方应用程式，也能获得笔电加持的AI功能。可以说，这个Windows Copilot Runtime，是支撑起Copilot+ PC这一系列AI笔电的重要基础。

强大硬体撑起史上最快AI笔电

当然，光靠强大的底层系统驱动这系列笔电，还是不够的。因此Satya点出，这系列笔电采用新型硬体架构，大幅优化NPU、CPU和GPU的资源使用，每秒能实现40兆次操作（TOPS）。微软测试证实，这样的硬体设计能更快进行AI模型推论，执行AI工作负载的效率还能提高100倍，续航力也更好，充电一次就能支援长达15小时的网页浏览，或22小时的本地影片播放，后者比MacBook Air 15 吋还要久20%。

至于处理器部分，首批Copilot+ PC笔电采搭载高通Snapdragon X Elite和Snapdragon X Plus处理器，可实现45 TOPS。之后，还会推出搭载英特尔Lunar Lake处理器和AMD Strix Point处理器的Copilot+ PC笔电。甚至微软预告，希望这类硬体架构的笔电，未来能搭载Nvidia GeForce RTX显卡和AMD Radeon显卡，来从硬体上更进一步优化Copilot+ PC笔电的使用体验。

这些硬体和Windows Copilot Runtime优势，正是微软发豪语称Copilot+ PC笔电是史上最快、最聪明笔电的底气。

相关报导

【微软Build 2024 AI战略2】微软打造更快更聪明AI笔电Copilot+ PC的关键