图片来源/微软
在5月下旬的微软Build 2024大会上,微软执行长Satya Nadella一口气揭露数十项新突破,还点出今年的2大重要AI战略:支撑起AI开发和应用的Copilot技术架构,以及号称史上最快的AI系列笔电Copilot+ PC。
大会进入Copilot+ PC主题时,Satya并未直接亮相AI笔电新品,而是兴致勃勃地聊起一个重要基础:Windows Copilot Runtime。微软官网将它形容为「Copilot技术架构到Windows作业系统的延伸」,Satya则称:「它会让Windows成为最好的AI开发平台!」甚至还比喻,就像Win32带起图形使用者介面GUI应用风潮一样,Windows Copilot Runtime也将带起AI应用大爆发。
这是因为,Windows Copilot Runtime是专为Windows作业系统设计的底层函式库,内建多种模型API和工具,能用来更快、更有效率地执行AI开发工作和AI应用。
微软执行长Satya Nadella指出,Windows Copilot Runtime是微软AI笔电Copilot+ PC的重要基础,以函式库、本地端模型与API为核心,来驱动高阶AI应用与体验。图片来源/微软
特点1:专为AI设计的Windows函式库
进一步来说,Windows Copilot Runtime的核心是「Windows Copilot函式库与本地端模型」,向下支援微软AI框架和工具链,向上可用来发展AI应用程式、提供一致的使用体验。这3大层次加起来,就是一套完整的端到端Windows AI生态系统,「Windows Copilot Runtime就是这样的系统」,微软官网如此说明。
就Windows Copilot函式库与本地端模型来说,它包括一系列即用型本地端API,这些API由40多个本地端AI模型和Windows内建的DiskANN等演算法驱动,使用者可用来打造AI应用和体验。
第一波API在6月对开发者开放,包括工作室特效(Studio Effects)、即时字幕翻译(Live Caption)、OCR、回顾使用者活动(Recall User Activity)和语言模型Phi Silica等。接下来,Windows Copilot函式库预计还会新添向量嵌入、检索增强生成(RAG)、文本摘要等API。其中,向量嵌入API还能用来打造开发者自己的向量储存库,能介接专属App的资料,更客制化回答问题。
如何使用这些API?微软举例,开发者不需任何程式码,就能在Copilot+ PC系列笔电上,将Studio Effects整合至自己的应用程式,比如创意滤镜、人像模糊化、注视提词机(Eye contact teleprompter)等。或是使用即时字幕翻译API,来替音档和影片即时添加字幕。
而驱动这些API的本地端模型,则有40多款小型语言模型,如Phi系列模型、近期新打造的Phi-3-vision,以及专为Copilot+ PC和NPU设计的33亿参数SOTA模型Phi-Silica,延迟更低、更省能源。这意味著,所有Copilot+ PC都内建40多个小型语言模型。
特点2:支援多款AI框架与工具
除了函式库与模型,Windows Copilot Runtime还支援底层AI框架与工具,像是微软既有的AI框架DirectML、ONNX Runtime等。
Satya揭露底层工具2大亮点,开发者透过Windows中用于机器学习的高效能低阶API:DirectML,就能获得Windows作业系统对PyTorch开发框架的原生支援(开发者预览版)。这意味著,Hugging Face上的上千个模型终于能在Windows中执行,而且微软也正式推出GPU对PyTorch的支援,NPU支援也即将上线。
另一亮点是WebNN,也就是网页原生的机器学习框架,可在Windows作业程式中透过DirectML和ONNX Runtime Web来执行。同样是开发者预览版,WebNN的出现,能让开发者更好地利用笔电硬体资源,来提供更好的AI网页App体验。这2项就是Windows Copilot Runtime的底层工具亮点。
特点3:更多原生与第三方AI应用
不只支援AI工具,Windows Copilot Runtime还能向上发展AI应用与体验,这部分有2大特点,一是微软用Windows Copilot Runtime自建的AI应用程式,如使用者活动回顾(Recall)、图像创作(Cocreator)、即时字幕翻译、风格编辑(Restyle Image)等。
其中,回顾是透过对萤幕快照,将这些资讯转为向量、储存在语义索引中。当使用者想搜寻先前看过的资讯时,就能在回顾中手动卷动时间轴搜寻,或输入关键字,来启动向量语意辨识、快速找出所需内容。这些快照皆储存在本地端,使用者可随时删除,或在设定中设置不想留存快照的特定网站或应用程式。但日前,为顾及使用者隐私,微软预设回顾为关闭状态。
再来,图像创作则以小型语言模型和Stable Diffusion等共5款模型驱动,可根据文字提示和简单笔画,来即时生成逼真的图像。即时字幕则支援笔电上任何音讯的语言翻译,可将40多种语言翻译为英文,离线也行。不只开发这些应用,微软还用来优化既有的智慧助理Copilot,比如能在笔电上与玩家语音对话、给玩家XBox游戏Minecraft的破关建议。
除了自建的AI应用,微软Windows Copilot Runtime还正整合多个第三方应用程式,如专业级影像处理程式Davinci Resolve、影像剪辑程式CapCut、通讯软体WhatsApp、声音手势控制程式Cephable、文件注解程式LiquidText和Adobe系列应用等,要用NPU来优化这些程式的AI功能。
因此微软自建的AI应用程式,使用者可在Copilot+ PC笔电中开箱即用,要是在这系列笔电使用微软整合的第三方应用程式,也能获得笔电加持的AI功能。可以说,这个Windows Copilot Runtime,是支撑起Copilot+ PC这一系列AI笔电的重要基础。
强大硬体撑起史上最快AI笔电
当然,光靠强大的底层系统驱动这系列笔电,还是不够的。因此Satya点出,这系列笔电采用新型硬体架构,大幅优化NPU、CPU和GPU的资源使用,每秒能实现40兆次操作(TOPS)。微软测试证实,这样的硬体设计能更快进行AI模型推论,执行AI工作负载的效率还能提高100倍,续航力也更好,充电一次就能支援长达15小时的网页浏览,或22小时的本地影片播放,后者比MacBook Air 15 吋还要久20%。
至于处理器部分,首批Copilot+ PC笔电采搭载高通Snapdragon X Elite和Snapdragon X Plus处理器,可实现45 TOPS。之后,还会推出搭载英特尔Lunar Lake处理器和AMD Strix Point处理器的Copilot+ PC笔电。甚至微软预告,希望这类硬体架构的笔电,未来能搭载Nvidia GeForce RTX显卡和AMD Radeon显卡,来从硬体上更进一步优化Copilot+ PC笔电的使用体验。
这些硬体和Windows Copilot Runtime优势,正是微软发豪语称Copilot+ PC笔电是史上最快、最聪明笔电的底气。