图片来源/微软
去年,微软做了2件大事,影响今年AI战略走向。
一是推出生成式AI助理微软Copilot,短短1年更新了150多次,成为新一代微软跨生产力工具的智慧小帮手。另一件事是,微软也开始打造Copilot技术架构,提供技术资源和工具,来让开发者打造自己的Copilot助理。甚至过去2年来,微软联手GitHub推出程式开发AI助理GitHub Copilot,摇身一变成为全球工程师爱用的热门工具,光付费订阅者就有180万人。
可以说,微软近期AI战略锁定Copilot本身、Copilot客制化开发能力,以及更便捷智慧的程式开发助手。
到了今年,微软AI战略又有何变化?下一步往哪前进?
微软Build 2024的两大AI战略
他们在今年度Build大会上给了答案。在这场20万人注册、4千人亲自至西雅图参加的微软Build 2024大会上,微软执行长Satya Nadella开宗明义点出了今年发展3大元素:微软Copilot、Copilot技术架构和AI系列笔电Copilot+ PC。
Satya并未过多著墨微软Copilot,反而聚焦于后两者,意味著这是微软2024年的2大AI战略。一如前述,Copilot技术架构并非新东西,是微软去年就开始发展的架构,目标是满足开发者需求,来打造客制化Copilot助理。
今年,Satya进一步详解这个技术架构的组成,涵盖底层的AI基础设施、基础模型、资料、AI调度和工具链,以及上层的Copilot应用、扩充外挂,还有AI安全与资安。这个架构,比去年揭露的更细致。
微软执行长Satya Nadella在今年度Build大会上点出Copilot架构和Copilot+ PC两大AI战略,其中后者有个Runtime重要基础,以Windows Copilot函式库和40多个本地端模型为核心。图片来源/微软
战略1:Copilot技术架构
今年,基础设施层有3大亮点,首先是遍布全球的资料中心将于2025年全数采用再生能源、零碳排,再来是过去6个月Azure云端算力提高了30倍,最后是推出2款加速AI训练和推论的虚拟机器(VM),包括ND MI300X v5和搭载Azure Cobalt 100处理器的系列虚拟机器。
在基础模型部分,微软生成式AI开发工具Azure AI Studio终于进入正式版,其上的强大多模态模型GPT-4o也正式上线。至于模型发展则朝2方向并行,一是延续微软自建的Phi小型语言模型,新推更小更有效率的多模态模型Phi-3-vision,另一是深化第三方模型整合,包括扩大与Hugging Face合作、要导入其开源模型,同时也在模型即服务(MaaS)中纳入第三方企业模型。
至于资料和AI工具层,分别主打即时串流资料分析服务Real-Time Intelligence、整合资料湖OneLake扩大RAG范围,以及在AI程式开发工具GitHub Copilot Workspace中,推出程式开发外挂GitHub Copilot Extensions,首波推出16个外挂,包括微软自建的GitHub Copilot for Azure外挂。
在应用层,则有横跨资料壁垒的Microsoft Copilot Connector连结器、可扮演PM角色的协作助理Team Copilot,还有Microsoft Copilot Studio平台更强大的代理能力类别,用自然语言来客制化智慧助理Copilot。
而AI安全与资安层,则以微软去年发起的未来安全计划(SFI)为核心,遵守安全设计、安全预设和安全维运3大原则,并以6项安全文化和治理作法来确保Copilot技术架构的安全。
这就是微软今年端出的一大AI战略。
战略2:AI系列笔电Copilot+ PC
他们的第2大AI战略,则要将云端AI开发和应用能力延伸到装置端,要将Windows打造成最开放的AI开发平台。因此,微软祭出了AI笔电Copilot+ PC战略,其中一个重要基础就是Windows Copilot Runtime。Satya称之为Copilot技术架构到Windows作业系统的延伸,该Runtime以Windows Copilot函式库为核心,向下支援AI框架和工具,向上用来打造高阶AI应用与体验。
其中,Copilot函式库内含一系列API和演算法,这些API由40多个本地端模型驱动。第一波API在今年6月上架,包括用于影像特效的Studio Effects、即时字幕翻译Live Caption、OCR、回顾使用者活动Recall User Activity和多模态模型Phi Silica等。接下来还会纳入向量嵌入、检索增强生成(RAG)、文本摘要等API。这些API,加速了使用者打造生成式AI应用和体验的作业。
再来,Runtime支援的AI框架和工具有2大亮点,分别是Windows专用高效能低阶API DirectML可原生支援PyTorch了,以及使用者可在DirectML和ONNX Runtime Web使用网页原生ML框架WebNN。这意味著,AI开发的便利性更高了。
利用Runtime优势,可打造出高阶AI应用与体验,Satya用微软自己打造的原生AI应用程式来说明。比如回顾(Recall)透过对萤幕快照,将快照资讯转为向量、储存在语义索引中。当使用者想搜寻先前看过的资讯时,就能输入关键字来启动向量语意辨识、快速找出所需内容。又或是由5个本地端模型驱动的图像创作(Cocreator),可根据简单的笔画快速生成逼真细致图画,其他还有即时字幕翻译,可随时替影片、音档添加字幕或翻译为英语。这些程式,在Copilot+ PC系列笔电中皆能开箱即用。
不只原生AI程式,Runtime加上NPU等硬体优势,还能优化第三方应用程式的AI功能,如Adobe系列程式、CapCut、Davinci Resolve、WhatsApp、LiquidText、Cephable等。这些程式在Copilot+ PC笔电上,都能获得强化过的AI功能。
不单是Windows Copilot Runtime,Copilot+ PC这系列笔电,还有强大的硬体支撑。比如采用新型架构来优化NPU、CPU和GPU的资源使用,每秒能实现40兆次操作(TOPS),可更快执行AI推论。在处理器部分,首波笔电搭载高通Snapdragon X Elite和Snapdragon X Plus处理器,可实现45 TOPS。之后,微软还会推出搭载英特尔Lunar Lake处理器和AMD Strix Point处理器的Copilot+ PC笔电。甚至他们预告,希望这类硬体架构的笔电,未来能搭载Nvidia GeForce RTX显卡和AMD Radeon显卡,从硬体上更进一步优化使用体验。
持续深化Copilot技术架构、将Windows打造成AI开发平台,这正是微软Build 2024大会的2大AI战略。
微软如何用GenAI协助开发者工作
微软开发者部门企业副总Amanda Silver 图片来源/微软
在微软Build 2024大会上,负责程式开发工具设计、GenAI工具研发的微软开发者部门企业副总Amanda Silver接受iThome专访,特别说明GenAI如何协助开发者日常工作。
她点出,开发者最常面临的痛点是工作不一致性,尤其开发者「通常使用30多种工具来完成工作,因此不断在不同工具间切换,」她继续说明:「每次切换环境时,平均需要23分钟才能重新集中注意力。」这造成工作效率低下,而在程式开发工具中导入GenAI工具,来提供问答和指令操作,就能减少来回切换次数、提高效率。
Amanda Silver也分享微软内部如何使用GenAI工具,她指出,程式开发最重要的是「正确的第一步」,因此,微软自己有套正确启动模板(Start Right Templates),内含储存库、工作流程、正式上线流程,无论开发者想打造什么应用程式,都可使用这套模板,来满足安全监管和生命周期管理。而开发者可将使用模板的知识,输入到程式开发助理GitHub Copilot中,往后有人需要类似知识时,就能透过GitHub Copilot来存取最佳实践,提高组织效率、形塑工作文化。
甚至,微软也用GenAI来降低内部故障排除等技术问题支援的工作负担。她解释,微软内部有套故障排除指南,供技术支援工程师参考、解决客户面临的技术问题。这些工程师还能将自己解决问题的知识,输入到GenAI工具中,来形成一个更聪明的Copilot助理,降低整体从头摸索的支援成本。