【關鍵IT新趨勢9】GAI輔助擴大到軟體工程增強，IT將變成AI調度PM

新一代推理模型o3 在号称全球最难的程式竞赛平台Codeforces的解题分数达到2,727高分，在16万8 千多人参赛开发者中，超越了99.9%的真人开发者。（图片来源／OpenAI）

生成式AI的软体开发能力在2024年底又有了新突破，一举从辅助角色，转而有能力成为软体开发流程中的主角，进一步分摊更多真人开发者的工作，而原本的企业IT人员，就得超越原本的程式码撰写工程师职务，转为成为具备架构设计能力，可以指挥多款AI代理协同开发的专案管理或产品经理角色。

OpenAI在2024年底的12天发布活动最后一天，该公司执行长Sam Altman亲自登场，他强调：「在2024年9月登场的o1系列模型，揭开生成式AI模型的新阶段。」因为o1模型在程式设计、数学、博士级科学问题等标竿测试上，都大幅超越了GPT-4o，透过关联思考（Chain of Thought）方式，o1的复杂推理任务处理，也接近真人专家，这是第一款在GPQA科学测试上超越真人博士的GAI模型。在程式设计领域，o1在知名Codeforces竞技程式测试的分数达到1,673分，超越89%的真人软体工程师。

o1登场不到半年，Sam Altman在12天发表活动最后一天揭露了新一代推理模型o3，不论在数学解题、科学理解、程式码开发等标竿测试中，再次大幅超确了o1。

新版o3最大特色是程式设计能力，再次有大幅跃进，在软体工程标竿测试SWE-bench Verified测试上，达到71.7%的分数，意思是，针对测试用的2千多个真实Python函式库问题修改请求，LLM可以解决了其中71.7%的问题。这也代表了LLM解决实际不同软体开发领域问题的能力。o3的分数远高于o1的48.9%，多解决了近2成的开发问题，这个分数也高于竞争对手产品，例如Google最新的Gemini 2.0 Flash可以解决51.8%的问题，而Claude Sonnet 3.5也差不多解决了50.8%的问题。虽然这项测试主要针对Python，而无法完全类推到其他语言也有同样的能力水准，但是可以说，o3对这些真实程式码的修补能力，已经达到Python开发老手的水准。

新一代GAI模型开发解题能力打败16万真人开发者

从另一个测试，可以看到o3与真人软体开发者的能力比较，在号称全球最难的程式竞赛平台Codeforces的解题分数上，o3模型的得分达到2,727高分，相当于2024年12月底排名175名的成绩，在16万8千多人参赛开发者中，超越了99.9%的真人开发者。这个分数甚至高于负责打造o3模型的OpenAI资深研究副总裁陈信翰（Mark Chen）自己的2,500分程式竞赛成绩。

OpenAI在2024年底发布了安全测试计划，开放资安人员来验证o3的安全性，预计从2025年初先释出o3 mini版模型，再陆续部署完整的o3模型。这也代表了，这个媲美真人开发者，超越十万开发者解题能力的推理型GAI模型，在2025年就可以成为每一个IT人日常工作中的助手，任何企业都可以付费请到这样一位超强软体开发者来参与自家专案，这个角色势必会开始改变企业软体开发专案的做法。

GitHub Copilot在2021年发布技术预览版之后，吸引了大量开发者开始运用GAI来辅助软体开发。随著模型能力一代代演进，所能生成的开发语言也越来越多，光是GitHub Copilot现在就有能力支援Python、C#、SQL、Java等在内的十多种程式语言的生成，还包括了老旧的大型主机程式语言COBOL，也能透过OpenAI Codex模型与Java语言互相转换。或像AWS推出的GAI助手Q Developer，可以直接将老旧的Java 8和Java 11版程式码，直接升级到最新Java 17版本，大幅减少了老旧应用系统现代化改版的重担。

在o3这样超强开发能力的模型问世之后，GAI在企业软体开发中，可以担任越来越重要的开发角色。不只主流开发工具支援GAI，现在也出现了专门用于AI辅助开发的新兴IDE，像是Cursor、Windsurf等。

不只辅助软体开发，也开始出现更多不同类型的GAI开发助手，像是AWS、微软Azure和Google云端，也相继推出云端部署GAI助手，可以协助应用程式的部署配置或是协助处理上云部署的问题。

而AWS更在2024年度大会上揭露了新版Amazon Q Developer，加入了开发文件、程式码品质审查和测试的AI代理，可以在开发者惯用的IDE中生成文件，甚至是绘制流程图，也能用来侦测程式码中的程式臭虫、逻辑错误、程式码重复、设计模式违例、违反命名规则设计等不同类型等问题，还能提出修改建议，开发者只要审视后按下同意，就能自动更新程式码，几乎不用动手自己写。

在测试辅助上，GAI助手Q Developer可以自动生成单元测试，修正测试涵盖范围，也能生成简单的测试用例。另外也增加了新旧程式码转换功能，可以将Windows平台的.NET应用，转换到Linux环境可用的版本，或是将本地端VMware虚拟环境的应用，转移到公云VM上部署。

GAI从软体开发、扩展到测试、部署、重构等领域的辅助

GAI在企业软体开发流程中的角色，不只局限于开发辅助，而是延伸到测试、部署、重构等更多软体工程的领域。国际知名顾问公司Gartner以AI增强软体工程（AI-augmented software engineering），来形容这一类GAI在软体工程上的辅助或增强机制。Gartner在2024新兴科技成熟曲线报告中认为，AI增强软体工程属于最快2年，最慢5年会带来重大影响的新兴技术之一，不只能让开发者快速写出程式，还是一项可以让开发者更专注、高度参与、沈浸在心流状态的生产力提升技术。

这些开发工具的GAI辅助，或是不同专门用途的GAI开发助手，甚至是媲美真人开发老手能力的模型，在2025年都将成为企业IT人可用的工具，这将开始改变IT人在软体开发流程中的角色，不再是样样自己动手的开发黑手，而要扮演衡量GAI程式码的审查者，甚至是指挥不同任务GAI开发助手，协同完成开发任务的专案管理者。

【关键IT新趋势9】GAI辅助扩大到软体工程增强，IT将变成AI调度PM