【关键IT新趋势9】GAI辅助扩大到软体工程增强,IT将变成AI调度PM

新一代推理模型o3 在号称全球最难的程式竞赛平台Codeforces的解题分数达到2,727高分,在16万8 千多人参赛开发者中,超越了99.9%的真人开发者。(图片来源/OpenAI)

生成式AI的软体开发能力在2024年底又有了新突破,一举从辅助角色,转而有能力成为软体开发流程中的主角,进一步分摊更多真人开发者的工作,而原本的企业IT人员,就得超越原本的程式码撰写工程师职务,转为成为具备架构设计能力,可以指挥多款AI代理协同开发的专案管理或产品经理角色。

OpenAI在2024年底的12天发布活动最后一天,该公司执行长Sam Altman亲自登场,他强调:「在2024年9月登场的o1系列模型,揭开生成式AI模型的新阶段。」因为o1模型在程式设计、数学、博士级科学问题等标竿测试上,都大幅超越了GPT-4o,透过关联思考(Chain of Thought)方式,o1的复杂推理任务处理,也接近真人专家,这是第一款在GPQA科学测试上超越真人博士的GAI模型。在程式设计领域,o1在知名Codeforces竞技程式测试的分数达到1,673分,超越89%的真人软体工程师。

o1登场不到半年,Sam Altman在12天发表活动最后一天揭露了新一代推理模型o3,不论在数学解题、科学理解、程式码开发等标竿测试中,再次大幅超确了o1。

新版o3最大特色是程式设计能力,再次有大幅跃进,在软体工程标竿测试SWE-bench Verified测试上,达到71.7%的分数,意思是,针对测试用的2千多个真实Python函式库问题修改请求,LLM可以解决了其中71.7%的问题。这也代表了LLM解决实际不同软体开发领域问题的能力。o3的分数远高于o1的48.9%,多解决了近2成的开发问题,这个分数也高于竞争对手产品,例如Google最新的Gemini 2.0 Flash可以解决51.8%的问题,而Claude Sonnet 3.5也差不多解决了50.8%的问题。虽然这项测试主要针对Python,而无法完全类推到其他语言也有同样的能力水准,但是可以说,o3对这些真实程式码的修补能力,已经达到Python开发老手的水准。

新一代GAI模型开发解题能力打败16万真人开发者

从另一个测试,可以看到o3与真人软体开发者的能力比较,在号称全球最难的程式竞赛平台Codeforces的解题分数上,o3模型的得分达到2,727高分,相当于2024年12月底排名175名的成绩,在16万8千多人参赛开发者中,超越了99.9%的真人开发者。这个分数甚至高于负责打造o3模型的OpenAI资深研究副总裁陈信翰(Mark Chen)自己的2,500分程式竞赛成绩。

OpenAI在2024年底发布了安全测试计划,开放资安人员来验证o3的安全性,预计从2025年初先释出o3 mini版模型,再陆续部署完整的o3模型。这也代表了,这个媲美真人开发者,超越十万开发者解题能力的推理型GAI模型,在2025年就可以成为每一个IT人日常工作中的助手,任何企业都可以付费请到这样一位超强软体开发者来参与自家专案,这个角色势必会开始改变企业软体开发专案的做法。

GitHub Copilot在2021年发布技术预览版之后,吸引了大量开发者开始运用GAI来辅助软体开发。随著模型能力一代代演进,所能生成的开发语言也越来越多,光是GitHub Copilot现在就有能力支援Python、C#、SQL、Java等在内的十多种程式语言的生成,还包括了老旧的大型主机程式语言COBOL,也能透过OpenAI Codex模型与Java语言互相转换。或像AWS推出的GAI助手Q Developer,可以直接将老旧的Java 8和Java 11版程式码,直接升级到最新Java 17版本,大幅减少了老旧应用系统现代化改版的重担。

在o3这样超强开发能力的模型问世之后,GAI在企业软体开发中,可以担任越来越重要的开发角色。不只主流开发工具支援GAI,现在也出现了专门用于AI辅助开发的新兴IDE,像是Cursor、Windsurf等。

不只辅助软体开发,也开始出现更多不同类型的GAI开发助手,像是AWS、微软Azure和Google云端,也相继推出云端部署GAI助手,可以协助应用程式的部署配置或是协助处理上云部署的问题。

而AWS更在2024年度大会上揭露了新版Amazon Q Developer,加入了开发文件、程式码品质审查和测试的AI代理,可以在开发者惯用的IDE中生成文件,甚至是绘制流程图,也能用来侦测程式码中的程式臭虫、逻辑错误、程式码重复、设计模式违例、违反命名规则设计等不同类型等问题,还能提出修改建议,开发者只要审视后按下同意,就能自动更新程式码,几乎不用动手自己写。

在测试辅助上,GAI助手Q Developer可以自动生成单元测试,修正测试涵盖范围,也能生成简单的测试用例。另外也增加了新旧程式码转换功能,可以将Windows平台的.NET应用,转换到Linux环境可用的版本,或是将本地端VMware虚拟环境的应用,转移到公云VM上部署。

GAI从软体开发、扩展到测试、部署、重构等领域的辅助

GAI在企业软体开发流程中的角色,不只局限于开发辅助,而是延伸到测试、部署、重构等更多软体工程的领域。国际知名顾问公司Gartner以AI增强软体工程(AI-augmented software engineering),来形容这一类GAI在软体工程上的辅助或增强机制。Gartner在2024新兴科技成熟曲线报告中认为,AI增强软体工程属于最快2年,最慢5年会带来重大影响的新兴技术之一,不只能让开发者快速写出程式,还是一项可以让开发者更专注、高度参与、沈浸在心流状态的生产力提升技术。

这些开发工具的GAI辅助,或是不同专门用途的GAI开发助手,甚至是媲美真人开发老手能力的模型,在2025年都将成为企业IT人可用的工具,这将开始改变IT人在软体开发流程中的角色,不再是样样自己动手的开发黑手,而要扮演衡量GAI程式码的审查者,甚至是指挥不同任务GAI开发助手,协同完成开发任务的专案管理者。