Google Cloud
过去一年堪称是生成式AI元年,大型语言模型(LLM)强大的表现和泛化能力,带给企业无限的应用空间。但模型规模越大,开发、部署和维运也就越复杂,于是,LLMOps因运而生,专门针对大型语言模型的各个生命周期提供管理工具,来满足企业营运LLM应用的需求。
LLMOps的5大特点
进一步来说,LLMOps是机器学习维运MLOps的分支,是一套专门针对大型语言模型开发、部署和维运的实践方法。有别于MLOps,LLMOps有5大特点,其一是基础模型选择。因为,在LLMOps中,使用者通常选择预训练过的基础模型,如开源的Llama 2、Falcon,或透过API呼叫GPT-4、Gemini Pro等模型,作为LLM应用的基底,而非从头打造。
再来,为确保LLM产出预期的答案,LLMOps还提供特殊工具,来让使用者实作一系列模型优化,像是提示工程、检索增强生成(RAG)、全参数微调或参数高效能微调(PEFT),甚至是人类回馈增强学习(RLHF)。其中,RAG是利用资料检索,搭配特定资料库,来作为模型生成答案的参考范围。
不只如此,LLMOps的模型评估和衡量指标,也与MLOps不同。比如,MLOps常以AUC、准确率、F1分数等容易清楚计算的指标,来衡量AI模型表现,但LLM并非如此,还需要特殊的基准测试和指标,如BLEU,或设计特定领域的题目、再透过其他LLM(如GPT-4)或以人工来评分答案,才能判断模型表现。
此外,LLM应用的部署也与一般ML模型不同,比如需要串接额外的向量资料库或提示,来更好发挥LLM效能。LLM上线后,不只需要维运工具来把关模型是否漂移,还需要专属工具来衡量提示与答案组的品质。这些就是LLMOps的5大特点。
3大公云投入,LLMOps工具链开始成形
在生成式AI遍地开花之际,3大公云业者也瞄准LLMOps需求,开始布局LLMOps工具链,更在2023下半年加码投入。比如,微软早在去年5月推出Azure AI Studio平台,来管理生成式AI基础模型的建立、训练、评估、部署和维运阶段,更特别锁定提示工程,推出名为Prompt Flow的生成提示工程工具,来让开发者设计、优化和管理生成提示,提高语言模型回应的精准度。
而且,微软还纳入提示流程图功能,清楚显示输入问题、提示建立、提示整合,到LLM回应与输出的过程,不只让开发者掌握每个提示的生命周期,还能作为比对工具,来查看每个步骤的输入和输出、了解各流程环节对模型回应的影响,透过微调和实验来优化模型输出品质。
不只是提示,微软这款平台还针对搜寻、推荐相关的内容生成需求,支援RAG,来作为调用LLM的预处理机制。去年11月,微软更进一步将LLMOps扩展至小型语言模型,公开预览了Windows AI Studio,提供Phi-2在内的多款小型基础模型供选择,开发者微调模型后,还一样能透过Prompt Flow工具和Gradio模板来测试模型。
另一方面,Google也在去年5月,大动作升级机器学习开发平台Vertex AI,在其中的模型花园添加更多开源和商用LLM基础模型,还在平台上提供多项微调方法,包括提示设计、LoRA微调、蒸馏和RLHF,让Vertex AI更贴近生成式AI开发需求。
而且,就在上个月推出Gemini模型的同时,Google还揭露一系列Vertex AI新LLMOps工具,涵盖了模型增强、与外部资料或API互动、自动化LLM评比和更多GAI控制机制。比如,增强工具能强化RAG机制、串接外部向量资料库,来实现Vertex AI的多模态嵌入检索,而自动化LLM评比工具Auto SxS,还能一对一自动比较两个模型对指定任务的执行结果,并在模型部署上线后,自动追踪每次从输入到输出的回应速度,来掌握模型效能。甚至,Google还预告要在Vertex AI平台上新添多模型协作框架,来调度多个模型。
AWS也在去年发展LLMOps,不只在2023年9月正式推出全托管AI平台Bedrock,让开发者透过API来使用多种基础模型、简单客制化,还在12月进一步推出支援RAG机制的无伺服器向量引擎,可储存和查询数十亿个嵌入。他们甚至还预告,未来所有AWS资料库都将具备向量功能,来加速企业整合资料、开发生成式AI应用。
降低企业尝试门槛,加速GAI深入不同场景
这些工具的出现,加速了企业LLM应用的开发。例如公云业者的生成式AI开发平台,提供了数十种热门的基础模型供开发者选择,开发者可快速尝试不同模型,来找出最合适的基底,作为应用核心。
再来,提示工程工具不只能帮助企业管理提示,还能降低开发LLM应用的门槛。因为,这类提示工程工具可用来建置、调度、评估、测试、部署和监控提示,协助企业找出好的提示,而好的提示能引导LLM给出更高品质的回应。如此一来,企业不需进行复杂的微调,也能提高LLM表现。
而LLMOps的RAG工具和向量资料库支援,更能加速企业发展多模态应用。尤其,企业可将文字、影音或图像等资料转为向量,储存至向量资料库,再透过嵌入向量比对,来找出最相近的资料、交给模型生成答案,促进多模态应用发展,可以来因应企业更多元的内部应用,或是更多种业务场景的需求。