今年看到的GAI浪潮,开始跟去年有很大的不同,台湾企业不再担心生成式AI的幻觉风险,转为正面思考,想办法找出最适合生成式AI发挥的场景。
GAI浪潮关注焦点的转向,不只台湾,国外也是如此,许多企业不再一昧追逐大型语言模型的规格和效能比较,转而更聚焦于寻找有高价值效益比的应用场景。
科技巨头依旧不断推出更强大的LLM模型和GAI产品,但光是基础的GAI开发工具和框架,已经可以让企业进行各式各样的验证,甚至打造正式服务。我们年初的CIO大调查显示,3成台湾大型企业积极投入GAI的POC验证,今年可说是企业GAI的POC之年。
最近一个月,我更拜访不少企业,采访他们尝试生成式AI应用的成果。不约而同,他们都看上了提示工程的威力,不需要太多软体开发知识,连非技术人员也能运用提示命令,打造出很有生产力的GAI应用。
有家医学中心就打造出多款不同特定用途的GAI助手,从护士、医生、药师到营养师,都因此改善了特定繁琐工作的效率,省下了不少时间,例如他们用GAI生成护理病摘的草稿,帮日班护士整理一整天所有负责病人的照护摘要纪录,再由真人护士确认后才存档,就缩短了不少交班的时间。
光是在7月,全院超过5万人次使用,使用人次在半年内翻了一倍,这家医院的医事人员真的感受到这些GAI助手的效益,越来越愿意在工作流程中使用。
让我惊讶的是,不只是用量的倍增,而是结合了提示工程、HIS系统串接和简单程式码处理之后,可以让GAI产出内容中的数字,统计到7月为止,一次都没有出错。不论是病摘中提到的病人身体状况,诊疗数据,服药纪录,检验结果数据,都没有出错。甚至,他们几乎靠提示工程,就能做到大部分的效果。他们的经验,打破了我对生成式AI的担心,有方法可以做到高度的准确性。
另外有两家金控的GAI开发成果,也开始展现出效益,不只找到有价值效益的内部场景,其中一家还将GAI用于对外正式服务。
Line台湾则有多位工程师在我们刚结束的Hello World开发者大会上,分享了打造购物平台背后推荐系统的关键,也提到在传统ML的特征工程阶段,用LLM来帮忙萃取商品规格等关键资讯,或是用LLM来强化对ML的可解释性。这是iThome 1201期封面故事「Line购物推荐系统大剖析」的亮点之一。
不过,这些企业也都提到,提示工程对于传统软体开发流程带来很大冲击,甚至有时候会扭转开发人员在GAI专案中的角色。
因为提示工程的门槛很低,人人都可以下指令,但只要指令稍有增减,也会产生不一样的生成结果,需要反复检查,来确保生成内容的品质。再加上这些LLM生成的结果,高度贴近业务场景,需要领域知识丰富的资深业务或使用者,才有能力判断好坏,有时只靠IT都无法辨识。这就导致,IT需要与业务人员来来回回,反复验证LLM生成的结果,互动次数远高于敏捷开发的频率,甚至有资讯主管认为,在生成式AI应用开发中,业务人员才是开发的主角。如何让忙碌的业务老手,加入开发流程,分担起开发责任,是一大挑战,光是找到非技术人员也擅长的测试案例沟通工具,就不好挑选。
若是更复杂的情况,专案中的不同角色,业务单位、PM、开发成员,人人都能自己手动修改提示,更容易让LLM生成结果的品质上下波动、时好时差。
针对这个新挑战,每家企业各自发展出他们自己一套GAI开发和提示工程管理作法,有的靠热情的资深使用者,发挥工人智慧的弹性,有的则调整IT与业务的协作方式,还有想要大规模应用的企业则是建立标准化的品管测试流程,或像Line则善用开源工具建立LLMOps管理平台。
这些作法虽然不同,都是依据各自GAI应用情境、效益期待、人才和软硬体资源而衍生的好方法,都值得想要运用GAI的企业参考。他们各自发展出适合他们自己的GAI品管作法,不只是借重技术,甚至是需要讲究运用的艺术。
但最重要的是,从这些GAI先行者企业的实战经验,可以看到,生成结果的品质控管,将是打造GAI应用的关键课题。GAI品管,也将是企业IT需要学习、锻炼的新技艺。