如何让业务团队信任推荐模型?Line祭出可信任框架

Line台湾打造一套可信任框架,来确保AI系统稳健、公平且可解释,其购物推荐系统也是在该框架下展开,主要瞄准资料准备、资料表征、推荐生成和效能评估4大阶段。(图片来源/Line)

一套AI系统不只要能解决商业问题,还要能获得业务团队信任且合规。因此,Line台湾打造一套可信任评估框架,来让自家模型更强健且可解释,就算是不懂技术的业务团队,也能解读模型。Line购物有套精密的机器学习(ML)推荐系统Brickmaster,就在这个框架下展开。

可信任含3大元素,锁定4大推荐流程

这个「可信任」,包含了3项重要元素。Line台湾电商资料科学家陈峻廷指出,首先是稳健性(Robustness),当购物平台的商品,带有夸大推销说词时,推荐系统要能够侦测、剔除这些商品;又或是能辨别、找出有价值的评论,来推荐商品。

再来是公平性(Fairness),重点要移除偏差(Bias)。举例来说,若使用者不小心点击没兴趣的Line官方帐号内容,这样的资料,就不能输入推荐模型,以免推荐错误商品给使用者。因此,开发团队从资料处理下手,移除这类偏差,确保推荐系统的推荐不受干扰。

第三个元素是透明性/可解释性,指的是不论业务团队还是利害关系人,都能了解ML模型资讯,甚至是特征、推荐系统如何运作等。「这个元素对资料科学家和机器学习工程师来说很重要,」陈峻廷解释,透明性/可解释性能帮助团队采用更好的微调方法,来降低部署模型的信任风险。

陈峻廷指出,这个可信任框架会落实到推荐系统的4个运作阶段中,包括资料准备、资料表征(Representation)、推荐内容生成,到效能评估阶段。

实务解析可信任框架

首先,在资料准备阶段,为确保训练模型的资料干净且有效,Line团队设置可信任资料前处理方法,来过滤原始资料,比如侦测异常资料、移除异常值等。

过滤后的资料,就成为可信任的输入资料,进入第二阶段资料表征处理。由于Line购物推荐系统采双塔模型,也就是两套类神经网路,各自处理使用者特征和商品特征,再计算两者嵌入向量的相似度,来从千万级商品库中,选出用户感兴趣的推荐商品清单。为确保使用者向量和商品向量的可信任程度,Line设置一套向量品质检测机制,来检查模型产生的向量是否达标。

下一阶段,用模型产生推荐内容时,Line也设置了公平和透明机制,来确保模型推荐的内容,不会偏重某一族群或商品,并同步产出推荐结果解释,来落实模型透明性。

最后则是评估,也是陈峻廷认为最重要的环节。在Line台湾,可信任评估分为2大方向,一是技术面评估,由电商团队负责,另一是伦理面评估,如责任和社会影响性评估,则由其他团队负责。

从技术来看,Line还将可信任评估,细分为离线和线上两种作法。其中,当推荐系统产生新场景时,会先启动离线评估,来衡量是否合规,通过后再进行线上评估,没问题才能部署上架。只要其中一类评估没有合规,就退回检查模型或特征工程处理。

陈峻廷点出,正因为这些评估机制,ML工程师和资料科学家在演算法的设计阶段,会多想一步,尽可能满足公平透明、可解释要求,在源头先做好可信任工作。

离线评估是实战前的演练

在两种评估作法上,离线评估属于事前的演练。

这个离线评估,主要检视3类对象,包括模型、商业表现和推荐系统整体健康度。模型部分是根据模型性质,如基于准确度或排名,来设置检验指标,像是精确度、召回率、NDCG等,来检测模型能力。

商业表现部分则检视ML演算法,能否反映商业价值,如此才能说服业务团队接受推荐系统。因此,要评估的面向有留客、新客推荐、收益,各自又有其指标,如点击率(CTR)、客户体验的净推荐值(NPS)、订单转换率(CVR)和商品交易总额(GMV)等。

这类商业指标很多,但通常,「我们会设定可快速验证的指标,如CTR,来确认推荐系统是否可行,」来快速衡量ML系统是否满足商业问题。

至于推荐系统整体健康度,则要检视推荐系统能否长期运作。因此,检视指标有推荐内容涵盖范围和多样性,前者是指,推荐商品与全站商品的比重,比如是否只偏重热门商品;多样性则是指,推荐内容是否够多元、而非偏重单一类商品,如只推荐咖啡。

实战测验:线上评估

「离线评估若是打怪练习等,线上评估就是实战实打,是最重要且直接的方式,测试推荐系统是否正确。」陈峻廷进一步解释,线上评估像是一场AB测试,包含8个步骤,第一步是设置目标,该目标要明确易懂,比如新演算法是否比上一代好。接著是设置指标,找出合适的验证指标,如点击率、留客率、订单转换率等,正式采用前,还要进行AA测试,来验证指标上线后的衡量效度。订妥指标后,接著要决定实验单位,比如以使用者ID当作最小实验单位。

下一步是预估采样大小,可透过数据分析指标α、Power、Variance等来设定采样大小。陈峻廷提醒,这个阶段要留意最小成功指标,比如新演算法的点击率最少要比旧方法高出2%,才能算成功。

采样预估完成后,进入随机分组阶段,将流量随机分配到实验组和对照组,各50%,来观察新旧方法表现。陈峻廷表示,这个阶段要注意两组的独立性,否则会评估失效。

最后还有几个步骤,包括估算时间、展开活动和结果测试。以上这8个步骤就是Line推荐模型所用的线上评估方法。

如何解决线上评估的实务挑战

发展这套线上评估的过程中,Line团队曾遇过不少实务挑战。陈峻廷举例,实验结果差异性不显著就是一大挑战,有两种可能原因,一是新方法确实不好,二是有差异但不够显著,可透过扩大资料集规模来观察,或是降低指标变异数,比如替换相似但变异数较小的指标,或是进行倾向分数配对(PSM)分析。

另一个实务问题是样本比率偏差(SRM),也就是AB测试时,若后端或API出现问题,导致组别数字差异越来越大,进而出现辛普森悖论,即分组数据和整体数据呈现相反趋势,造成实验失效。

还有一项挑战是新奇效应(Novelty effect),较常发生在业务场景,比如一个新的使用者介面,刚推出时成功吸引到使用者目光,一直点击使用,但长期下来,效果趋于平缓,甚至不如刚上线时。这情况也可能相反,比如新功能上线初期可能不受喜爱,但用户群忠实度高、最终还是会使用,长期下来,商业指标会是上升。

LLM也能用来解释模型

近年风生水起的大型语言模型(LLM),Line也积极用这项技术,来强化购物推荐系统的可信任程度。

第一个LLM应用场景是特征工程,工程师对LLM下提示,要求执行字符化(Tokenization)工作。陈峻廷指出,这个作法很有效,可帮助Line更好地萃取商品规格等关键资讯、加速后续向量生成,甚至比原本的BERT模型方法还要好。为了验证这些向量的品质,他们采取探测(Probing)方式,从推荐系统的双塔模型,设计探针来取得使用者向量和商品向量,再以RankMe等指标来评估向量品质。

另一个使用LLM的地方是双塔模型的解释,比如将使用者特征和商品特征分别输入LLM,再进行分数和解释设定,就能得出结果,以此来验证推荐系统。这就是Line以LLM强化可解释性的作法。

 相关报导