Google公开专为大型语言模型设计的
值得注意的是,OPT-30B模型应用传统的自我评估方法Self-eval和P(True),选择性预测的效能并没有明显提高,反而是较小的OPT-2.7B模型在使用ASPIRE进行强化后,优于其他模型,也就是说,运用传统自我评估技术的较大型语言模型,选择性预测效果不如采用ASPIRE强化方法的小模型。
研究人员实验强调了ASPIRE对于大型语言模型的重要改变,语言模型的能力并非其表现的最终效能,透过调整策略就可以大幅提高模型有效性,即便是较小的模型,也可以进行准确且有自信的预测。