Ministral 8B违反回应的数量是参考系统的1.5倍以上,并评为尚可(Fair),而Allen Institute for AI科学研究用的OLMo 7b 0724 Instruct模型则被评为差(Poor)。
MLCommons的人工智慧风险与可靠性工作组负责AILuminate的开发工作,参与者有来自史丹佛大学、哥伦比亚大学与恩荷芬理工大学的研究学者,还有Google、英特尔、Nvidia、Meta与微软等科技公司的专家。AILuminate目前已提供英文版本,将于2025年初推出法文、中文及印地文版本,工作组也会持续更新基准,确保人工智慧技术不断改进的同时,AILuminate能应对未来的安全挑战。