鸿海揭露自家700亿参数的繁中语言模型FoxBrain,以Llama 3.1 70B模型为基础,再以合成资料和120张H100 GPU训练而成,在数学推理等领域表现优异,超越国内同等规模的Llama-3-Taiwan-70B。
鸿海
鸿海研究院3月10日揭露自家首款繁体中文大型语言模型(LLM)FoxBrain,以Llama 3.1 70B模型为基础,以120张H100 GPU、花4周训练而成,不只繁中能力超越Llama-3-Taiwan-70B,还具备良好的数学和逻辑推理能力,可执行数据分析、决策辅助、文书协作和程式码生成等任务。鸿海预告,后续将开源FoxBrain。
用980亿Token中文合成资料训练模型,表现超越Llama-3-Taiwan-70B
进一步来说,鸿海研究院人工智慧研究所选定Llama 3.1 70B模型作为基础,并以连续预训练(Continual Pre-Training)、监督式微调(Supervised Finetuning)、AI回馈强化学习(RLAIF)和适应性推理反思(Adaptive Reasoning Reflection)等方法来强化模型表现。
其中,连续预训练是要加强模型繁中能力,于是团队先建立24类主题的资料增强方式和品质评估方法,来生成980亿个Token的高品质中文预训练资料,让模型具备更好的繁中理解力。
再来,他们使用120张Nvidia H100 GPU和Nvidia Quantum-2 InfiniBand网路来扩展运算,只花四周就完成训练,比其他同等模型的训练效率更好、成本更低。鸿海补充,他们采用Nvidia的Taipei-1超级电脑,以及Nvidia NeMo生成式AI云原生框架来训练模型。
这个FoxBrain可处理的上下文长度为128K Token,再加上团队使用Adaptive Reasoning Reflection方法,让模型学会自主推理。经TMMLU+基准测试,FoxBrain在大多数领域优于国内同规模的繁中模型Llama-3-Taiwan-70B,比如统计和机器学习、财务、行销管理等;在数学和逻辑推理方面,表现更突出许多。
FoxBrain模型与Meta Llama 3.1 70B、Llama-3-Taiwan-70B在TMMLU+上的重要领域得分比较
与Meta基础模型Llama 3.1相比,FoxBrain在数学领域表现好,甚至在数学推理能力上超越Meta目前的同等级模型,但与DeepSeek的蒸馏模型仍有些微差距。
鸿海表示,FoxBrain模型原是鸿海研究院为集团内部应用而设计,未来将开源模型,并持续与技术伙伴合作、扩大应用范围,同时也要推动AI在制造业、供应链管理和智慧决策领域的应用。
FoxBrain也将成为鸿海智慧应用升级的重要引擎,来优化他们的智慧制造、智慧电动车、智慧城市等三大平台数据分析效率。