Llama 4问世反应平平,开发人员认效能表现言过其实

图片来源: 

Meta

Meta本周公布旗舰模型Llama 4家族,不过一些开发人员试用后,发现标竿测试结果经过操弄。也有人觉得Llama 4模型效能并不如Meta说的那么高。

Llama 4是Meta第一个以混合专家(mixture of experts,MoE)架构训练的模型家族。Meta并已开源二个Llama 4模型,包括总参数4000亿的Maverick和1090亿的Scout,为了确保高效能,两者都设计使用170亿活跃参数。Meta也搬出数据,显示比竞争者GPT 4o、Gemini 2.0来得好,也和DeepSeek v3互有高下。

Meta公布Llama 4 Maverick的LMArena Chatbot Arena LLM效能测试排行榜,显示为第2名(第1名为Gemini-2.5 Pro Experimental),超越GPT-4.5 preview、Gemini 2.0 Flash Thinking Experimental。但在该排行榜上评比得分1417分的是「实验聊天版(experimental chat version)」的Llama 4 Maverick。Meta在官方部落格也承认「对话性优化过」的版本,不同于开放下载的版本。一名试用过的开发人员就表示LMArena的版本一定做过特别处理。

因此这表示,Meta似乎是以一个做过优化的模型版本获得佳绩,但不发布,而是发表原始版本。Techcrunch分析,这会让开发人员难以预测模型在特定情境下该有的效能表现。Meta尚未对此评论。

另外,也有人对Llama 4的实际表现感到失望。例如Meta大力突显Llama 4 Scout加大了context length为10M字词,能提供更高品质的回应,但研究人员认为言过其实。Ars Technica引述独立研究人员Simon Willison发现,受到AI第三方服务供应平台系统如Groq、Fireworks限制,Scout最多只到128K字词,无法完全发挥其潜力。Willison还透过OpenRouter服务使用Scout,要求它将一篇约2万字词的线上讨论做重点摘要,但结果「根本一团糟」(complete junk output),还出现不断跳针重复的段落。

有使用者认为,170亿活动参数在今天而言已经太少,但另一些使用者认为,Llama 4平庸的测试成绩是急就章的结果,显示开发团队没有足够时间熟悉MoE架构就被迫交出成果。

Ars Technica则分析,GPT-4.5和Llama 4的评价褒贬不一,其高成本和效能限制可能反映,只扩展单一AI模型架构的作法已经走到死胡同。