被质疑缺乏创新?Meta最新大模型基准测试排名低于竞争对手!
更新于:2025-04-13 10:03:28

本周早些时候,Meta公司因在众包基准测试平台LM Arena上使用其Llama 4 Maverick模型的未发布实验版本并取得高分而备受争议。

这一事件引发了广泛关注,促使LM Arena的维护团队出面道歉,并随即调整了其评分政策,转而采用未经修改的原版Maverick模型进行评估。结果显示,该模型在未经优化的情况下,其竞争力并不突出。

截至周五,未经修改的Maverick模型“Llama-4-Maverick-17B-128E-Instruct”在排名上落后于OpenAI的GPT-4o、Anthropic的Claude 3.5 Sonnet以及Google的Gemini 1.5 Pro等模型。值得注意的是,这些竞争模型中的许多都是在数月前便已推出的。

那么,为何Maverick模型在未经修改的情况下表现不佳呢?Meta公司在上周六发布的一份图表中给出了解释。原来,其实验性的Maverick模型Llama-4-Maverick-03-26-Experimental已经“针对对话性进行了优化”。这些优化在LM Arena的测试中确实取得了显著成效,因为该平台依赖于人类评分员来比较不同模型的输出,并选择他们更偏好的模型。

尽管LM Arena因其测试方式而备受关注,但它从来都不是衡量AI模型性能的最可靠指标。根据基准测试来定制模型,不仅可能产生误导性结果,还会让开发人员难以准确预测模型在不同环境下的实际表现。

对此,Meta公司的一位发言人在一份声明中表示,Meta已经尝试了“各种类型的自定义变体”。

该发言人指出:“‘Llama-4-Maverick-03-26-Experimental’是我们测试过的聊天优化版本,在LM Arena上的表现确实令人印象深刻。然而,我们现在已经发布了开源版本,并将密切关注开发者如何根据自身需求来定制Llama 4。我们非常期待看到他们的创新成果,并珍视他们持续的反馈。”

Windows优化大师的使用
Windows优化大师的使用
2025-04-18 10:56:22
下载并安装Winrar
下载并安装Winrar
2025-04-18 13:30:32
如何让图片内存变小
如何让图片内存变小
2025-04-18 14:17:53
怎么改图片大小
怎么改图片大小
2025-04-18 15:28:51
mp3格式转换器免费版
mp3格式转换器免费版
2025-04-18 15:29:16
极品五笔输入法卸载
极品五笔输入法卸载
2025-04-18 19:33:35
电脑是32位还是64位
电脑是32位还是64位
2025-04-18 21:43:54
卸载Windows优化大师
卸载Windows优化大师
2025-04-18 22:11:17