被质疑缺乏创新？Meta最新大模型基准测试排名低于竞争对手！_青世界

被质疑缺乏创新？Meta最新大模型基准测试排名低于竞争对手！

中关村在线 gpt 得分模型 phi 开源

更新于：2025-04-13 10:03:28

本周早些时候，Meta公司因在众包基准测试平台LM Arena上使用其Llama 4 Maverick模型的未发布实验版本并取得高分而备受争议。

这一事件引发了广泛关注，促使LM Arena的维护团队出面道歉，并随即调整了其评分政策，转而采用未经修改的原版Maverick模型进行评估。结果显示，该模型在未经优化的情况下，其竞争力并不突出。

截至周五，未经修改的Maverick模型“Llama-4-Maverick-17B-128E-Instruct”在排名上落后于OpenAI的GPT-4o、Anthropic的Claude 3.5 Sonnet以及Google的Gemini 1.5 Pro等模型。值得注意的是，这些竞争模型中的许多都是在数月前便已推出的。

那么，为何Maverick模型在未经修改的情况下表现不佳呢？Meta公司在上周六发布的一份图表中给出了解释。原来，其实验性的Maverick模型Llama-4-Maverick-03-26-Experimental已经“针对对话性进行了优化”。这些优化在LM Arena的测试中确实取得了显著成效，因为该平台依赖于人类评分员来比较不同模型的输出，并选择他们更偏好的模型。

尽管LM Arena因其测试方式而备受关注，但它从来都不是衡量AI模型性能的最可靠指标。根据基准测试来定制模型，不仅可能产生误导性结果，还会让开发人员难以准确预测模型在不同环境下的实际表现。

对此，Meta公司的一位发言人在一份声明中表示，Meta已经尝试了“各种类型的自定义变体”。

该发言人指出：“‘Llama-4-Maverick-03-26-Experimental’是我们测试过的聊天优化版本，在LM Arena上的表现确实令人印象深刻。然而，我们现在已经发布了开源版本，并将密切关注开发者如何根据自身需求来定制Llama 4。我们非常期待看到他们的创新成果，并珍视他们持续的反馈。”

每日车圈新鲜事：岚图FREE官图发布|海豚一口价7.98万|大众ID. AURA预告

每日车圈新鲜事：岚图FREE官图发布|海豚一口价7.98万|大众ID. AURA预告

2025-04-18 09:46:12

如何检测U盘是否为扩容盘

如何检测U盘是否为扩容盘

2025-04-18 10:32:53

腾讯手机管家怎么进行QQ清理

腾讯手机管家怎么进行QQ清理

2025-04-18 10:55:58

Windows优化大师的使用

Windows优化大师的使用

2025-04-18 10:56:22

叫你辨识假U盘、扩容U盘

叫你辨识假U盘、扩容U盘

2025-04-18 11:22:39

腾讯手机管家删除软件方法

腾讯手机管家删除软件方法

2025-04-18 11:44:54

下载并安装Winrar

下载并安装Winrar

2025-04-18 13:30:32

Win7共享XP局域网添加打印机的方法

Win7共享XP局域网添加打印机的方法

2025-04-18 13:30:42

如何批量调整多张图片大小,让多张图的宽度相同

如何批量调整多张图片大小,让多张图的宽度相同

2025-04-18 14:17:34

如何让图片内存变小

如何让图片内存变小

2025-04-18 14:17:53

WinRAR解压软件怎么去掉“请购买WinRAR许可”？

WinRAR解压软件怎么去掉“请购买WinRAR许可”？

2025-04-18 15:05:43

音频格式转换器哪个好好用的mp3格式转换器推荐

音频格式转换器哪个好好用的mp3格式转换器推荐

2025-04-18 15:28:27

如何将ogg转换成mp3，mp3格式转换器

如何将ogg转换成mp3，mp3格式转换器

2025-04-18 15:28:45

怎么改图片大小

怎么改图片大小

2025-04-18 15:28:51

mp3格式转换器免费版

mp3格式转换器免费版

2025-04-18 15:29:16

win7|XP局域网共享一键设置工具

win7|XP局域网共享一键设置工具

2025-04-18 17:21:20

怎样利用excel表格和批处理文件批量更改照片名

怎样利用excel表格和批处理文件批量更改照片名

2025-04-18 17:51:47

电脑无法正确启动，提示0xc000007b如何解决

电脑无法正确启动，提示0xc000007b如何解决

2025-04-18 18:15:45

极品五笔输入法卸载

极品五笔输入法卸载

2025-04-18 19:33:35

winRAR官方免费版在哪里下载？

winRAR官方免费版在哪里下载？

2025-04-18 20:49:37

中国消费品质量安全提升行动启动，电子产品技术创新引领智慧生活新风尚

中国消费品质量安全提升行动启动，电子产品技术创新引领智慧生活新风尚

2025-04-18 20:50:38

电脑是32位还是64位

电脑是32位还是64位

2025-04-18 21:43:54

卸载Windows优化大师

卸载Windows优化大师

2025-04-18 22:11:17

阴阳师书生面具哪里多

阴阳师书生面具哪里多

2025-04-18 23:17:45