Meta最近推出了其最新的AI模型系列Llama 4,声称在多模态功能和性能上取得了显著进步。然而,这一发布却引发了广泛的争议和批评。
Meta 最近推出了其最新的 AI 模型系列 Llama 4,据称引入了多模态功能的进步和…
Meta 最近推出了其最新的 AI 模型系列Llama 4,据称引入了多模态功能和性能的进步。然而,结果不仅令人失望,而且完全是阴暗的。
Meta 现在处于非常麻烦的水域(AI 对其存在至关重要)。这在各个层面都有影响,第一次,哪个国家在开源 AI 方面处于领先地位(我认为,基于此,在一般的 AI 方面)。
Meta 令人失望的发布不仅对 Meta 的抱负来说是可怕的;这是一个国家安全威胁。
在一个充斥着使用难以理解的行话的虚假专家的世界里,第一性原理分析和人工智能通常不会放在一起。
Meta 花了异常长的时间(将近一年)才发布其 Llama 模型的新版本,该模型系列曾被认为是开源 AI 的前沿。
但根据 Llama 4 的结果,情况已不再如此。事实证明,他们永远不会交付一个好的模型,所以他们决定,嗯,做一个完全糟糕的交付,以至于:
Meta 作为前沿实验室的日子现在已经一去不复返了。
该版本模型包括两个模型,第三个模型仍在开发中:
起初,根据最初公布的结果,您会认为这是今年最好的版本之一,因为:
但是当真人开始玩这些模型时,事情变得奇怪和尴尬,这些都是非常令人失望和有争议的委婉说法。
自发布以来,Meta 一直面临指控通过向 LMArena 基准测试平台提交明确针对对话性能优化的Llama 4 Maverick 的实验版本来纵 AI 基准测试排名。
不过,关键是他们没有透露这个实验版本的存在,掩盖了它不是主要版本,而是一个旨在最大化基准测试结果的微调版本的事实。大多数模型都没有“基准测试调整”,这为 Meta 的模型提供了明显的优势。
通俗地说,他们发布了一个针对该基准测试优化的模型,但没有披露这一点以获得超大的结果,并使其看起来像 Llama 4 Maverick 是一个疯狂的好模型。
但指控远不止于此,有些人指责 Meta 在测试集上进行训练。这是你在 AI 中能得到的最接近重叛罪的。
但是为什么?
在训练模型时,您可以将可用数据随机分为训练集和测试集。这样,您可以使用测试集来检查模型在训练集上训练期间是否学习了有意义的模式。
但为什么这在 AI 中如此重要呢?让我们看一个例子。假设您训练一个模型来识别猫,并希望测试它是否真的检测到图像中的猫。
您为模型提供了一个训练集,其中只有黑色和棕,而没有橙,它们只出现在测试集中。如果您的模型了解猫是什么,它将了解到颜色并不能定义它是否是猫,并且应该“泛化”并将橙识别为猫,即使它从未见过猫。这就是我们所说的 “泛化”。
这实际上是一个非常糟糕的训练数据分布,对模型完全不公平,因为你应该在其中包含 orange cats。此外,这并不是训练和测试数据之间的纯粹随机分离,因为我们主动向模型隐藏了橙猫,这也是不好的做法,这只是为了证明我的观点。
因此,通过进行这种分离,您可以测试模型是简单地记住训练集(猫只能是黑色或棕色,因为它所看到的只是黑色或棕色),还是真正理解了可推广的模式(例如,所有猫都有四条腿、狭缝形的眼睛和一条尾巴)。因此,我们在训练期间对模型隐藏了测试集,只在推理期间使用它来测试性能。
相反,Meta 被指责在测试集上训练模型,这些测试集精确测试它是否真正泛化。
换句话说,用我们的类比来说,当测试集想看看 Meta 的模型理解猫也可以是橙色的时,Meta 正在秘密地对橙进行训练以确保它确实如此,但这并不能证明模型真的理解猫。
如果属实,这实际上是作弊,绝对是亵渎数据,对于一个被认为是——或者我应该说曾经是——前 5 名 AI 实验室的实验室来说,这是绝对不能接受的。
该版本的亮点之一是这些模型在长上下文窗口下表现出色,据称 Llama 4 Scout 训练了 1000 万个token。通俗地说,您可以发送最多 800 万个单词的模型提示(作为参考,这几乎是整个哈利波特传奇)。
然而,当人们在处理 100k 个tokens的提示时测试模型的准确性时,这些提示比声称的限制小了 100 倍,性能下降到 15%。
由于上下文窗口的时间越长,模型性能就越下降,因此声称模型可以处理一百倍大的提示的说法是可笑的,老实说,这是 Meta 的另一个赤裸裸的谎言,因为模型的性能更早地崩溃了。
总而言之,在当前阶段,很难高估这些结果的可怕程度。由于所有其他竞争的 AI Labs 的内部模型与 Gemini 2.5 Pro 一样好或更好,很明显 Meta 远远落后于曲线。
由于 Llama 4 是 Meta 对这种架构的第一次尝试,很明显,该架构几乎是 DeepSeek v3 的复制品,更糟糕的是,它是最近的努力。这表明,当 DeepSeek 在几个月前发布 v3 时, 它让 Meta 完全措手不及,并迫使他们放弃了以前版本的 Llama 4 并重新进行整个训练。
总而言之
本文由 @来学习一下 原创发布于人人都是产品经理。未经作者许可,禁止转载
题图来自Unsplash,基于CC0协议
该文观点仅代表作者本人,人人都是产品经理平台仅提供信息存储空间服务