Llama 4出来,Meta 马斯克遇到了大麻烦。
更新于:2025-04-17 02:51:20

Meta最近推出了其最新的AI模型系列Llama 4,声称在多模态功能和性能上取得了显著进步。然而,这一发布却引发了广泛的争议和批评。

Meta 最近推出了其最新的 AI 模型系列 Llama 4,据称引入了多模态功能的进步和…

Meta 最近推出了其最新的 AI 模型系列Llama 4,据称引入了多模态功能和性能的进步。然而,结果不仅令人失望,而且完全是阴暗的。

Meta 现在处于非常麻烦的水域(AI 对其存在至关重要)。这在各个层面都有影响,第一次,哪个国家在开源 AI 方面处于领先地位(我认为,基于此,在一般的 AI 方面)。

Meta 令人失望的发布不仅对 Meta 的抱负来说是可怕的;这是一个国家安全威胁

在一个充斥着使用难以理解的行话的虚假专家的世界里,第一性原理分析和人工智能通常不会放在一起。

Meta 花了异常长的时间(将近一年)才发布其 Llama 模型的新版本,该模型系列曾被认为是开源 AI 的前沿

但根据 Llama 4 的结果,情况已不再如此。事实证明,他们永远不会交付一个好的模型,所以他们决定,嗯,做一个完全糟糕的交付,以至于:

Meta 作为前沿实验室的日子现在已经一去不复返了。

该版本模型包括两个模型,第三个模型仍在开发中:

  1. Llama 4 Scout:该模型具有 170 亿个活动参数,使用 16 位专家,总计 1090 亿个参数。据称,它拥有 1000 万个令牌的上下文窗口,旨在在单个 NVIDIA H100 GPU 上高效运行。这意味着,至少从理论上讲,您可以在一个提示中向模型发送近 800 万个单词。
  2. Llama 4 Maverick:该模型也有 170 亿个活动参数,但雇佣了 128 名专家,累计参数总数达到 4000 亿个。它经过精心设计,在各种 AI 基准测试中优于 GPT-4o 和 Gemini 2.0 Flash 等模型,并且可以在单个 NVIDIA H100 DGX 服务器 (8xH100s) 上运行。
  3. Llama 4 Behemoth:目前仍在训练中,Behemoth 预计拥有 2880 亿个活动参数,总共大约2 万亿个参数。它的目标是在 STEM 基准测试中超越 GPT-4.5 和 Claude Sonnet 3.7 等模型,并被认为是教师模型(不是用来服务的,而是用来训练较小的模型)。

起初,根据最初公布的结果,您会认为这是今年最好的版本之一,因为:

  • Maverick 在 LMArena 上取得出色的成绩,LMArena 是世界上主要的“氛围评估”,由数千名不同的用户评判。
  • 两个已发布的模型在几个流行的基准测试中都取得了很好的结果,例如 GPQA Diamond(测试博士水平知识)。
  • 它在一些编码基准测试中显示出非常强大的结果。

但是当真人开始玩这些模型时,事情变得奇怪和尴尬,这些都是非常令人失望和有争议的委婉说法。

自发布以来,Meta 一直面临指控通过向 LMArena 基准测试平台提交明确针对对话性能优化的Llama 4 Maverick 的实验版本来纵 AI 基准测试排名。

不过,关键是他们没有透露这个实验版本的存在,掩盖了它不是主要版本,而是一个旨在最大化基准测试结果的微调版本的事实。大多数模型都没有“基准测试调整”,这为 Meta 的模型提供了明显的优势

通俗地说,他们发布了一个针对该基准测试优化的模型,但没有披露这一点以获得超大的结果,并使其看起来像 Llama 4 Maverick 是一个疯狂的好模型。

但指控远不止于此,有些人指责 Meta 在测试集上进行训练。这是你在 AI 中能得到的最接近重叛罪的。

但是为什么?

在训练模型时,您可以将可用数据随机分为训练集和测试集。这样,您可以使用测试集来检查模型在训练集上训练期间是否学习了有意义的模式。

  • 如果你的模型在训练数据中表现良好,但在测试数据中表现不佳,则它已经过度拟合到训练数据,也就是记住了它。这使得它在现实世界中毫无用处,因为它只能在与用于训练的数据相同的数据中正常工作,而这种情况很少发生。
  • 相反,如果您的模型很好地“泛化”到测试数据中,则意味着该模型已经从训练数据中压缩了所需的知识,这些知识可以应用于新的(分布内)数据,使其可用。

但为什么这在 AI 中如此重要呢?让我们看一个例子。假设您训练一个模型来识别猫,并希望测试它是否真的检测到图像中的猫。

您为模型提供了一个训练集,其中只有黑色和棕,而没有橙,它们只出现在测试集中。如果您的模型了解猫是什么,它将了解到颜色并不能定义它是否是猫,并且应该“泛化”并将橙识别为猫,即使它从未见过猫。这就是我们所说的 “泛化”。

这实际上是一个非常糟糕的训练数据分布,对模型完全不公平,因为你应该在其中包含 orange cats。此外,这并不是训练和测试数据之间的纯粹随机分离,因为我们主动向模型隐藏了橙猫,这也是不好的做法,这只是为了证明我的观点。

因此,通过进行这种分离,您可以测试模型是简单地记住训练集(猫只能是黑色或棕色,因为它所看到的只是黑色或棕色),还是真正理解了可推广的模式(例如,所有猫都有四条腿、狭缝形的眼睛和一条尾巴)。因此,我们在训练期间对模型隐藏了测试集,只在推理期间使用它来测试性能

相反,Meta 被指责在测试集上训练模型,这些测试集精确测试它是否真正泛化。

换句话说,用我们的类比来说,当测试集想看看 Meta 的模型理解猫也可以是橙色的时,Meta 正在秘密地对橙进行训练以确保它确实如此,但这并不能证明模型真的理解猫。

如果属实,这实际上是作弊,绝对是亵渎数据,对于一个被认为是——或者我应该说曾经是——前 5 名 AI 实验室的实验室来说,这是绝对不能接受的。

该版本的亮点之一是这些模型在长上下文窗口下表现出色,据称 Llama 4 Scout 训练了 1000 万个token。通俗地说,您可以发送最多 800 万个单词的模型提示(作为参考,这几乎是整个哈利波特传奇)。

然而,当人们在处理 100k 个tokens的提示时测试模型的准确性时,这些提示比声称的限制小了 100 倍,性能下降到 15%。

由于上下文窗口的时间越长,模型性能就越下降,因此声称模型可以处理一百倍大的提示的说法是可笑的,老实说,这是 Meta 的另一个赤裸裸的谎言,因为模型的性能更早地崩溃了。

总而言之,在当前阶段,很难高估这些结果的可怕程度。由于所有其他竞争的 AI Labs 的内部模型与 Gemini 2.5 Pro 一样好或更好,很明显 Meta 远远落后于曲线

由于 Llama 4 是 Meta 对这种架构的第一次尝试,很明显,该架构几乎是 DeepSeek v3 的复制品,更糟糕的是,它是最近的努力。这表明,当 DeepSeek 在几个月前发布 v3 时, 它让 Meta 完全措手不及,并迫使他们放弃了以前版本的 Llama 4 并重新进行整个训练

总而言之

  • Llama 模型是构建代理应用程序的基础(可以将其视为他们对 PyTorch 或 React 所做的)。Meta 工具是 AI 训练和网站开发的基础,使其能够影响行业的发展方向。例如,如果 Meta 正在开发专用硬件,它可以确保 PyTorch 开箱即用地支持它。
  • Meta 利用开源创新循环,通过其社交应用为客户提供模型的改进版本。例如,Llama 3 为开源社区创建的特定任务提供了几乎无限的微调模型。由于 Meta 围绕 Llama 构建其 AI 战略,它实际上是有人免费为它工作,并且可以不费吹灰之力地采用这些微调的模型

本文由 @来学习一下 原创发布于人人都是产品经理。未经作者许可,禁止转载

题图来自Unsplash,基于CC0协议

该文观点仅代表作者本人,人人都是产品经理平台仅提供信息存储空间服务

B端交互游戏化
B端交互游戏化
2025-03-28 11:19:28