一、简报
难产的llama终于发布,几个月后的OpenAI仍然遥遥无期
2025年4月6日,Meta宣布llama家族上新,宣布了三个llama 4系列模型,开源了两个:Llama 4 Scout、Llama 4 Maverick、Llama 4 Behemoth(规模最大,未开源)。
这是模型摘要:
- Llama 4 Scout,16位专家的170亿激活参数的多模态模型,单个H100 GPU可运行, 同类SOTA,并拥有10M(一千万)上下文窗口,并在广泛报道的基准测试中比 Gemma 3、Gemini 2.0 Flash-Lite 和 Mistral 3.1 有更好的表现
- Llama 4 Maverick,128位专家的170亿激活参数多模态模型,击败GPT-4o和Gemini 2.0 Flash,与DeepSeek-V3同等代码能力参数只要一半,主打与DeepSeek一样的性价比,单个H100主机即可运行。Maverick在广泛报告的基准测试中击败了 GPT-4o 和 Gemini 2.0 Flash,同时在推理和编码方面与新的 DeepSeek v3 取得可比的结果,而活跃参数不到一半。Llama 4 Maverick 以优于同类的性能成本比提供服务,实验聊天版本在 LMArena 上的 ELO 得分为 1417。
- Llama 4 Behemoth:2万亿(2880B)参数的超大超强模型,十六位专家,以上二者都由这个模型蒸馏而来;目前还在训练中;多个基准测试超过GPT-4.5、Claude Sonnet 3.7和 Gemini 2.0 Pro。
Meta还宣布,这些Llama 4模型标志着Llama生态系统新时代——原生多模态AI创新的开始。
接下来,我们一起看看本次Llama 4系列模型的创新点。
二、创新点解读
因为本次Llama4并没有发布技术报告,所有信源均来自于官方博客
1.全面转向MoE架构
Llama4系列是 Meta 首次在旗舰模型中采用专家混合 (MoE, Mixture of Experts) 架构。与传统的“稠密”模型(每次计算都使用所有参数)不同,MoE 模型包含多个“专家”网络,对于每个输入(token),系统会动态地选择一小部分专家来处理。
MoE 架构的核心优势在于计算效率。在 Llama 4 中,每个 token 只激活总参数的一部分(称为“活跃参数”)。这使得模型在训练和推理时速度更快,计算成本更低,在相同的计算资源(FLOPs预算)下,MoE 架构通常能比稠密模型达到更好的性能。
例如,Llama 4 Maverick 使用了 128 个路由专家 和 1 个共享专家。每个 token 会被发送到共享专家,并同时被路由到 128 个专家中的一个进行处理。模型结构上采用了稠密层和 MoE 层交替的方式来进一步优化推理效率。
Meta 还特别优化了 MoE 的并行化设计,以提高训练和推理速度。
转向 MoE 是 Llama 4 实现更高性能和效率的关键一步,使得强大的模型(如 Maverick)能够在单个 H100 主机上运行成为可能,并为 Behemoth 这样的超大规模模型训练提供了基础。
2.原生多模态与早期融合
Llama4系列和Llama3系列最大的区别之一就是Llama4系列模型是原生多模态模型。
和市面上其他常见的多模态模型训练方式不一样,Llama4系列在训练时采用了早期融合 (Early Fusion),也是 Llama 4 多模态能力的核心技术。与一些模型在后期才融合不同模态信息的做法不同,Llama 4 在模型主干网络的早期就将文本和视觉的 token 无缝集成在一起处理。早期融合使得模型可以在包含大量未标记的文本、图像和视频数据的混合数据上进行联合预训练,从而学习到更深层次的跨模态关联。训练数据量是 Llama 3 的两倍多(超过 30 万亿 token)。
在架构方面,Llama 4 使用了基于 MetaCLIP 的改进版视觉编码器,这个编码器是与一个冻结的 Llama 模型一起单独训练的,目的是更好地将视觉信息“翻译”成 LLM 能够理解的表示。Llama4模型在预训练阶段接触了多达 48 张图像的输入,在实际应用(后训练测试)中可以处理最多 8 张图像,支持更复杂的视觉推理和互动任务。
Llama 4 Scout 在图像定位方面表现突出,能够理解用户提示中涉及的视觉概念,并将模型的响应精确地锚定到图像中的特定区域,提升了视觉问答的准确性。
中译中就是终于,finally支持其他家视觉模型同款的输出检测框功能。
3.超长上下文与架构创新
Llama 4 在处理长序列信息方面取得了突破性进展,尤其是 Llama 4 Scout,模型支持高达 1000 万 (10M) token 的上下文窗口,远超 Llama 3 的 128K 和业界普遍水平。Llama 4 Maverick 也支持 1M token。超长上下文可以解锁很多的模型应用场景,包括处理和摘要极长的文档或多份文档、分析用户长时间、大范围的活动记录以实现深度个性化和对包含数百万 token 的庞大代码库进行理解和推理等用例。
那么,为什么Llama4可以实现超长上下文呢?核心在于架构创新 (iRoPE)。
- 交错注意力层 (Interleaved Attention Layers):在 Llama 4 架构的部分层中,使用了不带位置嵌入 (Positional Embeddings) 的交错注意力机制。这是支撑“无限”上下文长度的核心设计。
- 推理时温度缩放 (Inference-Time Temperature Scaling):通过在推理时调整注意力机制的“温度”,增强了模型在处理超出训练长度的序列时的泛化能力(长度泛化)。
- iRoPE 命名:Meta 将这种架构称为 iRoPE。“i” 代表交错注意力层 (interleaved),而 “RoPE” 指的是在模型大多数其他层中仍然使用的旋转位置嵌入 (Rotary Positional Embeddings)。
模型在“大海捞针 (Needle-in-a-haystack)”测试(在长文本中定位信息)和处理超过 1000 万代码 token 的 NLL(负对数似然)任务上都展示了良好效果。
4.训练与后训练优化
- 高效训练技术 (MetaP):Meta 开发了一种名为 MetaP 的新训练技术,能够更可靠地设置关键的超参数(如学习率、初始化规模),并使其能在不同模型尺寸、批次大小和训练数据量之间良好迁移。
- FP8 精度训练:为了在不牺牲质量的前提下最大化训练效率,Llama 4(尤其是 Behemoth)的预训练采用了 FP8 精度,配合 32K GPU 集群,实现了极高的计算吞吐量(单个 H100 GPU 达到 390 TFLOPs)。
- 中期训练 (Mid-training):在预训练和后训练之间增加了一个“中期训练”阶段,使用专门的数据集和新的训练方法来强化模型的核心能力,并扩展上下文长度。
- 精细化的后训练流程:后训练流程被重新设计,以平衡多模态能力、推理和对话:
- 改进的 SFT (Supervised Fine-Tuning):使用 Llama 模型作为“裁判”,过滤掉超过 50% 的简单数据,对更难的数据进行轻量级 SFT,避免过度拟合。
- 在线强化学习 (Online RL):通过精心挑选的更难提示进行 RL 训练,显著提升性能。采用持续在线 RL 策略,在训练和利用模型之间交替进行,不断过滤和保留中等到困难的提示。
- 轻量级 DPO (Direct Preference Optimization):在 RL 之后进行轻量级 DPO,处理与模型响应质量相关的边缘情况,平衡智能与对话能力。
- 教师模型蒸馏 (Behemoth -> Maverick):Llama 4 Maverick 的高质量部分得益于从 Llama 4 Behemoth 进行的协同蒸馏 (collaborative distillation)。Meta 开发了新颖的蒸馏损失函数,结合动态加权的软目标(教师模型的输出概率)和硬目标(正确答案)。利用 Behemoth 在预训练期间的前向传播计算结果作为 Maverick 的蒸馏目标,摊销了计算成本。
- 针对超大模型的后训练优化 (Behemoth):为 2T 参数的 Behemoth 进行后训练是巨大挑战。Meta 为此进一步优化,例如修剪了 95% 的 SFT 数据,采用轻量级 SFT 后进行大规模 RL,使用 pass@k 分析采样困难提示,动态过滤无用提示,以及完全异步的在线 RL 训练框架,将训练效率提升了约 10 倍。
5.多语言
Llama4在 200 种语言上进行了预训练,支持在超过 100 种语言上进行开源微调,且其中每种语言都有超过 10 亿个 token 的数据量,多语言标记 (token) 的数量比 Llama 3 多出 10 倍。
但中文能力……我们还是等即将到来的Qwen3吧。
三、大声BB
1.端侧模型的头子都投了,未来主流路径应该还是以OpenAI和DeepSeek为代表的中心化全能MoE模型为主
之前的Llama1、Llama2、Llama3都是Dense模型,系列模型规模大致在7B-70B左右,端侧运行的可能性和优势比较明显,Llama在大模型社区内也长期占据着主流基座模型的开发者心智,吸引了一大批关注本地化、小型化部署的开发者。
但本次 Llama 4,尤其是 Maverick 和 Behemoth,明显是冲着云端、高性能计算去的。连 Scout 运行也需要 H100(虽然是单个)。这似乎印证了一个趋势:尽管端侧有需求,但要追求最前沿的性能、最长的上下文、最强的多模态能力,目前还得靠数据中心里的高性能超算。如果连Llama这种曾经的“端侧之光”都开始主攻需要H100级别算力才能跑起来的模型,那未来端侧/云端模型之争的天平,似乎在加速倒向OpenAI和DeepSeek所代表的云端中心化、追求极致性能和通用能力的MoE模型路线。本地化部署的未来可能更多在于这些大模型的“轻量版”或者特定任务的微调版本,而非前沿基础模型本身。
2.全面拥抱 MoE,大模型技术架构趋同
之前 Mistral 是最早在大模型方面让 MoE 架构火出圈的,Google 的 Gemini 也用了 MoE(至少Gemini 1.5 pro是MoE),基本上大模型主流赛道的旗舰模型都是MoE架构(OpenAI、Google、Grok、DeepSeek、Qwen)。现在 Meta Llama 4 全系列拥抱 MoE,基本说明想把模型参数和能力再往上堆一个数量级,同时还要兼顾(相对)效率,MoE 是目前业界公认的最优解之一。这也意味着模型训练和推理的复杂性又上了一个台阶,对基础设施和优化技术的要求更高了。稠密模型也许在某些特定场景还有优势,但在追求通用智能和规模效应的路上,MoE 似乎已成必选项。大家的技术路线越来越像了,卷的方向也越来越一致:更大的参数规模(通过MoE实现)、更强的多模态、更长的上下文。 这也意味着,大模型领域的“军备竞赛”进入白热化阶段,比拼的是谁能更快地训练出更大、更优的 MoE 模型,以及谁拥有更强的工程优化能力和数据处理能力。
3.其实说创新也没多创新
我们来细数一下Llama 4的创新点:
- MoE 架构?主流玩家早都已经换完了,Llama 4 是首次在旗舰模型用,但不是第一个吃螃蟹的。
- 原生多模态? GPT-4V、Gemini 珠玉在前,大家都在做。早期融合 (Early Fusion) 算是一个实现细节上的优化,但多模态本身不是新概念。
- 超长上下文? Llama 4 Scout 的 10M 确实是目前最长,iRoPE 架构是其实现的关键,这算是一个不错的工程创新。但追求长上下文这个方向本身,也是行业趋势,之前Gemini、Minimax,甚至Qwen也在这方面进行过探索,并且成果都挺显著的。
- 训练优化? FP8 训练、RLHF/DPO 流程、模型蒸馏,这些都是当前大模型训练的常规操作或渐进式改进(让我们感谢DeepSeek)。MetaP 可能是 Meta 内部提效的法宝,但对外界来说,更多是工程细节的打磨。
Llama 4本次相当于整合了市场上最热门、最有效的技术方向,优化并且在理论上推向了新的规模和性能高度,尤其是在开源模型领域再次树立了标杆。
为什么是理论上呢,我们下一节就说
但要说开创了全新的、颠覆性的技术路线,好像还谈不上。更像是站在前人(或者说同行)的肩膀上,做了一次工程和整合能力的极致展现,把现有的 “SOTA 配方” 调得更猛、融合得更好了。
4.我们再退一万步讲,好像模型性能也就那样
Llama 4 Scout 和 Maverick 的性能确实亮眼,在各自的细分领域(轻量级多模态 SOTA、高性价比 MoE)做到了领先。Scout 能在单 H100 上跑还带 10M 上下文,这很实用;Maverick 性价比看齐 DeepSeek V3,用一半的活跃参数达到相似性能,这也很厉害。
但仔细看,Maverick 对标的是 GPT-4o 和 Gemini Flash,打赢了固然可喜,但考虑到参数规模和 MoE 架构的加持,似乎也在情理之中。与 DeepSeek V3 打平手,也说明大家技术水平在同一梯队,差距在毫厘之间。
至于那个真正对标 GPT-4.5、Sonnet 3.7、Gemini Pro 的终极大杀器 Llama 4 Behemoth,目前还处于“期货”状态,仍在训练中。它宣称的性能超越听起来很诱人,但毕竟还没正式发布和接受公开检验。
所以,目前发布的 Llama 4 是很强,尤其是在开源社区和特定性能/成本区间内极具竞争力。但它带来的更多是一次强有力的追赶和局部超越,以及开源领域的新标杆。要说它带来了颠覆性的、让所有人惊呼“AI 又进化到了全新纪元!”的那种体验代差,至少从目前发布的 Scout 和 Maverick 来看,似乎还没到那个程度。更像是一次意料之中、情理之内的强力迭代,证明了 Meta 依然是顶级玩家,但整个 AI 领域可能进入了一个性能提升边际效应递减、需要更长时间积累才能迎来下一次质变的阶段。
5.好话说完了,接下来该社区反馈了
前面分析了 Llama 4 的诸多亮点和技术实力,Meta 的官方博客和各种基准测试也描绘了一幅美好的图景。然而,模型发布后,社区的实际体验和反馈却带来了一些不同的声音,甚至可以说是“杂音”。
根据我目前掌握的信源,似乎Meta大力宣传的Llama 4 Scout 和 Maverick在编码领域并不如他们宣称的和打榜的那么好,有很多开发者质疑官网下载的maverick模型和lmarena竞技场的仿佛不是一个模型,无论是代码能力,还是写作能力,甚至输出文风都完全不一样,官网下载的模型明显远远不如竞技场。
在Linux do论坛,有开发者质疑竞技场和实际发布模型差距过大,货不对板:
我理解一定程度的差异,但是二者差异大到了让我开始怀疑甚至是meta放错了代码,给错了模型。几乎不像是一个模型。我无意贬低这个模型,竞技场的体验是不错的,文风很好,文笔很棒。虽然逻辑差点,指令跟随性差点。可是这个发布出来的,我很难形容这是竞技场里我体验到的,我实际上上面的图片也可以证明,二者几乎“能力完全不对等”
再补一句,reddit上有人测试竞技场的知识量和or发布的知识量似乎是不相同的,很多竞技场的是知道的,但是放到or渠道就不知道了(我没有实测,在此放上贴图,如果有老哥实测欢迎贴出来)
这意味着什么?
如果社区的这些反馈具有普遍性,那问题就比较微妙了:
- 基准测试与实际体验脱节? LMArena 上的高分,以及官方报告中的优异表现,可能是在特定的、高度优化的环境下取得的。这可能是特定的系统提示 (System Prompt)、推理参数设置,甚至是未公开的微调版本。普通开发者下载模型后,在自己的环境中复现这种“巅峰状态”可能非常困难,导致心理落差巨大。
- 模型版本混乱或误导? 最坏的情况,就像那位开发者猜测的,是否存在发布的版本和用于打榜、展示的版本并非完全一致?这会严重影响 Meta 开源的可信度。虽然大公司不太可能犯这种低级错误,但社区的强烈质疑值得关注。
- 对“编码能力”的定义差异? Meta 宣称 Maverick 在编码上媲美 DeepSeek V3,但社区反馈不佳。这可能是因为评测基准 (Benchmarks) 侧重的方面(例如代码生成、补全)和开发者实际工作流中更看重的方面(例如复杂逻辑理解、Debug、项目级代码理解)存在差异。基准测试高分不一定等于实际开发体验好。
- 需要特定的“启动咒语”? 有些模型需要非常精巧的 Prompt Engineering 才能发挥最佳性能。也许下载版的 Llama 4 需要特定的提示技巧,而这些技巧并未在发布时充分说明?
四、总结
本次Llama 4系列发布充斥着仓促气息。尽管Meta带来了技术上的诸多更新,如首次在自己的旗舰模型中采用MoE架构、实现原生多模态早期融合、通过iRoPE架构将上下文窗口推向千万级别等,但与Llama 2、Llama 3发布时那种“开源之光”技惊四座、甚至在某些方面引领潮流的感觉相比,Llama 4更像是一次快速整合与追赶。
从技术创新角度看,Llama 4的核心亮点大多是对行业现有SOTA(State-of-the-Art)方向的跟进和优化,而非开创性的突破。全面转向MoE是对DeepSeek、Mistral等先行者的追随;原生多模态是业界标配;超长上下文虽有工程创新(iRoPE),但方向本身也是Gemini、月之暗面、Qwen等早已布局的领域;训练和后训练技术(FP8、MetaP、RL/DPO流程优化、蒸馏)更多是渐进式改进和工程能力的体现。相比之下,一些竞品在注意力机制(如MoBA、NSA、Lighting Attention)或RL方法(如DeepSeek R1)上展现出的探索性更强。Llama 4给人的感觉是,Meta利用其强大的工程和算力资源,将现有“配方”快速组合并推向了新的规模,目的是先跟上第一梯队,弥补之前(如坚持Dense模型)的战略判断。
在性能与市场反响方面,虽然Scout和Maverick在基准测试上表现亮眼,甚至在特定指标上超越了GPT-4o等强力对手,但并未带来革命性的体验代差。更重要的是,发布后社区迅速出现的“货不对板”的质疑声浪——开发者反映实际下载的模型在编码、写作等方面的能力远不如LMArena竞技场版本——给这次发布蒙上了一层阴影。这种体验上的脱节,无论源于版本差异、特定配置要求还是评测方法的局限,都削弱了Llama 4本应带来的冲击力,并加剧了其“仓促发布”的印象。
从战略和时机来看,Llama 4的发布也显得有些微妙。全面拥抱MoE更像是对先前路线的一次“纠错”。选择在周末发布,以及竞争对手(如Gemini研究员、千问负责人)在社交媒体上颇具玩味的调侃,都指向一种可能性:Meta或许是为了避开下周可能出现的更强竞品(传闻中的DeepSeek、Qwen、DeepMind新模型),而选择抢先发声。这与Llama 3时期作为领先者的自信姿态形成了鲜明对比。同时,在行业对推理模型和AI Agent需求高涨的背景下,Llama 4并未优先推出此类模型,也未发布能在本地轻松运行的小尺寸版本,这让部分开发者感到失望。
总而言之,Llama 4的发布无疑巩固了Meta作为AI顶级玩家的地位,它依然是开源社区一个强大的新选择,特别是在理论性能和某些特定能力(如超长上下文)上设立了新标杆。然而,这次发布更像是一次防御性和追赶性的迭代,是Meta在快速变化的市场格局中,为稳住阵脚、跟上步伐而进行的一次必要但略显仓促的技术整合与“秀肌肉”(尤其是通过Behemoth的训练规模)。其“追赶”的意味强于“引领”。真正的考验,或许在于尚未完全亮相的Behemoth能否真正兑现其超越GPT-4.5等的承诺,以及Meta如何有效回应社区反馈、弥合基准与实际体验的鸿沟。从曾经的开源领跑者到如今奋力追赶的身影,Meta AI未来的道路依然充满挑战。
参见
[2] 量子位:LIama 4发布重夺开源第一!DeepSeek同等代码能力但参数减一半,一张H100就能跑,还有两万亿参数超大杯
[3] 机器之心:Meta深夜开源Llama 4!首次采用MoE,惊人千万token上下文,竞技场超越DeepSeek
[4] 硅星人Pro:1000万上下文+2880亿参数的Llama4,却让DeepSeek们松了一口气