如今,TikTok 母公司字节跳动也推出了一款推理 AI:启思-v1.5! 最初始于 2024 年 9 月 OpenAI 发布的 o1 模型宣告,但真正起飞则是 2025 年 1 月 DeepSeek R1 的推出。
如今,似乎大多数主要 AI 模型提供商和训练者都投入到了一个新的竞赛中,目标是提供更好、更快、更便宜的“推理” AI 语言模型——也就是说,这些模型在响应人类用户时可能会花费更长时间,但理想情况下能够给出更好、更全面、更有“逻辑推理”能力的答案。这类模型通过执行“链式思考”,即在回答前反思自身结论并验证其准确性,从而获得优异表现。
字节跳动,这家中国网络媒体巨头(TikTok 的母公司),最新加入这一行列,公布并发布了支撑即将推出大语言模型(LLM)启思-v1.5 的技术论文。该模型旨在提升科学、技术、数学与工程(STEM)领域以及通用领域的推理性能。
目前,该模型尚未提供下载或使用,其许可条款也尚未明确——无论它是专有/闭源、开源/免费供所有人使用和随意修改,还是介于两者之间。不过,技术论文中已经提供了一些值得提前了解的重要细节。
基于日益流行的 Mixture-of-Experts (MoE) 架构构建 与 Meta 新的 Llama 4 和 Mistral 之前推出的 Mixtral 类似,启思-v1.5 同样采用了 Mixture-of-Experts (MoE) 架构。
这种架构旨在提升模型效率,基本上将多个模型的能力整合到一起,每个模型专注于不同领域。在这种情况下,MoE 架构意味着启思-v1.5 在任一时刻仅使用 2000 亿参数中的 200 亿。
字节跳动在其发布于 GitHub 的技术论文中表示,启思-v1.5 优先考虑结构化推理和深思熟虑的回答生成。
测试结果几乎不言自明:在众多第三方基准测试中,启思-v1.5 不仅超越了 DeepSeek R1,而且在推理性能上接近 Google 最新发布的 Gemini 2.5 Pro 和 OpenAI 的 o3-mini-high reasoner。在 ARC-AGI 基准测试——这项被视为实现人工通用智能(AI 的“圣杯”)目标的指标中,它甚至超越了上述两种模型。按照 OpenAI 的定义,该模型在大多数经济价值较高的任务中均表现优于人类。
作为一种紧凑而功能强大的替代大型最先进模型的方案,启思-v1.5 取得了具有竞争力的基准测试成绩。它还引入了强化学习(RL)的创新、训练数据策划及 AI 基础设施改进。
性能基准与模型重点 启思-v1.5 在一系列具有挑战性的任务中展现出不俗表现:在 AIME 2024 上得分 86.7%,在 Codeforces 上的 pass@8 达到 55.0%,而在 GPQA 科学基准测试中得分 77.3%。这些成绩使其在特定推理指标上接近甚至匹敌 OpenAI 的 o3-mini-high 与 Google 的 Gemini 2.5 Pro。
在非推理任务中,通过人工偏好比较评估时,该模型胜率比 DeepSeek R1 高出 8.0%,这表明它的优势不仅仅局限于逻辑或数学密集型挑战。
为应对 AIME 等标准基准测试日益趋同的情况,字节跳动引入了 BeyondAIME —— 一项全新且更具挑战性的数学基准测试,其精心策划的问题旨在防止死记硬背,并更好地区分模型性能。BeyondAIME 与 Codeforces 的评测集预计将公开发布,以支持未来的相关研究。
数据策略 训练数据在该模型开发过程中扮演了核心角色。针对监督性微调(SFT),团队策划了 400,000 个样本,其中包括 300,000 个可验证的问题(涵盖 STEM、逻辑及编程任务)和 100,000 个不可验证的问题,如创意写作与角色扮演。
对于强化学习训练,数据被分为以下两类: 可验证问题:100,000 个经过严格筛选的 STEM 问题与逻辑谜题,这些问题均来源于精英竞赛和专家评审并附有标准答案; 不可验证任务:侧重开放式提示的人类偏好数据集,通过成对奖励模型进行评估。
其中,STEM 数据主要依赖于高级数学,占据问题集的 80% 以上;额外的逻辑数据则包括数独和 24 点谜题等,其难度可根据模型进展灵活调整。
强化学习方法 启思-v1.5 的强化学习采用了定制的 actor-critic(VAPO)和 policy-gradient(DAPO)框架,这两种框架均为解决强化学习训练中的不稳定性问题而开发。这些技术有效减少了奖励信号的稀疏性,并提升训练稳定性,尤其在长链式思考(CoT)场景中表现尤为突出。
奖励模型在监督强化学习输出中发挥了关键作用。字节跳动推出了两项重要工具: Seed-Verifier:基于规则的大语言模型,用于检查生成答案与参考答案在数学上是否等效; Seed-Thinking-Verifier:基于逐步推理的评判器,旨在提升判断一致性并防止奖励作弊。
这一两层奖励系统使评估既能应对简单任务,也能细致衡量复杂任务。
基础设施与扩展性 为了支持高效的大规模训练,字节跳动基于其 HybridFlow 框架构建了一个系统,执行由 Ray 集群承担,同时训练与推理过程共处一处以降低 GPU 空闲时间。
Streaming Rollout System(SRS)是一项显著创新,其将模型演进与运行时执行分离,通过异步管理跨模型版本的部分完成生成过程,从而加速了迭代速度。据称,这种架构可实现最高达 3 倍的强化学习循环速度。
此外,其他基础设施技术还包括: - 采用混合精度(FP8)以节省内存; - 利用专家并行和内核自动调优来提高 MoE 效率; - 通过 ByteCheckpoint 实现稳健且灵活的检查点; - 使用 AutoTuner 优化并行性及内存配置。
人工评估与实际影响 为评估模型与以人为本的偏好之间的一致性,字节跳动在多个领域进行了人工测试,包括创意写作、人文学科知识及日常对话。
在各个测试环节中,启思-v1.5 始终优于 DeepSeek R1,这进一步证明了它对实际用户需求的适用性。
开发团队指出,主要在可验证任务上训练的推理模型在创意领域同样表现出较强的泛化能力,这一成果归功于数学训练工作流程中所体现的结构性和严谨性。
这对技术领导、数据工程师和企业决策者意味着什么 对于管理大语言模型全生命周期(从数据策划到部署)的技术负责人来说,启思-v1.5 提供了一个重新思考如何将推理能力整合到企业 AI 技术栈中的契机。
其模块化的训练流程不仅包括可验证的推理数据集,还引入了多阶段强化学习,特别吸引那些希望在扩展大语言模型开发同时保持精细控制的团队。
字节跳动推出的 Seed-Verifier 和 Seed-Thinking-Verifier 可视为更值得信赖的奖励建模机制,这在将模型部署于面向客户或受监管环境时尤为关键。
对于在紧迫截止日期和资源有限的条件下运行的团队来说,启思-v1.5 在强化学习下表现出的稳定性(得益于 VAPO 和动态采样等创新)有望缩短迭代周期并简化针对特定任务的微调流程。
从编排和部署角度来看,该模型的混合基础设施方法——包括 Streaming Rollout System (SRS) 和 FP8 优化支持——预示着训练吞吐量和硬件利用率将获得显著提升,这对于负责在云端和本地系统中扩展大语言模型操作的工程师来说颇具价值。
此外,启思-v1.5 在训练时采用了基于运行时动态调整奖励反馈的机制,直接应对了管理异构数据流水线和在各领域保持一致性所带来的挑战。
对于那些负责确保新工具可靠性、可重复性与持续集成的团队而言,启思-v1.5 的系统级设计可作为构建稳健多模态编排系统的蓝图。
而对于数据工程专业人士来说,这种结构化训练数据的方法——包括严格过滤、数据增强及专家验证——进一步强化了数据质量作为模型性能倍增器的重要性,并可能激发更加有意识的数据集开发与验证流程。
未来展望 启思-v1.5 是字节跳动 Seed LLM Systems 团队内部协作的成果,该团队由吴永辉领导,长期 AI 贡献者林海斌对此项目进行了公开展示。
该项目还借鉴了此前的努力,如 Doubao 1.5 Pro,并融合了 RLHF 以及数据策划中的共用技术。
团队计划继续改进强化学习技术,重点提升训练效率及不可验证任务的奖励建模。他们还计划公开 BeyondAIME 等内部基准,旨在推动以推理为重点的 AI 研究更广泛的发展。