消息称蚂蚁集团 AI 训练取得突破,使用国产芯片成本降低 20%,若属实,会对行业带来哪些影响?
更新于:2025-03-27 21:05:17

扫了下paper, 简单写下......

他们列了A800、H800, 华子的npu, 还有两个100多T算力不知道是哪家的

首先他们在这些device集群上做训练, 需要解决稳定性、性能、loss对齐问题

他们开发DLRover、Diagnose Engine、XPUTimer一套可观测系统(我也尝试开发这样一套系统,但是没用优雅的方法,XPUTimer我很早就看到,原理就是实现plugin so wrapper了cuda各种热点函数,通过注入event 收集事件及time cost,同时通过共享内存transfer出去,然后存储、分析、可视化)帮助诊断异常错误、straggler问题、算法异常等, tracing agent + collector + web ui + alert的设计, 参考prometheus等系统, 这块算是比较专业的infra做法, 但是kernel异步特性, 做好非常难. 一整套训练系统需要在多种硬件、软件、框架集群上跑训练, 需要一套与训练解藕的可观测性系统, 帮助诊断分析、性能对比、loss对齐等, 这样一套可观测体系是非常有必要的, 而业界这块的工作是比较少的, 最多就是wandb观察下metrics, 用torch.profiler+ nsys去分析性能, 训练过程中有效的可观测还是很少见的,因为可观测要尽可能无损。

然后引入edit解决了多卡不同步问题, 什么分布式存储都是凑字数, 不是关键因素

关于模型: 采用moe架构, 减少了 intermediate size, 增加expert数量, 可能因为国产device 算力偏低, 且不稳定, 可以减少mlp计算量, 这里容易引发降频

其他的就没啥可说的, 整个paper估计就是在国产芯片踩坑史(应该不容易, 因为之前有人给我po出ascend集群内部一堆问题让我看, 但是我对ascend不感兴趣, 也没怎么关注, 据说是挺痛苦的, 因为数据量太大了), 对于大模型/infra(非国产)并不具备太多借鉴意义.

总结: 推理用国产卡已经很普遍的, 做训练且成本可控还是有意义的, 只是想在上面做各种算子、框架的优化基本很难, 因为软件公司不具备这样的能力和精力, 谈突破就很离谱, 只是蚂蚁愿意投入人力、金钱在国产芯片上试错, 值得鼓励, 据内部人士说, 华子投入了上百号人驻场, 而且华子半价给他们的910B, 华子也需要专业的team证明其npu的能力, 尤其LLM的门槛是很低的, 至于成本这是本糊涂账, 在算子/框架方面, 蚂蚁没做也无法做差异化的优化, 国产显卡跟nv显卡差距除了生态、ai研发试错, 还有良品率、功耗、稳定、后期维护成本等, 20%更多是伙同某厂做PR