

如何评价 deepseek 上线的 deepseek-V3 模型?
DeepSeekV3 这篇技术报告干货满满,先提两点非常值得讨论的: DeepSeekV3 是第一个公开宣布用 FP8 混合精度训练的大模型,之前的 LLaMa3、Qwen2.5、Yi 等都是基于 BF16 混合精度训练。 H100/H800 上 FP8 训练有 40% 以上的加速,但会有训练不稳定、精度损失的问题,NV 23年开始疯狂推 FP8 训练,但一直不太成功,前期几个厂尝试都有各种问题, DeepSeek 搞定这个真的牛。DeepSeekV3 可以说是把 MoE 分布式推理做到了极致。之前模…