DeepSeek最终会不会被强行出售给美国?
为什么很多人想当然地认为DeepSeek很独特、仿佛王冠上的明珠? 这还是没跳出美国企业给大家洗脑的思维定势啊…… 有没有一种可能,DeepSeek其实只是中国人在美国人重新定义的AI领域里随便搞了一下的小成果。 后面能做出的更强的东西多了去了。 。 我们看问题,要人民史观一些,不要太英雄史观。 不要认为科技发展只有那么有限的几个突兀的高峰,谁占着之后就俯瞰大地了。 真实的科技发展其实是一大片高原。是连续不断的高科技成…
DeepSeek为什么超越了OpenAI?
上周看完R1论文就把科技股全卖了,本来其实是准备等到这周FOMC之前的。认知之内的钱要是丢了那就太对不起我实验室挂的那个大大的AI牌子了。至于逻辑没什么复杂的,NV的估值是算力需求撑起来的,算力需求最大头是谁?现在有人证明了不需要那么多算力也可以有类似的表现,那你估值当然就不值那么高咯。 从Chat GPT问世起,OpenAI走到今天其实早就背离了当年义无反顾地开源PPO的时候的愿景。 讽刺的是DeepSeek使用的GRPO正是2017年O…
DeepSeek 那么厉害为什么要开源?
大多数人可能没有意识到DeepSeek对美国微软的OpenAI甚至整个美国来说是多么坏的消息。 DeepSeek在各种基准测试中与OpenAI 的最新模型o1相当甚至超越了它,但价格仅为其3%。就像有人发布了一款与 iPhone 一样甚至更好的手机,但只卖30美元而不是1000美元。更重要的是,DeepSeek还将其开源,用户甚至可以自己“免费”运行模型。 要知道OpenAI不单是收费,而且还针对性地屏蔽中国大陆和港澳地区的用户使用。所以,DeepSeek的横空出…
如何评价 deepseek 上线的 deepseek-V3 模型?
DeepSeekV3 这篇技术报告干货满满,先提两点非常值得讨论的: DeepSeekV3 是第一个公开宣布用 FP8 混合精度训练的大模型,之前的 LLaMa3、Qwen2.5、Yi 等都是基于 BF16 混合精度训练。 H100/H800 上 FP8 训练有 40% 以上的加速,但会有训练不稳定、精度损失的问题,NV 23年开始疯狂推 FP8 训练,但一直不太成功,前期几个厂尝试都有各种问题, DeepSeek 搞定这个真的牛。DeepSeekV3 可以说是把 MoE 分布式推理做到了极致。之前模…