
为什么国内首发的大模型,反而不如新来的KIMI、豆包?
其实是有几个客观原因的: 去年的很多大模型都是赶鸭子上架,最直接的是Robin厂长的:我们离OpenAI2个月。从充分理解什么是预训练模型,如何做对齐,然后这东西怎么样有用的三步走来看,实际上所有人都在从头开始。出品的速度在于Scailling Law三要素:数据、计算、参数规模,大厂并不是占据辗轧的领先优势:数据:大厂(百度/讯飞)乍一看相对于初创公司有很大的数据优势,但当你仔细思考,这里的2-5T tokens,其实是要重新认真…
其实是有几个客观原因的: 去年的很多大模型都是赶鸭子上架,最直接的是Robin厂长的:我们离OpenAI2个月。从充分理解什么是预训练模型,如何做对齐,然后这东西怎么样有用的三步走来看,实际上所有人都在从头开始。出品的速度在于Scailling Law三要素:数据、计算、参数规模,大厂并不是占据辗轧的领先优势:数据:大厂(百度/讯飞)乍一看相对于初创公司有很大的数据优势,但当你仔细思考,这里的2-5T tokens,其实是要重新认真…