"模型"搜索结果 8 条

如何看待开源模型 DeepSeek 综合性能吊打 OpenAI?

真牛,用app生成了一部赛博修仙的小说,在我仅给出部分设定后,能够生成详细的大纲,故事,真的强。虽然情节有些跳跃(没有调教这一块),但是对于我这种一目十行的读者也够用了。 大纲部分如下:以下是百万字长篇小说的完整大纲框架,包含七卷三十七章的核心架构,融合神话解构与赛博朋克元素,贯穿"黑深残"基调与哲学思辨: ### **第一卷:应龙觉醒(15万字)** **核心冲突**:基因锁与上古协议 **主题**:血肉诅咒与机械飞升…

英伟达发布首个世界基础模型,对英伟达的市场地位有何影响?

大模型(LLM)是一种人工智能模型,旨在理解和生成人类语言。它们在大量的文本数据上进行训练,可以执行广泛的任务,包括文本总结、翻译、情感分析等等。LLM的特点是规模庞大,包含数十亿的参数,帮助它们学习语言数据中的复杂模式。这些模型通常基于深度学习架构,如转化器,这有助于它们在各种NLP任务上取得令人印象深刻的表现。 本周大模型周报整理了7篇论文,详细可查看专题: https://www.aminer.cn/topic/67862708551679109f…

如何评价 deepseek 上线的 deepseek-V3 模型?

DeepSeekV3 这篇技术报告干货满满,先提两点非常值得讨论的: DeepSeekV3 是第一个公开宣布用 FP8 混合精度训练的大模型,之前的 LLaMa3、Qwen2.5、Yi 等都是基于 BF16 混合精度训练。 H100/H800 上 FP8 训练有 40% 以上的加速,但会有训练不稳定、精度损失的问题,NV 23年开始疯狂推 FP8 训练,但一直不太成功,前期几个厂尝试都有各种问题, DeepSeek 搞定这个真的牛。DeepSeekV3 可以说是把 MoE 分布式推理做到了极致。之前模…

阅兵时的各种导弹是真的吗,还是模型?

16年还在文 工团时,下部 队听过一个趣事。大家都知道部 队士 官四期转五期特别难,一个 旅甚至一个军都没一个!14年某导东风快递车队驾驶员四期到了转不了5期只好退 役。 这些驾驶员可都是部 队里的宝贝,曾驾驶快递车参加过多次演习和阅 兵,再破的路也能开的非常平稳,每当有重大活动都是他们开车。当他们旅街接到通知,快递车要经过天安 门时,部 队领导和新驾驶员都麻爪了,战 士心里没底不敢开,领导也觉得不保险不敢让他…

由 GPT 引发的这波「大模型热」将会如何洗牌?

想象一下,未来每个人都能拥有一个 IQ 超过 300 的智能助理,Ta 知道你是谁、你想要什么,并且会精准地给到你想要的信息,并作为你的私人助理与你一起执行任务。这无疑会为人类社会各个领域带来新变革。很显然,大模型是这场技术革命的先导,也是新一轮产业变革的催化剂。 2022 年底,GPT-3.5 在 MMLU 上的准确率还仅仅在七成左右,但是不到两年的时间,OpenAI 便在 Scaling Law 的加持下相继推出 GPT-4、GPT-4o、OpenAI o1——O…

《黑神话悟空》最新的宣传片里,猴哥的模型很奇怪为什么没有人提出来?

笑死,作为一个3D模型设计师可以负责任的告诉你,你随便去找市面上能找得到的游戏原模型下载下来,丢到blender 3Dmax还是什么其他哪个软件里去看都可以,会很惊讶的发现,99%以上的模型不光看上去左右对称,实际上真的是左右对称,连脸上的网格点坐标都能精确到小数点后3位来镜像重叠。

中国的房价下跌会遵循日本模型还是美国模型?

高盛预测的是27年见底,不过是以美国次贷危机为参考依据的。 美国政府处理次贷危机跟我们目前的做法还是有很大区别。 美国当局确是很想接杠杆,但是美国的制度决定了它在执行方面有很大的阻力。不过后来还是接过了企业的杠杆,并且帮助居民温和去杠杆(提高居民福利,降息等)。 日本泡沫破裂之前,已经有多次收入倍增计划,居民的抗压能力比我们现在强,但是日本高层为当时的很多僵尸企业注入了资金,相关产业没有紧迫到必须打…

为什么国内首发的大模型,反而不如新来的KIMI、豆包?

其实是有几个客观原因的: 去年的很多大模型都是赶鸭子上架,最直接的是Robin厂长的:我们离OpenAI2个月。从充分理解什么是预训练模型,如何做对齐,然后这东西怎么样有用的三步走来看,实际上所有人都在从头开始。出品的速度在于Scailling Law三要素:数据、计算、参数规模,大厂并不是占据辗轧的领先优势:数据:大厂(百度/讯飞)乍一看相对于初创公司有很大的数据优势,但当你仔细思考,这里的2-5T tokens,其实是要重新认真…