模型,模型相关文章内容,我的图

"模型"搜索结果 8 条

如何看待开源模型 DeepSeek 综合性能吊打 OpenAI?

真牛，用app生成了一部赛博修仙的小说，在我仅给出部分设定后，能够生成详细的大纲，故事，真的强。虽然情节有些跳跃（没有调教这一块），但是对于我这种一目十行的读者也够用了。大纲部分如下：以下是百万字长篇小说的完整大纲框架，包含七卷三十七章的核心架构，融合神话解构与赛博朋克元素，贯穿"黑深残"基调与哲学思辨： ### **第一卷：应龙觉醒（15万字）** **核心冲突**：基因锁与上古协议 **主题**：血肉诅咒与机械飞升…

英伟达发布首个世界基础模型，对英伟达的市场地位有何影响？

大模型(LLM)是一种人工智能模型，旨在理解和生成人类语言。它们在大量的文本数据上进行训练，可以执行广泛的任务，包括文本总结、翻译、情感分析等等。LLM的特点是规模庞大，包含数十亿的参数，帮助它们学习语言数据中的复杂模式。这些模型通常基于深度学习架构，如转化器，这有助于它们在各种NLP任务上取得令人印象深刻的表现。本周大模型周报整理了7篇论文，详细可查看专题： https://www.aminer.cn/topic/67862708551679109f…

如何评价 deepseek 上线的 deepseek-V3 模型？

DeepSeekV3 这篇技术报告干货满满，先提两点非常值得讨论的： DeepSeekV3 是第一个公开宣布用 FP8 混合精度训练的大模型，之前的 LLaMa3、Qwen2.5、Yi 等都是基于 BF16 混合精度训练。 H100/H800 上 FP8 训练有 40% 以上的加速，但会有训练不稳定、精度损失的问题，NV 23年开始疯狂推 FP8 训练，但一直不太成功，前期几个厂尝试都有各种问题， DeepSeek 搞定这个真的牛。DeepSeekV3 可以说是把 MoE 分布式推理做到了极致。之前模…

阅兵时的各种导弹是真的吗，还是模型？

16年还在文工团时，下部队听过一个趣事。大家都知道部队士官四期转五期特别难，一个旅甚至一个军都没一个！14年某导东风快递车队驾驶员四期到了转不了5期只好退役。这些驾驶员可都是部队里的宝贝，曾驾驶快递车参加过多次演习和阅兵，再破的路也能开的非常平稳，每当有重大活动都是他们开车。当他们旅街接到通知，快递车要经过天安门时，部队领导和新驾驶员都麻爪了，战士心里没底不敢开，领导也觉得不保险不敢让他…

由 GPT 引发的这波「大模型热」将会如何洗牌？

想象一下，未来每个人都能拥有一个 IQ 超过 300 的智能助理，Ta 知道你是谁、你想要什么，并且会精准地给到你想要的信息，并作为你的私人助理与你一起执行任务。这无疑会为人类社会各个领域带来新变革。很显然，大模型是这场技术革命的先导，也是新一轮产业变革的催化剂。 2022 年底，GPT-3.5 在 MMLU 上的准确率还仅仅在七成左右，但是不到两年的时间，OpenAI 便在 Scaling Law 的加持下相继推出 GPT-4、GPT-4o、OpenAI o1——O…

《黑神话悟空》最新的宣传片里，猴哥的模型很奇怪为什么没有人提出来?

笑死，作为一个3D模型设计师可以负责任的告诉你，你随便去找市面上能找得到的游戏原模型下载下来，丢到blender 3Dmax还是什么其他哪个软件里去看都可以，会很惊讶的发现，99%以上的模型不光看上去左右对称，实际上真的是左右对称，连脸上的网格点坐标都能精确到小数点后3位来镜像重叠。

中国的房价下跌会遵循日本模型还是美国模型？

高盛预测的是27年见底，不过是以美国次贷危机为参考依据的。美国政府处理次贷危机跟我们目前的做法还是有很大区别。美国当局确是很想接杠杆，但是美国的制度决定了它在执行方面有很大的阻力。不过后来还是接过了企业的杠杆，并且帮助居民温和去杠杆（提高居民福利，降息等）。日本泡沫破裂之前，已经有多次收入倍增计划，居民的抗压能力比我们现在强，但是日本高层为当时的很多僵尸企业注入了资金，相关产业没有紧迫到必须打…

为什么国内首发的大模型，反而不如新来的KIMI、豆包？

其实是有几个客观原因的：去年的很多大模型都是赶鸭子上架，最直接的是Robin厂长的：我们离OpenAI2个月。从充分理解什么是预训练模型，如何做对齐，然后这东西怎么样有用的三步走来看，实际上所有人都在从头开始。出品的速度在于Scailling Law三要素：数据、计算、参数规模，大厂并不是占据辗轧的领先优势：数据：大厂（百度/讯飞）乍一看相对于初创公司有很大的数据优势，但当你仔细思考，这里的2-5T tokens，其实是要重新认真…