实测小米最快1T大模型：吞吐量每秒1000+ Tokens，Vibe Coding七秒交付

来源：36kr 3 小时前

全球大模型的军备竞赛，正在“智商”之外开辟新的战场——

推理速度。

把这个战场抬到新高度的，是小米。

小米发布了全新的MiMo-V2.5-Pro-UltraSpeed模型，也就是MiMo-V2.5-Pro的高速版本。

它拥有1T总参数，支持1M上下文，单API推理速度直接拉到1000+ TPS，刷新旗舰模型全球最快推理速度。

而且不像Groq那样依靠定制芯片，用通用GPU就能实现。

这也意味着，小米这次的新模型，打破了“快、强、通用GPU无法兼得”的行业不可能三角。小米秀出的是从模型层到引擎层的全链路推理优化能力，而背后的推理工程实力，毫无疑问是全球第一梯队水平。

这次，量子位也拿到了MiMo-V2.5-Pro-UltraSpeed的测试资格，到底有没有这么快，接下来一起看看。

实测小米“最快旗舰模型”

先看看MiMo-V2.5-Pro-UltraSpeed能不能生成一个完整的Web应用出来。

我把它接入了Claude Code，让它写一个网页版的番茄钟应用出来。

实话实说，以现在模型的推理能力，这个任务已经比较简单了，所以这个任务主要想看的是它的速度。

用HTML、CSS、JavaScript实现一个可以直接在浏览器运行的番茄钟工作计时器。要求包含：25分钟专注/5分钟短休息/15分钟长休息三种模式可切换；大字体倒计时显示；开始/暂停/重置按钮；完成一个番茄后自动切换到休息模式并播放提示音（用Web Audio API生成）；右侧显示今日已完成番茄数和历史记录列表；支持自定义各阶段时长；配色方案参考Linear设计风格。

结果，它的速度，还真让我大吃一惊。

提交任务后的前5秒，我看到它还在慢吞吞地思考，以为要掉链子。

结果它是在憋大招，还没等我回过神，需要交付的番茄钟网页代码就chua得一下全吐出来了。

500多行HTML，加上思考过程一共只用了7秒。

这张动图体现的就是原速度，注意千万别眨眼。

相比之下，如果用Claude，而且还是最轻量的Haiku搭配Low Effort，最短仍然需要40多秒。

把同样的任务放到网页端来跑，由于思考过程较长，因此总体耗时比用Claude Code接入MiMo-V2.5-Pro-UltraSpeed多了不少。

但网页端的MiMo-V2.5-Pro-UltraSpeed自带速度显示，可以看到输出阶段的平均速度达到了1000+TPS。

如果看峰值，目测推理阶段最高吞吐量达到了600+ TPS，推理后的输出阶段更是飙到了3300+。

当然简单归简单，功能该验收还是得验收的。

页面跑起来之后，默认时长完全符合要求且支持自定义，要求的音效也会在计时结束时正常播放。

而且完成专注/休息计时后，还会自动跳到另一个模式，并且休息模式的跳转还遵循了三短一长的节奏。

模型跑得快当然是好事，但如果速度是靠“降智”换来的，那就本末倒置了。

所以简单的测速题目结束之后，接下来就要开始上难度，看看MiMo-V2.5-Pro-UltraSpeed的速度背后，到底有没有“降智”。

同时，这里为了测试MiMo-V2.5-Pro-UltraSpeed能不能很好地适配不同的Harness，我又把环境改成了Hermes。

构建一个局域网实时聊天室，要求后端用Node.js + Express + WebSocket；支持多用户同时在线，用户进入时输入昵称，并和设备绑定，同一设备只有第一次进入时输入，但要有编辑功能；聊天界面参考Slack风格，支持多个频道切换；消息支持纯文本和代码块（代码块自动高亮）；显示在线用户列表，用户上下线有系统提示；支持消息引用回复；消息记录用SQLite持久化存储，进入频道可加载历史消息；输出所有文件的完整代码，然后启动并部署到11451端口。

写完之后，MiMo-V2.5-Pro-UltraSpeed直接向我汇报了项目文件、功能清单和启动方式。

我们直接看运行效果。

首先最基础的实时聊天、上下线提醒、输入提示，全都正常实现。

代码、加粗这些特殊格式，也都能正常显示。

消息引用功能同样正常运转。

刷新页面之后，之前设定的设备昵称按要求被保留了下来，并且另一端也正常出现了下线提示，在线列表同步变动。

总之这一波，MiMo-V2.5-Pro-UltraSpeed把包含前端、后端、数据库的完整开发流程，三下五除二地就给完成了。

这个例子足以证明，在提升速度的同时，MiMo-V2.5-Pro-UltraSpeed依然能够高质量地完成全栈开发任务，也就是智商依然在线。

不过，这样的速度，在实际生产当中，又能发挥什么作用呢？

我让MiMo-V2.5-Pro-UltraSpeed扮演一位资深剧本编辑，带着四位分析师在投委会前对一份电影大纲做紧急联合审阅。

你是一位资深的剧本编辑，手下有三位得力的审稿人。现在你们需要在明天早上的项目评审会之前，对下面这份院线电影剧本大纲完成一次紧急联合审阅。请按照以下分工完成任务：你的故事结构分析师先接手，专门审查三幕结构是否完整、主线与支线的节奏配比是否合理、高潮场景的铺垫是否充分，出具一份结构审查意见。与此同时，你的人物分析师也在并行工作，专门审查主角的动机是否可信、人物弧光是否完整、配角的功能是否清晰，出具一份人物审查意见。你的市场分析师同步从商业角度出发，审查这个题材的受众定位是否清晰、同类型影片的市场表现如何、这个项目的差异化卖点是否足够，出具一份市场可行性意见。三份意见都到手之后，你作为剧本编辑亲自综合判断：这份大纲能否推进立项？列出必须修改的问题清单，并直接输出一份修改后的完整大纲。

故事的梗概是这样的：

院线电影剧本大纲：《候鸟不南飞》类型现实主义情感剧情片，主打25-40岁都市女性受众。一句话简介一个在北京打拼十二年的湖南女人，在母亲突然病倒后被迫返乡，在照料与逃离之间重新理解了自己与家的关系。主要人物谢晚晴，38岁，北京某公关公司总监，离异，独居，与母亲关系疏远已久；谢母，64岁，湖南县城退休教师，强势、传统，习惯用沉默施压；陈默，40岁，谢晚晴的前同事，因家庭原因提前返乡创业，现经营一家民宿。故事梗概第一幕：谢晚晴接到父亲的电话，母亲突发脑梗住院。她请假返乡，原本打算处理完就走，却发现母亲的康复需要长期陪护，而父亲已无力独自承担。她陷入职业与家庭的两难。第二幕：谢晚晴滞留县城，在照料母亲的过程中与母亲爆发多次激烈冲突，母亲的强势与控制欲将她推向崩溃边缘。与此同时，她与陈默重新建立联系，陈默的生活选择让她开始重新审视自己十二年来的人生路径。第三幕：母亲康复出院，谢晚晴面临是否回京的最终抉择。她最终选择回京，但与母亲之间达成了某种和解，不是原谅，而是接受彼此是不同的人。核心主题逃离与归属，自我实现与家庭责任，中国式母女关系。预计时长：105分钟。

我用Hermes搭了一个三Agent工作流，让MiMo-V2.5-Pro-UltraSpeed同时启动三个subagent对一份电影大纲做并行审阅。

其中故事结构分析师查三幕节奏，人物分析师查动机和弧光，市场分析师查商业可行性。

三份意见汇总后，主Agent综合判断并直接输出修订版大纲。

结果总共不到两分钟的时间，三个subagent就全都完成了各自的任务，最终的报告也完整交付给了我。

三个subagent各自找到了对方没有发现的问题。

结构分析师指出原版大纲里第二幕的中点和第二转折点完全缺失，这是硬伤。

人物分析师发现主角谢晚晴自始至终是被推着走的，缺少一个主动的贯穿全片的欲望，而陈默这个角色删掉故事仍然成立，说明他没有找到叙事中的不可替代位置。

市场分析师则拉出竞品做对标，给出了3000万到12亿的票房区间，并点明差距的关键在于情绪烈度和社会话题的引爆能力。

三份意见到齐之后，主Agent给出的修订版大纲补上了所有结构性缺口。

原版只有一句话的第二幕被拆成三层递进冲突，补充了中点和第二转折点，父亲从单纯的信息传递者变成了全片最重要的“翻译者”，陈默的“岁月静好”也被推翻，这个设定直接打碎了主角对“另一种人生”的浪漫化想象。

△

这类任务的价值在于多角色同时在线、实时协同推进同一个目标。三个subagent并行跑完再汇总，整条链路没有等待感。

换成推理速度不够快的模型，每个节点都会积累延迟，最终拖成一个断断续续的流程。

1000 TPS在这里的价值，是让多Agent协同从理论上可行变成用起来真的流畅。

全链路Co-design

在MiMo-V2.5-Pro-UltraSpeed出现之前，业界能公开看到的最快推理速度，大概是让一个400B参数的模型，跑出400 TPS的吞吐量。

虽然参数量和吞吐量都只有MiMo-V2.5-Pro-UltraSpeed的四成，但这实际上已经是相当激进的选择。

之所以说激进，是因为这样的速度基本上是靠削减模型参数量换来的，代价就是智商降低。

但小米在模型提速这个问题上，选了一条更难走的路。

MiMo-V2.5-Pro-UltraSpeed的起点是约1T总参数、1M超长上下文的旗舰模型，目标是在通用GPU上把单API推理速度拉到1000+ TPS，三个条件一个都不能放。

为此，小米从模型层、引擎层、系统层三个层面同时下手，进行了全链路的联合设计。

模型层承担了两件事，一是解决1M超长上下文下的计算压力，二是处理参数带宽的压力。

针对上下文问题，MiMo-V2.5系列采用了Hybrid SWA（混合滑动窗口注意力）架构。把注意力机制拆成了两级。

具体来说，模型只针对最近的一段上下文继续做精细计算，更早的内容则先被压缩，以更低的成本参与后续步骤。

这种分层处理让整体计算量降到了Full Attention的约1/7，1M级超长上下文下，推理速度和成本依然能保持稳定。

而对于带宽问题，小米对Expert模块引入了FP4量化，把并行的Expert模块参数压缩到4bit，从源头减小显存占用和读写压力。

与此同时，负责信息路由和关键逻辑的注意力模块和Router模块继续保持高精度，再通过量化感知训练把FP4引入的误差压到最小。

模型层打好了基础，引擎层要解决的是decode阶段的成本问题。

小米采用的DFlash方案对传统的Speculative Decoding草稿线做了结构性改造，将草稿模型沿时间轴逐token串行生成的模式，改成对一整块位置同时并行加工。

同时，主模型也不再对每个token单件验收，变成了对整批半成品集中审核，合格的整体接入，不合格的局部返工。

草稿模型同样使用了SWA架构，并经过专项的密集长链路数据训练，保证每次并行产出的一批候选token有足够高的合格率。

系统层是推理链路的最后一道关卡。

当TPS提升到千级之后，瓶颈在于工序之间的切换开销，以及为小批量请求频繁启停带来的等待损耗。

在上述优化的基础上，小米又与TileRT团队深度协作，在GPU执行路径上做了两项关键优化。

Persistent Kernel（常驻内核）把经常连续执行的关键步骤，封装成长期驻留在GPU上的主计算线，不再为每一批请求反复冷启动；

Warp Specialization（线程束专化）让数据搬运、当前批处理、结果输出三个环节同时并行运转，整条算力链几乎没有闲置等待的空档。

小米综合应用这些技术的结果，就是真的让1T参数的模型，在通用GPU上跑出了1000+ TPS的速度，并且可以稳定复现。

突破大模型商业化天花板

对于小米来说，速度提升的意义，远不止Token吞吐得更快这一件事。

过去，1T参数的旗舰大模型太大、太慢，只能做“事后诸葛亮”，很难接入对延迟极敏感的实时业务。

例如高频量化交易要求在毫秒级窗口内分析市场信号并驱动下单，金融实时反欺诈风控要求每笔交易在0.1秒内完成风险评估，广告RTB竞价要求在100毫秒的请求窗口里完成用户画像、创意匹配和出价决策。

这些场景长期只能依赖规则引擎或小模型，旗舰大模型的深度推理能力一直被挡在门外。

而在单API稳定跑到1000+ TPS之后，这道门被推开了。

日常生产力场景也在发生质变。

过去一个全栈项目的重构，从理解代码库到生成修改方案、逐文件改写、跑测试、修bug，常常拖成8到12分钟的等待。

现在同样的任务被压缩进几十秒，复杂报告的讨论也从把问题丢给模型等它想好，变成了和模型一起边想边改。

总之，很多过去被速度和成本挡在门外的应用场景，如今落地的条件正在成熟。

为MiMo-V2.5-Pro-UltraSpeed做的全链路推理优化，对小米来说还有另一层价值。

这套优化是可以在后续模型和业务场景上直接复用的底层能力，换一代通用GPU只需做适配升级，速度和成本优势可以平移到新平台。

小米自家的模型和业务场景越多，这套能力被复用的次数就越多，单次推理成本越摊越薄，速度优势可以像滚雪球一样越放越大。

把近期小米大模型的几个动作串起来看，信号更加清晰。

小米模型登顶全球开源模型第一、MiMo-2.5系列全面调价，现在又推出1000 tokens/s的旗舰高速模型，三件事依次落地，高速、高智商、全链路成本优化同时到位。

这些事件背后，指向的是同一个方向，那就是系统性地拆除大模型商业化路上的每一道障碍。

实测小米“最快旗舰模型”

全链路Co-design

突破大模型商业化天花板

相关新闻