一切为了Agent:千问、阶跃、Gemini打响“3.5模型大战”,春节将成关键节点?
来源:36kr 2 小时前

2026 开年没多久,大模型圈就又要热到火起来了。

仅仅是 2 月前后这几天,Kimi 2.5、Qwen3-Max-Thinking、Step 3.5 Flash 就接连发布。Qwen3-Max-Thinking 直接对标 GPT-5.2-Thinking、Claude-Opus-4.5 和 Gemini 3 Pro 等旗舰推理模型,Kimi 2.5、Step 3.5 Flash 则瞄准了 Agent 时代的模型升级。

今天(2 月 6 日)凌晨,OpenAI、Anthropic 也几乎同时推出了小版本迭代的 GPT-5.3-Codex 和 Claude Opus 4.6。

但这一切还是刚开始,阿里 Qwen 研究员郑楚杰在 Qwen3-Max-Thinking 发布时强调这是 Qwen 迄今为止最好的模型,同时又透露「Qwen 3.5 的发布也指日可待」。

图片来源:X

指日可待的不只是 Qwen 3.5。

1 月初智谱上市,智谱首席科学家唐杰就在内部信中透露即将推出新一代模型 GLM-5,最近南华早报的披露把发布时间进一步缩小至「春节前」。而以「海螺 AI」出圈的 MiniMax,也会同期推出新一代大模型 MiniMax M2.2。

稍早前几天,The Information 不仅进一步佐证了 Qwen 3.5 的即将发布,还援引内部人士报道称,字节跳动将于 3 月推出下一代模型矩阵,包括大语言模型 Doubao 2.0、图像生成模型 Seedream 5.0,以及视频生成模型 SeedDance 2.0。

至于去年春节期间引爆全球 AI 圈的 DeepSeek,其下一代模型 DeepSeek V4 是否继续在春节期间发布发布还存疑,南华早报的消息是继续更新 DeepSeek V3 系列。

图片来源:DeepSeek

但无论 DeepSeek 下不下场,这场春节前后的大战都会是空前的。除了小版本迭代的 GPT-5.3-Codex 和 Claude Opus 4.6,内测代号「Snow Bunny」的 Gemini 3.5 以及代号「Fennec」的 Claude(Sonnet)5 也都流出了部分基准成绩和测试表现。

简言之,中美头部玩家几乎在同时推进一场大版本迭代。它们所竞争的,也不再只是参数规模或榜单排名,而是谁能定义 2026 年的 AI。

一切为了 Agent,新一代模型的三大升级

如果把过去两年的大模型竞争总结为「更大、更强、更全」,那么 2026 年这一轮更新,方向已经明显变了。

从目前披露的信息看,不论是国内的 Qwen、GLM、DeepSeek,还是海外的 Gemini、Claude,新一代模型的升级重点明显有所不同,一方面是 RL 强化学习的再引入,另一方面则是大家不再满足于「能力」,而是更多「实用」。

第一,推理不再是少数旗舰型号的专属卖点,而正在成为下一代基础模型的默认能力。

智谱在上市后释放的信号非常清晰:GLM-5 不再强调参数规模,而是强调复杂任务的一致性完成能力,包括长链路推理、跨文档理解以及工具调用的稳定性。这意味着推理不再是「多想一步」,而是模型默认的工作方式。

2 月刚发布的阶跃星辰开源模型 Step 3.5 Flash,更是明确了这一点,在 196B(激活 11B)的参数规模下不仅实现了更强的推理,还能做到秒回应。一个核心的技术关键是,Step 3.5 Flash 采用了 MTP-3(三路多 Token 预测) 技术,模型在生成当前内容时,就能同时预测后续多个 Token。

右上角为 Step 3.5 Flash,图片来源:阶跃星辰

在海外,内测代号为 Gemini 3.5 同样被曝出强化了深度推理模式,并允许在速度与深度之间动态切换。这类设计背后的共识是:推理能力如果不能按需调用,永远只是榜单能力。

第二,长上下文也仍然基础模型的升级重点。

2 月 3 日,腾讯混元后,腾讯混元团队发布了姚顺雨担任首席 AI 科学家后的首篇论文,推出了 CL-bench 基准测试,核心就是瞄准了大模型在「上下文学习」(现学现卖)上的痛点。

DeepSeek V4 虽然还没发布,但在 1 月刚刚发布了一篇关键论文,提出了全新的「Engram 条件记忆」机制,能在计算量较 MoE 减少 18% 的情况下,在 32768 个 token 的长上下文任务中,反超同参数量的 MoE 模型。

图片来源:DeepSeek

同样的逻辑也体现在 GLM-5 与 Gemini 3.5 的设计传闻中:长上下文被更多用于真实工作场景,比如跨文件代码分析、多文档合并推理、长时间 Agent 任务,而不是一次性塞满文本。

这意味着,长上下文正在从「指标」变成「系统能力」。

第三,Agent 不再是 Demo,而是 AI 系统的核心。

尽管我们已经看到了豆包手机助手引发的热议,以及 AutoGLM 的开源热潮,但 2025 年的 Agent 更多还会停留在展示阶段。不过 2026 年,Agent 正在重新定义基础模型,并进一步改变 AI 体验。

Qwen、智源以及 DeepSeek 之前的论文都反复提及工具调用能力和多步骤任务。这背后指向的是同一个问题:模型是否能在较少人工干预的情况下,完成一个完整任务,而不是中途崩溃。

阶跃星辰的 Step 3.5 Flash 更是「为 Agent 而生」,打造了新的基础模型结构,大量升级也是围绕「从推理到执行」的闭环进行优化,强调模型的规划、调用工具、执行长流程任务的能力,还有很快的是输出表现。

包括代号 Fennec 的 Claude 5 也被曝出一种「蜂群模式」,强化了多 Agent 协作与长任务保持能力。相比单次回答是否聪明,Claude 5 更关注在复杂工作流中,模型是否能保持角色、目标和上下文的一致。

图片来源:APIYI

这类能力一旦成熟,模型的形态就不再只是「对话框里的助手」,而更多会成为嵌入各种系统的「发动机」。

春节将至,这场模型大战在看什么?

为什么偏偏集中在 2026 年春节前后?原因其实不复杂。

一方面,去年春节 DeepSeek 的意外爆发,已经证明这个时间窗口可以承载巨大的技术关注度;另一方面,新一轮强化学习与推理训练周期在 2025 年底基本成熟,多家厂商的下一代模型自然在年初进入集中释放阶段。再叠加上市、融资与全球竞争节奏,春节反而成了一个罕见的「同步窗口」。

但时间点只是背景。真正让人在意的,这场春节模型大战会发生什么?

从从目前各方释放的节奏看,这不会是一两款模型的发布,而更像一轮连续出牌。这意味着,从春节前一两周到 3 月初,行业很可能进入一个罕见的「连续发布」:每隔数天,就会有一家头部厂商放出新模型或关键能力更新。

但这种节奏也意味着,单一模型很难长时间吸引广泛的注意力,仍然只会有少数模型可能成为绝对的讨论热点,这对模型本身以及各家的营销都是一个很大的考验。

图片来源:DeepSeek

而与过去不同,这一轮模型发布后,很可能不会经历漫长的评测周期。原因很简单,大多数新模型都会在发布同时开放 API 或产品入口,开发者与普通用户几乎可以即时上手。再加上推理、Agent、长上下文等能力本身就容易被直接体验,模型之间的差距会迅速在真实使用中被放大。

换言之,春节期间很可能会出现不同模型在相同任务下被大规模横向对比。不是基准测试,而是写代码、写方案、做多步骤任务、调用工具等真实场景的对比。一旦这种对比在社区和社交媒体扩散,模型的优劣排序会在极短时间内形成共识。

换句话说,这一轮大战的第一阶段,很可能不是发布本身,而是发布后的实际使用反馈。

当然,并不是每一轮模型更新都会带来代际变化。过去两年,很多版本升级更像是性能线性提升:更快、更准、更长。但从目前各方释放的信号看,2026 年这一轮更新,可能第一次同时涉及训练方式、推理模式与模型定位的变化。

如果多个厂商的新模型都在强化学习、推理架构、工具调用与系统整合上完成切换,那么这一轮更新带来的,将不只是能力提升,而是模型工作方式的变化。

对于开发者来说,这意味着调用方式与应用结构可能需要重写;对于厂商来说,这意味着模型可以从「功能组件」变成「系统底座」;对于行业来说,这才是真正意义上的代际跃迁。

春节前后是否会出现这种跃迁,是这场大战最值得观察的长期变量。

写在最后

模型发布本身的热度只能持续数天,但入口的占据却会持续数月甚至更久。过去一年里,无论是 ChatGPT、Gemini 还是豆包,真正拉开差距的并不是模型本身,而是它们进入用户与开发者日常使用的速度。

因此,这场春节大战的真正胜负,很可能不取决于谁先发布,而取决于谁能在发布后被更多用起来,进入办公软件、进入开发工具,甚至进入操作系统。

模型能力的差距,可能只会存在几周,但入口与调用习惯一旦形成,差距就会被放大。

从这个角度看,今年这场春节前后的更新大战,可能影响未来一年的全球大模型格局。谁能在能力之外率先完成落地,谁才更有机会在这一轮大升级中占据主动。

简体中文 English