DeepSeek需要重走来时路
来源:凤凰网 2 小时前

文 | 超聚焦

DeepSeek融资了,能让大家敞开了烧Token吗?

4月18日,据上海证券报消息,DeepSeek正式启动了成立以来的首次外部融资,目标估值不低于100亿美元,计划筹集至少3亿美元资金。上海证券报记者求证称,有接近人士表示“很有可能”,还有不少投资人称:“圈里信息已经‘炸了’。”

截至目前,深度求索公司方面尚未就此次融资消息作出官方回应。路透社表示无法独立核实此消息,但在The Information发布报道后,Reuters、Yahoo Finance、Investing等主流财经媒体相继跟进转载。

在资本圈的狂欢之外,回归到大模型落地的现实里,其实DeepSeek要面临的问题不少,大家对其的期许也有不同。

相比R1模型发布时被捧上天,新一代旗舰模型发布前的DS显然承担着外界更大的期许和压力;而比起跑分、SOTA,在Agent时代里,大家显然更关注的是,DeepSeek当初在训练端打出的“成本通缩”,能否重现于如今依然高昂的推理端?

01市场不需要能力更强的R1

DeepSeek的新模型,已经“跳票”很久了。

1月中旬,The Information率先爆料称,DeepSeek计划在2026年2月正式发布下一代模型,并声称其编程实力已赶超Claude、GPT系列等顶尖闭源模型。然而整个2月,官方始终保持静默。

到了2月底,随着官方GitHub代码库中出现“MODEL1”等标识,加上金融时报等媒体和券商研报的发声,市场又传出了新模型将在3月6日当周发布的消息,结果依然是“只闻楼梯响”。

3月中旬,市场传言又有相关流言传出,甚至一度引发了A股算力板块的上涨,针对该传闻,DeepSeek官方企业咨询账号在用户群中回应:“辟谣:R2发布为假消息”。

到了4月中旬,大家苦等不来新模型,但DS的前核心研究员却选择了加入其它大厂。

据晚点报道, DeepSeek研究员郭达雅已经加入字节跳动负责大模型研发的组织Seed,成为agent负责人之一。而此前其离职是因为当时DeepSeek内部Agent的优先级不高,但2026年Agent的火热,也反衬出了DeepSeek在当下这个节点上的某种尴尬:

一边是自己曾经“轻视”的赛道如今成了全行业的主战场,甚至要被对手用自己的人才攻城略地;另一边,却是自己死磕并被外界寄予厚望的底层新模型,迟迟交不出答卷。

大模型圈在过去这一年里经历了翻天覆地的变化,也许是时候放下对DeepSeek那层“无所不能”的技术滤镜了。

毕竟在DeepSeek没有发布旗舰模型的这一年多空窗期里,整个大模型行业比拼的早已不是通用的基座能力。

首先,是原生多模态对纯文本大模型的降维打击。

当Gemini带着Nano Banana 2等模型在图像生成与编辑上大杀四方,当Seedance 2.0在视频生成领域狂飙时,单一文本模型的护城河正在被迅速瓦解。无论是行业竞争还是用户需求,早已跨过了纯文本跑分的阶段,迈向了图、文、视、音全面融合的深水区,成为了头部大模型的标配。

另一边,Coding市场也迎来了彻底爆发。

作为最能直接转化为生产力的高价值垂直场景,AI Coding的商业化空间在过去一年迎来了真正的狂飙。以Claude为代表的模型在这个细分赛道上展现出了惊人的统治力,甚至借力将ARR超过了OpenAI;而Cursor最新一轮融资后的估值也超过了500亿美元。

同时,2026年的Agent繁荣也带来了Token消耗的狂欢。

从OpenClaw到Hermas,都在将大模型的调用频次推向指数级增长。智谱、MiniMax、Kimi等厂商都凭借着海量的API调用狂卖Token,在推理端闷声发大财,甚至还推动了阿里、智谱和MiniMax转向闭源。

DeepSeek如果想要复刻R1发布时的“全网沸腾”,它面临的早已不是单点突破的考卷,而是必须要在多模态、代码生成、Agent生态上全面多线出击。

但如今的每一条细分赛道上,都有了“最高的山峰和最长的河流”,多模态有谷歌和字节的重兵把守,代码战场是Claude绝对的天下,而在Agent与Token消耗的生态里,更是挤满了红了眼的其他多模型巨头。

如果期望DeepSeek能掏出一个全知全能、在各个维度全面碾压所有顶尖大厂的“六边形战士”,既不符合技术演进的常识,也违背了当下AI产业的客观规律。

比起继续沉溺于“拳打OpenAI、脚踢Claude”的技术造神叙事,对于眼下正在艰难算账的整个AI应用层而言,大家真正迫切需要的,其实是一个远比“跑分SOTA”更性感、也更具想象力的东西。

02“价格屠夫”仍是DeepSeek的归宿

当前所有AI使用者最需要的,也是DeepSeek最可能为市场带来的,是一个叫“Token通缩”的故事。

一年前R1横空出世时,它给整个全球AI圈带来的最大“暴击”,其实不单单是某几项评测指标超越了GPT-4,而是R1真的太便宜了。

在全行业都笃信“大力出奇迹”,觉得只有像Altman、马斯克那样堆满几万张老黄的顶级GPU才能训练出旗舰模型,但DeepSeek仅用了约558万美元的训练算例成本,就撞开了顶尖基座模型的大门,相比之下,GPT-4训练成本高达数亿美元。

如此低廉的训练成本在当时引起了AI算力市场的“恐慌”。

去年1月27日,DeepSeek发布其新AI模型后,美股市场出现了剧烈波动。其中,芯片巨头英伟达股价暴跌16.97%,市值在单个交易日内蒸发了约5926.58亿美元(约合人民币4.3万亿元),创下美股史上最大单日市值损失纪录。

除了英伟达外,其他美国科技巨头也未能幸免。博通股价下跌17.4%,超威半导体公司(AMD)股价下跌6%,微软股价下跌2.14%,谷歌母公司Alphabet股价下跌超过4%。

彼时,DeepSeek用一套极致优化的算法和工程架构向全行业证明:智能的获取成本是可以被打骨折的,并在一年前创下了“训练端通缩奇迹”。

市场普遍担忧AI硬件基础设施的泡沫是不是马上就要破了?但一年多后的今天,大家发现根本不用担心大厂还需要买多少卡,而是自己的钱包还能不能撑得起逐级而上的Token消耗。

据中信证券,Agent带来的巨大Token消耗需求驱动了“老旧款”AI芯片H100租赁价格从2025年10月的约1.70美元/小时/GPU飙升至2026年3月的2.35美元/小时/GPU,涨幅近40%。

在云端,3月到4月间,国内头部云厂商接连调价,打破了行业长期低价竞争惯性。阿里云4月18日起AI算力产品最高涨幅34%,高性能存储涨幅30%;百度智能云AI算力产品上调5%-30%;腾讯云5月9日起AI算力等产品上调5%。全球范围内,亚马逊AWS已于1月对机器学习实例上调价格约15%,谷歌云也进行小幅调整。

为了降低Token消耗,巨头企业也出现了组织架构上的变阵。

3月,阿里宣布成立Alibaba Token Hub(ATH)事业群,CEO吴泳铭亲自挂帅,核心目标就是围绕“创造Token、输送Token、应用Token”来统筹AI业务。换句话来说,就是阿里看到了未来Token巨大的Token消耗,现在要从集团层面上来统筹调配Token了。

到了用户端的体感就更加明显,曾经那场免费送Token额度的“价格战”早已鸣金收兵。

现在一个看似简单的用户指令,后台往往伴随着十几次的循环反思、工具调用以及几万Token的上下文反复重载。而每个Token的消耗,都是在实打实地烧钱。

而巧的是,看起来过去一年里,DeepSeek也没有停下来Token降本的步伐。

今年元旦假期,DeepSeek提出了一种名为mHC的新架构。该研究旨在解决传统超连接在大规模模型训练中的不稳定性问题,同时保持其显著的性能增益,让算力有限的中小AI企业,也能尝试开发更复杂的大模型。

不久后,DeepSeek开源了名为Engram的模块,并同时发布了与北京大学联合撰写的论文,阐述了一种新的大模型稀疏化方向:条件存储(Conditional Memory)。

而这两篇论文都体现了DeepSeek一直以来的方向:打破算力成本硬约束,通过架构、方法论创新,走出更具性价比的道路。

既然DeepSeek当初能凭一己之力,在训练端把竞争对手们上亿美金的训练成本打到骨折价,打出让英伟达一夜暴跌的通缩效应;那么一年后的梁文峰,又能否在Token消耗逐渐成为天量的现在,在推理端再当一次“价格屠夫”,把全行业的Token单价打个骨折呢?

简体中文 English