奥特曼逼梁文锋出大招
4 小时前 / 阅读约12分钟
来源:凤凰网
DeepSeek R2要到8月份推出?

奥特曼“AI圈营销大师”的名头,正越坐越实。

在被梁文锋短暂抢走一段时间风头后,奥特曼正以几乎每周都上新产品的强度,强势霸榜AI热搜。仅在过去一周内,OpenAI就接连推出了新产品Codex——一款代码AI Agent,和新模型GPT-4.1。

新模型的上线,更是将奥特曼对AI热度的追逐,展现得淋漓尽致。原本可以一次上线的内容,硬是被奥特曼拆解成了对AI圈的两次“震撼发布”:一次是4月15日,GPT-4.1系列模型首次推出,当时只能通过API调用,无法供ChatGPT使用;另一次便是近期终于宣布GPT-4.1模型已正式登陆ChatGPT。

看似多此一举的背后,实则藏着奥特曼对OpenAI模型调用度规模的追求。全球最大的大模型整合应用平台Poe,在近期发布的《2025年春季人工智能模型使用趋势》报告中指出,OpenAI的GPT-4.1系列发布后几周内,份额迅速增加到了约10%,位列第一。对比DeepSeek,其R1模型使用率,已从2月中旬的峰值7%下降到了4月底的3%,整体使用率下降超过50%。

不过,被奥特曼步步紧逼、抢夺份额的梁文锋,赶在OpenAI上新模型GPT4.1的同一天,也选择了出招。

每天“看论文,写代码,参与小组讨论”的梁文锋,又发了篇共同署名论文,但不是外界期待的新一代旗舰模型R2或V4的技术报告,而是一篇围绕V3 的新论文。

不同于去年12月V3亮相时发布的技术报告,梁文锋署名的新论文从硬件架构和模型设计的全新视角,探讨了V3模型在扩展过程中面临的硬件挑战,并展示了一系列硬件与模型协同设计带来的降本效果等。

但外界还在等待梁文锋的大招。早在2月份,路透社就曾爆料,DeepSeek内部正在加速推出R2模型,该模型原计划在5月初发布,但现在官方希望能尽早发布。

如今,距离5月结束不到半个月时间,梁文锋只是带领团队出着一些小招式,如DeepSeek V3模型完成小版本升级,上线新版本DeepSeek-V3-0324,随后又更新了以DeepSeek-V3为基础模型微调而来的DeepSeek-Prover-V2——一款数学定理证明模型。

根据字母榜(ID:wujicaijing)了解,自2023年5月DeepSeek成立以来,梁文锋带领团队先后推出了10余款模型,类型涵盖语言、代码、数学、视觉多模态等多个领域。

过去两年间,DeepSeek一般遵循先出语言基础模型,再基于语言基础模型微调其他垂类模型的节奏。

去年9月,在V2.5新版本中,DeepSeek完成了语言模型V2和代码模型Coder V2两个模型的合并,此后Coder模型便开始作为语言模型的一部分,不再单独更新。

值得注意的是,目前视觉多模态模型暂未与语言模型合并。这也意味着在外界期待的R2/V4等大招之外,梁文锋或许还在筹备一些小招式,如去年12月推出的DeepSeek-VL2视觉模型,还有望在V3的基础上,升级到VL3版本。

至于大众翘首以待的R2何时到来,按照DeepSeek以往的内部模型更新节奏,如果梁文锋希望在V4版本上训练R2,那么其推出时间或许会是今年8月份左右。

2023年10月,DeepSeek上线V1;

2024年5月,DeepSeek上线V2;

2024年12月,DeepSeek上线V3。

梁文锋带领下的团队基本保持着每7个月更新一次旗舰语言模型的频率。按此推算,新一代V4模型有望在今年7月份亮相。以R1与V3相隔1个月的推出时间差评估,R2最快便有望在8月份上线。

01

梁文锋激励奥特曼

梁文锋激活了大模型行业的上新速度,DeepSeek则化身为一众AI助手上新的加速器。

在被R1震撼的第一时间,想要从梁文锋手中争抢热度的奥特曼,就着手发布了首个智能体Operator,并开始对外剧透即将上线o3-mini的新消息。

自此之后,奥特曼几乎以每周都有新产品的更新频率,让OpenAI牢牢定在了AI热搜榜上:在模型侧推出了GPT 4.5、o3-mini/o4、GPT 4.1;在产品侧上线了Operator、Deep Research、Codex;在体验侧,学习DeepSeek开放思维链,并主导了吉卜力风格图片的流行。

这不能不说是梁文锋的功劳。在此前接受访谈时,奥特曼称DeepSeek给自己的一大教训就是,“当我们隐藏一个功能时(我们隐藏了‘思维链’),我们有充分的理由这样做,但这确实意味着,我们给其他人留下了获得病毒式传播的机会。”

如今,通过更加开放的产品体验更新,奥特曼正帮ChatGPT找回失去的热度。《2025年春季人工智能模型使用趋势》报告显示,OpenAI的GPT-4.1系列份额达到了约10%,位居第一。

相比被梁文锋倒逼着更加开放的奥特曼,动作寥寥的DeepSeek,正在迎来意料之中的流量和热度下滑。曾经一度在中美两地的苹果App Store 免费应用下载榜上夺冠的DeepSeek,如今已经分别再次被字节旗下豆包和OpenAI的ChatGPT赶超。

说到底,作为一款应用而言,DeepSeek暂时还难以持续对ChatGPT形成威胁,“因为前者更像是一个商品化的模型,而ChatGPT则是一个更趋完善的产品,从而具有更持久的竞争力。”国内头部大厂产品经理刘凯向字母榜解释道。

不同于奥特曼在产品应用侧的不断加码,梁文锋则将更多精力放在了模型本身。

此前接受采访中,梁文锋便曾提到英伟达的领先,不只是一个公司的努力,而是整个西方技术社区和产业共同努力的结果……很多国产芯片发展不起来,也是因为缺乏配套的技术社区,只有第二手消息,所以中国必然需要有人站到技术的前沿。”

如今,在最新发布的署名论文中,梁文锋正在实践着自己的愿景,其结合DeepSeek在AI硬件上遇到的瓶颈,从低精度计算支持、扩展与扩展融合、网络拓扑优化、内存系统优化、鲁棒性与容错等多个方面,提出了对下一代AI硬件的设想。

02

奥特曼重应用,梁文锋重模型

放任DeepSeek流量和热度白白流失的背后,或许也体现出了奥特曼和梁文锋两人在AI商业化方面的不同策略。

做大应用的用户规模,从来都不是梁文锋的头等大事。哪怕在去年5月率先挑起大模型行业价格战,梁文锋给出的解释中,也明确说明其主要目的并不是为了争抢用户。

因为在梁文锋看来,当前阶段是技术创新的爆发期,而不是应用的爆发期。从长远来看,依托于开源、免费的商业策略,梁文锋追求的是打造一个基于DeepSeek模型的开源生态,自己只负责基础模型和前沿的创新,其他公司负责构建To B、To C应用。“如果能形成完整的产业上下游,我们就没必要自己做应用。”

相比轻应用而重模型的梁文锋,奥特曼则将应用放在了第一优先级。近期被问到五年后,是一个拥有10亿日活跃用户的网站更有价值,还是一个最先进模型更有价值时,奥特曼选择了前者,并将模型与历史上的晶体管做类似,“未来会有很多AGI,它会渗透到各个领域,会变得很便宜。它本身并不能成为一个差异化因素。”

且不同于梁文锋想要从开源生态中实现最终的商业回报,奥特曼更看重打造ChatGPT的订阅制度,并将其视为公司的主要收入来源。不同的商业选择,直接决定了两人对应用的不同态度。

这也更容易理解,为什么奥特曼如此热衷营销。毕竟,想要将ChatGPT打造成一款新的超级消费级应用,前提是拥有足够多的用户,并尽可能激发用户的使用热情。

束缚梁文锋无法像奥特曼一样,将产品更新玩出花样的另一重因素,则来自DeepSeek产品本身。

环比市面上主流的AI助手类应用,DeepSeek是唯一暂不支持多模态功能的产品。1月15日应用上线至今,4个月过去,如语音对话、图片生成、音乐生成、视频生成等,DeepSeek仍未提供支持服务。

多模态能力的缺失,直接限制着DeepSeek的产品更新节奏,更使得用户在体验完新鲜感过后,很难在DeepSeek中寻找到持续停留的乐趣所在。

作为最早接入DeepSeek的大厂C端应用,腾讯元宝便瞄准DeepSeek的产品短板,其功能更新主要体现在多模态能力的加持上,相继上新了图生文、文生图、语音对话等差异化功能。

03

多模态和性价比,藏着梁文锋的新大招?

当下的短板,也为梁文锋留下了未来储蓄大招的创新空间。

此前的采访中,梁文锋分享了团队规划的追逐AGI的三条路径:一是数学和代码,二是多模态,三是自然语言本身。

截至目前,在R1发布至今的100多天内,梁文锋已经带领团队在数学和代码,自然语言模型上有所动作,如DeepSeek-Prover-V2和DeepSeek-V3-0324的陆续亮相。

眼下,只剩多模态方面暂未有新的进展传出。考虑到上一次推出视觉多模态大模型DeepSeek-VL2,已经是去年12月的事情,多模态模型更新,或许会是梁文锋向外界展示的新大招之一。

在选择对外展示方式上,梁文锋面前也可能摆放着两条路径:一是遵循惯例,择机发布基于V3模型微调而来的DeepSeek-VL3;二是学习Coder,在V3.5模型中完成语言模型V3和视觉多模态模型VL3两个模型的合并。此后,VL模型便开始作为语言模型的一部分,不再单独更新。

作为通向AGI重要途径的多模态,其重要性正随着Agent生态的发展日益凸显。如果梁文锋再不向外界亮大招,其还将迎接更加现实的竞争挑战,即可能会将更多模型调用需求推向对手。

3月份,AI创业公司蝴蝶效应发布的应用产品Manus,以世界首款通用AI Agent的名头,震惊业内后,字节、百度等科技大厂,快速跟进推出了自己的产品。

晚点LatePost 爆料称,字节扣子团队开发扣子空间时,他们曾考虑优先使用DeepSeek-R1,但测试后发现其调用工具的能力不太理想,最终还是用了自家的豆包模型。

而且,多模态融合,正在成为大模型行业的一大共识。越来越多大模型厂商开始在“All in One”的理想产品形态中,迈出自己的探索步伐:Anthropic、阿里千问发布了各自的混合模型,谷歌内部正在尝试将视频生成融入语言模型。

发布完代码智能体Codex后,近期OpenAI高管在“有问必答”活动中更是直言,下一代基础模型GPT-5,计划将Codex、Operator、Deep Research和Memory等功能全部整合在一起。

多模态之外,留给梁文锋施放大招的另一重点,则是模型性价比。

一贯以性价比开道的DeepSeek,在过去一段时间,正在被阿里、字节、百度等科技大厂夺走自身的性价比标签,科技大厂纷纷推出了API价格更低的同类模型。

百度创始人李彦宏更是贴脸开大,吐槽DeepSeek除了没有多模态之外,使用起来还慢且贵,“中国市场上绝大多数的大模型API调用价格都比DeepSeek满血版要低,而且速度也更快。”

面对李彦宏们的挑衅,外界都在期待着梁文锋的新反击。

参考资料:

《OpenAI:GPT-5就是All in One,集成各种产品》量子位

《2025年春季人工智能模型使用趋势》Poe

《李彦宏开卷:“DeepSeek慢且贵”》直面AI

《复盘字节扣子空间开发历程:瞄准工作场景,做一个 Agent 系统》晚点LatePost

《Sam Altman :GPT-5 将免费开放,DeepSeek 教训了我们》APPSO