“基模五强”崛起:谁将主导中国大模型终极之战?
3 小时前 / 阅读约13分钟
来源:36kr
解密“基模五强”的制胜密码。

2025年的中国大模型市场,正经历一场静默却深刻的洗牌。

曾在2023-2024年疯狂融资、高调亮相的“六小虎”们有些逐渐淡出主流视野,而以字节跳动、阿里巴巴、阶跃星辰、智谱AI和DeepSeek为代表的“基模五强”则强势崛起,成为国产基础大模型领域的核心力量。

这场变局的背后,是资本、技术、人才和战略的多重博弈。

接下来,大模型能力的重要性将愈发凸显。追求智能的上限,仍然是当下大模型领域最重要的事情。大模型的应用,绕不过基础模型的能力边界。只有不断突破基础模型的天花板,大模型应用才有可能呈现百花齐放的局面。

01 国产大模型公司正加速洗牌

大模型的故事开始于2022年底,OpenAI发布的ChatGPT以颠覆性效果引爆全球 AI行业。

此后,中国市场迅速反应。2023-2024年,国内大模型市场迎来爆发式增长,政策、资本、企业三股力量共振,触发了一场持续一年的“百模大战”。

首先是政策定调。中国政府将大模型列为战略性新兴产业,多地出台专项扶持政策(如上海“人工智能算力券”、北京“智源计划”),鼓励企业布局通用大模型。

在政策指引下,各类大模型如雨后春笋般涌现,既有互联网巨头布局,也有创业公司纷纷入局,资本也大量涌入大模型赛道,迅速催熟了全国大模型市场。到2024年,国内公开披露的大模型项目达数百个,覆盖语言、视觉、代码等领域。

可以说,整个2023年,几乎都在白热化的“百模大战”中度过。最终,这场混战以“6+2”的市场格局暂告一段落。“6”为月之暗面、阶跃星辰、智谱、MiniMax、零一万物与百川智能,业内也称为“大模型六小虎”;“2”即两家规模稍小但各具特色的公司:深度求索(DeepSeek)与面壁智能。

然而,在这一阶段,由于行业尚在早期,入局的企业几乎都在摸着石头过河,很多企业都在拼参数、拼算力,试图复刻OpenAI的暴力美学路线,一味追求模型规模和性能指标,反而没有考虑到实际的国情和商业环境需要;更有部分初创公司缺乏技术积累,依赖短期融资和概念炒作,商业化路径模糊。

到了2024年,市场格局开始发生重大变化。随着2024年全球AI融资环境收紧,中美融资总额同比缩水超60%,中国大模型市场也开始“去泡沫化”。

具体表现来看,融资重心逐渐向技术和商业化路径更成熟的头部企业倾斜。例如,阶跃星辰在2024年底完成数亿美元B轮融资;智谱AI则在2025年先后完成多笔融资,并开启IPO进程。

事实上,2024年底,“六小虎"中的部分公司已经开始调整战略方向。据市场消息显示,其中两家已经放弃大模型预训练。2025年初,随着DeepSeek的异军突起,对“六小虎”的生态位置形成挤压,行业加速进入“洗牌时刻”。

2025年,“百模大战”落幕已成为共识,市场格局收敛为“基模五强”(字节、阿里、阶跃星辰、智谱 AI、DeepSeek)为主的新秩序。

巧合的是,美国市场也呈现出OpenAI、Google、Anthropic、X.ai 和 Meta“五强争霸”的格局。某种程度上,这也是技术逐渐深入市场的过程中,市场格局从粗放到收敛的必然经过。

02 “新基模五强”,各有不同

不同于“六小虎”时期的无知者无畏,“新基模五强”格局下,每位玩家都走出了鲜明的差异化路径。依次来看:

字节跳动的 AI 战略不疾不徐,兼具“航母级资源”和“创业级敏捷”。

而字节之所以能走得这么稳,一个关键原因便是,公司将 AI 做成了“一把手”工程。张一鸣直接担任起AI战略的核心推动者,不仅从战略层面统筹全局,还深度参与技术路线与产品落地方向。

通过资源整合、技术攻坚和生态闭环,字节试图从流量驱动转向AI驱动。而其成败关键在于,能否在基础模型、视频生成等领域实现技术突破,同时构建可持续的商业化模式与生态壁垒。

为此,字节也有着充分的人才和资金储备。团队整合了光年之外(LingYuan)、零一万物(01.AI)等外部顶尖 AI 团队,并吸纳吴永辉、黄文灏等技术大牛,形成兼具学术背景与工程落地能力的 AI 团队;资金储备更不用说,支撑其在AI领域的长期投入。同时,抖音、今日头条等平台还可为模型提供海量数据和应用场景。

阿里是全球最早大规模开源大模型的科技巨头之一,以开源为杠杆,撬动开发者生态与行业应用,同时通过全栈技术布局(从算力到模型到应用)构建护城河。

阿里通义系列模型(如Qwen、万相)覆盖文本、视觉、语音等多模态领域,参数规模从0.5B到110B全尺寸覆盖,满足不同场景需求。其开源模型下载量已超9000万次,开发者生态规模仅次于Hugging Face,形成“开源获客-商业版变现”的闭环。

而这些成绩则是得益于阿里云的全栈布局。阿里云未来三年将计划投入超3800亿元建设AI基础设施,包括自研AI芯片(含光系列)、液冷数据中心和高速网络;通过专有云+公共云组合,满足企业敏感数据本地化与弹性算力需求。

与此同时,阿里的通义系列模型也正在深入阿里的整个业务生态。例如,淘宝通过通义千问优化推荐系统,提升用户粘性;通义灵码辅助医生生成诊断报告,提升效率;夸克还推出AI作业助手,解析学生问题并提供解题思路,覆盖K12教育场景。

阶跃星辰则是最低调却也最务实的大模型创业公司,多模态是其显著标签。

目前,阶跃星辰已发布22款自研基座模型,其中16款为多模态模型(占比 70%),覆盖文本、图像、视频、语音、音乐、推理等全模态,多次拿下国内外权威榜单第一,被业界称为“多模态卷王”。

创始人、CEO姜大昕认为,多模态是实现AGI的必经之路。人类智能的多元性(语言、视觉、运动等)需通过多模态融合才能复现,而当前多模态模型仍处于“前 Transformer”阶段,需探索可扩展的多模态理解生成一体化架构。据悉,阶跃也正在此领域加速探索。

因性能行业领先,阶跃的多模态模型已取得广泛落地应用,成为多个爆款AI应用技术底座。公开信息显示,2024年下半年阶跃星辰多模态API的调用量增长了超45倍。

目前,阶跃星辰正将多模态能力嵌入智能终端(手机、汽车、机器人),打造“用户感知的延伸”,并与Oppo、吉利、智元机器人等头部厂商展开深度合作。

智谱AI是首个启动IPO的大模型创业公司。其之所以能成为“清华系”学院派大模型企业中规模最大的一家,很大一部分原因在于,智谱最大程度释放了“清华大学”背后所蕴含的学术、社会以及商业生态价值。

智谱AI脱胎于清华大学计算机系知识工程实验室(KEG),拥有27年AI技术积累。其自研的GLM(通用语言模型)系列通过多阶段增强预训练方法,在中文问答、代码生成等领域表现卓越。

目前,智谱构建了基座模型(GLM)、推理模型(GLM-Z1-32B)、多模态模型(清影文生视频)及智能体(AutoGLM)的全栈产品体系,满足不同场景需求。

此外,智谱将2025年视为开源年,开源旗下多款模型,通过开源社区积累技术反馈,可进一步优化模型性能。

商业方面,智谱则专注2G/2B业务,智谱在B端覆盖金融、医疗、政务等20余个行业,2024年中标32个政府及企业项目(金额1.29亿元)。

DeepSeek的崛起则打破了国产大模型的“常规路线”。

在LMSYS Org榜单中,DeepSeek其模型在数学、代码生成等任务中排名第一。其惊艳的性能表现来自于底层的工程创新。

DeepSeek通过降秩KV矩阵(MLA)减少显存消耗,结合混合专家(MOE)架构动态激活部分专家模型,显著降低计算量(参数数量减少约60%)。同时,DeepSeek放弃传统SFT微调,转向基于GROP算法的强化学习(RL),通过“模糊思考+精确证明”的训练机制,缩小非正式与正式数学推理之间的差距。

更重要的是,DeepSeek凭一己之力,通过开源打破大厂技术垄断,推动全球开发者协作(如与法国AI峰会、国际科研机构的合作),形成以中国为核心的全球AI生态。

通过工程创新,DeepSeek-R1训练成本仅为行业头部模型的1/10,API定价低至 OpenAI的1/30(输入1元/百万token,输出 16元/百万token),将AI服务从“奢侈品”变为“日用品”。

03 “基模五强”诞生背后,资金、人才与技术缺一不可

虽然如今的“基模五强”各成一派,但他们能在“百模大战”中走到下一阶段,并逐渐形成差异化路线,找到商业闭环方向的深层原因,实则有一定共通性。

训练大模型是典型的“重资产”模式,确保资金来源是入局的基础。

字节跳动和阿里巴巴依托自身大厂优势,明确基础大模型建设战略,得以长期投入。

智谱和阶跃星辰分别背靠北京、上海,国家队实力自不用说。

DeepSeek则依靠自有量化基金平台资本投入,通过开源策略、技术工程优化(如模型压缩、分布式训练)降低边际成本。

而有了资金保障,大模型竞争本质是人才战争。

“基模五强”每家公司均围绕自身技术定位构建差异化团队,字节与阿里侧重全栈生态,阶跃星辰与智谱AI依托多模态与学术创新,DeepSeek则专注数理能力与成本优化。具体来看:

字节的AI团队以张一鸣为核心,吴永辉担任AI基础研究负责人,朱文佳担任AI业务负责人。整个团队以“技术+商业”复合型团队为核心,通过开放创新文化和“Top Seed”博士计划强化人才梯队。

团队注重多模态技术(视觉、语音)与商业场景的快速落地,通过Seed与Flow双轨并行的架构(基础研究与应用开发分离)提升效率,并依托全球AI实验室(北京、上海、新加坡等)构建技术壁垒。

阿里大模型研发一号位是阿里云CTO和通义实验室负责人周靖人。整个团队以“全栈技术矩阵+资源整合”为核心,通过“达摩院(前沿研究)+阿里云(工程落地)+行业应用(电商、政务、物流等)”形成闭环。团队具备连续创业基因与国际化视野,通过“饱和式投入”布局AI基础设施(如通义千问系列),并依托淘天、钉钉、夸克等业务实现技术商业化。

阶跃星辰核心团队,由获得2025 IEEE follow的创始人姜大昕、首席科学家ResNet作者张祥雨以及系统负责人朱亦博等大牛组成。通过顶尖科学家的加入,强化视觉、语音等前沿的模型能力研究,以多模态技术驱动为核心,覆盖手机、汽车、机器人等终端场景,实现技术与数据飞轮和B2C商业化方向。

智谱AI则依托清华大学知识工程实验室(KEG)的学术背景,通过“学术+产业”结合模式构建技术壁垒,核心成员在知识图谱、自然语言处理等领域具有深厚积累。

DeepSeek则汇聚了一群“技术奇兵”,以数理推理与工程优化为核心,团队年轻化且本土化,成员多来自清华、北大等高校。

有了资金和人才的充分储备后,能否孕育出差异化的技术创新能力,是决定企业能否在市场站稳脚跟的关键。

目前,基模五强的技术路线可分为两类:

字节、阿里、阶跃星辰、智谱AI可归为“全才型”,技术矩阵全面覆盖,通过生态协同和行业渗透构建长期壁垒。

这条路线的玩家未来可能通过全栈技术覆盖线上和线下的广泛场景(如类移动互联网的超级应用、AI+硬件等),优先抢占AGI(通用人工智能)入口的主导权。

DeepSeek则更像“专才型”,聚焦语言模型与数理推理,通过开源普惠和极致工程优化,抢占高精度场景的“技术护城河”。在数理推理、代码生成等高精度领域形成差异化竞争力,真正成为垂直场景的“基础设施”。

无论哪种路线,都在共同推动大模型行业从“工具化”向真正的“智能化”演进。

04 下一阶段的决胜点:突破智能的上限

尽管“基模五强”在战略定位、技术路线和商业化路径上呈现出鲜明的差异化特征,但它们的共同目标始终指向一个核心命题——突破大模型的“智能上限”。

无论是字节跳动的全栈布局、阿里的开源闭环、阶跃星辰的多模态探索,还是DeepSeek的极致工程优化,本质上都在为大模型的“天花板”寻找新的突破点。

当然,他们也面临着不小的挑战。从大环境来看,中美技术脱钩加剧的背景下,美国对华AI芯片出口限制可能影响国产大模型的算力供给。

具体到商业模式方面,如何在To B、To C场景中实现规模化盈利,仍是核心命题。而随着AI应用范围越来越广泛,以及人类对智能上限的探索越来越机制,AI的可控性与安全性问题将越发不容忽视。

可以预见,以“基模五强”为代表的头部玩家将在未来3-5年继续主导中国大模型产业的发展,而这场AGI竞赛的真正赢家,或将是那些能突破“智能上限”、实现AGI 愿景的企业。