AI进入下半场：模型不再稀缺，真正稀缺的是算力、场景和信任

来源：36kr 6 小时前

过去一年，AI行业最显著的变化，是判断AI进展的方式变了。过去一年，AI行业最显著的变化，是判断AI进展的方式变了。

在更长一段时间里，外界习惯用参数规模、榜单排名、融资金额和产品发布节奏来理解AI。但进入2025年后，这套叙事开始显得不够用了。模型还在变强，算力还在扩张，资本还在涌入，AI也正在进入科学、医疗、教育、企业服务和自动驾驶等更深的产业场景。可与此同时，顶级模型之间的性能差距正在缩小，前沿系统的透明度正在下降，算力和芯片供应链越来越集中，治理、能源、就业和公平问题也开始从幕后走到台前。

这意味着，AI竞争正在从单点技术竞赛，变成一场更复杂的系统竞争。真正值得追问的，已经不只是“谁的模型更强”，而是“谁能把AI变成稳定、可信、可规模化的生产力”。

也正是在这个节点，斯坦福大学以人为本人工智能研究院旗下AI Index项目发布了《2026 AI Index Report》。作为一份长期被全球政策界、学术界、产业界和媒体引用的年度报告，它并不只是一份技术榜单，而是试图用跨越研发、技术性能、负责任AI、经济、科学、医学和教育等多个维度的数据，重新描绘AI产业的真实坐标。

这份报告释放出的信号很清晰：AI的上半场，比的是模型能力和技术突破；AI的下半场，比的将是基础设施、真实场景、商业效率和社会信任。换句话说，AI已经不再只是技术公司的故事，而是正在成为一套重新分配产业资源、人才结构和全球竞争优势的新基础设施。

围绕这份报告，我们试图从七个维度梳理2025年以来AI产业正在发生的关键变化。一个越来越明确的判断是：当模型能力逐渐逼近，真正决定下一轮产业格局的，将是把技术落到产业深处的能力。

以下为报告转译后归纳总结：

要点概述：

1、AI 远未见顶，反而在加速狂飙，正以史无前例的广度野蛮渗透大众

2、中美 AI 模型的性能鸿沟，如今已被生生抹平

3、既能斩获奥数金牌，又会在数秒报时上沦为白痴， AI 陷入极度失衡的“参差前沿”

4、尽管机器人在受控环境中表现出色，但在大多数家务任务上仍束手无策

5、负责任的人工智能发展速度跟不上人工智能能力的提升，安全基准滞后，相关事件数量大幅上升

6、人工智能的普及速度正创下历史纪录，消费者正从这些通常免费使用的工具中获得可观价值

7、人工智能正在改变临床医疗，但相关严谨的证据依然有限

01 研发进入巨头时代：AI越来越强，也越来越不透明

2025年的AI研发呈现出一种鲜明的矛盾：一方面，支撑AI发展的资源还在增长，算力、开源项目、论文和专利都在继续扩张；另一方面，真正处在前沿位置的模型系统却越来越集中，透明度也在下降。

最直接的变化是，行业已经成为AI模型开发的绝对主角。2025年，行业产出了超过90%的知名AI模型，学术机构在前沿模型中的角色被进一步挤压。原因并不复杂，训练一个顶级模型所需要的算力、数据、工程团队和资金投入，已经不是一般高校或研究机构能够独立承担的。AI研发正在从过去相对开放的科研竞争，变成少数巨头之间的基础设施竞赛。

但问题也随之出现。越是性能最强的模型，往往越不透明。包括OpenAI、Anthropic、Google在内的多个资源消耗极高的系统，已经不再完整披露训练代码、参数数量、数据集规模和训练时长。这让外界很难判断模型能力到底来自算法突破、数据质量、后训练优化，还是单纯的算力堆叠。AI越重要，社会越需要理解它；但AI越前沿，外部越难看清它。

与此同时，全球AI研发版图也在发生变化。中国在论文发表数量、引用量和专利授权方面位居首位，在被引次数最高的100篇AI论文中所占比例也持续上升。美国则在知名模型开发方面保持领先，2025年研发出59个知名模型，中国为35个。换句话说，中国在研究产出和知识积累上更具规模优势，美国仍掌握更多前沿模型和高影响力专利。

算力是这场竞争最硬的底座。自2022年以来，全球AI计算能力每年约增长3.3倍，到2025年已达到1710万颗H100等效芯片的规模。英伟达占据总计算量的60%以上，谷歌和亚马逊供应了剩余的大部分份额，华为虽然占比仍小，但份额正在增长。算力扩张背后，是超大规模数据中心建设和前沿模型训练、推理需求的持续上升。

但越往底层看，风险越集中。美国拥有全球最多的数据中心，数量是其他任何国家的十倍以上；而台积电几乎制造了所有主流AI芯片，使全球AI硬件供应链高度依赖台湾的一家代工厂。AI看似是云端软件革命，底层却是高度集中的半导体制造、能源供应和数据中心部署能力。

这种扩张还带来了环境代价。2025年，Grok 4的训练排放量预估达到72816吨二氧化碳当量；AI数据中心电力容量升至29.6吉瓦，接近纽约州峰值用电量；仅GPT-4o的年度推理用水量，就可能超过120万人的饮用水需求。

AI越强，越不只是技术问题，而是能源、供应链和公共资源问题。

02 模型能力追平之后，竞争从“跑分”转向“有用”

AI技术性能仍在快速提升，但2025年最重要的信号不是“模型又变强了”，而是“强模型之间越来越难拉开差距”。

在语言、推理、编码、数学等基准测试上，前沿模型的分数持续上升，甚至开始超过部分人类水平。前沿模型在“人类终极考试”这一高难度基准上一年内提升了30个百分点，许多原本被认为可以持续多年检验模型能力的测试，只用了几个月就被攻克。这说明AI进步速度已经超过评估体系的更新速度，旧的尺子正在变短。

当基准被快速刷穿，模型排名的意义就开始变化。到2026年3月，Anthropic、xAI、Google、OpenAI、阿里巴巴和深度求索均位于Arena Elo评分第一梯队，其中多家公司的模型分差控制在很小范围内。中美顶级模型之间的性能差距也基本弥合。2025年初以来，中美模型多次在性能排行榜首位置互换，DeepSeek-R1曾短暂与美国顶级模型持平，截至2026年3月，美国顶级模型仅以2.7%的优势领先。

这背后的产业含义很清楚：当“能力领先”不再足以形成压倒性差异，竞争压力就会转向成本、可靠性、领域性能和真实世界可用性。一个模型能不能便宜地调用，能不能稳定地完成任务，能不能在税务、法律、财务、客服、代码、医疗等专业场景中交付结果，将比单纯跑分更重要。

开源与闭源的格局也出现反复。2024年，开源模型一度大幅缩小与闭源模型的差距，但到2025年，这一差距又重新扩大。截至2026年3月，头部闭源模型领先头部开源模型3.3%，Arena排行榜前十中有六个为闭源模型。这说明开源仍然是生态扩散和产业创新的重要力量，但在最前沿能力上，闭源巨头仍借助算力、数据和工程优势保持领先。

与此同时，AI能力呈现出一种“锯齿状智能”。它可以在国际数学奥林匹克竞赛中拿到金牌，却仍无法可靠识别模拟时钟。Gemini Deep Think在2025年IMO中获得35分金牌成绩，但顶级模型在ClockBench上的模拟时钟识别正确率只有50.6%，而人类为90.1%。这提醒我们，AI不是线性变聪明，而是在某些任务上突飞猛进，在另一些常识性任务上仍然脆弱。

更值得关注的是，AI正在从数字任务走向物理世界。视频生成模型开始捕捉物体运动规律，不再只是生成逼真画面。谷歌DeepMind的Veo 3在超过1.8万个生成视频测试中，展现出模拟浮力、解决迷宫等能力，且无需专门训练。智能体也从回答问题进阶到完成任务，OSWorld测试中的准确率从约12%提升至66.3%，与人类差距缩小到6个百分点以内。

但进入物理世界并不容易。机器人在模拟环境中的操作成功率可达89.4%，但在现实家庭任务中的成功率只有12%。

相比之下，自动驾驶成为少数已经实现大规模部署的例外。Waymo在美国五个城市每周行程约45万次，百度Apollo Go完成了1100万次全程无人驾驶行程。

AI正在靠近物理世界，但离真正稳定地理解和改造物理世界，还有很长一段路。

03 负责任AI开始补课：治理追不上部署，风险已经进入现实

随着AI能力扩张，治理问题也被推到台前。2025年的一个核心矛盾是，负责任AI的基础设施正在建设，但速度远远赶不上AI部署。

安全基准在增加，更多组织开始制定负责任AI政策，政府支持的AI安全机构也扩展到更多国家。但这些动作更多像是在补课，而不是主动引领。几乎所有领先模型开发者都会公布MMLU、SWE-bench等能力基准结果，但针对负责任AI基准测试的报告仍然很少。换句话说，企业很愿意展示模型有多强，却不太愿意完整披露模型有多安全、多公平、多透明。

风险已经在现实中累积。人工智能事件数据库显示，2025年记录到362起AI事件，高于2024年的233起。模型幻觉仍是突出问题。

在一项准确率基准测试中，26款主流模型的幻觉率在22%至94%之间。更微妙的是，模型难以区分“知识”和“信念”。当虚假陈述被表述为他人观点时，模型还能较好处理；但当同一虚假陈述被表述为用户观点时，模型表现会大幅下降。这意味着模型不只是会编造信息，还可能受到提问方式和用户立场的影响。

企业层面的治理意识确实在提升。2025年，AI专属治理岗位增长17%，尚未制定负责任AI政策的企业占比从24%降至11%。

但落地仍然受制于现实条件，主要障碍包括知识缺口、预算限制和监管不确定性。很多企业不是不想治理，而是不知道怎么治理、没有足够资源治理，也不确定未来监管会如何变化。

监管框架也在转向AI专属体系。GDPR仍是被提及最多的监管影响因素，但影响力占比有所下降。与此同时，ISO/IEC 42001人工智能管理体系标准、NIST人工智能风险管理框架等更具体的AI治理工具开始进入企业视野。监管正在从隐私和数据合规，进一步走向模型开发、部署、监控和风险管理。

但更深层的挑战是，AI治理并不是单一指标最优化。安全、公平、隐私、可解释性之间可能存在冲突。近期研究发现，提升某一个负责任AI维度的训练技术，可能持续损害其他维度。例如，隐私增强可能削弱公平性，安全优化可能降低准确率。今天行业还缺少成熟框架来处理这些权衡。

透明度下降则让治理更难。基础模型透明度指数在2023年至2024年从37分升至58分，但2025年又降至40分。训练数据、计算资源和部署后影响的披露仍存在重大空白。

模型越被用于真实产业，外界越需要知道它的边界；但前沿企业越是竞争激烈，越倾向于隐藏关键细节。这种张力，将成为AI下一阶段最大的制度性难题之一。

04 钱还在涌入AI，但红利分配并不均匀

技术竞争之外，AI经济正在以前所未有的速度扩张。2025年，全球企业AI投资增长了一倍多，私人投资增长最快，增速达到127.5%，并占总投资的60%。生成式AI是这轮增长的核心，投资增速超过200%，几乎占据私人人工智能融资总额的一半。新获得融资的AI公司数量增长71%，十亿美元级融资交易数量几乎翻番。

但资金并没有均匀流向全球。美国在AI私人投资领域继续保持领先，投入资金是中国的23倍。在生成式AI领域，美国投资规模大幅超过中国和欧洲总和。这种差距显示，美国仍掌握全球AI资本市场的主导权。不过，私人投资数据可能低估中国AI支出，因为中国政府引导基金在过去二十多年中已向AI企业投入大量资金。美国更强在市场资本和云基础设施，中国则更多体现为产业政策、制造能力和应用场景的组合投入。

AI公司的收入增长速度也创下历史纪录。头部企业在短时间内实现了可观营收，但算力成本和基础设施支出同样飙升。云服务商加快资本开支，谷歌披露2025年年度资本支出超过1500亿美元。这说明AI商业化并不是轻资产神话，而是一场重资产竞赛。模型收入增长越快，背后的芯片、服务器、能源和数据中心投入也越大。

消费端已经证明AI具备真实价值。到2026年初，美国消费者从生成式AI中获得的年度消费者剩余估计达到1720亿美元，较一年前的1120亿美元明显增长，每位用户的中位数价值翻了三倍。更关键的是，这些工具大多仍免费或接近免费。AI正在像搜索引擎和社交网络一样，先通过低成本、高频使用形成普及，再逐步重构商业模式。

企业采用率也在提升。2025年，受访企业中AI采用率达到88%，70%的企业至少在一项业务职能中应用生成式AI。中国和欧洲同比增幅位居前列。但智能体应用仍处于早期，在几乎所有业务职能中的部署数量仍为个位数。企业已经接受AI工具，但还没有大规模把AI交给自动化流程和关键业务闭环。

生产力提升也并非无处不在。AI在结构化、可量化、产出易监控的工作中效果最明显，例如客户支持效率提升14%至15%，软件开发效率提升26%，营销成果提升50%。但在需要深度推理、复杂判断和长期经验积累的任务中，提升幅度较小。AI正在创造价值，但它首先改变的是流程清晰、数据可得、反馈明确的工作，而不是所有工作。

05 医疗AI走过炫技阶段，进入临床证据之战

医疗是AI最受期待、也最需要谨慎的领域。2025年，医疗AI在分子生物学、临床推理、临床记录、诊断辅助和健康搜索等方向都有明显进展，但一个核心问题越来越突出：模型的高分表现，并不等于真实临床效果。

在分子生物学领域，小模型的表现开始挑战“大模型崇拜”。MSAPairformer只有1.11亿参数，却在ProteinGym基准测试中超过以往领先方法；GPN-Star作为2亿参数的基因组学模型，性能超过一个400亿参数模型。这说明医疗和生命科学领域并不总是需要更大的通用模型，更小、更专业、更贴近领域数据的模型，可能反而更有效。

虚拟细胞模型成为新的前沿。Arc研究所的Evo 2、STATE以及DeepMind的AlphaGenome都指向同一个目标：在不进行湿实验室实验的情况下，预测细胞对药物和基因扰动的反应。如果这一路径成熟，药物发现和生物实验的成本结构将被重写。但现阶段，这些系统仍然需要实验验证，AI还不能替代真实生物学证据。

临床应用中，最先跑出来的不是最炫的诊断模型，而是能嵌入医生工作流的工具。2025年，能够根据患者就诊自动生成临床笔记的AI工具得到广泛应用。在多家医疗机构中，医生表示写病历时间减少最高达83%，职业倦怠感也显著下降，部分机构还实现了112%的投资回报率。

监管层面，AI医疗设备数量快速增加。2025年，美国FDA批准了258款AI医疗设备，但大多数通过无需开展新临床试验的渠道获批。绝大多数设备是通过设备改造途径进入市场，依赖现有安全性和有效性证据，而非新的随机试验。仅有2.4%的临床研究设备得到随机试验数据支持。这意味着医疗AI的商业化速度，已经明显快于临床证据积累速度。

诊断能力也在提升。微软AI诊断协调器搭配OpenAI o3模型，在复杂医学案例研究中获得85.5%的得分，而未借助辅助工具的医生仅为20%。多智能体框架相比单智能体基准模型，诊断准确率提升7%至60%以上。但这类结果仍需要谨慎解读，因为测试往往基于医学文献中的疑难病例，并不完全等同于真实医院环境中的诊疗流程。

与此同时，患者正在更早接触AI健康信息。如今，84%至92%的健康相关谷歌搜索结果顶部都会显示AI生成摘要。症状和常见健康问题最容易触发AI概述。这意味着很多患者在见医生之前，已经通过AI形成对疾病、治疗和风险的初步理解。问题在于，这些信息往往不经过正式医疗器械监管，却可能影响患者决策。

因此，医疗AI下一阶段的关键词不是“模型多强”，而是证据、治理和伦理。它需要随机试验、真实世界数据、临床责任边界和更充分的伦理讨论。AI对医疗的影响已经出现，但要真正规模化进入临床，不能只靠演示和榜单，必须经得起医学证据体系的检验。

06 写在最后：

把研发、技术、治理、经济、科学、医学和教育放在一起看，2025年的AI产业已经很难用“模型进步”四个字概括。

它当然还在变强。模型能力快速提升，中美差距缩小，视频模型开始理解物理规律，智能体开始完成复杂任务，AI也正在进入科学、医疗和教育等高价值场景。但与此同时，AI也变得更昂贵、更集中、更不透明、更依赖基础设施，并带来更多治理、能源、就业和公平问题。

这正是AI进入下半场的标志。上半场比的是谁能训练出更强模型，下半场比的是谁能把模型变成稳定、可靠、可监管、可商业化、可持续的生产力。

真正的产业价值，不会只属于参数最多、榜单最高的模型，而会属于那些能在真实场景中完成闭环的系统。它要接得住企业流程，扛得住医疗证据，经得起安全审查，解释得清成本收益，也能在教育和劳动力市场中创造新的能力，而不是简单替代旧岗位。

AI的故事还在加速，但它已经不再只是技术公司的故事。它是算力供应链的故事，是全球资本流动的故事，是科研范式变化的故事，是医生、教师、学生、工程师和普通用户共同参与的故事。

下一阶段，AI最大的悬念不是它能不能继续变强，而是它能不能被社会真正吸收，成为一种可信、可控、可分配的生产力。谁能回答这个问题，谁才真正站在AI产业的下一轮中心。