过去一年,AI行业最显著的变化,是判断AI进展的方式变了。过去一年,AI行业最显著的变化,是判断AI进展的方式变了。
在更长一段时间里,外界习惯用参数规模、榜单排名、融资金额和产品发布节奏来理解AI。但进入2025年后,这套叙事开始显得不够用了。模型还在变强,算力还在扩张,资本还在涌入,AI也正在进入科学、医疗、教育、企业服务和自动驾驶等更深的产业场景。可与此同时,顶级模型之间的性能差距正在缩小,前沿系统的透明度正在下降,算力和芯片供应链越来越集中,治理、能源、就业和公平问题也开始从幕后走到台前。
这意味着,AI竞争正在从单点技术竞赛,变成一场更复杂的系统竞争。真正值得追问的,已经不只是“谁的模型更强”,而是“谁能把AI变成稳定、可信、可规模化的生产力”。
也正是在这个节点,斯坦福大学以人为本人工智能研究院旗下AI Index项目发布了《2026 AI Index Report》。作为一份长期被全球政策界、学术界、产业界和媒体引用的年度报告,它并不只是一份技术榜单,而是试图用跨越研发、技术性能、负责任AI、经济、科学、医学和教育等多个维度的数据,重新描绘AI产业的真实坐标。
这份报告释放出的信号很清晰:AI的上半场,比的是模型能力和技术突破;AI的下半场,比的将是基础设施、真实场景、商业效率和社会信任。换句话说,AI已经不再只是技术公司的故事,而是正在成为一套重新分配产业资源、人才结构和全球竞争优势的新基础设施。
围绕这份报告,我们试图从七个维度梳理2025年以来AI产业正在发生的关键变化。一个越来越明确的判断是:当模型能力逐渐逼近,真正决定下一轮产业格局的,将是把技术落到产业深处的能力。
以下为报告转译后归纳总结:
要点概述:
1、AI 远未见顶,反而在加速狂飙,正以史无前例的广度野蛮渗透大众
2、中美 AI 模型的性能鸿沟,如今已被生生抹平
3、 既能斩获奥数金牌,又会在数秒报时上沦为白痴, AI 陷入极度失衡的“参差前沿”
4、尽管机器人在受控环境中表现出色,但在大多数家务任务上仍束手无策
5、负责任的人工智能发展速度跟不上人工智能能力的提升,安全基准滞后,相关事件数量大幅上升
6、人工智能的普及速度正创下历史纪录,消费者正从这些通常免费使用的工具中获得可观价值
7、人工智能正在改变临床医疗,但相关严谨的证据依然有限
01 研发进入巨头时代:AI越来越强,也越来越不透明
2025年的AI研发呈现出一种鲜明的矛盾:一方面,支撑AI发展的资源还在增长,算力、开源项目、论文和专利都在继续扩张;另一方面,真正处在前沿位置的模型系统却越来越集中,透明度也在下降。
最直接的变化是,行业已经成为AI模型开发的绝对主角。2025年,行业产出了超过90%的知名AI模型,学术机构在前沿模型中的角色被进一步挤压。原因并不复杂,训练一个顶级模型所需要的算力、数据、工程团队和资金投入,已经不是一般高校或研究机构能够独立承担的。AI研发正在从过去相对开放的科研竞争,变成少数巨头之间的基础设施竞赛。

但问题也随之出现。越是性能最强的模型,往往越不透明。包括OpenAI、Anthropic、Google在内的多个资源消耗极高的系统,已经不再完整披露训练代码、参数数量、数据集规模和训练时长。这让外界很难判断模型能力到底来自算法突破、数据质量、后训练优化,还是单纯的算力堆叠。AI越重要,社会越需要理解它;但AI越前沿,外部越难看清它。

与此同时,全球AI研发版图也在发生变化。中国在论文发表数量、引用量和专利授权方面位居首位,在被引次数最高的100篇AI论文中所占比例也持续上升。美国则在知名模型开发方面保持领先,2025年研发出59个知名模型,中国为35个。换句话说,中国在研究产出和知识积累上更具规模优势,美国仍掌握更多前沿模型和高影响力专利。
算力是这场竞争最硬的底座。自2022年以来,全球AI计算能力每年约增长3.3倍,到2025年已达到1710万颗H100等效芯片的规模。英伟达占据总计算量的60%以上,谷歌和亚马逊供应了剩余的大部分份额,华为虽然占比仍小,但份额正在增长。算力扩张背后,是超大规模数据中心建设和前沿模型训练、推理需求的持续上升。
但越往底层看,风险越集中。美国拥有全球最多的数据中心,数量是其他任何国家的十倍以上;而台积电几乎制造了所有主流AI芯片,使全球AI硬件供应链高度依赖台湾的一家代工厂。AI看似是云端软件革命,底层却是高度集中的半导体制造、能源供应和数据中心部署能力。
这种扩张还带来了环境代价。2025年,Grok 4的训练排放量预估达到72816吨二氧化碳当量;AI数据中心电力容量升至29.6吉瓦,接近纽约州峰值用电量;仅GPT-4o的年度推理用水量,就可能超过120万人的饮用水需求。
AI越强,越不只是技术问题,而是能源、供应链和公共资源问题。
02 模型能力追平之后,竞争从“跑分”转向“有用”
AI技术性能仍在快速提升,但2025年最重要的信号不是“模型又变强了”,而是“强模型之间越来越难拉开差距”。
在语言、推理、编码、数学等基准测试上,前沿模型的分数持续上升,甚至开始超过部分人类水平。前沿模型在“人类终极考试”这一高难度基准上一年内提升了30个百分点,许多原本被认为可以持续多年检验模型能力的测试,只用了几个月就被攻克。这说明AI进步速度已经超过评估体系的更新速度,旧的尺子正在变短。

当基准被快速刷穿,模型排名的意义就开始变化。到2026年3月,Anthropic、xAI、Google、OpenAI、阿里巴巴和深度求索均位于Arena Elo评分第一梯队,其中多家公司的模型分差控制在很小范围内。中美顶级模型之间的性能差距也基本弥合。2025年初以来,中美模型多次在性能排行榜首位置互换,DeepSeek-R1曾短暂与美国顶级模型持平,截至2026年3月,美国顶级模型仅以2.7%的优势领先。

这背后的产业含义很清楚:当“能力领先”不再足以形成压倒性差异,竞争压力就会转向成本、可靠性、领域性能和真实世界可用性。一个模型能不能便宜地调用,能不能稳定地完成任务,能不能在税务、法律、财务、客服、代码、医疗等专业场景中交付结果,将比单纯跑分更重要。
开源与闭源的格局也出现反复。2024年,开源模型一度大幅缩小与闭源模型的差距,但到2025年,这一差距又重新扩大。截至2026年3月,头部闭源模型领先头部开源模型3.3%,Arena排行榜前十中有六个为闭源模型。这说明开源仍然是生态扩散和产业创新的重要力量,但在最前沿能力上,闭源巨头仍借助算力、数据和工程优势保持领先。
与此同时,AI能力呈现出一种“锯齿状智能”。它可以在国际数学奥林匹克竞赛中拿到金牌,却仍无法可靠识别模拟时钟。Gemini Deep Think在2025年IMO中获得35分金牌成绩,但顶级模型在ClockBench上的模拟时钟识别正确率只有50.6%,而人类为90.1%。这提醒我们,AI不是线性变聪明,而是在某些任务上突飞猛进,在另一些常识性任务上仍然脆弱。
更值得关注的是,AI正在从数字任务走向物理世界。视频生成模型开始捕捉物体运动规律,不再只是生成逼真画面。谷歌DeepMind的Veo 3在超过1.8万个生成视频测试中,展现出模拟浮力、解决迷宫等能力,且无需专门训练。智能体也从回答问题进阶到完成任务,OSWorld测试中的准确率从约12%提升至66.3%,与人类差距缩小到6个百分点以内。

但进入物理世界并不容易。机器人在模拟环境中的操作成功率可达89.4%,但在现实家庭任务中的成功率只有12%。
相比之下,自动驾驶成为少数已经实现大规模部署的例外。Waymo在美国五个城市每周行程约45万次,百度Apollo Go完成了1100万次全程无人驾驶行程。
AI正在靠近物理世界,但离真正稳定地理解和改造物理世界,还有很长一段路。
03 负责任AI开始补课:治理追不上部署,风险已经进入现实
随着AI能力扩张,治理问题也被推到台前。2025年的一个核心矛盾是,负责任AI的基础设施正在建设,但速度远远赶不上AI部署。
安全基准在增加,更多组织开始制定负责任AI政策,政府支持的AI安全机构也扩展到更多国家。但这些动作更多像是在补课,而不是主动引领。几乎所有领先模型开发者都会公布MMLU、SWE-bench等能力基准结果,但针对负责任AI基准测试的报告仍然很少。换句话说,企业很愿意展示模型有多强,却不太愿意完整披露模型有多安全、多公平、多透明。
风险已经在现实中累积。人工智能事件数据库显示,2025年记录到362起AI事件,高于2024年的233起。模型幻觉仍是突出问题。

在一项准确率基准测试中,26款主流模型的幻觉率在22%至94%之间。更微妙的是,模型难以区分“知识”和“信念”。当虚假陈述被表述为他人观点时,模型还能较好处理;但当同一虚假陈述被表述为用户观点时,模型表现会大幅下降。这意味着模型不只是会编造信息,还可能受到提问方式和用户立场的影响。
企业层面的治理意识确实在提升。2025年,AI专属治理岗位增长17%,尚未制定负责任AI政策的企业占比从24%降至11%。
但落地仍然受制于现实条件,主要障碍包括知识缺口、预算限制和监管不确定性。很多企业不是不想治理,而是不知道怎么治理、没有足够资源治理,也不确定未来监管会如何变化。
监管框架也在转向AI专属体系。GDPR仍是被提及最多的监管影响因素,但影响力占比有所下降。与此同时,ISO/IEC 42001人工智能管理体系标准、NIST人工智能风险管理框架等更具体的AI治理工具开始进入企业视野。监管正在从隐私和数据合规,进一步走向模型开发、部署、监控和风险管理。
但更深层的挑战是,AI治理并不是单一指标最优化。安全、公平、隐私、可解释性之间可能存在冲突。近期研究发现,提升某一个负责任AI维度的训练技术,可能持续损害其他维度。例如,隐私增强可能削弱公平性,安全优化可能降低准确率。今天行业还缺少成熟框架来处理这些权衡。
透明度下降则让治理更难。基础模型透明度指数在2023年至2024年从37分升至58分,但2025年又降至40分。训练数据、计算资源和部署后影响的披露仍存在重大空白。

模型越被用于真实产业,外界越需要知道它的边界;但前沿企业越是竞争激烈,越倾向于隐藏关键细节。这种张力,将成为AI下一阶段最大的制度性难题之一。
04 钱还在涌入AI,但红利分配并不均匀
技术竞争之外,AI经济正在以前所未有的速度扩张。2025年,全球企业AI投资增长了一倍多,私人投资增长最快,增速达到127.5%,并占总投资的60%。生成式AI是这轮增长的核心,投资增速超过200%,几乎占据私人人工智能融资总额的一半。新获得融资的AI公司数量增长71%,十亿美元级融资交易数量几乎翻番。

但资金并没有均匀流向全球。美国在AI私人投资领域继续保持领先,投入资金是中国的23倍。在生成式AI领域,美国投资规模大幅超过中国和欧洲总和。这种差距显示,美国仍掌握全球AI资本市场的主导权。不过,私人投资数据可能低估中国AI支出,因为中国政府引导基金在过去二十多年中已向AI企业投入大量资金。美国更强在市场资本和云基础设施,中国则更多体现为产业政策、制造能力和应用场景的组合投入。
AI公司的收入增长速度也创下历史纪录。头部企业在短时间内实现了可观营收,但算力成本和基础设施支出同样飙升。云服务商加快资本开支,谷歌披露2025年年度资本支出超过1500亿美元。这说明AI商业化并不是轻资产神话,而是一场重资产竞赛。模型收入增长越快,背后的芯片、服务器、能源和数据中心投入也越大。
消费端已经证明AI具备真实价值。到2026年初,美国消费者从生成式AI中获得的年度消费者剩余估计达到1720亿美元,较一年前的1120亿美元明显增长,每位用户的中位数价值翻了三倍。更关键的是,这些工具大多仍免费或接近免费。AI正在像搜索引擎和社交网络一样,先通过低成本、高频使用形成普及,再逐步重构商业模式。
企业采用率也在提升。2025年,受访企业中AI采用率达到88%,70%的企业至少在一项业务职能中应用生成式AI。中国和欧洲同比增幅位居前列。但智能体应用仍处于早期,在几乎所有业务职能中的部署数量仍为个位数。企业已经接受AI工具,但还没有大规模把AI交给自动化流程和关键业务闭环。

生产力提升也并非无处不在。AI在结构化、可量化、产出易监控的工作中效果最明显,例如客户支持效率提升14%至15%,软件开发效率提升26%,营销成果提升50%。但在需要深度推理、复杂判断和长期经验积累的任务中,提升幅度较小。AI正在创造价值,但它首先改变的是流程清晰、数据可得、反馈明确的工作,而不是所有工作。
05 医疗AI走过炫技阶段,进入临床证据之战
医疗是AI最受期待、也最需要谨慎的领域。2025年,医疗AI在分子生物学、临床推理、临床记录、诊断辅助和健康搜索等方向都有明显进展,但一个核心问题越来越突出:模型的高分表现,并不等于真实临床效果。
在分子生物学领域,小模型的表现开始挑战“大模型崇拜”。MSAPairformer只有1.11亿参数,却在ProteinGym基准测试中超过以往领先方法;GPN-Star作为2亿参数的基因组学模型,性能超过一个400亿参数模型。这说明医疗和生命科学领域并不总是需要更大的通用模型,更小、更专业、更贴近领域数据的模型,可能反而更有效。

虚拟细胞模型成为新的前沿。Arc研究所的Evo 2、STATE以及DeepMind的AlphaGenome都指向同一个目标:在不进行湿实验室实验的情况下,预测细胞对药物和基因扰动的反应。如果这一路径成熟,药物发现和生物实验的成本结构将被重写。但现阶段,这些系统仍然需要实验验证,AI还不能替代真实生物学证据。
临床应用中,最先跑出来的不是最炫的诊断模型,而是能嵌入医生工作流的工具。2025年,能够根据患者就诊自动生成临床笔记的AI工具得到广泛应用。在多家医疗机构中,医生表示写病历时间减少最高达83%,职业倦怠感也显著下降,部分机构还实现了112%的投资回报率。
监管层面,AI医疗设备数量快速增加。2025年,美国FDA批准了258款AI医疗设备,但大多数通过无需开展新临床试验的渠道获批。绝大多数设备是通过设备改造途径进入市场,依赖现有安全性和有效性证据,而非新的随机试验。仅有2.4%的临床研究设备得到随机试验数据支持。这意味着医疗AI的商业化速度,已经明显快于临床证据积累速度。
诊断能力也在提升。微软AI诊断协调器搭配OpenAI o3模型,在复杂医学案例研究中获得85.5%的得分,而未借助辅助工具的医生仅为20%。多智能体框架相比单智能体基准模型,诊断准确率提升7%至60%以上。但这类结果仍需要谨慎解读,因为测试往往基于医学文献中的疑难病例,并不完全等同于真实医院环境中的诊疗流程。
与此同时,患者正在更早接触AI健康信息。如今,84%至92%的健康相关谷歌搜索结果顶部都会显示AI生成摘要。症状和常见健康问题最容易触发AI概述。这意味着很多患者在见医生之前,已经通过AI形成对疾病、治疗和风险的初步理解。问题在于,这些信息往往不经过正式医疗器械监管,却可能影响患者决策。
因此,医疗AI下一阶段的关键词不是“模型多强”,而是证据、治理和伦理。它需要随机试验、真实世界数据、临床责任边界和更充分的伦理讨论。AI对医疗的影响已经出现,但要真正规模化进入临床,不能只靠演示和榜单,必须经得起医学证据体系的检验。
06 写在最后:
把研发、技术、治理、经济、科学、医学和教育放在一起看,2025年的AI产业已经很难用“模型进步”四个字概括。
它当然还在变强。模型能力快速提升,中美差距缩小,视频模型开始理解物理规律,智能体开始完成复杂任务,AI也正在进入科学、医疗和教育等高价值场景。但与此同时,AI也变得更昂贵、更集中、更不透明、更依赖基础设施,并带来更多治理、能源、就业和公平问题。
这正是AI进入下半场的标志。上半场比的是谁能训练出更强模型,下半场比的是谁能把模型变成稳定、可靠、可监管、可商业化、可持续的生产力。
真正的产业价值,不会只属于参数最多、榜单最高的模型,而会属于那些能在真实场景中完成闭环的系统。它要接得住企业流程,扛得住医疗证据,经得起安全审查,解释得清成本收益,也能在教育和劳动力市场中创造新的能力,而不是简单替代旧岗位。
AI的故事还在加速,但它已经不再只是技术公司的故事。它是算力供应链的故事,是全球资本流动的故事,是科研范式变化的故事,是医生、教师、学生、工程师和普通用户共同参与的故事。
下一阶段,AI最大的悬念不是它能不能继续变强,而是它能不能被社会真正吸收,成为一种可信、可控、可分配的生产力。谁能回答这个问题,谁才真正站在AI产业的下一轮中心。

