大模型狂叠 buff、Agent乱战,2025大洗牌预警:96%中国机器人公司恐活不过明年,哪个行业真正被AI改造了?
来源:36kr 3 小时前

《2025 年度盘点与趋势洞察》是我们全年最重要的内容选题之一,由 InfoQ 技术编辑组策划。这次,我们将深入探讨了今年大模型、Agent、AI Native 研发范式、具身智能等方向发生了哪些深刻变化,并分析今年哪些行业有被 AI 真正改造,希望通过对重点领域的盘点观察,为大家梳理一年的科技圈发展脉络。

在此,特别感谢平安科技创新事业部线上用户运营 AI 产品团队总经理樊聪、昆仑万维董事长兼 CEO 方汉、传神语联合创始人何恩培、阿里云容器计算服务 ACS 技术负责人黄涛、Linux 基金会云与基础设施执行董事 Jonathan Bryce、光年褶皱 CEO 李元庆、记忆张量 MemTensor CTO 李志宇、智谱董事长刘德兵、擎朗智能战略技术官刘斐、真机智能董事长兼首席科学家刘智勇、面壁团队、上海云轴科技股份有限公司 CTO 王为、 百度智能云平台产品事业部算法架构师&千帆策略部负责人吴健民、 明略科技创始人 CEO 兼 CTO 吴明辉、无问芯穹联合创始人兼首席执行官夏立雪、北京智源人工智能研究院具身数据负责人 & 北京大学多媒体信息处理全国重点实验室副研究员姚国才、智象未来 (HiDream.ai) 联合创始人兼首席技术官姚霆、阿里云智能容器服务高级专家 & OpenKruise Agents 项目发起人张振、 中关村人工智能研究院副院长 & 北京中关村学院副教 郑书新、授 阶跃星辰系统负责人朱亦博、豆神教育 AI 事业部研发总监朱智胜等专家的深入分享(嘉宾排名不分先后,按姓名首写字母排序),你们在各自领域的洞察和思考帮我们厘清技术脉络,对未来发展充满期待。

2025 年,谁的主场?

作为顶流的 OpenAI,在 2025 年经历了阵痛与转型。一方面,其维持着通用大模型能力的上限位置,其模型在推理、代码、多模态等多个维度持续作为行业对标对象;另一方面,GPT-5 的发布并未带来预期中的代际震撼,后续发布也相对平淡。但它依然拥有全球最高的 C 端用户量,短期内依然保持入口级地位和用户心智优势。

对比下,在经历 2024 年的被动追赶后,Google 在 2025 年打了一场漂亮的翻身仗,技术能力全面回归主舞台,Gemini 3、Nano Banana 等为其赢得了获得众多用户,并通过搜索、办公和云产品形成有效分发,形成了良性联动。

Anthropic 则是今年最稳健的玩家之一。依托 Claude 系列模型能力持续迭代,其在开发者群体中的口碑持续上升。此外,通过与 AWS 等云厂商的深度合作,Anthropic 在 API 业务的规模和增速上实现了对 OpenAI 的超越,逐步跑通了以企业和开发者为核心的商业路径。

国内,DeepSeek 无疑是 2025 年最具标志性的明星公司。R1 的发布及开源姿态,极大地活跃了 AI 中下游的创新生态。与此同时,MiniMax、智谱等公司开始冲击港股上市,在提振信心的同时,也暴露出大模型行业普遍面临的现实问题:投产比偏低、亏损压力大、商业化仍在探索之中。资本市场正倒逼行业从“拼规模”转向“拼可持续性”。

整体来看,2025 年是一个格局重新站稳、路径逐步分化、行业开始直面商业现实的关键年份,竞争焦点正从模型能力本身,转向系统能力、生态位置与长期演化能力。

什么样的公司能跑出来?

面对今年快速演进的行业格局,全球科技公司都在兴奋与焦虑中负重前行。

压力主要源于两个层面:一是以 DeepSeek 为代表的推理范式和智能体应用前景的爆发,推动技术栈、组织架构与商业逻辑发生连锁转型,引发业界对自身速度能否跟上范式迁移的普遍焦虑;二是技术节奏加快与商业回报不确定性同步放大,公司既要持续投入算力与系统建设,又必须面对成本、现金流和落地周期的现实约束,包括对 POC 项目收益的严格审视。与此同时,技术路线本身也在分化,如何区分长期能力建设与短期跟风,对管理层的判断提出了更高要求。

在应对策略上,行业整体呈现出更理性的转向:从单纯追逐参数规模或热点概念,转向更强调系统效率、真实场景与可持续的技术积累。企业一方面持续投入前沿研究与开源,确保技术不被锁死,另一方面坚定推动 AI 规模化应用。

而对于国内从业人员来说,整体状态可以用“压力不小,但方向更清楚”来形容,节奏确实更紧张,但很多工程师也意识到,行业正在从早期红利阶段,走向真正拼工程、拼长期价值的阶段,这种转变反而让一些人更专注、更务实。大家更关注真实用户反馈而非技术自嗨,对 AI 商业化进入深水区有清醒认知。

昆仑万维董事长兼 CEO 方汉总结,今年跑出来的,不是“讲故事”的公司,而是两类能力成立的公司:第一类是高频刚需场景,如 AI 社交、短剧、音乐等需求密集场景,天然适合模型规模化应用,容易形成留存与付费闭环。其关键不是生成能力,而是持续使用价值;第二类是成本结构被 AI 彻底改写的公司,AI 将内容或服务的边际成本压缩 1–2 个数量级,直接改变行业定价逻辑。这类公司不是“效率提升”,而是商业模型重构。

而明显落后的公司类型包括:

通用型 AI 助手:缺乏垂直数据和结果闭环,商业化长期停滞。

只做模型、不做产品的公司:在非代码、非数学场景中,智能不可验证。

靠融资续命、缺乏付费能力的 AI 创业公司:资金环境收紧后迅速暴露问题。

反应迟缓的传统软件公司:流程未被 Agent 化,效率被 AI 原生团队反超。

当前,行业的深层次变化已十分清晰:竞争正从“算法主导”转向“算法 × 产品并重”。AI 已经实质性重构内容生产、研究分析和部分办公流程,“几天→几分钟”开始成为常态。如果把模型制造和使用方当作一个整体玩家,会发现从去年到今年初,基本全部算力资产都配置在了“如何造模型”,而今年开始“如何用模型”的算力起量。

行业共识正在从“模型多强”转向“流程是否可验证、结果是否可复用”。部分创始人认为,当产品负责人在组织中的话语权逐渐比肩算法负责人时,AI 才真正步入以应用价值为核心的下半场。

智象未来 (HiDream.ai) 联合创始人兼首席技术官姚霆直接指出,对于模型研发公司来说,模型和商业化一直会是两个最大的挑战,这两个挑战让底层模型架构的突破变成必选项,模型公司不能像过去那样不断优化数据和推理来解决用户的问题,而是要在架构上做出突破、敢为人先。

而根据无问芯穹联合创始人兼首席执行官夏立雪的观察,在同一个行业中,自一号位开始认真拥抱 AI 的,明显已经在自己的业务流中找到了许多落地机会,因此,决策人的认识是未来拉开差距的关键点。

与硅谷的竞赛

回顾这一年的全球 AI 竞赛,国内前沿 AI 在整体能力上取得了实质性进展。无论在基础模型能力、多模态理解还是推理效率与工程化落地层面,均呈现出明显跃升。以 DeepSeek-R2、Qwen3 系列等模型为代表,国内团队已不再简单跟随既有路线,而是在模型规模、效率与成本之间探索出更具可行性的平衡方案,逐步形成了以成本控制、系统优化和应用适配为核心的差异化优势。

若进一步审视国内 AI 是否已在整体上全面赶上硅谷,则需冷静分层看待。在部分通用能力与工程执行层面,差距正在迅速缩小,某些特定场景已具备直接竞争力;然而,在长期基础研究积累、原创智能范式探索以及面向下一代智能的系统性布局上,整体仍存在差距。就像 DeepMind 联合创始人兼 CEO Demis Hassabis 说的,西方依然在 AI 算法创新方面占优势,但领先优势可能只剩“几个月”,而不是“几年”。

记忆张量 MemTensor CTO 李志宇认为,这种差距并不令人悲观,反而体现了全球 AI 竞争正进入更健康的阶段:从早期对单点能力的简单对标,转向技术路线、系统能力与演化路径的分化竞争。未来的胜负关键,不再是复制速度,而是能否在自身的技术土壤与应用环境中,构建出可持续、可演化的 AI 体系。

值得关注的是,中国 AI 模型正被真实引入全球生产环境,而不仅停留于试验阶段。OpenRouter 与 a16z 近期报告显示,全球开源模型使用量的显著增长,与 DeepSeek V3、Kimi K2 等国内开放模型的发布高度同步且持续。这与国内企业今年多次海外交流的体感一致,表明中国 AI 已开始从解决既有问题转向定义新问题、新赛道与新竞争规则,这本身即是全球技术格局变化的重要信号。

总的来说,当前国内 AI 已在应用层快速迭代与开源生态投入上建立起较清晰的优势基础。同时必须承认,在最顶级闭源模型能力与原创智能范式的突破上,硅谷依然领先。这一差距的本质并非工程能力不足,而更多源于长期基础研究所需的时间投入与试错容错空间。

大模型向“更可用”进化,

价格战或延续

和去年相比,大模型最明显的变化不是“更聪明”,而是开始变得“更可用”。

今年大模型在复杂指令理解、多步推理稳定性,以及跨模态任务的一致性上都有肉眼可见的进步,尤其是在不依赖极端 Prompt 情况下完成整个任务链,这是一个很重要的信号。但更关键的变化是在技术路线上,即从训练时把模型做大,转向运行时让模型用得更好。

一方面,强化学习、测试时计算、显式推理结构被大规模引入,用来补足纯预训练的不足;另一方面,记忆、工具调用和系统编排开始成为核心能力。这意味着模型能力的提升,正在从一次性的参数写入,转向可持续的系统演化。

大模型能力跃迁的一个显著事实是,模型性价比曲线正在被系统性重写。

阶跃星辰系统负责人朱亦博指出,如今训练一个激活参数规模约 10B 的模型,其整体能力已经可以超过 2024 年激活参数在 100B 以上的模型。一年内接近 10 倍的性价比提升,是算法、数据、系统与工程能力协同进化的结果。

这一变化并不意味着 Scaling 失效。相反,多数专家认为,更多数据、参数规模和更多计算,依然是当前提升基础模型能力最有效的通用路径。无论是语言模型还是多模态模型,过去一年的实验反复验证,只要数据质量、训练方法和工程能力能够跟上,模型规模继续扩大,整体能力仍然会上升,只是单位成本所换取的收益正在快速下降,经济回报曲线变得愈发平缓。

这一背景下,Scaling up 不再是一个可以独立成立的答案。李志宇指出,当前许多瓶颈并不来自模型“不够大”,而是模型无法高效利用已有信息,例如在长上下文下的稳定性、跨时间的一致性以及复杂任务中的持续推理能力不足。多模态的发展放大了这个问题,输入更长、信息更杂、状态更多、参数更大,但真正可用、可持续的智能比例并没有同步提升。所以,他更倾向于认为,我们正在进入一个“Scaling 仍然继续,但对象正在发生变化”的阶段,下一步真正拉开差距的是能找到值得 Scaling 的点,比如基于动态应用场景的记忆去做 Scaling。

姚霆进一步指出,多模态领域的 Scaling 同样呈现出分化趋势。一方面是“深度 Scaling”,即在单一多模态任务上通过扩大模型参数提升能力,但这会显著增加训练与推理成本,因此必须与高质量数据和架构层面的优化协同推进;另一方面是“广度 Scaling”,从垂直场景和商业落地视角出发,在不同多模态任务之间进行能力扩展,这种横向扩展往往带来更大的惊喜,例如在统一架构下实现多模态理解与生成的融合。

但可以肯定的是,对于模型间的竞争,预训练和后训练都很重要,谷歌方也透露 Gemini 3 变强的核心就在于此。不过,明略科技创始人、CEO 兼 CTO 吴明辉指出,模型训练方向正在分化:通用 SOTA 模型的叙事不再重要,更重要的是在特定领域、特定任务上实现差异化的 SOTA 能力。在其看来,这意味着垂直领域专用模型将大量涌现,通用大模型的竞争优势减弱。

另外,工程能力成为提升模型能力的一大重点。有传言 Gemini 3 的成功有很大一部分归功于修了若干重大 bug。朱亦博表示,大模型厂商的工作进入了拼工程化的时代,而非重大创新主导。拼工程化也意味着更进入拼集团军作战、组织能力的阶段,而非靠少数几个 super star。

与此同时,今年深思考模型与 Agent 的快速演进不断刷新智能能力上限,强化学习(RL)在这一轮爆发中发挥了决定性作用,但其发展同样存在结构性限制。面壁团队指出,目前大多数强化学习训练仍停留在几千步量级,距离跑通稳定的 RL scaling law 还有相当距离,如何让强化学习长期、稳定、可扩展地训练下去,依然是行业正在探索的核心问题。

尽管如此,强化学习已经证明,只要具备足够的数据和高质量反馈,它几乎可以在任何任务上达到人类前 0.1% 甚至 0.01% 的水平,这也意味着未来一旦有企业在某个垂直领域积累起足够的数据,就可能用 RL 打造出该领域的“超级专家模型”。

另外,“大规模合成数据替代人工数据”正在发生,但并非完全取代。合成数据确实已经成为高质量训练数据的重要来源,单纯依赖人工标注既慢又贵,且一致性很难保证。真正高价值的合成数据,并不是模型随便生成的,而是被严格约束、可验证、能放大信息增益的数据。在构建高质量推理数据集时,更关注:是否有明确的推理结构,比如中间状态、决策分支和失败路径,而不是只给最终答案;是否引入了对抗性和反事实设计,刻意逼模型暴露盲区,而不是强化它已经会的模式。

Transformer 依然是核心基础

在“后 Transformer”时代,大模型领域不断有“新架构”被提出,并在部分任务上取得了亮眼效果。但从整体格局来看,Transformer 的基本范式依然占据绝对主流。多数所谓的新架构,本质上并非对 Transformer 的颠覆,而是围绕其关键组件所做的工程化改良,例如稀疏注意力、线性注意力等机制的引入。因此,在可预见的未来,Transformer 仍将是大模型的核心基础,真正意义上的架构级革命,可能还需要更长时间的酝酿。

当前围绕 Transformer 的几乎所有演进,实际上都是在 FFN(前馈网络)和注意力机制这两块上展开的。

在 FFN 方向上,业界已经形成了较为明确的共识:通过 MoE 对 FFN 进行稀疏化,是提升规模效率的关键路径。这也是 DeepSeek 的一个重要贡献,它在大规模实践中证明了 MoE 并非只在中小模型上有效,也可以稳定地扩展到超大模型规模,这也加速了 MoE 成为主流选择。

今年 MoE 的迅速普及,本质上是被成本与规模双重压力逼出来的工程选择。随着模型规模持续扩大,单一稠密模型在训练和推理上的成本已经接近不可接受,而 MoE 通过“只激活少量专家”的方式,在参数规模与实际算力开销之间找到了现实可行的平衡点。但需要强调的是,MoE 并未改变大模型的智能范式,更多是一场效率层面的重构,而不是认知能力层面的跃迁。

相比 FFN 的方向逐渐收敛,注意力机制仍处于高度活跃的演进阶段。今年,无论是开源还是闭源模型,都在持续探索更高效的注意力结构,例如 Gemini 系列采用滑动窗口注意力与稠密注意力的混合架构;Qwen3-Next、Kimi Linear 引入 DeltaNet 等线性注意力机制,并与稠密注意力混合使用;DeepSeek 最新提出的 DSA 等新型注意力设计。

一定程度上,这些探索主要源于厂商对 Agent 化与深度思考场景的需求:Agent 既需要处理超长输入,也需要生成更长、更复杂的输出,而当前 Transformer 架构有一定局限性。

更适配 Agent,记忆必备

Agent 已成为业内公认的大模型下一阶段核心主赛道。无论是谷歌、Manus 追求的 24 小时通用智能体,还是 Anthropic 重点发力的方向,均指向同一核心目标:让模型具备长期、自主完成复杂任务的能力。

这一趋势背后的关键逻辑是,大模型单点能力的提升已难以形成压倒性优势,真正的价值差距正体现在智能体能力的构建上,这也成为大模型竞争中最现实、最易拉开差距的方向之一。

然而从客观情况看,现有模型的推理能力仍不足以支撑真正意义上的自主 Agent,瓶颈在于长期运行下的稳定性与可持续性:现在模型易出现漂移、遗忘,在长链路决策中还会逐步失真。这也导致当前多数 Agent 仍依赖“系统兜底、模型执行”的模式,而非模型本身具备完整的自主智能。

百度智能云平台产品事业部算法架构师、千帆策略部负责人吴健民指出,大模型要更好支撑 Agent,仍需跨越多重技术门槛:首先,通用模型难以泛化到不同的 Agent 垂直场景,不同 Agent 的场景设定、可用工具及运行环境差异显著,通常需要对模型进行场景定制;其次,不同场景的效果评估标准(reward)差异大,既难以清晰定义,也难以实现自动评估;再次,真实场景的 Agent 运行环境复杂,涉及多模块、外部接口、工具、数据库及登录验证等多种外部依赖,训练过程中需保证这些依赖正常访问,技术挑战重重;与此同时,支撑模型持续进化的高效、高吞吐的强化学习框架仍有较大提升空间,当前开源框架尚无法满足工业级需求。

因此,未来智能体赛道的竞争关键,不仅在于模型本身,更在于围绕模型构建的记忆、推理及系统架构能力。在此背景下,大模型至少需要在三个方向上系统性优化:其一,推理模式从一次性回答转向过程可控,能够稳定完成多步决策、反思与修正;其二,长上下文状态理解与保持能力,对任务目标、环境变化和历史行为形成持续感知;其三,提升模型与工具、环境及记忆系统的协同能力,避免将所有复杂性压缩进单次推理过程。

记忆是应用到真实环境的必备能力。李志宇认为明年大模型竞赛的核心就在于“记忆能力如何完成一次系统性升级”。过去模型主要依赖参数记忆,把能力一次性写死在权重里,一旦进入智能体、长期任务和复杂应用场景就会遇到天花板。根据其观察到的技术演进趋势,这是从底层算力和 KV Cache 等激活记忆管理开始,到基模型层引入记忆原生机制,再到上层通过显式记忆支撑 Agent 和应用的长期运行能力。其本质上是一条从 Infra 到模型、再到应用的完整记忆技术栈升级,带来的不是 benchmark 上的小幅提升,而是智能形态本身的跃迁。

其中,上下文长度决定模型的记忆容量,而 Agent 完成复杂任务需经过多轮环境交互,反馈信息会持续进入上下文,因此模型必须具备足够的长上下文理解能力。

围绕上下文问题,当前主要有两类路径:一类是工具辅助,通过类似“翻记事本、查资料”的工具放大记忆,无需将全量长内容纳入上下文即可完成任务;另一类是架构优化,通过稀疏注意力机制提升长上下文处理效率,例如 DeepSeek 的 MLA 强调全量快速浏览,Kimi 的 MoE 路线则聚焦重点信息的精细处理。采用 MoE 架构的代价则是预设稀疏结构带来的归纳偏置,可能在部分任务上造成效果折损。

另外部分专家认为,通用 Agent 仍较为遥远。当前阶段的核心研发重点,是深耕特定专业场景,让模型在细分领域的效果超越人类,这一方向将长期成为行业主流。

多模态推理融合

当前,业界对原生多模态理解差异比较大。智象未来算法科学家潘滢炜将多模态模型的演进主要分为两条主线:图像生成模型和视频生成模型。整体来看,视频生成模型的演进略滞后于图像生成模型,核心原因在于视频是帧的序列,相比图片多了一维时空复杂度,技术实现难度更高,但两条主线的纵向变革速度均极为迅猛。

从年初 GPT-4o 带来的“吉卜力时刻”,到 Nano Banana Pro 推动图像生成从“美感导向”转为“指令遵循 + 信息承载”的精准信息图生成,再到 Veo 3 在音画同步上的出色表现,多模态模型正重塑行业认知与应用边界。尤其 Nano Banana 表现出来的模态融合能力,即能够同时接收并生成文本、图像、视频和音频内容,成为重要方向。随着模型能力的提升,跨模态之间相互促进的效果愈发明显。

在视觉生成技术层面,吴健民表示今年该方向出现了明显的演进:从早期的 Stable Diffusion,到中期的自回归(Auto-regression)方式探索,逐步收敛至以流匹配(flow matching)为主流的建模方案。

当前多模态理解大模型的主流路线,仍是先训练语言模型,再通过视觉编码器进行“嫁接式”联合训练,以实现对视觉像素输入的理解,各种 VLM 模型结构都收敛到这一个方向。但这一方案面临两大根本挑战:一是视觉信号信噪比低、噪声大,难以像语言模型训练数据那样高效规模化;二是训练依赖高质量图文对齐数据,而此类数据主要通过 Recaption 等合成方案生成,高质量规模化获取难度大。

今年以来,多模态能力已逐步成为大模型推理能力中不可或缺的一部分,并开始影响其整体推理范式,如 DeepSeek OCR 利用图片实现长文本压缩等。但与此同时,多模态数据的大量引入,也给大模型带来了三方面新挑战:模型结构需尽可能支持原生多模态输入输出;训练方法需平衡各类不同任务,确保模型在各任务中均能达到一定收敛程度;数据层面需进一步提升广度与精度,既要涵盖各类多模态推理任务,也要依靠高质量精品数据在训练后期提升模型推理能力。

与此同时,业界开始尝试将推理能力更深度引入生成系统中,以突破传统单一生成架构在复杂控制、一致性与可预测性上的限制。这一思路的核心在于,将多模态 token 融入统一的计算图中。但下一代范式是否会走向“原生编码”,即图像与视觉信号无需独立编码器,直接接入统一 Transformer 实现原生多模态交互,仍需探索。

尽管当前视觉生成模型多以专精模型为主,但行业的核心探索方向已转向“生成与理解统一建模”。不少机构认为,这一方向有望实现“世界模型”,但目前该方向仍处于开放探索阶段,尚未形成成熟方案。

从更长远的演进逻辑看,大模型发展呈现出清晰的升级脉络:从语言模型到多模态模型,再到世界模型,其本质是大模型对真实世界建模能力的持续升级。具体而言,语言模型的核心是理解人类符号”,多模态理解模型聚焦“感知世界表象”,多模态生成模型致力于“模拟世界表象”,而世界模型则以“掌握物理规律和因果关系并与之交互”为核心目标。这一演进路径被认为是通往 AGI 的必经之路。

开源、商业与落地

随着各家模型能力差异缩小和模型的开源,仅售卖纯模型 Token 无法获得企业的溢价认可。部分专家认为,如果模型无法形成代际差,低价趋势会延续到明年,甚至愈演愈烈。同时,当部分国产卡下场且效率提升之后,由于算力补贴的存在,这个价格将会逼近冰点,甚至越用越亏。

而价格战主要还是倒逼模型厂商去持续加速:一是加速研发新模型形成短暂的版本优势;二是加速模型的推理时间;三是加速模型架构的升级,引入性价比更高的架构设计来降低成本。模型厂商可能需要考虑的是,如何在现有的纯模型 Token 售卖模式上提供增值服务,比如 MCP 增值服务、记忆增值服务等等,通过额外的能力提升来提供纯售卖 Tokens 的溢价空间。

此外,今年国内的开源态势发展迅速,每家厂商几乎都有开源模型发布,这也给企业带来了很多商业上的收益。智谱董事长刘德兵表示,其大量付费用户就是从开源用户转化而来。另外,开源引起整个产业发展后,企业客户对模型成果更容易理解,易于双方沟通,也帮企业节省了大量的市场推广成本。

在应用端,B 端和 C 端之间界限越来越模糊,总体都可以归为内容生成者,真正的海量 C 端其实是内容的消费者。商业模式的创新就从售卖 API 提升到了售卖结果:以前 B、C 两端都是积分制,本质就是价值折算的积分,但是大家正在不断探索按照结果来付费。

总体来看,普遍认为,明年大模型竞赛的核心,除了技术能力,更多会转向“价值落地能力”,类似比拼“行业收入规模”和“客户留存率”。谁能更快将技术转化为行业实效,谁就能占据先机。

姚霆认为,下一次“代际飞跃”很可能来自两个方向:一是新颖的用户交互体验。今年 Agent 相关的应用出现了爆发式增长,这代表了用户在认可大模型能力的同时,又对 AI 应用的交互体验提出了更高要求,这催化大模型从单一的原子能力向完整解决方案提供者演变。

二是专业级能力的大众化。目前大模型能力对于专业从业人员来说已经达到一个很惊艳的程度,但是对于大众来说还是存在一些使用上的“困难”,这种困难可能来自高昂的推理成本、编写专业级 prompt 的入门难度,以及缺乏大模型使用经验以及思维,而下一次飞跃可能就来自于如何拉近大模型对于大众的隔阂,出现真正的全民级 AI 应用。

这也意味着,大模型公司正在变成系统公司。单靠一个模型,已经很难支撑真实世界里的复杂应用,现在决定体验和成本的,越来越多来自模型之外的系统能力,比如推理引擎怎么调度算力、数据如何持续进入并形成正反馈、Agent Framework 能不能稳定地执行长链路任务等。

2025,Agent 开始

真正进入软件世界

年初,很多开发者第一次意识到 Agent 可能不是 PPT 概念,而是一种正在成型的软件形态,是在 Manus 刷屏的那几天。

社交平台上充斥着“它能自己拆任务”“像一个真正的数字员工”的演示视频,产品经理在转发,创业者在拆解,投资人开始追问:Agent 会不会成为 AI Native 的第一个杀手级应用?

那一刻,Agent 被寄予的期待,远不只是一个更聪明的 Chatbot,而是一次对“软件如何运行”的重新想象。

所以现在回头看,Manus 的爆火更像是一场提前到来的预告片。它并没有直接定义 Agent 的终局形态,却成功点燃了整个行业的想象力——原来模型不只是“回答问题”,而是可以被组织成一个能持续行动、调用工具、承担职责的系统。

正是从 Manus 开始,2025 年的 Agent 市场迅速进入加速期:从单体 Agent 到多 Agent 协作,从 Demo 到真实业务,从创业公司到大厂全面下场,一条清晰的技术与产品分化线,开始浮出水面。

从“会对话”到“能干活”

回顾过去一年 Agent 技术的发展,一个最直观的变化在于:AI 的角色从“回答问题”转向了“完成事情”。

在没有 Agent 之前,大模型更多承担的是认知与表达层面的工作,输出文本、代码或建议,但很少真正介入任务执行链路。而 Agent 的引入,使模型具备了感知外部环境、理解复杂需求并主动调用系统能力的可能性。这种变化并非简单的功能叠加,而是一次软件构建范式的跃迁——AI 从一个工具,开始变成一个可嵌入业务流程的执行组件。

那为什么这类 Agent 产品是今年才真正跑出来?

中关村人工智能研究院副院长、北京中关村学院副教授郑书新认为,这其中的原因并不在于技术本身,而在于“落地需要时间”。

郑书新用一个更形象的比喻解释了这种现状:“汽车发动机发明之后,并不是马上就能满街跑汽车,中间可能隔了六十年。因为还需要有变速箱、轮子、车身、方向盘,还需要建修路、高速公路,以及一整套配套基础设施。这不是技术没有突破,而是从技术到大规模落地,本身就有一个必经的过程。”

从技术脉络上看,这一过程不是一蹴而就的,而是由一系列关键事件逐步推动。

首先是协议与标准的出现,使 Agent 从“各自为战”走向可规模化协作。以 MCP(Model Context Protocol)为代表的模型上下文与工具调用协议,虽然在更早时间点提出,但在今年迎来了真正的应用爆发。基于统一协议,Agent 可以通过标准化接口访问外部系统、工具与服务,这直接降低了应用层的构建成本,也促使大量企业开始围绕 MCP 构建自己的 Agent 网关与服务生态。在大型企业内部,这种趋势尤为明显,Agent 不再是单点试验,而是开始进入平台化孵化阶段。

紧随其后的,是 Agent 与 Agent 之间的协作问题被正式摆上台面。今年 Google 推出的 Agent-to-Agent 通信协议,标志着多智能体系统开始走向标准化协同。过去,多 Agent 协作往往依赖定制化对话逻辑或硬编码工作流,扩展性与稳定性都受到限制。而统一通信协议的出现,使不同来源、不同角色的 Agent 能够在清晰语义边界下进行协作,为复杂任务拆解、分工与复用提供了基础条件。这一变化的意义在于,Agent 不再只是“单兵作战”,而是开始具备组织化、系统化运作的可能。

与此同时,业界对 Agent 的关注也从“交互层协同”进一步下沉到“基础能力建设”。无论是围绕安全沙箱、执行隔离的探索,还是围绕工具调用、状态保持与任务规划的系统化设计,都指向一个共识:真正可用于生产环境的 Agent,必须具备比 Demo 更严谨的工程基础。

Agent 不只是一个会“思考”的模型实例,它同时也是一个需要被运维、被监控、被审计的运行时系统。

正是在这一背景下,Agent 技术在今年呈现出明显的“上下分化”趋势。一方面,应用层创新异常活跃,尤其是在编程、运维、客服等高频场景中,Agent 已经开始创造可量化的业务价值。以编程领域为例,围绕代码生成、单元测试、Bug 定位与修复的 Agent 工具,在成熟的软件工程体系配合下,显著提升了研发效率。对于开发者而言,过去需要数十分钟甚至数小时完成的工作,如今往往只需简单校对即可完成,这种效率提升是真实且可持续的。

另一方面,平台层与基础设施层的竞争正在悄然加剧。随着 Agent 开始深入企业核心系统,对资源调度、安全隔离、成本控制与可观测性的要求迅速上升。尤其是在涉及代码执行、数据访问等高风险场景时,Agent 必须运行在受控的沙箱环境中,这对底层沙箱 Infra 提出了极高要求。如何在保证执行自由度的同时,实现极速交付、状态保持和多租户隔离,成为云厂商与平台型企业投入最多工程资源的方向之一。

在此背景下, 沙箱的 Infra 在今年快速发展。以 E2B 为代表的沙箱服务,在今年随着 Manus 的爆火而迎来了真正的爆发。在年底的北美 KubeCon 上,谷歌也宣布开源了基于 k8s 的 Agent-sandbox 项目,尝试标准化基于云原生技术的沙箱 Infra。此后,诸如阿里云宣布开源的 OpenKruise Agents 等项目也开启了中国的云原生沙箱技术的序幕。云原生技术和 Agent 沙箱技术的结合, 将极大推动 Agent 应用的普及和发展。

只卖 Agent 能力将变得越来越难

这种结构性分化,也深刻影响了 Agent 创业生态的走向。今年不乏 Agent 创业公司快速走红,也不乏项目迅速退潮。复盘这些案例,一个共性问题在于:单纯售卖“Agent 能力”本身,正在变得越来越困难。随着开源模型、开源 Agent 框架与工具链的成熟,基础能力正在快速商品化。真正能够存活并成长的团队,往往不再强调技术本身,而是聚焦于是否能为客户创造明确、可量化的业务价值。

这也推动 Agent 的商业模式发生转变。过去偏工具化、订阅制的模式,正在向“结果导向”的自动化服务演进。企业不再仅仅为一个 Agent 平台付费,而是为“一个能完成具体工作的数字员工”买单。这种变化在企业内部同样显现:Agent 不再只是辅助工具,而是被赋予明确职责,嵌入既有流程,与人类员工协作完成任务。

在多 Agent 协作层面,现实也比想象更为复杂。理论上,多 Agent 分工协作可以显著提升复杂任务的完成能力,但在实践中,不清晰的角色定义、模糊的任务边界,往往会导致协作效率下降,甚至产生额外的推理成本。

多个 Agent 之间无效沟通带来的 Token 消耗,正在成为企业真实的成本压力。这促使业界逐步从“人格化 Agent”转向“系统化 Agent”,通过严格定义输入输出、工具权限与约束条件,让 Agent 更像模块化系统,而非自由对话的智能体。

放眼产业格局,不同类型参与者的分工正在逐渐清晰。大模型厂商凭借对模型能力的深度掌控,在 Agent 的规划、推理与工具调用层具备天然优势;云厂商则在基础设施、弹性调度、安全隔离与企业集成方面占据关键位置;而创业公司,则更多通过对垂直场景的深刻理解,在定制化解决方案与极致成本优化上寻找生存空间。三者并非简单竞争关系,而是在不同层级形成互补与博弈。

Agent 进入开放世界的能力,成最值得期待的突破

展望未来一年,Agent 技术最值得期待的突破,或许并不在于更炫目的 Demo,而在于其进入“开放世界”的能力。当 Agent 不再只在封闭测试环境中运行,而是开始面对真实系统的不确定性时,如何识别未知、如何在不完全信息下做出保守决策,将成为智能体走向成熟的关键一步。这一能力的突破,将直接影响 Agent 在机器人、自动驾驶、复杂业务系统中的应用边界。

从更长远的视角看,Agent 很可能不会以单一形态存在。它既可能以“数字员工”的形式嵌入企业流程,也可能演化为一种基础能力,像数据库或中间件一样,成为软件架构中不可或缺的一层。无论最终形态如何,可以确定的是:Agent 正在把 AI 从“智能展示”推向“智能执行”,而这一变化,将持续重塑软件、自动化与组织运作的底层逻辑。

在大模型浪潮之后,Agent 正在成为下一轮技术周期中,最值得持续关注的核心变量。

AI Native 元年:

软件工程正在被重新定义

要去盘点和总结过去一年 AI Native 相关技术的演进,就要弄清楚所谓的“AI 原生”到底是什么。

Linux 基金会云与基础设施执行董事 Jonathan Bryce 认为,AI Native 指的是一种从设计之初就将 AI(尤其是大语言模型等核心 AI 能力)作为其不可分割的基石和核心驱动力的应用程序、产品或系统。

Bryce 着重对 AI 原生应用的核心特征进行了阐述:其内部嵌有一个或多个模型,能够回答问题、进行预测、处理自然语言或多模态输入;同时,其交互方式更贴近“人与人沟通”的多通道、多模态体验,而非传统网页“点选与输入”式的二维界面。

他将这种演进类比于 Web 的发展历程:早期 Web 仅提供静态页面;随着 LAMP(Linux、Apache、MySQL、PHP)等技术栈的出现,网页首次具备动态程序能力,支持缴费、通讯、社交等功能;而 AI 原生应用则在此基础上,进一步融入模型带来的“可对话、可感知、可预测”的动态行为,从而开启全新的交互与应用范式。

AI Native 在 ToB 领域“热度高、落地慢”

事实上,过去一年,“AI Native”从一个偏概念化的技术标签,逐步演变为影响软件工程全链路的现实力量。

从整个宏观视角来看,与早期“在应用中接入大模型 API”的尝试不同,AI Native 关注的核心问题是:当 AI 成为系统的默认能力,而非外挂组件时,软件应该如何被设计、构建和运行。这一变化并非剧烈爆发,而是以工程实践为主线,在底层技术、中间架构与业务应用中持续渗透,悄然重塑着传统软件的基本假设。

如果从应用规模和市场成熟度来看,2024 年至 2025 年这一阶段,AI 在 ToC 领域的渗透显然更快,而 ToB 领域则呈现出“热度高、落地慢”的特征。多家研究机构的统计显示,过去一年企业级 AI 应用数量同比增长超过 60%,但其中超过一半仍集中在编程辅助、内容生成、数据分析与内部效率工具等轻量级场景,真正成为“系统级核心能力”的 AI 应用仍属少数。这也解释了一个看似矛盾的现象:AI 无处不在,但 AI Native 应用仍然稀缺。

正是在这一背景下,AI Native 的工程挑战开始逐步显现。

采访中,上海云轴科技股份有限公司 CTO 王为提到,这种工程挑战在开发者群体和非开发者群体中呈现不同的变现形式。

第一类典型用户,是对 AI 能力高度依赖的行业客户,例如多媒体、内容生产、智能分析等场景。在这些系统中,模型、算力和数据不再是松散解耦的资源,而是形成了高度耦合的运行整体。模型版本的更新可能直接影响业务逻辑,推理成本的变化会反向制约产品形态,系统状态也不再仅由代码决定,而是受到模型输出不确定性的持续干扰。这些问题,几乎都超出了传统软件工程中“接口 + 状态机”的经典设计范式。

与之形成对比的,另一类数量更多、但复杂度不同的用户群体——低代码或半低代码平台上的 AI 应用开发者。这类用户并不追求极致模型能力,而是希望在既有系统边界内获得“足够聪明”的 AI。挑战在于,在严格的网络隔离、权限控制和数据合规要求下,模型往往难以获取完整上下文,最终智能水平受限。这并非简单的工程实现问题,而是企业治理逻辑与 AI 认知模式之间的结构性冲突。因此,AI Native 并没有带来立竿见影的统一解法,而是呈现出明显的场景分化。

那么,有没有能够缓解上述问题的解法呢?答案是有的 。

正因为底层复杂性显著提升,越来越多团队选择了一条更为务实的路径:不推翻原有系统,而是在其之上逐步“AI 化”。这意味着,AI 更像是一个协作层、决策层或增强层,通过 Agent、插件或工作流嵌入现有系统。这种渐进式演进,使 AI Native 不再是“重构一切”的高风险工程,而是可控的持续演化过程,也更符合大多数企业的风险偏好。

当视角从技术架构转向业务层面时,AI 对传统业务逻辑的影响则显得更加克制。

过去一年,低代码平台叠加 AI 的尝试,在商务支持、教学辅助、销售跟进等场景中取得了一定进展,尤其是在信息整理、总结生成、流程辅助等环节。但从整体来看,AI 对核心业务系统的改造仍然偏慢。无论是 CRM、HR,还是财务与供应链系统,其核心逻辑高度稳定,用户迁移成本极高,这直接削弱了 AI “重塑系统”的现实动力

在王为看来,这一趋势在投资层面体现得尤为明显。与 2023 年相比,2024 年国内资本对 ToB AI 的投入明显趋于谨慎。一方面,二级市场表现低迷、海外上市通道收紧,压缩了长期技术投资的回报预期;另一方面,部分 AI 企业上市后的业绩表现未能与估值匹配,也进一步放大了风险认知。

相比之下,资本更倾向于支持“能快速体现效率收益”的 AI 产品,而非周期更长的系统级重构。

但需要强调的是,投资降温并不等同于应用停滞。恰恰相反,AI 正在企业内部以一种更低调但更深层的方式扩散。AI 编程工具在研发团队中的渗透率持续上升,多项行业调查显示,在中大型技术团队中,超过 70% 的工程师已将 AI 作为日常开发工具。这显著提高了开发效率,同时也改变了工程能力结构,使部分中级工程职能被重新定义,甚至被压缩。

AI 对研发流程的重塑进入不可逆阶段

随着 AI 深度嵌入研发流程,传统 SaaS 架构和 API 调用模式也开始暴露出新的瓶颈。模型调用接口如何设计、上下文如何裁剪、缓存与成本如何平衡,逐渐成为系统稳定性和可扩展性的关键因素。

在实际落地中,多模型协同已成为事实标准,通过在不同任务中动态调度能力更强或成本更低的模型,实现性能与成本之间的平衡。这一模式正在从工程实践演化为平台级能力。

上下文管理问题同样值得关注。实践表明,模型上下文并非越长越好,冗余信息反而会削弱推理效果。目前多数团队采取“先堆功能、后治理”的策略,在系统尚未稳定前,很难精细化控制上下文长度与信息密度。但可以预见,随着 AI 应用规模扩大,上下文压缩、信息筛选和记忆机制,将成为 AI Native 架构的核心竞争力之一

在高代码场景中,AI Native 的方法论相对更加成熟。通过引入内存系统、文件系统协同、自动上下文压缩等机制,开发者逐步形成了一套“分而治之”的工程实践。多个 Agent 协同工作、各自承担明确职责,可以显著降低单一模型的上下文负担,同时提升整体系统效率。无论是自动修复前端错误、代码质量评审,还是新闻聚合和数据分析,这种模式已经在多个真实场景中验证了其可行性。

从更宏观的角度看,AI 对研发流程本身的重塑已经进入不可逆阶段。AI 不仅参与代码生成和评审,还开始介入需求理解、角色扮演和方案推演。未来,越来越多传统应用可能会逐步迁移到 AI 架构之上,但这一过程更像是“架构演进”,而非“系统替换”。在这一过程中,业务架构层面的权限治理和数据管理,与技术架构层面的模型选择、框架取舍,将同时成为决定成败的关键因素。

随着系统复杂度持续上升,可观测性成为 AI Native 的基础能力之一。模型调用次数、成功率、失败原因、工具链调用关系,以及敏感数据审计,正在成为企业级 AI 应用的标配要求。可以预见,在未来一到三年内,全 AI 架构的探索将进一步深化,部分系统规划和子任务运行,可能完全由智能体完成。

进一步向下看,AI 也正在推动操作系统与基础设施层的演进。AI 擅长解决可评估、可量化的问题,这使其在编程和数学领域进展显著。但在更复杂、难以定义标准的任务中,AI 仍然主要作为辅助工具存在。从基础设施角度看,模型管理、多模型调度、推理系统优化,正在成为新的“系统内核能力”,并可能催生完全 AI Native 的中间件甚至操作系统形态。

在可预见的未来,AI Native 不是一次短期内“颠覆一切”的革命,而是一场深刻而持续的工程演进。它正在重新定义软件的构建方式、运行逻辑与组织形态。当 AI 成为系统中默认存在、不可剥离的一部分时,软件工程的底层假设也将随之改变。而这一变化,或许才刚刚开始。

吵翻天的具身智能,

96% 中国机器人厂商活不过明年?

今年,无论是科技巨头还是初创公司,都显著加大对具身智能的投入,不断有新投身进来的创业者,顺利拿到大额融资的亦不少。有数据显示,截至 2025 年 11 月,中国已有超 200 家人形机器人本体厂商。

“核心驱动因素在于市场应用预期的升温。”北京智源人工智能研究院具身数据负责人、北京大学多媒体信息处理全国重点实验室副研究员姚国才表示。

光年褶皱 CEO 李元庆进一步提到,另一个原因是技术成熟度的突破。和去年相比,现在的机器人在稳定性、可靠性上都有显著提升,正从技术演示阶段朝着产品化的方向推进。

然而,姚国才强调,需要警惕的是,“预期”的走高并不等同于“信心”的真正夯实。早在 2014 年,中国就经历了“协作机器人元年”。一个残酷现实是,低垂的果实早就被摘遍,如果具身智能机器人不能真正体现出其相对于协作机器人在“通用性、泛化性、便捷性”上的技术优势,很难找到扎根土壤。

真机智能董事长兼首席科学家刘智勇同时表示,明年本体厂商肯定会收缩,估计中国最终只会剩下 5 到 8 家本体机器人,应用场景相关的公司和上游企业会多一些。

繁荣的具身智能,没有出现 ChatGPT 时刻

“如今技术还远没到成熟的时候,今年的现状只能用‘繁荣’来形容,充斥着大量非共识,行业对于本体形态、数据类型、模型架构仍存在大量争议,需要更多探索和迭代才能逐步收敛。”姚国才冷静地判断道。

在擎朗智能战略技术官刘斐看来,2025 年具身智能领域最显著的进展集中在多模态融合、任务泛化能力提升上。今年,擎朗智能推出自研 VLA 模型 KOM2.0,通过深度融合视觉、语音与环境交互能力,在复杂人流环境下的导航与任务执行成功率有明显提升。

李元庆则表示,今年有一项关键突破:机器人已经具备 100% 完成一些简单任务的能力。同时,其他复杂任务的成功率也在稳步提升。除此之外,局部运动控制领域进展明显。现在就算非专业工程师,只要会敲代码、甚至用遥控器就能操控机器人完成各种动作。

而令刘智勇印象比较深刻的,是视觉语言导航(VLN)方向的相关进展。他表示,从去年到现在,涌现出大量基于视觉语言作为多模态输入的导航模型,可以解决零样本泛化问题,机器人到任何全新的固定场景里都能自主完成导航任务。从场景普及来说,核心是不再需要预先建图了。最关键的是,零样本能力等同于部署成本的大幅降低,就能适配场景化的盈利模式。

不过,VLN 目前有两方面的难题。一是感知决策的延迟,这甚至可能是致命的。二是硬件性能短板,既要让硬件能灵敏地感知外部世界,又要保证它能反复进行操作,而目前这类硬件的耐疲劳性、反脆弱性能还不够强。

“我们并没有看到具身大模型的 ChatGPT 时刻,也没有看到具身数据的 ImageNet 时刻。”姚国才则表示,今年的进展还谈不上“突破性”。具身智能的进步必然是渐进式的,不是某一个单点突破造就的“高光时刻”,而是整个生态系统水到渠成的结果。

值得一提的是,多位专家都指出了制约机器人大规模落地的不同方面难题。

首先,姚国才指出,如今具身大模型还没有发生“质变”,普遍存在“感知不准确”与“决策不靠谱”的问题。如何实现语音、视觉、触觉、力觉等多模态信息的动态交互,如何跟物理客观规律、人类价值观对齐,仍然悬而未决。

其次,是机器人硬件成本问题,核心部件的价格居高不下。“成本降不下来,就没有场景愿意去接受和应用。”另外,李元庆提到,当前软硬件技术路径的结合没有完全收敛,模型架构和数据的飞轮迭代设计也未做好整合,供应链没办法做针对性的配套。

最后是长期问题,场景化产品定义不清晰、产品完整生命周期的市场和运维体系也没建立起来。

这一年值得关注的新范式

“从下半年开始,具身智能领域出现了明显的突围现象。”

姚国才表示,大家已经达成一个共识:传统 VLA 加真机遥操数据不够用。在模型层面,大家开始尝试通过“技术整合”来修正 VLA 模型的局限性;在数据层面,UMI 类遥操数据和人类视频数据成了避不开的话题。

当前,世界模型被寄予厚望,被认为是实现高级推理和规划的关键。

刘斐指出,世界模型的核心价值在于让机器人具备对物理环境的预测与规划能力。现阶段,它已显著提升机器人在动态环境中的任务执行连贯性和长期行为合理性。未来,世界模型在复杂任务拆解、多机协作、长期自主运行等方面潜力巨大。

姚国才则进一步预测,随着世界模型的发展,其对物理规律、复杂交互的模拟质量会接近真实世界的水平,为策略模型直接零样本泛化到新场景和新任务提供基础。

“世界模型现在算是解决数据问题的一个共识。”刘智勇表示,不管是在长程层面模拟预测未来状态、底层层面预测动态物体轨迹,还是弥补数据的 corner case,世界模型都起到了不可或缺的作用。而且,世界模型是 VLN 突破长程规划和动态适应瓶颈的充分非必要条件。

同时,他谈到,之前感知、决策、执行分离的多模块化范式逐渐转向 VLN 或 VLA 的端到端统一范式。推动导航和路径规划的技术范式发生了转变,从几何测量的 SLAM 转向学习增强的 VLN。训练范式也发生了改变,从强化学习调参慢慢转向世界模型驱动。

“世界模型算是一个新范式,但说实话还没有形成行业共识。”李元庆则认为。不过,他指出,世界模型有机会把这部分数据构建工作做得更高效、成本更低,对于构建基础模型非常重要,同时也有替代物理仿真引擎等部分现有技术的潜力。

另外,他表示,技术架构方面也有新变化,大家开始把 VLA 与 RL 结合起来用。以前大家更多关注 VLA,相对轻视 RL 路径,现在两者结合后,机器人能完成更复杂的任务了。

刘斐还表示,具身智能技术栈正从“垂直封闭”走向“开放协同”,形成“大模型 + 世界模型 + 模块化硬件” 的层级架构。

首款大面积铺开的机器人,会在中国出现?

“到 2026 年,具身智能将在多任务协同、长时自主运行、人机共融交互等方面实现显著突破。”刘斐表示。

刘智勇则谈到,明年具身智能会有两个关键突破方向。一是机器人在非结构化场景中实现稳定作业。二是突破莫拉维克悖论。以往大家觉得,机器能完成人类觉得难的事,但难以完成简单的事,而明年可能机器人也能胜任这类任务。

至于明年的技术决胜点,刘斐认为,可能在于通用任务泛化能力、成本与可靠性的平衡以及标准化与模块化程度。而在刘智勇看来,最重要的是世界模型的因果推理能力,一旦取得突破,无论机器人的安全性还是行为和推理的安全性问题,都能得到很好的解决。

“核心是在某个单一场景实现盈利,不是毛利而是不依赖大量售后成本的净利。谁能做到这一点,谁就能形成数据飞轮,模型和方法能力会进一步提升,之后再推进跨场景复制。”刘智勇称。

据介绍,之后苏州真机智能将有两个关注重点,一是通过 VLN 实现无需额外提前部署的门到门配送,二是通过全身控制打破静态平衡的限制,依靠动态平衡的方法更泛化地解决开门的问题,以此来实现最后五公里的门到门配送,既能开门、操作电梯,又能以无建图、无 GPS 的方式完成导航。

而姚国才的态度是:短期悲观、长期乐观。他认为,2026 年具身智能的能力边界未必能取得突破,决胜点也还没有到来的曙光。在接下来一年,智源会以 Emu3.5 世界模型为核心,不断探索新的技术方案以拓宽具身智能的能力边界。

李元庆接下来的目标则是打造一款面向家庭用户的功能性产品。据其判断,现在具身智能领域最该抓住的就是两件事:落地和数据。只有做出真正的产品,才能实现技术落地,同时把数据低成本地回收、形成闭环。

同时,他认为,多机异构技术路线是具身智能未来的发展方向,核心是多个不同类型的机器人协同工作。

“世界上第一款能大面积铺开的具身智能落地产品,很可能会在中国出现。”李元庆满怀信心地说道。

他表示,现在除整机销售外,已经看到一些新的商业模式在逐步落地且都形成了清晰的小闭环,如租赁和按使用次数或者完成任务量收费的 RAAS 模式。此外,软件费加服务费的组合模式被多位专家提到。

“如果只卖硬件,一次性卖完其实很亏,后续的售后压力会非常大。另一方面,用户一次性付太多钱确实承受不了。”刘智勇称,通过“整机销售 + 每年服务费” 的方式,既能保证长期的最大收益,又能解决售后问题,还能让设备商一次性回本。

AI 行业普及度暴涨,

金融、医疗、教育领域效率拉满

对各行各业的 AI 应用来说,今年或许是高普及又务实的一年。

传神语联创始人何恩培表示,AI 技术的普及度在各行业实现大幅提升,从消费端到产业端,AI 的身影随处可见。

“2025 年,AI 从‘模型能力持续提升’迈入到‘组织级生产力重构’的关键跃迁起点。AI 应用迎来爆发期,尤其是 Agentic AI 开始从普及走向可规模化的业务场景。”

身处金融行业的平安科技创新事业部线上用户运营 AI 产品团队总经理樊聪表示,AI 应用已经从工具变为“生产力伙伴”,参与到实际业务流程中,开始协助和独立承担任务拆解、流程执行。 如果以“是否已经尝试或者部署 AI”作为标准,目前在金融行业的比例已经非常接近、甚至在部分细分领域已经超过一半。

据悉,无论是大型银行、保险还是头部的金融科技公司,AI 都已经规模化落地,全面赋能核心业务。一些机构日均模型调用规模已达亿级 token,成为事实上的基础设施。AI 不再只是提升效率的工具,而是企业业务规模增长、服务竞争中的关键变量。

何恩培同时指出,但多数 AI 应用还停留在表面,极少能真正实现行业和场景深度智能化,更谈不上原生的智能化。值得欣慰的是,大模型厂商正在迎来理性回归,整个行业基本放弃了 “参数和算力竞赛”。在具体场景里,轻量化、低成本部署成了新方向。

各行业落地进展

“从实践结果看,AI 已经在多个核心场景实现了规模化落地,并带来了明确、可量化的成效。”

樊聪表示,今年,随着技术的不断突破和行业竞争格局的变化,平安对 AI 的定位也在升级,角色已经发生质变:预期是帮助成员公司赢取业务竞争、提升客户体验和经营效率的直接驱动力。

据其透露,在平安的 AI 实践中,很多应用场景已跨越试点阶段、实现 AI 规模化、业务化部署。比如,产险服务管家已初步具备 AI 主动接管的能力,能帮助电话客服做购买、理赔、延补方面的咨询接管替代。

传神语联在医疗领域的探索则专注于中医方向。何恩培表示,当前 AI 在医疗领域的角色早已突破单一某个环节的辅助,正在形成多场景、全链条的格局。

“今年上线的 AI 医生,年度使用用户已突破千万,增速远超预期。我们推出的传神素问中医大模型,实际评测效果非常不错,应该是中国第一个能够像专家一样主动问诊的中医大模型。”今年 8 月,传神素问通过了中国信息通信研究院可信 AI 中医药大模型评估,获得 4+ 级评级。

据介绍,传神素问不局限于开处方,已经结合四诊仪器形成诊疗闭环,从挂号开始到预问诊、辅助辨证开方、跟踪患者依从性以及整个康复过程。并且,整个过程也不再是人在调用 AI 工具,而是各个场景智能体化,如医助智能体、名医孪生智能体等正在形成从辅助开方的疾病治疗向向全周期健康管理延伸。

“事实上,AI 与医疗、医药、生命大健康领域的融合不仅普遍,而且介入深度越来越深。”何恩培称,大模型在医疗领域的应用不只是聚焦“严肃医疗”,更广泛渗透到了药物研发环节。更关键的是,在深度药物研发或病理相关分析等细分场景,行业内会专门构建针对性的大模型。

“如果对比中医和西医的 AI 化,西医的 AI 落地会更容易一些。”何恩培谈到,西医检查设备及其指标体系是全球通用的,更容易形成标准数据,训练大模型就能达到比较高的水平。

不过他认为,中医是未来最有可能通过 AI 实现全面突破的领域。传神素问正在推动中医走向标准化、规模化的现代化服务阶段,以及中医服务下沉。如果把名医的孪生模型推广到基层,就能让更多普通患者享受到优质的中医诊疗服务。

“豆神教育旗下的 AI 教师不是传统意义上大而全的万能工具 Agent,而是属于企业级 Agent。”豆神教育 AI 事业部研发总监朱智胜表示,这些企业级 Agent 存在于豆神教育的整个产品体系中,覆盖了从内容生产、课堂授课到课后服务的全流程。

在教育领域,豆神教育正在独家 AI 教育大模型的基础上,打通 AI 教育不同场景间的壁垒。目前其主推的 AI 产品有两款:一是豆神王者 Club APP,其中的超练系列已经在热卖中;另一款是豆神的首款硬件产品豆神学伴机器人,已于 12 月 22 日首发。

明年的突破方向

樊聪透露,接下来一年,平安将继续在综合金融 + 医疗养老的战略模式下,探索 AI 应用的深度落地,在医疗多模态、居家养老具身智能上持续探索。

据悉,平安正在利用无线波感知等多模态技术,实现对居家环境的“无线感知”,监控老人在家里的行为轨迹,识别跌倒风险并进行应急救援,同时结合金融场景的安全可信需求构筑技术壁垒。

“未来,AI+ 中医将以‘场景化智能体’为核心形态,通过分层协同的技术模式承接基础诊疗工作,同时拓展心理健康这类新兴服务领域。”何恩培就医疗领域作出判断。

他表示,未来 3-5 年包括 2026 年,AI 赋能中医的核心变化是让中医从“经验主导”转向“数据赋能”,AI 的角色也将从零散的单点工具进化为适配中医诊疗逻辑的“场景化智能体”。“AI 承接中医绝大部分基础及重复性工作,让医师专注于辨证论治的创造性、互补性工作会是必然方向,中医智能体将会成为 24 小时陪伴人类的健康顾问和健康管理专家。”

同时,AI+ 中医情志康养是下一步突破的重点。核心思路是,让 AI 深度学习中医情志调理的理论与实践经验,结合现代心理学技术,为不同情绪状态的人群提供个性化的情志疏导方案。据悉,目前传神语联已具备独特的资源支撑落地,预计会在明年 1 月发布相关推进计划。

简体中文 English