小模型迅速蹿红背后,并非因为比大模型更先进,而是因为Agent作为AI落地的主要形态,正好需要小模型这种“刚刚好的智能”。
2025年2月,深圳福田区,部署70名“AI数智员工”,承担了240个政务场景中的文书起草、政策解读、招商辅助等任务。系统上线后,公文格式修正准确率超过95%,审核时间缩短90%,民情分拨效率从70%提升至95%。
支撑这70名AI数智员工的,是671B的DeepSeek‑R1。
DeepSeek以专家混合技术,根据任务自动激活部分网络,只运行需要的部分,从而显著降低推理资源占用,说白了就是用更少的算力解决了更复杂的问题。
严格意义上来说,DeepSeek不算是小模型,但它的出现,让人们开始思考大语言模型的“大”真的有必要吗。
这,成为小模型叙事的起点。后面的几个月里,一些新的变化开始出现。
“2025年初,我们尝试接入云端大模型,性能虽然强,但调用延迟、成本与数据隐私问题都让人头疼。后来改用某大模型厂商4B模型,只用了几小时就部署成功,响应秒级,隐私上也有保障。”某SaaS厂商负责人说道。
也是在2025年初,某家智能家居创业团队在开发一款可以脱网的语音设备时,曾苦恼于大语言模型既占空间又拖性能,这时,参数轻量的0.6B、1.7B、4B版本立刻引起他们关注。当他们把这款模型部署在家用路由器的8GB内存上时,发现其不需要高端GPU,设备即可本地完成自然语言理解与指令执行,无需联网,既节省延迟,也保障隐私。
这种“刚刚好”的智能,逐渐成为一些企业的心头好。
据MarketsandMarkets™研究预测,2025年全球小语言模型市场规模将达9.3亿美元,2032年有望增至54.5亿,年复合增长率高达28.7%。Gartner的报告指出,已有68%的企业部署过SLM,超过45%的企业在部署后实现了成本优化与准确率双提升。
与市场需求所对应的,是服务商侧的动作,“小体量、高性能”正在成为厂商角力的新主战场。
据不完全统计,过去三年,国内厂商“≤10B参数”小模型的发布占比一路从2023年的约23%提升到2025年56%以上,已成为大模型版图里增长最快的细分赛道。
在这一连串变化背后,一些问题浮出水面:从大模型到小模型,AI 落地经历了怎样的转变?小模型具体应用在哪些场景?企业又是如何将其真正落地的?
一
Agent落地,
需要“刚刚好”的智能配套
据不完全统计数据显示,2024全年,智能体构建平台相关共有570个中标项目,372个项目公开金额,总金额达23.52亿元。而2025上半年,智能体构建平台相关中标项目数量已达371个,是去年同期的3.5倍,甚至接近去年全年总量的三分之二。
如果说2023年是大模型的狂飙元年,那么2024年,就是Agent被推到舞台中央的一年。当下则是Agent的爆发之年。
它们被寄望于接管企业流程中的重复性任务,例如自动生成周报、客服问答、文档检索、财务分析。对外,它们是客户看得见的智能接口。对内,它们是提升效率的关键工具。
但很快,一个矛盾浮现出来。
一份题为《生成式AI鸿沟:2025年AI在商业中现状》的报告显示:95%的受访企业称,在生成式AI投资中未获得任何实际回报,仅5%获得了转型回报。
很明显,Agent落地效果与其爆发之势,并不对等。这让业内开始思考,到底是哪里出现了问题。
“主流的AI代理系统普遍采用大型语言模型(LLM)与企业需求并不匹配。”在英伟达与佐治亚理工学院研究人员联合发布《Small Language Models are the Future of Agentic AI》论文中,这一观点被提出。
一个事实是,在理想化的演示场景里,GPT-4可以一口气写出一份营销方案,也能跨多个步骤完成复杂推理。但企业真正的落地需求往往更朴素。比如客服Agent只需回答我的账单在哪儿、怎么退货;文档Agent更多是做摘要、整理重点;财务Agent要做的,是把报销单里的关键信息提取出来。
这些任务的共同点是流程清晰、目标确定、重复性强。它们并不需要一个能写诗、能讲故事的大脑,而需要一个记得住流程、干活稳的助手。
于是问题来了,如果用大模型去驱动这些Agent,效果可能是“杀鸡用牛刀”。大模型虽然强大,却未必是Agent最合适的引擎。
根据一家互联网大厂的测试,GPT-4驱动的客服Agent,一天10万次调用,API费用接近40万元人民币,一个月就是上千万。而换成7B左右的小模型,成本下降了90%以上。比如阿里发布的Qwen2.5-Coder-7B,在代码生成场景里,比上一代大模型更稳定,且推理成本下降了70%以上。
此外大模型一次推理往往需要2-3秒,甚至更久。但在金融交易或客服场景里,2秒的延迟就可能带来投诉或风险。相比之下,小模型可以在500毫秒内返回结果。就像腾讯HunyuanLite-6B在多轮工具调用场景下成功率达92%,平均响应时间不到大模型的一半。
很多Agent需要处理企业的敏感数据,比如用户身份信息、医疗记录、财务数据。大模型多数依赖云端调用,数据必须上传到外部服务器。百度推出的ERNIELite-3B,就可以直接集成到政务知识问答场景中,本地化部署后避免了数据外泄。
所以,无论是从成本、速度还是数据隐私安全方面来看,推动Agent落地方面,小模型都更为“合算”。
从《Small Language Models are the Future of Agentic AI》研究来看,这种趋势已经在大量开源Agent项目中得到了验证。数据显示,在MetaGPT、Open Operato、Cradler等案例中,高达40%-70%的调用,其实只需要SLM就可以顺利完成。
大模型像是超级大脑,适合解决开放性、复杂性的问题;但Agent更多是执行型角色,它们要的是稳定、快速、可控的小脑。
于是,小模型在2024年迅速蹿红。它们的火,并非因为比大模型更先进,而是因为Agent作为AI落地的主要形态,正好需要小模型这种“刚刚好的智能”。
这,才是小模型崛起的底层逻辑。
二
“小模型≠取代大模型”
那么,小模型的落地究竟怎么样呢?
其实,小模型的特性,让其在一些场景里显现出足够的“性价比”。不过,即使如此,也没有人断言“小模型能完全取代大模型”。
目前来看,小模型落地的典型场景,都是“流程清晰、重复性强、对隐私和成本敏感”的业务。
例如客服与文档分类等标准化流程任务。美国基贷服务商Mr.Cooper和TD Bank等企业,通过中型甚至小型模型,对客服通话内容进行分类、摘要或预测用户需求。这样既节省成本,又提升效率。
还有金融/法律等高合规要求领域,McKinsey报告指出,SLM在法律、金融、医疗等行业因专用领域训练、更高解释性,更受青睐。这些行业的Agent需要精确、合规,不适合依赖模糊的通用泛化能力。
此外还有边缘计算与实时应用,在智能制造、IoT、手机App等环境,设备资源有限,但要求响应即时。像NVIDIA在工厂端部署的小模型,推理延迟低、带宽消耗少;在手机端,如SlimLM系列在GalaxyS24上部署文档摘要、问答,运行流畅又省成本。
总的来说,对于预算敏感、合规要求高、边缘部署需求强、有一定技术团队的企业而言,这不失为最优选择。
值得注意的是,如果想把小模型用得和大模型一样好,并不简单,且小模型并不适用于所有场景和企业。
首先从模型本身来看,小模型的泛化能力远不如大模型,遇到长尾问题更容易答非所问。要补齐能力,需要做蒸馏、RAG、工具调用,但这对工程化要求高。
其次在数据层,小模型高度依赖高质量样本。例如金融行业尝试训练客服小模型,发现原始语料几百万条,但清洗后可用的不到10%,可能会导致模型效果不稳定。
还有系统集成层,小模型需要和知识库、API、流程系统对接,拼装起来才算一个完整Agent。很多企业在这一环掉链子,比如检索模块准确率不高,导致小模型回答跑偏。
更大的难题在于,从大模型转向小模型的沉没成本。
一组数据显示,2024年LLMAPI服务市场规模约56亿美元,但同期用于LLM托管的云基础设施投资激增至570亿美元,是市场规模的10倍。这种投资不仅是服务器、GPU集群硬件,还包括配套工具链、团队能力,一旦转向SLM,这些前期投入的沉没成本会成为企业的顾虑,导致即便SLM更经济,也不愿轻易调整现有架构,根本换不动。
总结来看,小模型的核心价值不是替代,而是补位。它解决的是性价比和合规可控问题,而不是全面超越大模型。小模型落地的门槛在企业工程化能力。能否做好数据清洗、系统集成、模型协作,决定小模型到底能不能跑得稳。
产业转向也不会一蹴而就。巨头和企业在大模型上的沉没成本,意味着小模型的普及不会是颠覆,而是渐进地与大模型形成混合架构。
三
中国产业AI,
进入“大模型+小模型”时代
对于企业而言,究竟如何转型?
在具身智能领域,机器人往往有一个“大脑”和一个“小脑”。大脑做规划,小脑执行动作。今天企业部署AIAgent,也逐渐走向类似的架构。
一个类似案例发生在国某家TOP3的保险公司内部的理赔中心,公司自研的一款3B级模型,其经过细致微调,被精准地训练在OCR字段提取、行业术语分类、以及跨系统的字段匹配三大任务上。这套“小而专”的系统,让日常的理赔处理趋近于零人工干预。
不过,在一些更复杂的场景中,比如识别异常票据、预警潜在欺诈行为等高风险环节,则通过调用大模型的API来提升判断的准确性和灵活性。
这样的“小模型+大模型”的协同模式,正在成为越来越多企业选择AI落地时的标准答案。其不仅提高了稳定性,也让企业得以控制核心流程在本地运行,避免过度依赖API与云端。
那么,对于企业而言,具体应该怎么部署?多大规模才是“刚刚好”?这则需要“因人而异”。
当下来看,1B-3B模型主要部署在移动端、边缘设备、嵌入式终端,用于文档总结、OCR、现场问询。例如石化行业的设备检修系统,用2.5B模型实现语音识别+常规故障排查。
7B-9B模型是中大型企业私有化部署的主力。金融、电信、医疗等行业普遍选择7B模型进行定制微调,集成在CRM、ERP、知识库问答等核心系统中。字节跳动、阿里在内部就有多个7B模型挂载在本地GPU或混合云架构中。
30B+模型仅用于特定、复杂的场景。比如战略报告撰写、法律判决建议、跨业务理解等需要跨知识推理的任务。部署场景受限于成本与工程复杂性。
目前,这场“小模型基础设施战”已经悄然打响。
可以看到的是,厂商们逐渐开始连推理框架、量化压缩、微调流程都一并打包给企业。
例如,阿里Qwen-Agent提供文档问答、结构化填表、财报解析的模块化插件,企业按需即插即用;腾讯混元Lite+私有部署SaaS中台,让小模型调优门槛大幅降低,一些中型B端企业已实现无需MLOps团队即可部署;百度ERNIELite政务套件,针对本地合规需求优化模型权限与日志审计功能。
海外厂商也动作频频,微软Phi-3发布时,不仅提供模型,还提供完整推理工具和端到端调试流程;英伟达的TensorRT-LLM+NIM服务,提供模型压缩、LoRA微调、部署封装一条龙服务,客户只需选择场景即可配置;Hugging Face Transformers Agents项目,直接把SLM变成微服务化的“任务组件”,让小模型成为模块化智能的原子单元。
更重要的是,开源社区也在主动推动标准化和行业化适配。DeepSeek开源的医疗问答小模型在不少私立医院试点测试;MiniCPM在教育领域内测中已集成至作业点评系统;中文RAG框架Langboat和LaWGPT专注构建政法场景的基础小模型生态。
在这些推动下,小模型不再是“降配版大模型”,而是具有完整生态、能独立跑业务流程的AI基础设施。
写在最后:
1900年左右,直流电网让城市第一次有了路灯;而真正点亮全国工厂的,却是十多年后随处可接的交流电。今天,小模型之于AI的意义,大抵类似于那条“能插在墙上的”电线,标志着工业化的可复制时刻。
当智能不再是一块高悬云端的黑盒,而是可以嵌到机器、嵌到表单里的芯片、脚本和服务,AI才算真正进入产业底层。