大模型也需要睡觉，让AI打个盹，醒来更聪明

来源：36kr 8 小时前

7×24，AI也吃不消。

卡内基梅隆大学和马里兰大学发了篇论文，《Language Models Need Sleep》——

大模型处理长上下文的时候，硬撑着不休息，真的会累傻。

这项研究的灵感源自人脑运作机制。

人睡觉的时候海马体会把白天的短期记忆一遍遍回放，巩固进皮层突触，变成长期知识。

研究团队认为模型也可以这样，设计了一个睡眠机制，让大模型上下文窗口快满的时候别硬撑了，打个盹把最近的上下文反复咀嚼几遍，压缩进长期权重，清空缓存，醒了再接着干。

测试发现，合理增加“睡眠”迭代轮次，能明显提升模型在深度推理类任务上的表现。

尤其是那些需要一步接一步推导的难题，越复杂，模型越需要多睡一会儿。

咋回事？

大模型到底怎么了，非要睡觉

Transformer的核心是注意力机制，但注意力有一个天生的短板就是，上下文越长，算力平方级往上蹿，KV缓存也线性往上涨。

同样是推理任务，8K上下文窗口和128K上下文窗口的算力成本差距极大，多出的算力基本都消耗在了历史信息的关联计算上。

所以现在的做法两种：

要么就硬扛，扛不住了就把老信息踢出缓存，但踢出去的东西，模型就当没发生过；

另一类就是两年流行的SSM+Attention混合架构，比如Samba、Qwen3.5。

混合架构是想了个折中方案，把老信息压缩进快速权重fast weight，不占缓存，同时保留信息的可调用能力。

这确实缓解了一部分内存压力，但团队发现即便快速权重还有充足容量，当推理步骤变多、逻辑链条变长时，模型依旧会出现性能失效的问题。

也就是说当下的瓶颈并非信息存储能力不足，而是深度推理能力跟不上。

历史信息被移出KV缓存前，模型仅有一次前向传播的机会完成信息内化，单次处理根本不足以支撑复杂逻辑的拆解与推导。

这一点和人脑比较像，你白天经历了一大堆事情，不是当场全消化掉的，而是大脑等你睡着了再处理。

海马体在睡眠期间一遍遍回放白天的重要片段，把短期记忆巩固进皮层突触，变成长期知识。

但这个过程必须离线，也就是你得先睡着，把外部刺激暂时关掉，大脑才能集中算力干消化这件事。

而且它不是回放一遍就完，得多放几遍。

团队把人脑这一整套逻辑搬到了模型上。

他们的设计是当模型上下文窗口快满的时候，不硬撑了，直接让大模型睡觉。

这里的睡觉是指暂停接收新token，进入纯离线状态，针对已积累的全部上下文，执行多轮递归前向传播。

依靠可学习的局部规则，反复对信息进行提炼整合，逐步更新SSM模块内的快速权重，完成信息的深度压缩与消化。

消化完了就清空KV缓存，带着更新后的权重醒来，接着干活。

从算力分配来看，额外的计算开销全部集中在“睡眠”阶段，型苏醒后的正常推理流程和常规模型保持一致，只需要一次前向传播。

这里的“睡眠时长”，本质上就是信息迭代处理的轮次，轮次越多，代表模型对上下文内容的梳理、打磨次数越充分。

团队选用元胞自动机、多跳图检索、GSM-Infinite无限数学推理三类任务开展测试，因为这几类任务可以精准控制推理深度与记忆负载两大变量。

测试结果清晰印证提升睡眠迭代轮次，模型整体性能稳步提升，而且性能提升主要体现在高难度深度推理任务上。

也就是说简单的题醒着就能秒了，难的题需要睡一觉，得经过多轮梳理，才能理清思路。

只能说，摸鱼休息确实是提升效率的妙招，有时候停下来才能好好思考（doge）。

论文地址：https://arxiv.org/abs/2605.26099