近日,中国科学院软件研究所研究团队针对大语言模型(LLMs)在复杂推理任务中的优化问题,提出了基于信息论的强化微调框架Learning to Think(L2T)。该框架通过引入稠密过程奖励机制,评估每一推理回合的信息增益,并采用改进的GRPO算法策略对模型进行优化,旨在平衡推理效果和效率。实验表明,L2T在不同规模的基础模型上均表现出稳定的性能提升,与基于结果奖励的方法相比,准确率提升超过3.2%,同时token效率翻倍。
简体中文 English