DeepSeek-R1复现研究显示,监督微调(SFT)和强化学习(RLVR)可提升语言模型推理能力。研究总结了数据准备、训练技巧及奖励机制设计,并预测推理语言模型将在安全性、多模态和多语言领域展现潜力,为未来研究奠定基础并指明方向。