苹果公司推出了一种名为“基于清单反馈的强化学习”(RLCF)的新训练方法。该方法通过生成具体的任务清单,并对每条指令进行0-100分的精确评分,旨在提升大语言模型执行复杂指令的能力。相较于传统的依赖人工点赞的RLHF方法,RLCF为每条指令制定了详细的检查清单,从而更有效地指导模型进行优化。
在测试中,RLCF方法在多个评测基准上均取得了性能提升,特别是在处理复杂多步骤任务时表现尤为突出。技术层面,苹果团队使用大规模模型构建了包含13万条指令的“WildChecklists”数据集,通过逐项评分来形成奖励信号,从而引导模型进行改进。
然而,RLCF方法也存在一定的局限性,例如它依赖于强大的模型,并且不能替代安全评估机制。尽管如此,专家仍认为RLCF为AI训练提供了新的思路,未来有望在实际应用中发挥重要作用。