苹果推出AI训练新方法 用任务清单替代人工评分显著提升模型性能
2 天前

苹果公司推出了一种名为“基于清单反馈的强化学习”(RLCF)的新训练方法。该方法通过生成具体的任务清单,并对每条指令进行0-100分的精确评分,旨在提升大语言模型执行复杂指令的能力。相较于传统的依赖人工点赞的RLHF方法,RLCF为每条指令制定了详细的检查清单,从而更有效地指导模型进行优化。 在测试中,RLCF方法在多个评测基准上均取得了性能提升,特别是在处理复杂多步骤任务时表现尤为突出。技术层面,苹果团队使用大规模模型构建了包含13万条指令的“WildChecklists”数据集,通过逐项评分来形成奖励信号,从而引导模型进行改进。 然而,RLCF方法也存在一定的局限性,例如它依赖于强大的模型,并且不能替代安全评估机制。尽管如此,专家仍认为RLCF为AI训练提供了新的思路,未来有望在实际应用中发挥重要作用。

WebPro
其他登录方式
登录即表示你已阅读并同意
《WebPro用户注册协议隐私政策
注册WebPro
获取验证码
注册即表示你已阅读并同意
《WebPro用户注册协议隐私政策
找回密码
获取验证码
绑定手机号
获取验证码
登录即表示你已阅读并同意
《WebPro用户注册协议隐私政策
完善资料
登录即表示你已阅读并同意
《WebPro用户注册协议隐私政策
微信登录
扫描二维码 | 授权登录WebPro