llm可以标记人类偏好数据,用于强化学习吗?尽管之前有一些类似的研究,但从没有人系统地对比rlhf和rlaif的性能。今天,我们为大家带来一项google最新的研究,来看看llm是否懂得人类的偏好。
基于人类反馈的强化学习(rlhf)通过收集人类反馈,以强化学习方法训练llm,可以更好地理解人类偏好。然而,这个方法有一个很大的问题:收集高质量的人类反馈非常困难和耗时。
那有没有更好的方法呢?
rlaif方法
rlaif即reinforcement learning from ai feedback。顾名思义,rlaif是指使用llm来代替人类标记偏好,基于这些标记数据训练奖励模型,然后进行rl微调。
下图是一个展示了rlaif(上)和rlhf(下)的基本流程。
如图所示,在rlaif中,首先使用llm来评估给定的文本和2个候选回复,然后,这些由llm生成的偏好数据被用来训练一个奖励模型,这个奖励模型用于强化学习,以便进一步优化llm。
一个llm用于评估回复的prompt示例如下图,遵循以下流程:
preamble-描述任务介绍和说明
few-shot exemplars(可选)
sample to annotate
结束字符串
在这篇研究中,作者还探索了:
避免位置偏差: 候选回复喂给llm的顺序可能会偏向它喜欢的候选顺序,尤其是在 llm 参数较小的情况下。为了减轻位置偏差的影响,作者进行了双重推理和平均处理。
prompt改进: 还尝试了使用思维链(cot)推理和self-consistency等方法促进llm的评估。
实验结果
作者使用palm 2 extra-small(xs)在openai的过滤过的tl;dr数据集上训练了一个sft模型作为baseline。
对于rlhf方法,奖励模型在openai的tl;dr人类偏好数据集上进行训练。
对于rlaif方法,使用palm 2 l生成ai标记的偏好
对于强化学习,使用a2c训练策略。策略和价值模型都是从sft模型初始化的。
实验主要有以下发现:
在性能方面:rlaif与rlhf有相似的表现。
在人类评估上,与sft策略相比,rlaif被偏好71%的时间,而rlhf则被偏好73%的时间。尽管rlhf略微优于rlaif,但这个差异在统计上并不显著。
直接对比胜率:rlaif与rlhf在被偏好的程度上是平等的,胜率都是50%。
与人工写的摘要比较:rlaif和rlhf生成的摘要分别在79%和80%的时间内被更偏好,与参考摘要的差异也不具统计意义。
影响因素:rlaif和rlhf策略倾向于生成比sft策略更长的摘要,这可能是质量提升的一个因素。
长度调整后表现:即使控制摘要的长度,rlaif和rlhf都依然在同样的幅度内优于sft策略。
下图是sft,rlhf和rlaif策略生成的示例摘要。rlhf和rlaif 比sft产生更高质量的摘要。
对于prompt方式,使用详细的openai preamble和cot给出了最高的对齐性能。少样本提示并没有提高准确性,甚至可能使它变得更糟。
self-consistency with cot对性能的影响如下,用t=1采样会导致与人类偏好的一致性较低。
作者还对用于评估的llm的参数大小进行了探索,发现与人类偏好的一致性随着llm大小的增加而增加。
总结
这项工作似乎暗示rlaif是一个不依赖于人工标注的、与rlhf可行的替代方案。但是,为了更好地了解这些发现是否能推广到其他nlp任务,还需要在更广泛的任务范围内进行实验。
日立突破瓶颈限制发布3TB硬盘驱动器
第三季度TCL电子逆势大增,带动行业智能化升级
ESD静电整改有什么基本思路?
NVIDIA天价收购ARM,最大挑战在于中国监管机构的审批
国网德州供电公司利用大数据平台,构建企业复工复产电力指数
RLAIF:一个不依赖人工的RLHF替代方案
智慧城市的到来我们可以拥有什么
想要分析网络变更会有什么影响
英特尔宣布放弃NUC业务!
浅谈服务机器人
可控硅频繁烧坏什么原因?
智能制造趋势下 国产工业机器人未来该如何发展?
跟随同茂线性马达见识下GT2 Pro中的黑科技
龙芯中科芯片库存需三年消化,Arch Linux发行版正式发布
分布式无纸化交互系统如何实现信息的安全性和保密性?
三星发布第二季度营业利润,称未达预期目标
高速数字电路如何中抑制噪声,高频部分受封装影响
【MXR·动态】梦想人受邀参加东莞“元宇宙——工业AR”助力企业数字化转型主题沙龙
普通HDMI线和光纤HDMI线有什么不同之处
海尔发布全球首个智能制造云平台