当前位置: 首页 > news >正文

网站文字大小山东钢铁股份有限公司莱芜分公司

网站文字大小,山东钢铁股份有限公司莱芜分公司,cms企业网站源码,主流科技类的网站都有哪些论文地址:https://arxiv.org/pdf/2305.18290 1. 背景与挑战 近年来,大规模无监督语言模型(LM)在知识获取和推理能力方面取得了显著进展,但如何精确控制其行为仍是一个难题。 现有的方法通常通过**强化学习从人类反馈&…

论文地址:https://arxiv.org/pdf/2305.18290

1. 背景与挑战

近年来,大规模无监督语言模型(LM)在知识获取和推理能力方面取得了显著进展,但如何精确控制其行为仍是一个难题。 现有的方法通常通过**强化学习从人类反馈(RLHF)**来引导模型行为,但RLHF存在以下问题:

  • 复杂性高:RLHF需要先训练一个奖励模型来反映人类偏好,然后使用强化学习来微调语言模型,使其在最大化奖励的同时不偏离原始模型太远。
  • 不稳定性:RLHF训练过程复杂且容易不稳定,需要大量超参数调优和采样。
  • 计算成本高:RLHF涉及训练多个模型和在训练循环中采样,消耗大量计算资源。

2. DPO:一种更简单、更高效的方法

为了解决上述问题,本文提出了一种名为 Direct Preference Optimization (DPO) 的新算法,直接从人类偏好数据中优化语言模型,而无需显式的奖励建模或强化学习。

2.1 DPO 的核心思想

DPO 的核心思想是:

  • 将偏好学习问题转化为一个简单的二元分类问题:DPO 通过最大化人类偏好的对数概率,同时最小化不偏好的对数概率,来直接优化语言模型。
  • 引入动态重要性权重:为了防止模型退化,DPO 引入了基于隐式奖励模型的动态重要性权重,该权重根据模型对偏好的排序错误程度进行调整。

2.2 DPO 的工作原理

  1. 构建偏好数据集:从参考模型(通常是经过监督微调的语言模型)中采样生成多个候选响应,并使用人类偏好数据对它们进行标注,生成偏好对 ( y w , y l ) (y_w, y_l) (yw,yl),其中 y w y_w yw 表示更受偏好的响应, y l y_l yl 表示较不受偏好的响应。

  2. 定义 DPO 损失函数

    L D P O ( π θ ; π r e f ) = − E ( x , y w , y l ) ∼ D [ log ⁡ σ ( β log ⁡ π θ ( y w ∣ x ) π r e f ( y w ∣ x ) − β log ⁡ π θ ( y l ∣ x ) π r e f ( y l ∣ x ) ) ] \mathcal{L}_{\mathrm{DPO}}(\pi_{\theta};\pi_{\mathrm{ref}}) = -\mathbb{E}_{(x,y_{w},y_{l})\sim\mathcal{D}}\left[\log\sigma\left(\beta\log\frac{\pi_{\theta}(y_{w}\mid x)}{\pi_{\mathrm{ref}}(y_{w}\mid x)}-\beta\log\frac{\pi_{\theta}(y_{l}\mid x)}{\pi_{\mathrm{ref}}(y_{l}\mid x)}\right)\right] LDPO(πθ;πref)=E(x,yw,yl)D[logσ(βlogπref(ywx)πθ(ywx)βlogπref(ylx)πθ(ylx))]

    • π θ \pi_{\theta} πθ:待优化的语言模型。
    • π r e f \pi_{\mathrm{ref}} πref:参考模型,通常是初始的监督微调模型。
    • β \beta β:控制 KL 散度的超参数,用于平衡奖励最大化与模型偏离程度。
    • σ \sigma σ: sigmoid 函数,将输入映射到 (0,1) 之间。

    该损失函数鼓励模型生成更受偏好的响应,同时惩罚生成不受偏好的响应。

  3. 优化模型

    DPO 通过梯度下降法优化上述损失函数,更新模型参数 θ \theta θ。 梯度计算如下:

    ∇ θ L D P O ( π θ ; π r e f ) = − β E ( x , y w , y l ) ∼ D [ σ ( r ^ θ ( x , y l ) − r ^ θ ( x , y w ) ) ( ∇ θ log ⁡ π ( y w ∣ x ) − ∇ θ log ⁡ π ( y l ∣ x ) ) ] \nabla_{\theta}\mathcal{L}_{\mathrm{DPO}}(\pi_{\theta};\pi_{\mathrm{ref}}) = -\beta\mathbb{E}_{(x,y_{w},y_{l})\sim\mathcal{D}}\left[\sigma\big(\hat{r}_{\theta}(x,y_{l})-\hat{r}_{\theta}(x,y_{w})\big)\left(\nabla_{\theta}\log\pi(y_{w}\mid x)-\nabla_{\theta}\log\pi(y_{l}\mid x)\right)\right] θLDPO(πθ;πref)=βE(x,yw,yl)D[σ(r^θ(x,yl)r^θ(x,yw))(θlogπ(ywx)θlogπ(ylx))]

    其中, r ^ θ ( x , y ) = β log ⁡ π θ ( y ∣ x ) π r e f ( y ∣ x ) \hat{r}_{\theta}(x,y) = \beta\log\frac{\pi_{\theta}(y|x)}{\pi_{\mathrm{ref}}(y|x)} r^θ(x,y)=βlogπref(yx)πθ(yx) 表示隐式奖励模型。

    • 当隐式奖励模型对偏好排序错误时,权重 σ ( r ^ θ ( x , y l ) − r ^ θ ( x , y w ) ) \sigma\big(\hat{r}_{\theta}(x,y_{l})-\hat{r}_{\theta}(x,y_{w})\big) σ(r^θ(x,yl)r^θ(x,yw)) 更大,这意味着模型会更多地关注那些排序错误的样本,从而更有效地纠正错误。
    • 梯度更新方向:增加偏好响应的对数概率,同时减少不偏好响应的对数概率。

3. DPO 的优势

  • 无需显式奖励建模:DPO 直接从偏好数据中学习,无需训练单独的奖励模型,简化了训练流程。
  • 无需强化学习:DPO 使用简单的二元交叉熵损失进行优化,避免了强化学习带来的复杂性和不稳定性。
  • 计算效率高:DPO 训练过程更高效,消耗的计算资源更少。
  • 性能优越:实验表明,DPO 在控制生成文本的情感、摘要生成和对话生成等任务上,性能优于或至少与现有的 RLHF 方法相当。

4. 实验结果

4.1 情感生成任务

在控制情感生成任务中,DPO 在奖励-KL 散度边界上表现优异,能够在保持低 KL 散度的同时,实现更高的奖励,优于 PPO 等方法。

4.2 摘要生成任务

在 TL;DR 摘要生成任务中,DPO 的胜率(与参考摘要相比)达到 61%,高于 PPO 的 57%。 此外,DPO 对采样温度的鲁棒性更强,而 PPO 的性能在高温下会下降。

4.3 对话生成任务

在 Anthropic HH 对话数据集上,DPO 是唯一一种在计算效率高的前提下,能够超越首选完成度的方法,并且其性能与计算成本更高的 Best of 128 基线相当。

4.4 泛化能力

在将 PPO 和 DPO 策略应用于不同分布(CNN/DailyMail 新闻文章)时,DPO 仍然优于 PPO,表明 DPO 策略具有较好的泛化能力。

4.5 GPT-4 评估与人类评估的一致性

为了验证 GPT-4 评估的可靠性,本文进行了人类研究,发现 GPT-4 的判断与人类判断的一致性较高,表明 GPT-4 是人类评估的合理代理。

5. 讨论与未来方向

  • DPO 策略的泛化能力:DPO 策略在不同分布上的表现如何?与从显式奖励函数中学习相比如何?
  • 奖励过度优化问题:DPO 中是否存在奖励过度优化问题?图 3 中性能的轻微下降是否是其表现?
  • DPO 的可扩展性:DPO 能否扩展到更大规模的模型?
  • GPT-4 评估的改进:如何更好地从自动化系统中获取高质量的判断?
  • DPO 的其他应用:DPO 的应用范围可以扩展到其他模态的生成模型训练。

6. 总结

DPO 是一种无需强化学习的语言模型偏好优化方法,具有以下优势:

  • 简化训练流程:无需显式奖励建模和强化学习。
  • 计算效率高:训练过程更高效,消耗资源更少。
  • 性能优越:在多个任务上表现优于或至少与现有的 RLHF 方法相当。

DPO 为训练更强大的、对齐的语言模型提供了一种更简单、更高效的方法。

http://www.yayakq.cn/news/546984/

相关文章:

  • 西安高端网站制作公司哪家好给我一个网站贴吧
  • 怎样才能建设网站wordpress视频api
  • 天津商城网站建设公司上海有名的广告设计公司
  • ipv6跟做网站有关吗更改wordpress菜单字体大小
  • 沈阳建设局网站首页链接网址怎么做
  • 做网站推广方法网站seo 教程
  • 网站开发工具 比较代理记账如何获取客户
  • 国外专门做童装的网站WordPress加载语言包
  • 响应式网站建站平台长沙制作网页网站
  • 创建一个网站竞网做的网站怎么
  • app设计素材网站网络公司好
  • 做3d图的网站有哪些软件网站seo标题是什么意思
  • 苏网站建设做室内装修的网站
  • 做王境泽gif的网站最好网站建设
  • 网站建设与设计摘要学建筑设计出来能干嘛
  • 电影订票网站怎么做唐山百度推广
  • 做地产网站石家庄云图网站建设
  • 温州哪里有网站西安百度推广优化托管
  • 网站网络拓扑图京东联盟新手没有网站怎么做推广
  • 商务网站开发实验报告郑州石凡平面设计有限公司
  • 企业做网站的费用账务如何处理盐山做网站的
  • 自己做的网站很慢免费生成网站网址
  • 做园林景观的网站南昌集团网站建设公司
  • 台州做鞋子网站比亚迪新能源汽车车型及价格
  • 网站建设 软文网站建设和软件开发
  • 长沙网站优化厂家网站如何做分享
  • 个人博客平台windows10优化软件
  • 灵犀科技 网站开发佼佼者自建网站做外贸好做吗
  • 大型网站制作费用表徐州网络推广公司排名
  • 高端品牌网站建设是什么建设网站的合同