当前位置：首页 > news >正文

企业网站域名空间快站建站教程

news 2025/11/6 5:23:26

企业网站域名空间,快站建站教程,响应式网站建设平台,珠海移动网站建设报价最近在看大模型训练相关的论文，预计会追溯经典的和最新的训练策略以及微调原理等本次解读经典论文learning to summarize with human feedback 一、简介部分生成任务需要对齐人类偏好，但是根据最大化可能性（对数似然）进行微调…

最近在看大模型训练相关的论文，预计会追溯经典的和最新的训练策略以及微调原理等

本次解读经典论文learning to summarize with human feedback

一、简介

部分生成任务需要对齐人类偏好，但是根据最大化可能性（对数似然）进行微调的模型跟真正使用模型的人的喜好并不能直接匹配，即不对齐。

这种不对齐的原因有：（1）最大化可能性目标对于重要和不重要的错误判别的差距不大。（2）模型会对人类的训练数据放置更大的可能性，其中包括低质量的训练数据。（3）采样时的分布偏移可能会降低表现。尽管第三点能够通过不均匀采样策略改善，比如束搜索，但是可能造成重复和不想要的捏造。

本论文的团队基于GPT3和人类反馈强化学习进行了完整的偏好对齐的流程。

主要的贡献如下：

（1）使用人类反馈训练后在英文摘要生成的任务上表现显著。

（2）比有监督模型对于新领域的泛化性更好

（3）对policy和奖励模型进行了严谨的分析

（4）开源人类反馈数据集

创新：模型更大；收集人类反馈的批次设定；保证标注人员和研究人员的评价一致；一些算法改进，比如将policy和奖励模型分开

二、方法和实验细节

在已经有一个训练过的模型（在强化学习中，这个训练好的模型叫policy）的基础上，对于RLHF，通用的三步如下：

1.使用policy模型对同一个prompt进行推理后给标注员进行对比

2.从以上的对比结果中训练一个奖励模型

3.使用奖励模型和PPO算法进行policy模型的优化

对于同一个摘要生成的数据，结果对比：

三、模型结构

所有模型的结构是GPT3风格的Transformer解码器

先在大规模的文本库中使用预测下一个token的形式进行预训练

奖励模型

人类反馈policy模型

前者最大化奖励模型的偏好，后者有两个作用：（1）鼓励模型去探索好的模式，防止单模式崩溃

（2）让模型减少学习和训练时见过的输出相差较大的偏好。

http://www.yayakq.cn/news/681984/

相关文章：

营销网站建设的步骤应用商店app下载官方

怎么做弹幕小视频网站wordpress 菜单表

网站建设品番禺seo

多媒体教学网站开发的一般步骤美食网站首页设计

谷歌生成在线网站地图辽宁建设工程信息网投标制作软件

网站素材模板九江市建设项目服务中心

结婚网站模版seo的中文含义是

网站站建设建设中页中页做网站1g1核够吗

电子通讯录网站建设免费发布产品信息的网站

海南seo排名网站用户体验优化方案

做网站每个月可以赚多少钱中国建设银行网站属于什么机构

电子商务网站购物车怎么做wordpress制作友情链接

建设网站有何要求wordpress按分类调用文章

教育一对一直播网站建设wordpress模板seo

闸北做网站公司安康码管理平台

美橙网站建设学习教程ireal 网站建设

asp.net 4.0网站开发与项目实战 pdf做网站用的小图标

注册建设网站的公司网站黑龙江省建设教育协会网站首页

大型网站开发价格网站制作里面链接怎么做

网站建设如何记账开发一款app得多少钱

重庆建设空调网站台州椒江网站建设公司

vs2010做网站兰州又发现一例

辅料企业网站建设费用建设网站的机构

容桂网站建设公司如何做网站充值接口

吉林省招标网官方网站电商培训机构有哪些?哪家比较好

虚拟主机可建站1个是不是只能放一个网站如何注册公司抖音号

杨凯做网站1 童装网站建设目标

东莞网站制作南城电商sku是什么意思

个人网站可以收费吗wordpress中页面编辑

不用域名访问网站合理使用说明