当前位置: 首页 > news >正文

河南建设银行网站如何用一个框架做网站

河南建设银行网站,如何用一个框架做网站,wordpress怎么链接地址,玩网页游戏的网站1. Step1:SFT,Supervised Fine-Tuning,有监督微调。顾名思义,它是在有监督(有标注)数据上微调训练得到的。这里的监督数据其实就是输入Prompt,输出相应的回复,只不过这里的回复是人工…

1. Step1:SFT,Supervised
Fine-Tuning,有监督微调。顾名思义,它是在有监督(有标注)数据上微调训练得到的。这里的监督数据其实就是输入Prompt,输出相应的回复,只不过这里的回复是人工编写的。这个工作要求比一般标注要高,其实算是一种创作了。
2. Step2:RM,Reward
Model,奖励模型。具体来说,一个Prompt丢给前一步的SFT,输出若干个(4-9个)回复,由标注人员对这些回复进行排序。然后从4-9个中每次取2个,因为是有序的,就可以用来训练这个奖励模型,让模型学习到这个好坏评价。这一步非常关键,它就是所谓的Human
Feedback,引导下一步模型的进化方向。
3. Step3:RL,Reinforcement Learning,强化学习,使用PPO策略进行训练。
PPO,Proximal Policy Optimization,近端策略优化,是一种强化学习优化方法,它背后的主要思想是避免每次太大的更新,提高训练的稳定性。具体过程如下:首先需要初始化一个语言模型,然后丢给它一个Prompt,它生成一个回复,上一步的RM给这个回复一个打分,这个打分回传给模型更新参数。这里的这个模型在强化学习视角下就是一个策略。这一步有个很重要的动作,就是更新模型时会考虑模型每一个Token的输出和第一步SFT输出之间的差异性,要让它俩尽量相似。这是为了缓解强化学习可能的过度优化。
在这里插入图片描述

LLM的输出怎么评价:

三大原则:有帮助(helpful)、真实性(truthfulness)和无害性(harmlessness)
对大部分任务,无害和真实比有帮助更加重要。
对于边界 Case 的指导原则是:你更愿意从试图帮助你完成此任务的客户助理那里收到哪种输出?这是一种设身处地的原则,把自己假想为任务提出者,然后问自己期望得到哪种输出。

参考:
https://yam.gift/2023/02/19/NLP/2023-02-19-ChatGPT-Labeling/

http://www.yayakq.cn/news/866195/

相关文章:

  • 建一个电商网站多少钱做网站备案
  • 关于建设网站的通知老电脑做网站服务器
  • Django可以做门户网站吗h5响应式网站模板制作
  • 荥阳网站推广服装工厂做网站的好处
  • 网站建站企业网络游戏制作
  • the field wordpress网站seo怎么做的
  • 做网站模板哪里买c 可以做哪些网站
  • 太原做网站软件企业网站建设公司多米
  • 网站推广 软件建设银行网站怎么注销网银
  • 个人网站制作的主要内容许昌市网站建设
  • 策划网站做推广的公司类似58的推广平台有哪些平台
  • 高性能网站建设在线阅读fireworks做网站
  • 网站建设的设计方案房山区做网站
  • 国内免费域名注册网站公司企业网站模板
  • 某学校网站建设方案论文自己做公司网站简单吗
  • ipv6网络设计案例如何优化网站提高排名
  • 番禺做网站关于电子商务网站建设的论文
  • 科技公司网站设计公司中企动力300官网
  • 惠州免费建站模板做儿童文学的网站
  • 分类信息网站开发弄个小程序要多少钱
  • 做网站需要什么认证wordpress文章文字连接
  • 傻瓜式网站源码单页网站制作 在线 支付
  • 网站远程图片wordpress主题ent破解版
  • dedecms导航网站英语培训学校网站建设多少钱
  • 做网站需要买多大空间重庆网站优化排名推广
  • 怎样在微信公众号里做微网站福州网站建设方案外包
  • 企业做网站的费用计入什么科目海口高端网站建设
  • 请问下网站开发怎么弄全国物流网站
  • 公司做的网站入哪个会计科目邢台手机网站建设公司
  • 网站建设服务周到网络有限公司