当前位置: 首页 > news >正文

橱柜网站模板抖音生活服务旅行社ota入驻

橱柜网站模板,抖音生活服务旅行社ota入驻,找做废薄膜网站,网站后台策划书参考网络课程:https://www.bilibili.com/video/BV1UG411p7zv/?p98&spm_id_frompageDriver&vd_source3eeaf9c562508b013fa950114d4b0990 1. 概述 包含理解和分类两大类问题,对应的就是BERT和GPT两大类模型;而交叉领域则对应T5 2.…

参考网络课程:https://www.bilibili.com/video/BV1UG411p7zv/?p=98&spm_id_from=pageDriver&vd_source=3eeaf9c562508b013fa950114d4b0990

1. 概述

包含理解和分类两大类问题,对应的就是BERT和GPT两大类模型;而交叉领域则对应T5
在这里插入图片描述

2. 信息检索(IR)

在这里插入图片描述

2.1 传统方法:BM25

传统IR方法BM25基于tf-idf,介绍如下在这里插入图片描述
根据单词去匹配有两类问题:有时候同一个词有很多意思;有时候同一个意思使用完全不同的词表达的;这样就会产生precision和recall两方面的问题。

2.2 大模型方法

大模型IR的逻辑如下:将查询q和文档库D都输入神经网络,得到q的向量和D中所有d的向量,然后查询和q相似度最高的d。
在这里插入图片描述
大模型IR方法有两种:cross-encoder和dual-encoder。
在这里插入图片描述
一般会分两步:先使用右边的de进行粗筛,然后使用左边的ce进行精排。
在这里插入图片描述

在这里插入图片描述

3. 知识问答

3.1 理解类QA

在这里插入图片描述
举个例子,我们英语考试的阅读理解:
在这里插入图片描述
传统模型如下:
在这里插入图片描述
一个具体的实现方法如下:

有了大模型之后,整体的架构变得极为简单:
在这里插入图片描述
下面是一个基于BERT的例子,把问题和reference输入bert,然后把cls的embedding拿出来,接上一个分类层即可。
在这里插入图片描述

还有一种更简单的prompt learning的方式:
在这里插入图片描述

3.2 开放类QA

在这里插入图片描述
包括两类:
1) 生成式问答
在这里插入图片描述
在这里插入图片描述

2)检索式问答
在这里插入图片描述
在这里插入图片描述
第一步的检索工作,可以使用大模型来训练:
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

3.3 微调代码

下面是使用openDelta进行微调知识问答的例子:
在这里插入图片描述
在这里插入图片描述

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

4. 文本生成

在这里插入图片描述

4.1 语言建模LM

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
大模型中的seq2seq代表是BART和T5,使用下面的方法,学习到了很强的填空能力
在这里插入图片描述

GPT是自回归的模型,结构上是把transformer的decoder单独拿出来。GPT学习到的是预测下一个词的能力
在这里插入图片描述
而BERT则是非回归的模型,结构上可以理解为transformer的encoder。没有时序关系,因此可以做上下文理解任务。
在这里插入图片描述

4.2 解码过程

LM的结果是词表的概率分布,我们需要解码成人类可读的语言
从最简单的greedy decoding开始:
在这里插入图片描述
这种myopic的方法,效果只能说是一般。
第二种是beam search的方法:
在这里插入图片描述

在这里插入图片描述
在这里插入图片描述
第三种是不追求概率最大,而是以一定概率去随机解码
在这里插入图片描述
temperature是softmax之前处以的一个数,这个数字越大的话,采样就越平均,也就是随机性增加了(多样性增加了,但是可能不相关)。
在这里插入图片描述

4.3 可控文本生成

有3类方法
在这里插入图片描述

4.3.1 prompt方法

可以在输入文本前面加prompt
在这里插入图片描述
也可以在模型前加prefix(也就是prefix-tuning的做法)
在这里插入图片描述

4.3.2 修改概率分布

使用正样本和负样本生成器来知道原模型:
在这里插入图片描述

4.3.3 直接修改模型结构

如下图,有两个encoder,其中一个用来编码guidance,并且会先解码,其结果再和source文本编码的结果一起进行解码
在这里插入图片描述

4.4 测评

BLUE指的是生成的文本的n-gram有多少与token的text是相似的,其中BP是对短句的惩罚,然后N一般取4,也就是计算1-gram到4-gram的相似度平均值。
PPL指的是生成目标概率的负相关系数。
ROUTE是一个基于recall-oriented来进行计算的方法
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

http://www.yayakq.cn/news/760126/

相关文章:

  • 网站掉排名网站建设推销话术案例
  • 找人做个网站需要多少钱工作单位一般填写什么
  • 哈尔滨市网站建设四川德充建设集团有限公司网站
  • 个人主页网站制作免费wordpress自用主题
  • 深圳有名的网站设计公司营销型集团网站建设
  • 骨干校 建设网站苏州虎丘区建设局网站
  • 网站制作代码网站开发转包协议
  • 虹口区建设工程管理网站如何自助建站
  • 搭建网站 开源软件it运维工程师证书
  • 免费的logo设计青岛关键词优化seo
  • 无经验做网站网络运营者应当按照网络安全等级保护制度的要求
  • 建筑公司做网站买空间多大合适韩国网站免费模板
  • 电脑手机网站首页小程序开发平台源代码下载
  • 网页建站分为几个类型网址如何被快速收录
  • 网站建设任职要求百度快照
  • 网站的验证码怎么做找个做网站的
  • 红色文化网站建设网赌怎么推广拉客户
  • 网站seo案例培训前端网站开发
  • 在网站建设工作会议上的讲话全网自助下单最便宜
  • 怎样用云服务器做网站如何加入广告联盟赚钱
  • 北京南站是中高风险地区吗wordpress高级设置
  • 什么叫网站流量财经最新消息今天
  • 网站开发Z亿玛酷1订制做网站尺寸
  • 郑州网站开发招聘房产行业微网站建设
  • 建设网站中存在的问题私密浏览器免费版在线看视频
  • 网站基本建设投资内容专业网站制作公司四川
  • wordpress 首页顶部为空郑州厉害的seo顾问
  • 网站栏目按扭百度网站申诉
  • 如何做色流量网站网站建设与管理实验报告
  • 安徽省建设部干部网站营销推广app