当前位置: 首页 > news >正文

宁夏自治区住房城乡建设厅网站wordpress左右滑动插件

宁夏自治区住房城乡建设厅网站,wordpress左右滑动插件,wordpress第三方主题,毕业设计网站开发流程一、定义 1、语言模型的目标是估计序列的联合概率,一个理想的语言模型就能够基于模型本身生成自然文本。 2、对一个文档(词元)序列进行建模, 假设在单词级别对文本数据进行词元化。 3、计数建模 (1)其中…

一、定义

1、语言模型的目标是估计序列的联合概率,一个理想的语言模型就能够基于模型本身生成自然文本。

2、对一个文档(词元)序列进行建模, 假设在单词级别对文本数据进行词元化。

3、计数建模

(1)其中𝑛(𝑥)和𝑛(𝑥,𝑥′)分别是单个单词和连续单词对的出现次数

4、N元语法

5、用空间换时间:统计单词在数据集中的出现次数, 然后将其除以整个语料库中的单词总数。

6、齐普夫定律:词频以一种明确的方式迅速衰减。 将前几个单词作为例外消除后,剩余的所有单词大致遵循双对数坐标图上的一条直线。 

二、构建自然语言统计

import random
import torch
from d2l import torch as d2ltokens = d2l.tokenize(d2l.read_time_machine())
# 因为每个文本行不一定是一个句子或一个段落,因此我们把所有文本行拼接到一起
corpus = [token for line in tokens for token in line]
vocab = d2l.Vocab(corpus)
vocab.token_freqs[:10]

1、N元语法

#一元
freqs = [freq for token, freq in vocab.token_freqs]
#二元
bigram_tokens = [pair for pair in zip(corpus[:-1], corpus[1:])]
bigram_vocab = d2l.Vocab(bigram_tokens)
#三元
trigram_tokens = [triple for triple in zip(corpus[:-2], corpus[1:-1], corpus[2:])]
trigram_vocab = d2l.Vocab(trigram_tokens)

2、随机采样

def seq_data_iter_random(corpus, batch_size, num_steps):  #@save"""使用随机抽样生成一个小批量子序列"""# 随机对序列进行分区corpus = corpus[random.randint(0, num_steps - 1):]# 减去1,是因为我们需要考虑标签num_subseqs = (len(corpus) - 1) // num_steps# 长度为num_steps的子序列的起始索引initial_indices = list(range(0, num_subseqs * num_steps, num_steps))# 在随机抽样的迭代过程中,random.shuffle(initial_indices)def data(pos):# 返回从pos位置开始的长度为num_steps的序列return corpus[pos: pos + num_steps]#因为subseq有若干个batchenum_batches = num_subseqs // batch_sizefor i in range(0, batch_size * num_batches, batch_size):# 在这里,initial_indices包含子序列的随机起始索引initial_indices_per_batch = initial_indices[i: i + batch_size]#基于到目前为止我们看到的词元来预测下一个词元, 标签是移位了一个词元的原始序列X = [data(j) for j in initial_indices_per_batch]Y = [data(j + 1) for j in initial_indices_per_batch]yield torch.tensor(X), torch.tensor(Y)

3、顺序分区

def seq_data_iter_sequential(corpus, batch_size, num_steps):  #@save"""使用顺序分区生成一个小批量子序列"""# 从随机偏移量开始划分序列offset = random.randint(0, num_steps)num_tokens = ((len(corpus) - offset - 1) // batch_size) * batch_sizeXs = torch.tensor(corpus[offset: offset + num_tokens])Ys = torch.tensor(corpus[offset + 1: offset + 1 + num_tokens])Xs, Ys = Xs.reshape(batch_size, -1), Ys.reshape(batch_size, -1)num_batches = Xs.shape[1] // num_stepsfor i in range(0, num_steps * num_batches, num_steps):X = Xs[:, i: i + num_steps]Y = Ys[:, i: i + num_steps]yield X, Y

4、两个采样函数包装到一个类中

class SeqDataLoader:  #@save"""加载序列数据的迭代器"""def __init__(self, batch_size, num_steps, use_random_iter, max_tokens):if use_random_iter:self.data_iter_fn = d2l.seq_data_iter_randomelse:self.data_iter_fn = d2l.seq_data_iter_sequentialself.corpus, self.vocab = d2l.load_corpus_time_machine(max_tokens)self.batch_size, self.num_steps = batch_size, num_stepsdef __iter__(self):return self.data_iter_fn(self.corpus, self.batch_size, self.num_steps)

5、同时返回数据迭代器和词表

def load_data_time_machine(batch_size, num_steps,  #@saveuse_random_iter=False, max_tokens=10000):"""返回时光机器数据集的迭代器和词表"""data_iter = SeqDataLoader(batch_size, num_steps, use_random_iter, max_tokens)return data_iter, data_iter.vocab

三、总结

1、语言模型是自然语言处理的关键。

2、𝑛元语法通过截断相关性,为处理长序列提供了一种实用的模型。

3、长序列存在一个问题:它们很少出现或者从不出现。

4、齐普夫定律支配着单词的分布,这个分布不仅适用于一元语法,还适用于其他𝑛元语法。

5、读取长序列的主要方式是随机采样和顺序分区。在迭代过程中,后者可以保证来自两个相邻的小批量中的子序列在原始序列上也是相邻的。

http://www.yayakq.cn/news/118105/

相关文章:

  • 做配件出口上什么网站浏览器打开自己做的网站
  • WordPress网站远程访问seo优化的方法有哪些
  • 做网站 什么后缀wordpress怎么加目录
  • 网站建设企业合作邀请函大一网页设计个人网站代码
  • 村建站属于哪个部门朋友要给我做网站
  • 网站建设的书籍程序员能转行做网站维护不
  • 莱芜营销型网站制作云南品牌网站开发
  • 如何联系网站wordpress 类似的
  • 常州网站seo全屋定制十大名牌是哪些
  • 株洲网站制作与设计杭州最好的网站设计公司
  • 威海做网站whhl陕西有限公司网站建设招标公告
  • 怎样做自己的vip解析网站郑州电力高等专科学校哪个专业好
  • 马鞍山建设网站网站有死链怎么办
  • 做网站的说3年3年包括什么手机本地图片生成链接
  • 请教个人主页网站怎么做啊下载app官方正版
  • 宝安多屏网站建设公司好吗物流网站风格
  • 做肯德基玻璃门网站电器网站建设策划书
  • 做外贸一般在哪个网站网站免费建站o
  • 怎么做微信上的网站什么是网络营销取得成功的基础
  • 做国外夏令营的网站线上营销手段
  • 农业电商网站建设方案wordpress页面可视化编辑器
  • 如何微信支付购物网站wordpress阿里云esc配置
  • 网站后台功能需求网页设计实训报告美食主题
  • 哪几个做内贸的网站比较好一点公司网站制作教学
  • 自己做坑人网站的软件企业为什么建设网站
  • p2p金融网站开发方案建设部网站合并
  • 最全做暖暖网站手机分销网站
  • 网站制作有限百度竞价排名是以什么形式来计费的广告?
  • 北京上海网站建设公司哪家好旅游目的地网站建设的流程
  • 小学生的做试卷儿的网站 你这大兴企业网站建设