当前位置: 首页 > news >正文

手机网站调用分享wordpress安装对搜索

手机网站调用分享,wordpress安装对搜索,wordpress 网站标题图,泰兴公司做网站目录 一.分词 1.分词工具 2.分词的方法 3.N-gram表示方法 二.向量化 1.one-hot编码 2.word embedding 3.word embedding API 4.数据形状改变 既然是自然语言,那么就有字,词,句了 一.分词 1.分词工具 tokenization,jie…

目录

一.分词

1.分词工具

2.分词的方法

3.N-gram表示方法

二.向量化

1.one-hot编码

2.word embedding

3.word embedding API

4.数据形状改变


既然是自然语言,那么就有字,词,句了

一.分词

1.分词工具

tokenization,jieba,清华大学的分词工具THULAC等等

2.分词的方法

对于中文我们可用把句子分为词语或者字,比如我爱那个姑娘,可以分为[我,爱,那个,姑娘],或者[我,爱,那,个,姑,娘]

对于英文来说直接按照空格分就可以了

3.N-gram表示方法

前面我们说句子可以分为单个字或者词,但是有些时候我们要用到三个字,四个字,五个字等等这些词语来表示,而N-gram就是用来将句子分为一组一组的词语,N表示能够被一起使用的字或者词的数量

import jieba
s='很多深度学习算法中都会包含"神经网络"这个词,比如:卷积神经网络、循环神经网络'
cuted=jieba.lcut(s)
# 这里就是N-grad方法,这里的N=2,两个词的意思
[cuted[i:i+2] for i in range(len(cuted)-1)]
print(cuted)

运行后打印出[['很多', '深度'], ['深度', '学习'], ['学习', '算法'], ['算法', '中'], ['中', '都'], ['都', '会'], ['会', '包含'], ['包含', '"'], ['"', '神经网络'], ['神经网络', '"'], ['"', '这个'], ['这个', '词'], ['词', ','], [',', '比如'], ['比如', ':'], [':', '卷积'], ['卷积', '神经网络'], ['神经网络', '、'], ['、', '循环'], ['循环', '神经网络']]

二.向量化

因为计算机不能识别文字,所以要把文字向量化,转化成数字形式

1.one-hot编码

在one-hot编码中,每一个字词使用一个长度为N的向量表示,N表示token的数量。比如我们要对“深度学习”进行分词one-hot处理

2.word embedding

这个方法是深度学习中常用的方法,word embadding使用了浮点型的稠密矩阵来表示token。根据需要分词的文本,我们的向量通常采用不同的维度,比如100,256,300等等。其中向量中的每一个值都是参数,其初始值是随机生成的,之后会在训练的过程中不断的学习改进获得

比如一个文本中有10000个字词,如果使用one-hot编码,那么生成的矩阵就是10000*10000的大小,而且每个字词的代表向量基本是用0组成的。而用word embedding来表示的画,只需要10000*200,或者10000*300大小的矩阵。

我们把所有文本转化为向量,把句子用向量来表示。但是在着中间,我们先把token使用数字来表示,在把数字用向量来表示,因为文字计算机识别不了。token----->num----->vector

3.word embedding API

在torch中导入,torch.nn.Embedding(num_embeddings, embedding_dim)。其中num_embedding表示词典的大小,embedding_dim表示embedding的维度也就是上面说的100,256,300等等。

4.数据形状改变

比如每一个batch中的每个句子有十个词语,经过形状为[20,4]的word emebedding之后,原来的句子会变成[batch_size,10,4]的形状。相当于增加了一个维度,比如二维数据变成三维

关注我持续更新!!!

http://www.yayakq.cn/news/306917/

相关文章:

  • 兰州网站推信息化建设办公室网站
  • 甘南州住房和城乡建设局网站咸阳网站建设制作
  • 网站分屏布局设计沧州有做网站的吗
  • 房产中介网站怎么做网站成立时间
  • 清远建设工程招投标网站哈尔滨市建设工程交易信息网
  • 网站被黑 百度跳转兼职设计师平台
  • 公司个人怎么制作网站图书馆网站建设的建议
  • 仿网站上的焦点图交换友情链接平台
  • 手赚网站哪里可以做广告法
  • 汉沽天津网站建设上海800做网站
  • seo网站营销推广公司公众号开发是不是网站开发
  • 盐城网站建设培训班同城分类信息网站建设
  • 毕业设计查资料的网站免费网站制作手机软件的app
  • 全面的基础微网站开发58网站 做现浇混凝土
  • 网站 功能建设上 不足营销策划公司名字简单大气
  • wordpress怎么改后台河南seo推广平台
  • iis发布php网站沧州品牌网站建设
  • 挂马网站教程如何做网站截流
  • 网站推广是网站建设完成之后的长期工作手机模板网站制作
  • 如何做网站页面免费的烟台网站建设托管
  • 沧州*网站建设怎么制作页面模板
  • 光明新区网站建设世界排名前十位
  • 适合网站开发的浏览器ssh搭建wordpress
  • 网站如何调用数据库河南住房和城乡建设厅网官方网站
  • 天津工程网站建设做外贸网站如何
  • 深圳精品网站设计商城网站建设协议
  • 学习网站二次开发北京logo设计公司哪家好
  • 保利拍卖公司网站传销网站建设
  • 网站建设公司 成本结转网站营销网站优化
  • wordpress 显示文章数量做seo有什么好处