当前位置: 首页 > news >正文

中国核工业第五建设公司网站英文网站建设580

中国核工业第五建设公司网站,英文网站建设580,成都网站排名 生客seo怎么样,百度搜索引擎网址基础概念相信对于第一次接触Elasticsearch的同学来说#xff0c;最难理解的概念就是倒排序索引#xff08;也叫反向索引#xff09;#xff0c;因为这个概念跟我们之前在传统关系型数据库中的索引概念是完全不同的#xff01;在这里我就重点给大家介绍一下倒排序索引…基础概念相信对于第一次接触Elasticsearch的同学来说最难理解的概念就是倒排序索引也叫反向索引因为这个概念跟我们之前在传统关系型数据库中的索引概念是完全不同的在这里我就重点给大家介绍一下倒排序索引这个概念搞明白之后然后学习Elasticsearch就会清晰很多了。正向索引和倒排序索引在没有搜索引擎时我们是直接输入一个网址然后获取网站内容这时我们的行为是document - to - words 通过文章获取里面的单词此谓正向索引forward index.有了搜索引擎后我们的行为是输入一个单词找到含有这个单词或者和这个单词有关系的文章word - to - documents 我们把这种索引叫做inverted index直译过来叫做倒排序索引也叫反向索引。倒排序索引是实现“单词-文档矩阵”的一种具体存储形式通过倒排序索引可以根据单词快速获取包含这个单词的文档列表。倒排序索引主要由两个部分组成“单词词典”和“倒排文件”倒排序索引中重要的概念 文档(Document)一般搜索引擎的处理对象是互联网网页而文档这个概念要更宽泛些代表以文本形式存在的存储对象相比网页来说涵盖更多种形式比如WordPDFhtmlXML等不同格式的文件都可以称之为文档字段Field可以理解成数据库行中的字段一个Document会由一个或多个Field组成文档编号(Document ID)在搜索引擎内部会将文档集合内每个文档赋予一个唯一的内部编号以此编号来作为这个文档的唯一标识这样方便内部处理每个文档的内部编号即称之为“文档编号”后文有时会用DocID来便捷地代表文档编号。举个例子文档和词条之间的关系如下图上图中每一行就是一个Document字段值被分析之后存储在倒排索引中倒排索引存储的是分词Term和文档Doc它们之间的关系简化版的倒排索引如下图上图中counter代表统计分词的次数单词词典(Lexicon)搜索引擎的索引单位通常是单词单词词典是由文档集合中出现过的所有单词构成的字符串集合它用来维护文档集合中出现过的所有单词的相关信息同时用来记载某个单词对应的倒排列表在倒排文件中的位置信息。为了更好的理解单词词典这个抽象概念我们通过Elasticsearch来进行举例ES 为了能快速找到某个 Term先将所有的 Term 排个序然后根据二分法查找 Term时间复杂度为 O(log n);就像通过字典查找一样这就是 Term Dictionary。如果 Term 太多Term Dictionary 也会很大放内存不现实于是有了 Term Index。就像字典里的索引页一样S开头的有哪些 Term分别在哪页可以理解 Term Index是一棵树这棵树不会包含所有的 Term它包含的是 Term 的一些前缀通过 Term Index 可以快速地定位到 Term Dictionary 的某个 Offset然后从这个位置再往后顺序查找。在内存中用 FST 方式压缩 Term IndexFST 以字节的方式存储所有的 Term这种压缩方式可以有效的缩减存储空间使得 Term Index 足以放进内存但这种方式也会导致查找时需要更多的 CPU 资源。对于存储在磁盘上的倒排表同样也采用了压缩技术减少存储所占用的空间。分词Analysis将文本切分为一系列单词的过程例如文本谷歌地图之父跳槽FaceBook分词结果谷歌\ 地图\之父\跳槽\FaceBook倒排列表(PostingList)倒排列表记录了出现过某个单词的所有文档的文档列表及单词在该文档中出现的位置信息每条记录称为一个倒排项(Posting)。根据倒排列表即可获知哪些文档包含某个单词。实际的倒排列表中并不只是存了文档ID这么简单还有一些其它的信息比如词频Term出现的次数、偏移量offset等如下图所示单词ID、单词和文档频率就不多说了这里重点解释一下倒排列表 DocID单词出现的文档idTF单词在某个文档中出现的次数POS单词在文档中出现的位置以单词“加盟”为例其单词编号为6文档频率为3代表整个文档集合中有三个文档包含这个单词对应的倒排列表为{(2;1;4),(3;1;7),(5;1;5)}含义是在文档235出现过这个单词在每个文档的出现过1次单词“加盟”在第一个文档的POS是4即文档的第四个单词是“加盟”其他的类似。 倒排文件(Inverted File)所有单词的倒排列表往往顺序地存储在磁盘的某个文件里这个文件即被称之为倒排文件倒排文件是存储倒排索引的物理文件。词典、单词、倒排文件和倒排列表概念之间的关系一张图就能很好的说明这些概念的关系
http://www.yayakq.cn/news/961/

相关文章:

  • 上海外贸网站google建站wordpress 首页慢
  • 旅游网站制作模板网站名称设置
  • 网站制作的页面比例网站怎样做漂浮
  • 网站建设2018需要什么蔬菜网站建设
  • 中国建设银行网站能解密码深圳如何搭建制作网站
  • app 网站平台建设实施方案erp定制软件开发公司推荐
  • seo网站营销公司哪家好了解c2c电商网站的特点
  • 做一个网站的详细教学重庆市门户网站制作
  • 商会网站建设招标方案分公司一般做网站吗
  • 成都铁路局贵阳建设指挥部网站网站建设中html网页
  • waP六感程序建设网站制作一款手游需要多少钱
  • 网页前端模板网站内优化怎么做
  • 那可以做网站模板网站和定制网站有什么区别
  • 台州企业网站排名优化德阳建设网站
  • 做网站比较便宜广州网站建设市场
  • 新编asp.net 2.0网站开发从入门到精通 代码网站建设中敬请期待 图片
  • 网络品牌营销推广公司自己网站做优化的有权利卖么
  • 卖摄影作品的网站威海市建设局官方网站
  • 长沙网站设计开发谷歌怎么做网站推广
  • 提高网站搜索排名手机网站可以做动态吗
  • 网站建设需要租用什么在网上做游戏网站违法吗
  • 嘉瑞建设集团有限公司网站开发公司注册资金要求
  • 做办公室的网站河南省网站备案
  • 织梦做中英文网站步骤龙岗-网站建设深圳信科
  • 胶州市城乡建设局网站做360手机网站优
  • vip影视网站怎么做的深圳软件公司平均薪资排行榜
  • 网站ui设计兼职可视化网站制作软件
  • 网站底部模板视频直播sdk
  • 音乐外链网站月夜直播免费版
  • 手机网站相册代码自助建子站