当前位置: 首页 > news >正文

网站建设开发原代码归属怎么制作公司网页

网站建设开发原代码归属,怎么制作公司网页,做电子请帖的网站,wordpress 添加php文章目录 前言为什么叫倒排索引数据结构如何生成如何查询TF、IDF参考文档 前言 上一章,简单介绍了 ES 的节点类型。 本章,我们要介绍 ES 中非常重要的一个概念:倒排索引。 ES 的全文索引就是基于倒排索引实现的。 本章内容建议重点学习&…

文章目录

      • 前言
      • 为什么叫倒排索引
      • 数据结构
      • 如何生成
      • 如何查询
      • TF、IDF
      • 参考文档

前言

上一章,简单介绍了 ES 的节点类型。
本章,我们要介绍 ES 中非常重要的一个概念:倒排索引。
ES 的全文索引就是基于倒排索引实现的。
本章内容建议重点学习,因为面试也常问。

为什么叫倒排索引

倒排索引指的是将每一个关键字映射到它出现的文档中。如下图所示
在这里插入图片描述

因为结构是倒着的,因此被称为倒排索引。

数据结构

倒排索引分为 2 部分:一部分叫 term directory(term 词典),一部分叫 posting list(倒排列表)。如下图所示
在这里插入图片描述

  • term directory
    term 字典,存放着每个单词到对应倒排列表的映射关系

  • posting list
    Docs 是一个数组。其中 1:2:[2,6] 意思如下

    • 1:文档ID
    • 2:词频(term frequency)
    • [2,6]:出现在文档中的第 2,6 个 term。

如何生成

这里涉及到我们之前讲过的分词器。工作流程如下图所示
在这里插入图片描述

大体就包含2部分,根据分词器将文本分词,然后根据分词生成倒排索引。

如何查询

例如我们查询:To do right
则该文本会先被分词为:to, do, right
对应的结果如下图所示:
在这里插入图片描述

TF、IDF

默认情况下,ES 会根据文档与搜索词的相关性得分对结果降序返回。相关性得分与以下 2 个概念有关(稍做了解,后续会出文章做更深入的介绍)

  • Term Frequency(TF):term 在文档中出现的频率,得分正相关。出现频率越高,得分越高
  • Inverted Document Frequency(IDF):term 在 所有文档 中出现的频率,得分负相关。出现频率越高,得分越低。

参考文档

Indexing: Inverted Index

http://www.yayakq.cn/news/75880/

相关文章:

  • 镇海区住房建设网站怎么查前端 wordpress
  • 宝坻建设路小学网站网站广告位怎么做
  • 免费模板网站都有什么区别安装建设手机银行移动门户网站
  • 网站外包一般多少钱啊中国网站建设市场规模
  • 购物网站开发毕业设计基于工作过程的商务网站建设 网页制作
  • 好看的网站设计大数据网页制作
  • 汕头站扩建进展美发网站模板带手机版
  • 山西网站备案柳州做网站价格
  • 淘宝客的网站怎么做的东莞网站建设 硅橡胶
  • 葫芦岛建设工程信息网站北京网站改版报价
  • 网站版块模板百度推广效果不好怎么办
  • 华强北 网站建设企业网站推广的方法有哪几种
  • 小型企业门户网站源码网站建设是怎么赚钱的
  • 网站首页设计布局方式wordpress不显示主题
  • 网站服务器空间价格河南省建设信息网
  • 九江php网站建设兼职彭山网站建设
  • 如何做纯文本网站用自己的电脑建网站
  • 手机浏览器app下载刷排名seo软件
  • pico笔克品牌介绍刷排名seo
  • 上海模板建站多少钱站长工具里查看的网站描述和关键词都不显示
  • 手机版景区网站榆次小学网站建设
  • 福田网站改版浙江网站建设外贸
  • 网站免费正能量安全汽车网站建设制作费用
  • 赣州有做网站推广的公司吗在线图片编辑免费版
  • 枸杞网站建设方案成全视频免费观看在线看第6季高清版下载
  • 成都市建设网站nodejs网站开发
  • 泰安市建设局网站网站建设子栏目文案
  • 成都学网站建设费用学设计的网站都有哪些
  • 网站建设图片尺寸深圳市罗湖网站建设
  • 常州网站建设服务seo入门培训