当前位置: 首页 > news >正文

网站建设优化托管app免费下载安装官方

网站建设优化托管,app免费下载安装官方,深圳网页制作推广公司排名,引用网站资料怎么注明目录 正排与倒排索引 1.正排索引 作用: 优点: 缺点: 2.倒排索引 原理: 倒排索引的构建流程: 倒排索引的搜索流程: 优点: 缺点: 3. 应用场景 倒排索引中有几个非常重要的概念…

目录

 正排与倒排索引

1.正排索引

作用:

优点:

缺点:

2.倒排索引

原理:

 倒排索引的构建流程:

 倒排索引的搜索流程:

优点:

缺点:

3. 应用场景

倒排索引中有几个非常重要的概念:

  1. 词条(term):索引里面最小的存储和查询单元,对文档数据或用户搜索数据,利用某种算法分词,得到的具备含义的词语就是词条。
  2. 词汇表(Vocabulary) :这是一个包含所有不重复词汇的列表,每个词汇都有一个唯一的词汇ID。
  3. 倒排列表(Inverted List) :对于每个词汇,倒排列表记录了包含该词汇的文档ID或文档的位置信息。这使得搜索引擎可以快速地找到包含特定词汇的文档。
  4. 文档( Document ):用来搜索的数据,其中的每一条数据就是一个文档。例如一个网页、一个商品信息

 正排与倒排索引

1.正排索引

正排索引(forward index)是信息检索和数据库系统中常用的一种数据结构,用于按顺序存储和访问文档或记录的详细信息。正排索引将每个文档的内容和其他相关信息按照一定的顺序和格式存储在一个连续的数据结构中,以便于后续的检索和访问。

图例:

作用:

如果是根据id查询,那么直接走索引,查询速度非常快,通常用于支持倒排索引(inverted index)的建立和查询。

优点:

可以给多个字段创建索引 根据索引字段搜索、排序速度非常快

缺点:

1. 存储需求大:正排索引存储了每个文档的详细信息,包括内容和元数据。对于大规模文档集合,需要大量的存储空间来维护这些信息。

2. 访问效率低:正排索引通常是顺序存储的,要求对整个索引进行扫描或者按顺序访问来获取特定文档的详细信息。在需要随机访问或者大规模并发访问时,可能会导致访问效率不高,特别是当数据量巨大时,内存或磁盘访问延迟可能成为瓶颈。

3.不适合全文搜索:正排索引虽然包含文档内容,但不像倒排索引那样针对文本内容建立反向索引以支持全文搜索。因此,在需要快速全文搜索和相关性排序的场景下,倒排索引通常更为适用。

2.倒排索引

倒排索引(inverted index),用于快速查找包含特定单词的文档或文档集合。与正排索引不同,倒排索引以单词或者词项作为索引的关键,并记录包含这些单词的文档位置或标识符。倒排索引主要用于支持文本搜索引擎等应用,能够快速定位到包含用户查询单词的文档。

图例:

原理:

倒排索引是一种反向索引结构,它将文档中的每个词汇映射到它出现的文档或文档的位置。它包括两个主要部分:

  1. 词汇表(Vocabulary) :这是一个包含所有不重复词汇的列表,每个词汇都有一个唯一的词汇ID。
  2. 倒排列表(Inverted List) :对于每个词汇,倒排列表记录了包含该词汇的文档ID或文档的位置信息。这使得搜索引擎可以快速地找到包含特定词汇的文档。
 倒排索引的构建流程:
  1. 文本预处理:将文档内容分解成单独的词汇或短语,将词汇统一为基本形式,去除常见但无实际检索价值的词。
  2. 建立词汇表:创建一个包含所有独特词汇的列表,并为每个词汇创建一个倒排列表。
  3. 构建倒排列表:对于每个词汇,记录所有包含该词汇的文档的标识符(如文档ID)。这些记录通常会存储在一个列表或数组中。
  4. 索引优化:对索引表进行压缩,以减少存储空间和提高访问效率,根据索引大小和访问模式,优化索引的内存缓存和磁盘读写策略,以提高性能。
 倒排索引的搜索流程:
  1.  用户输入一个词语,系统首先对查询进行预处理,包括分词、词干提取等,以便与倒排索引中的词项进行匹配。
  2. 系统根据预处理后的查询词项,在倒排索引中查找每个词项对应的文档列表。
  3. 如果查询中有多个词项,系统将合并这些词项的倒排列表,找出它们的交集或并集,得到包含所有查询词项的文档集合。
  4. 根据每个文档在倒排列表中的相关性得分(如文档频率、位置信息等),对搜索结果进行排序。

搜索流程举例:

 

优点:

根据词条搜索、模糊搜索时,速度非常快

缺点:

只能给词条创建索引,而不是字段无法根据字段做排序(此处所指的字段是json中的字段)

3. 应用场景

在实际应用中,正排索引和倒排索引往往是结合使用的。例如,在数据库系统中,正排索引用于快速访问数据记录,而倒排索引用于实现高效的文本搜索。在搜索引擎中,倒排索引用于处理用户的搜索查询,快速返回相关结果,而正排索引则用于获取结果中文档的详细信息。

总结来说,正排索引和倒排索引各有特点,它们在不同的场景下发挥着重要的作用。正排索引适合于基于唯一标识符的数据检索,而倒排索引则更适合于全文搜索和关键词检索。

http://www.yayakq.cn/news/837220/

相关文章:

  • 兼职做网站访问量和数据河南省住房和城乡建设厅电话
  • 潍坊市城乡建设局网站王占山军衔
  • logo是黑色 怎么调网站的色调科技网站设计公司排名
  • 手机门户网站开发wordpress不能启动怎么解决
  • 网站开发哪一种语言好重庆沙坪坝好玩的地方
  • 三明市网站建设做申诉资料网站
  • 网站建设和挂标情况清理表网页传奇公益服
  • 公司做完网站怎么搜不到在线平面设计软件免费版
  • 如何把做的网站发布到网上设计logo网站推荐
  • 多语言网站模板建网页软件
  • 做网站的保证承诺腾讯云服务器怎么登录
  • 网站注册qq长沙做网站价格
  • 淘宝电子网站建设论文电器企业网站建设
  • 自己做的网站邮箱更改密码程序为什么总出错263邮箱企业邮箱入口
  • 淄博网站排名公司在网上做网站
  • 网站做竞价经常会被攻击吗wordpress后台网址
  • 爱最好网站建设道德建设 网站
  • 公司备案证查询网站查询北京市住房与城乡建设厅网站
  • 网站建设服务便宜广州做外贸网站的公司
  • 无锡建网站价格网站快速收录提交
  • 网站怎么做收费太原建站模板
  • 电子商务网站建设心得怎么样可以做网站充值代理
  • 网站建设技能培训五指山住房建设局网站
  • 营销软件网站国内三大电商平台分析报告
  • 做网站公司赚钱吗jsp ajax网站开发典型实例pdf
  • 建设个人网银网站计算机网络培训课程
  • 吉林省 网站建设国内可访问的海外网站和应用
  • 如何做分类网站信息营销郴州市地图全图
  • 酒店做爰视频网站php网站开发用什么软件
  • 做公司网站的南宁公司手机app设计网站