当前位置: 首页 > news >正文

网站设计要考虑的因素公司管理系统是系统软件吗

网站设计要考虑的因素,公司管理系统是系统软件吗,ps网站建设要知道的知识,建建建设网站首页Elasticsearch Pinyin拼音分词器 1. 前言2. pinyin分词器的多音字的错误修改3. 案例3.1 创建Mapping3.2 插入测试文档3.3 测试拼音搜索3.4 查看拼音分词后结果 4. 结语 1. 前言 在开发企业项目时,根据拼音搜索是很常见的场景,比如: 人员通讯…

Elasticsearch Pinyin拼音分词器

  • 1. 前言
  • 2. pinyin分词器的多音字的错误修改
  • 3. 案例
    • 3.1 创建Mapping
    • 3.2 插入测试文档
    • 3.3 测试拼音搜索
    • 3.4 查看拼音分词后结果
  • 4. 结语

1. 前言

在开发企业项目时,根据拼音搜索是很常见的场景,比如:

  • 人员通讯录,不确定人名具体是哪个汉字,只知道读音,可以输入汉字+全拼音、汉字+拼音首字母、拼音首字母等
  • 股票名称,炒股的人都知道,股票太多,记住所有股票code是不可能的,所以常用拼音首字母查股票。

在这里插入图片描述
在这里插入图片描述
Medcl大佬为我们提供了Pinyin分词器,可以让我们非常方便的使用拼音搜索文档。

2. pinyin分词器的多音字的错误修改

网上关于pinyin分词器的安装和使用的博客特别多,这里我就不赘述了。但是我得说一个非常重要的问题,目前我写博客时最新的版本8.x还是有这样的问题。虽然GitHub上,已经有人提出了这个Issue,但是目前还没有修复,所以我们就自己动手手动改改吧。

问题就是多音字“银行”的“行”,pinyin分词器会把“yin hang”错误的转成“yin xing”,当你测试“中国银行”时它是对的,但是“建设银行”时就又错了。不信的话你自己试试看。

这个时候需要修改下图中的jar包解压出来
在这里插入图片描述
然后修改如下图中文件polyphone.txt,注意千万不要一下子把"yin xing"替换成"yin hang"

因为“隐形”、“银杏”这些词的拼音就是"yin xing"。这个你需要手动一个一个看好了改,我不确定这个问题是nlp-lang的问题还是pinyin分词器作者改的问题,我看nlp-lang1.7的源代码这个文件里“银行”确实是对的"yin hang"。

改好后,再重新打成nlp-lang-1.7.jar包,替换上图的那个nlp-lang-1.7.jar文件,然后重启ES就行啦。
在这里插入图片描述

3. 案例

Pinyin分词器的配置参数还是比较多的,可以参考它GitHub的说明,
这些配置一定要认真配,不同的配置,出来的搜索效果是不同的。

3.1 创建Mapping

  • 我把拼音分词器作用在name.pinyin这个子字段上,因为name这个主字段按照"standard"分词有用;
  • 我这么设计适合人名搜索、股票名称搜索这些值比较短的场景;
  • 如果是文章内容,留言评论这些内容长的,一般按照IK分词就行,如果非要支持拼音搜索,可以把IK+Pinyin组合起来,设置tokenizer为ik_smart,filter为pinyin;
PUT pigg_test_pinyin
{"settings":{"analysis":{"analyzer":{"pinyin_analyzer":{"tokenizer":"my_pinyin"}},"tokenizer":{"my_pinyin":{"type":"pinyin","keep_first_letter":true,"keep_separate_first_letter":true,"keep_full_pinyin":true,"remove_duplicated_term":true}}}},"mappings":{"properties":{"name":{"type":"text","analyzer":"standard","fields":{"pinyin":{"type":"text","analyzer":"pinyin_analyzer"}}}}}
}

3.2 插入测试文档

PUT pigg_test_pinyin/_doc/1
{"name": "亚瑟王"
}PUT pigg_test_pinyin/_doc/2
{"name": "鼓励王"
}

3.3 测试拼音搜索

按照中文:

GET pigg_test_pinyin/_search
{"query": {"match": {"name.pinyin": {"query": "瑟王","operator": "and"}}}
}

按照中文+拼音全拼:

GET pigg_test_pinyin/_search
{"query": {"match": {"name.pinyin": {"query": "亚sewang","operator": "and"}}}
}

按照中文+拼音首字母:

GET pigg_test_pinyin/_search
{"query": {"match": {"name.pinyin": {"query": "亚sw","operator": "and"}}}
}

按照拼音首字母:

GET pigg_test_pinyin/_search
{"query": {"match": {"name.pinyin": {"query": "ysw","operator": "and"}}}
}

3.4 查看拼音分词后结果

第1种方法:

GET pigg_test_pinyin/_doc/1/_termvectors?fields=name.pinyin

第2种方法:

GET pigg_test_pinyin/_analyze
{"analyzer" : "pinyin_analyzer","text" : "亚瑟王"
}

通过上面2种方法,都可以发现分词结果如下:

y, s, w, ysw, ya, se, wang

这是因为我设置了"keep_separate_first_letter":true,这样拼音的首字母ysw会再次拆分成y, s, w
这样我们搜索"亚sw"时,就能匹配到文档了。

4. 结语

作为大龄程序员,30多岁了,不需要涉及太多技术,得潜心专研一两个技术,并戒掉浮躁,在项目实践中打磨自己。
所以光看文档、博客是没有用的,只有动手实践去解决业务问题,才会有更好的成长。

http://www.yayakq.cn/news/549483/

相关文章:

  • 网站形式什么网站看电影是免费的
  • 服务哪家好网站制作网页做的很美的网站
  • 电子商务网站开发要学什么西安哪家公司做网站
  • 网站建设次年续费合同丹徒网站建设代理商
  • 企业网站设计网络公司织梦网站后台管理
  • 南京凯盛建设集团官方网站网站前台架构
  • 哪个网站做推销产品专业网站建设网页
  • 效果图在哪个网站可以找比较好域名创建
  • 温州网站制作推广自己怎么样做游戏网站
  • 旅游电子商务网站开发项目进度表制作软件网站
  • 站长工具永久更新服务器租用网站自动划分空间
  • 展示网站模版源码电子商务网站建设产品
  • 网站优化排名软件网站河南网站建设详细流程
  • 佛山微网站建设 天博永兴城乡住房建设部网站
  • 无锡网站公司哪家好看到网站的第一印象
  • 电脑网站 源码免费建域名网站
  • 在南宁做家教兼职的网站上传wordpress到空间
  • 合肥市建设网站Wordpress设置Ip不开放
  • 上海网站开发哪里有如何在手机上做自己的网站
  • 云南省建设厅网站首页开发板有什么用
  • 成都机械网站制作wordpress模板秘钥
  • 网约车平台app网站建设青岛开发区网站
  • 360免费建站网页链接php搭建一个简单的网站
  • 张家港网站包年网站模板网站
  • 各类电子商务网站建设wordpress pckr
  • 二十一冶建设有限公司网站网站支付界面怎么做
  • 青岛做网站公司电话怎么用阿帕奇做网站
  • 建设网站 托管 费用asp 网站 源码
  • 一个网站建设都需要什么长沙百度快速优化
  • 网页建站点网站建设与管理自考重点