当前位置: 首页 > news >正文

延边企业网站建设手机网站在线咨询代码

延边企业网站建设,手机网站在线咨询代码,泉州网站关键词优化,网站seo推广的方法原理:分词的原理:二叉树 首先讲一下为什么要出这个文章,前面我们讲过分词方法:中文分词搜索 pscws(感兴趣的同学可以去爬楼看一下),那为什么要讲IK分词?最主要的原因是&…

        原理:分词的原理:二叉树        

        首先讲一下为什么要出这个文章,前面我们讲过分词方法:中文分词搜索 pscws(感兴趣的同学可以去爬楼看一下),那为什么要讲IK分词?最主要的原因是:pscws分词颗粒度不如IK分词的颗粒度高,现在的需求要求颗粒度细一点,以便提高搜索进度,所以我们今天讲一下IK分词

        第一步:安转Elasticsearch,这个在博主原来的文章里面有,所以不在讲述,安装完成后运行结果:

访问地址:http://localhost:9200

        第二步:安转IK扩展(现在下载扩展包):需要选择和自己的Elasticsearch对应的版本,我的Elasticsearch版本是7.3.2,下载后存放在:/plugins 目录下:

        下载地址:https://gitcode.net/mirrors/medcl/elasticsearch-analysis-ik/-/tree/v7.3.2

        直接运行会发现闪退情况:为什么会出现这样的情况,主要有两个原因:

        1.版本不配

        2.未修改配置 ,配置如何修改?

        需要安装 maven 包管理工具,这个是JAVA开发的,所以需要安装JAVA的环境IK 分词器需要 Java 8 或者以上的版本)  

        一、下载&安装

        1. 下载地址

        maven下载地址如下,各位请选择对应系统的maven版本进行下载。

        https://maven.apache.org/download.cgi

        2. 解压maven安装包

        maven安装包下载之后,对其进行解压。


        二、配置环境变量:
        系统变量新增:变量名:MAVEN_HOME   值:maven存放目录
        系统变量追加:变量名:path         值:%MAVEN_HOME%\bin

        测试maven是否配置完毕:输入mvn -v命令,如果出现maven版本号,就表明安装成功。
        如果报错:
        配合:The JAVA_HOME environment variable is not defined correctly This environment variable is needed to run this program NB: JAVA_HOME should point to a JDK not a JRE
        没有安装Java的运行环境或者JAVA_HOME的环境变量没有配置,安装好JAVA的运行环境后记得配置JAVA_HOME环境变量,安装好后,再运行mvn -v命令        

查看命令:elasticSearch-plugin list:安装成功

第三步:使用分词(PHP版本):

//引入自动加载文件
require_once APPPATH.'../vendor/es/autoload.php';
//使用命名空间引用
use Elasticsearch\ClientBuilder;
class Test extends CI_Controller
{
    //初始化
    public function __construct()
    {
        parent::__construct();
        //拼接参数
        $params = [
            [
                'host'   => '地址',
                'port'   => '端口号',
                'scheme' => 'http',
                'user'   => '用户名',
                'pass'   => '密码'
            ]
        ];
                //初始化对象
        $this->client = ClientBuilder::create()->setHosts($params)->setConnectionPool('连接池地址(相对地址)', []) ->setRetries(10)->build();
    }
        
        //分词器
    public function ik(){
         $params = [
            'body' => [
                'text' => '中国上海市直辖市静安区',
                //ik_max_word 精细  ik_smart 粗略
                'analyzer'=>'ik_max_word'
            ]
        ];
                //请求分词
        $res =  $this->client->indices()->analyze($params);
        var_dump($res);die;
    }
}

IK精细分词输出结果:

  array(11) {
    [0]=>array(5) {
        ["token"]=>string(6) "中国"["start_offset"]=>int(0)["end_offset"]=>int(2) 
        ["type"]=>string(7) "CN_WORD"["position"]=>int(0)
        }
    [1]=>array(5) {
        ["token"]=>string(9) "上海市"["start_offset"]=>int(2)["end_offset"]=>int(5)
        ["type"]=>string(7) "CN_WORD"["position"]=>int(1)
        }
    [2]=>array(5) {
        ["token"]=>string(6) "上海"["start_offset"]=>int(2)["end_offset"]=>int(4)
        ["type"]=>string(7) "CN_WORD"["position"]=>int(2)
        }
    [3]=>array(5) {
        ["token"]=>string(6) "海市" ["start_offset"]=>int(3)["end_offset"]=>int(5)
        ["type"]=>string(7) "CN_WORD"["position"]=>int(3)
        }
    [4]=>array(5) {
        ["token"]=>string(6) "市直" ["start_offset"]=>int(4)["end_offset"]=>int(6)
        ["type"]=> string(7) "CN_WORD"["position"]=>int(4)
        }    
    [5]=>array(5) {
        ["token"]=>string(9) "直辖市"["start_offset"]=>int(5)["end_offset"]=>int(8)
        ["type"]=>string(7) "CN_WORD"["position"]=>int(5)
        }
    [6]=>array(5) {
        ["token"]=> string(6) "直辖"["start_offset"]=> int(5)["end_offset"]=>int(7)
        ["type"]=>string(7) "CN_WORD"["position"]=>int(6)
        }
    [7]=>array(5) {
        ["token"]=>string(3) "市"["start_offset"]=>int(7)["end_offset"]=>int(8)
        ["type"]=>string(7) "CN_CHAR"["position"]=>int(7) 
        }
    [8]=> array(5) {
        ["token"]=>string(9) "静安区" ["start_offset"]=>int(8)["end_offset"]=> int(11)
        ["type"]=>string(7) "CN_WORD"["position"]=>int(8)
        }
    [9]=>array(5) { 
        ["token"]=>string(6) "静安" ["start_offset"]=>int(8)["end_offset"]=>int(10)
        ["type"]=>string(7) "CN_WORD" ["position"]=>int(9) 
        }
    [10]=>array(5) {
        ["token"]=>string(3) "区"["start_offset"]=>int(10)["end_offset"]=>int(11)
        ["type"]=>string(7) "CN_CHAR"["position"]=>int(10) 
        }
  }
}

IK粗略分词:

array(1) {
  ["tokens"]=>
  array(11) {
    [0]=>array(5) {
        ["token"]=>string(6) "中国"["start_offset"]=>int(0)["end_offset"]=>int(2) 
        ["type"]=>string(7) "CN_WORD"["position"]=>int(0)
        }
    [1]=>array(5) {
        ["token"]=>string(9) "上海市"["start_offset"]=>int(2)["end_offset"]=>int(5)
        ["type"]=>string(7) "CN_WORD"["position"]=>int(1)
        }
    [2]=>array(5) {
        ["token"]=>string(9) "直辖市"["start_offset"]=>int(5)["end_offset"]=>int(8)
        ["type"]=>string(7) "CN_WORD"["position"]=>int(5)
        }
    [3]=> array(5) {
        ["token"]=>string(9) "静安区" ["start_offset"]=>int(8)["end_offset"]=> int(11) 
        ["type"]=>string(7) "CN_WORD"["position"]=>int(8)
        }
  }
}

中文分词搜索 pscws

array(4) { 
["中国"]=> array(4) { 
    ["word"]=> string(6) "中国" 
    ["times"]=> int(1) ["weight"]=> float(6.2600002288818) ["attr"]=> string(3) "ns" 

["上海市"]=> array(4) { 
    ["word"]=> string(9) "上海市" 
    ["times"]=> int(1) ["weight"]=> float(7.8200001716614) ["attr"]=> string(3) "ns" 

["直辖市"]=> array(4) { 
    ["word"]=> string(9) "直辖市" 
    ["times"]=> int(1) ["weight"]=> float(6.8499999046326) ["attr"]=> string(3) "n" 

["静安区"]=> array(4) { 
    ["word"]=> string(9) "静安区"
    ["times"]=> int(1) ["weight"]=> float(12.140000343323) ["attr"]=> string(3) "ns" 
 }
}

        至此IK分词器讲解完成,可以对比一下IK与pscws的区别,后续操作可以根据自己的业务来确定

http://www.yayakq.cn/news/64390/

相关文章:

  • 中国建设银行云南官网站纪念币360优化关键词
  • 深圳哪个做网站好优化seo上词价格
  • joomla! 1.5 网站建设基础教程 :宁皓网应用软件有哪些系统
  • 做网站联系我们在那个板块里面做一个属于自己的网页
  • 网站的营销功能网站域名购买com
  • 海南省做购房合同网站小米路由器做网站服务器吗
  • 购物网站seo关键词定位wordpress优秀模板下载
  • 广州天河区建设网站织梦可以做微网站吗
  • 平稳有序推进网站建设做网站编辑需要什么文凭
  • 怀化做网站的公司东莞多镇街发布最新通告
  • 网站设计论文分类号重庆网站优化建设
  • 怎么用手机做刷会员网站网站怎么做到秒收录
  • 给企业建设网站的意义市场调研分析报告怎么写
  • 鹤壁建设网站推广渠道电话wordpress get_users
  • 建设企业外贸网站百度统计数据
  • 大连模板建站定制网站做一个企业网站设计
  • 企业网站源码网wordpress 表单
  • 做网站购买空间多少钱什么网站做博客好
  • 大型网站外链是怎么建设的wordpress 漫画 主题
  • wordpress 多站点 404wordpress整站手机端
  • 网站备份脚本软件开发文档编写
  • 各网站提交入口网页游戏新区开服
  • 网站的系统帮助破解网站后台
  • 洛阳建站洛阳市网站建设建站公司网站 discuz
  • 网站搭建南京网站建设文案模板
  • 国内一线网站设计公司邹平 建设项目 网站公示
  • 石家庄学校网站建设淘宝详情页制作教程
  • 建设一个网站论坛要多少钱江苏省建设厅官网网站
  • 西安网站制作工作室wordpress 搭建知识库
  • 提供零基础网站建设教学培训做兼职网站