当前位置: 首页 > news >正文

短视频网站建设方案wordpress 评论 邮箱

短视频网站建设方案,wordpress 评论 邮箱,做手机版网站和做app差别,蚁百杭州网站seo优化拓展阅读 搜索引擎-01-概览 搜索引擎-02-分词与全文索引 搜索引擎-03-搜索引擎原理 Crawl htmlunit 模拟浏览器动态 js 爬虫入门使用简介 Crawl jsoup 爬虫使用 jsoup 无法抓取动态 js 生成的内容 Crawl WebMagic 爬虫入门使用简介 webmagic 全网搜索引擎架构与流程如何…

拓展阅读

搜索引擎-01-概览

搜索引擎-02-分词与全文索引

搜索引擎-03-搜索引擎原理

Crawl htmlunit 模拟浏览器动态 js 爬虫入门使用简介

Crawl jsoup 爬虫使用 jsoup 无法抓取动态 js 生成的内容

Crawl WebMagic 爬虫入门使用简介 webmagic

全网搜索引擎架构与流程如何?

全网搜索引擎的宏观架构如上图,核心子系统主要分为三部分(粉色部分):

(1)spider 爬虫系统;

(2)search+index: 建立索引与查询索引系统,这个系统又主要分为两部分:

一部分用于生成索引数据 build_index

一部分用于查询索引数据 search_index

(3)rank 打分排序系统;

核心数据主要分为两部分(紫色部分):

(1)web 网页库;

(2)index 索引数据;

全网搜索引擎的业务特点决定了,这是一个“写入”和“检索”分离的系统

如何写入

系统组成:由spider与search+index;两个系统完成。

输入:站长们生成的互联网网页。

输出:正排倒排索引数据。

流程:如架构图中的1,2,3,4:

(1)spider把互联网网页抓过来;

(2)spider把互联网网页存储到网页库中(这个对存储的要求很高,要存储几乎整个“万维网”的镜像);

(3)build_index从网页库中读取数据,完成分词;

(4)build_index生成倒排索引;

如何建立索引

系统组成:由search+index;与rank两个系统完成。

输入:用户的搜索词。

输出:排好序的第一页检索结果。

流程:如架构图中的a,b,c,d:

(a)search_index获得用户的搜索词,完成分词;

(b)search_index查询倒排索引,获得“字符匹配”网页,这是初筛的结果;

(c)rank对初筛的结果进行打分排序;

(d)rank对排序后的第一页结果返回;

http://www.yayakq.cn/news/468043/

相关文章:

  • 西安网站建设加q479185700购买软件平台
  • 做网站站怎么赚钱吗茂名网站建设公司
  • 网站防护找谁做网上商城制作教程
  • 上海企业网站建设制聊天代理分销系统
  • 以下哪个域名是做游戏网站的搜索推广的流程
  • 高级建站网站如何用华为云服务器做网站
  • 门业网站源码跨境电商选品平台
  • 协会门户网站建设网站开发公司企业
  • 天津网站建设推广服务深圳建网站开发费用
  • 做网站公司融资多少钱外贸网站建设信息
  • 企业网站建设合同书盖章页网群企业网站管理系统
  • 海洋网络提供网站建设做外贸网站一定要会英语吗
  • 多媒体网站开发南京做网站引流的公司
  • 西安做网站建设哪家好saas电商平台
  • 公司网站建设外包企业手机网站建设价位
  • 精品课网站建设网页做的很美的网站
  • 深圳网站开发找哪里网站建设毕业设计中期报告
  • 仓储网站建设wordpress页面音乐
  • 网站建设木马科技前端开发人员招聘
  • 宠物网站页面设计创意国外友情链接交换平台
  • 网站icp备案号怎么查询开源做网站需要申请账号吗
  • wordpress站点主页wordpress 飘窗
  • 微官网与手机网站首页中国网页游戏排行榜
  • 陕西高速公路建设集团公司网站有没有教做韩餐的网站
  • 网站建设工作思路网页设计如何设置字体
  • 安徽集团网站建设深圳燃气公司服务电话
  • 如何免费自己做网站wordpress logo 修改
  • 建设网站的主要流程有哪些内容网站运营与建设方案
  • dedecms网站制作教程帮人做网站要怎么赚钱
  • 巫山网站建设合肥网站建设程序