当前位置: 首页 > news >正文

网站的建设周期与阶段什么叫网络市场营销

网站的建设周期与阶段,什么叫网络市场营销,微信管理平台登录,企业品牌网站建设多少钱对于类似于头条客户端而言,推荐的每一刷的新闻都必须是不同的新闻,这就需要对新闻文本进行排重。传统的去重一般是对文章的url链接进行排重,但是对于抓取的网页来说,各大平台的新闻可能存在重复,对于只通过文章url进行排重是不靠谱的,为了解决这个痛点于是就提出了用simh…

对于类似于头条客户端而言,推荐的每一刷的新闻都必须是不同的新闻,这就需要对新闻文本进行排重。传统的去重一般是对文章的url链接进行排重,但是对于抓取的网页来说,各大平台的新闻可能存在重复,对于只通过文章url进行排重是不靠谱的,为了解决这个痛点于是就提出了用simhash来解决这个难题。

简介

传统的Hash算法只负责将原始内容尽量均匀随机地映射为一个签名值,原理上仅相当于伪随机数产生算法。即便是两个原始内容只相差一个字节,所产生的签名也很可能差别很大,所以传统的Hash是无法在签名的维度上来衡量原内容的相似度。

SimHash本身属于一种局部敏感hash,其主要思想是降维,将高维的特征向量映射成低维的特征向量,再通过比较两个特征向量的 汉明距离(Hamming Distance) 来确定文章之间的相似性。一般海明距离为3就代表两篇文章相同。

什么是局部敏感呢?假设A,B具有一定的相似性,在hash之后,仍能保持这种相似性,就称之为局部敏感hash     

simhash也有其局限性,在处理小于500字的短文本时,simhash的表现并不是很好,所以在使用simhash前一定要注意这个细节。

汉明距离

Hamming Distance,又称汉明距离,在信息论中,等长的两个字符串之间的汉明距离就是两个字符串对应位置的不同字符的个数。即将一个字符串变换成另外一个字符串所需要替换的字符个数,可使用异或操作。
例如: 1011与1001之间的汉明距离是1。

simHash具体流程


simHash算法总共分为5

http://www.yayakq.cn/news/23336/

相关文章:

  • 河北邢台移动网站建设计算机软件公司排名
  • 电商网站建设与运营方向就业前景黑客怎么入侵网站
  • 企业网站推广的形式有哪些做招标投标网站如何
  • 网站作风建设年专栏html5高端网站建设织梦模板下载
  • 专门做简历的网站软件泰州网站建设开发
  • 搜狗引擎网站收录dw怎么做网站
  • 张家口购物网站开发设计wp wordpress
  • 常州建设网站北京当地网站 点
  • 网站设置文件夹权限设置美食网站开发毕业设计
  • 重庆网站建设 快速建站南阳市城乡和住房建设局网站
  • 网站建设专业知识商业网站建设知识点
  • it网站开发网站不备案会怎么样
  • wap手机网站代码凡客公司
  • 南城网站建设公司如何室内设计案例分析
  • 查看网站百度排名100个经典产品设计
  • 网站建设300昆明网络公司网站建设
  • 食品网站的功能定位海阳seo排名优化培训
  • 免费psd图片素材网站深圳南山网站建设
  • 网站建设 总体思路做网站的费属于什么费用
  • 找个人做网站网站建设高级开发语言
  • 红色大气企业网站用哪个程序做网站收录好6
  • 网站建设贵不贵精品资料网文件下载
  • 网站开发的疑虑企业建设营销网站的基本步骤有哪些
  • 贺州网络推广搜索引擎seo关键词优化方法
  • 机关网站建设管理工作自查报告制作视频网站建设
  • 河南平顶山网站建设与管理专业个人网站开发的背景
  • 做美图 网站有哪些东西发稿渠道
  • 网站设计毕业设计题目做美食如何加入团购网站
  • 网站空间站做任务的网站源码
  • 企业营销型网站分析网站建设东莞公司