当前位置: 首页 > news >正文

有口碑的南通网站建设建设网站的目的以及意义

有口碑的南通网站建设,建设网站的目的以及意义,网站数据采集怎么做,wordpress 显示选项打不开对于类似于头条客户端而言,推荐的每一刷的新闻都必须是不同的新闻,这就需要对新闻文本进行排重。传统的去重一般是对文章的url链接进行排重,但是对于抓取的网页来说,各大平台的新闻可能存在重复,对于只通过文章url进行排重是不靠谱的,为了解决这个痛点于是就提出了用simh…

对于类似于头条客户端而言,推荐的每一刷的新闻都必须是不同的新闻,这就需要对新闻文本进行排重。传统的去重一般是对文章的url链接进行排重,但是对于抓取的网页来说,各大平台的新闻可能存在重复,对于只通过文章url进行排重是不靠谱的,为了解决这个痛点于是就提出了用simhash来解决这个难题。

简介

传统的Hash算法只负责将原始内容尽量均匀随机地映射为一个签名值,原理上仅相当于伪随机数产生算法。即便是两个原始内容只相差一个字节,所产生的签名也很可能差别很大,所以传统的Hash是无法在签名的维度上来衡量原内容的相似度。

SimHash本身属于一种局部敏感hash,其主要思想是降维,将高维的特征向量映射成低维的特征向量,再通过比较两个特征向量的 汉明距离(Hamming Distance) 来确定文章之间的相似性。一般海明距离为3就代表两篇文章相同。

什么是局部敏感呢?假设A,B具有一定的相似性,在hash之后,仍能保持这种相似性,就称之为局部敏感hash     

simhash也有其局限性,在处理小于500字的短文本时,simhash的表现并不是很好,所以在使用simhash前一定要注意这个细节。

汉明距离

Hamming Distance,又称汉明距离,在信息论中,等长的两个字符串之间的汉明距离就是两个字符串对应位置的不同字符的个数。即将一个字符串变换成另外一个字符串所需要替换的字符个数,可使用异或操作。
例如: 1011与1001之间的汉明距离是1。

simHash具体流程


simHash算法总共分为5

http://www.yayakq.cn/news/478890/

相关文章:

  • 网站文件夹目录结构外国购物平台网站大全
  • 建设银行 产品管理中心网站如何做网页推广如何做网页
  • 海南建设监理协会网站比较大气的企业网站
  • 咸宁商城网站建设公司网站建设说明书
  • 流量型网站网站打开速度变慢
  • 招远网站建设多少钱上海网络推广方式
  • 排名好的网站开发wordpress设置cdn缓存过期配置
  • 甘肃系统建站怎么用网站网络优化服务
  • 长沙建网站理wordpress调用目录
  • 做网站公司如何赚钱家具网站建设策划方案
  • 制作企业网站价格源码网站建设步骤
  • 怎样局域网站建设需要建设一个什么样的网站
  • 上海网站营销seo网站的链接建设
  • 用js做的个人酷炫网站网站放到iis如何做指向
  • wordpress 购物导航网站去除wordpress 广告插件
  • 网站商城是用什么框架做的羽毛球赛事奖金
  • 做民宿最大的网站如何使用wordpress建站
  • 网站开发与管理专业的就业信息如何创建一个简单的网页
  • 网站更换域名备案eclipse视频网站开发
  • 互联网做网站排明启迪网站建设招聘
  • WordPress手机站插件wordpress瀑布流主题怎么设置首页显示文章数量
  • wordpress做出的网站给我一个可以在线观看的免费
  • 自做网站视频合肥网站制作开发
  • 电影网站域名需要备案wordpress 近期文章代码
  • 教学活动设计方案模板ipo和seo
  • 做哪种类型网站赚钱网站建设陆金手指下拉壹玖
  • 如何设计营销型网站建设个人适合做跨境电商吗
  • 郑州的网站建设做资讯网站
  • 兼职做设计什么网站好wordpress文件夹权限设置
  • 黄山网站建设策划wordpress 幻灯片手机端字体大小