当前位置: 首页 > news >正文

网站建设详细教程视频郑州建设局官方网站

网站建设详细教程视频,郑州建设局官方网站,电商网络推广方案,广州萝岗网站建设有如下几种计算相似性方法: 点积相似度 X ⋅ Y ∣ X ∣ ∣ Y ∣ c o s θ ∑ i 1 n x i ∗ y i \begin{aligned} X \cdot Y & |X||Y|cos\theta \\ & \sum_{i1}^n x_i * y_i \end{aligned} X⋅Y​∣X∣∣Y∣cosθi1∑n​xi​∗yi​​ 向量内积的结果是没…

有如下几种计算相似性方法:

点积相似度

X ⋅ Y = ∣ X ∣ ∣ Y ∣ c o s θ = ∑ i = 1 n x i ∗ y i \begin{aligned} X \cdot Y &= |X||Y|cos\theta \\ &= \sum_{i=1}^n x_i * y_i \end{aligned} XY=X∣∣Ycosθ=i=1nxiyi

向量内积的结果是没有界限的,解决办法就是先归一化再相乘,就是下面的余弦相似度了。

余弦相似度

X ⋅ Y = ∑ i = 1 n x i ∗ y i ∑ i = 1 n ( x i ) 2 ∗ ∑ i = 1 n ( x i ) 2 X \cdot Y = \frac{\sum_{i=1}^n x_i * y_i}{\sqrt{\sum_{i=1}^n (x_i)^2} * {\sum_{i=1}^n (x_i)^2}} XY=i=1n(xi)2 i=1n(xi)2i=1nxiyi

余弦相似度衡量两个向量在方向上的相似性,并不关注两个向量的实际长度,即对绝对数据不敏感。

示例

用户对内容评分,5分制。A和B两个用户对两个商品的评分分别为A:(1,2)和B:(4,5)。使用余弦相似度得出的结果是0.98,看起来两者极为相似,但从评分上看A不喜欢这两个东西,而B比较喜欢。造成这个现象的原因就在于,余弦相似度没法衡量每个维数值的差异,对数值的不敏感导致了结果的误差。
需要修正这种不合理性,就出现了调整余弦相似度,即所有维度上的数值都减去一个均值。
比如A和B对两部电影评分的均值分别是(1+4)/2=2.5,(2+5)/2=3.5。那么调整后为A和B的评分分别是:(-1.5,-1.5)和(1.5,2.5),再用余弦相似度计算,得到-0.98,相似度为负值,显然更加符合现实。

注:为什么是在所有用户对同一物品的打分上求均值,每个人打分标准不一,对所有用户求均值,等于是所有用户的打分映射到了同一空间内。上述是在计算两个用户的相似度,以此类推计算两个物品的相似度,就要计算所有物品的均值了。

修正的余弦相似度可以说就是对余弦相似度进行归一化处理的算法,公式如下:
s ( A , B ) = ∑ i ∈ I ( R A , i − R i ˉ ) ( R B , i − R i ˉ ) ∑ i ∈ I ( R A , i − R i ˉ ) 2 ∑ i ∈ I ( R B , i − R i ˉ ) 2 s(A, B)=\frac{\sum_{i \in I}\left(R_{A, i}-\bar{R_i}\right)\left(R_{B, i}-\bar{R_i}\right)}{\sqrt{\sum_{i \in I}\left(R_{A, i}-\bar{R_i}\right)^2} \sqrt{\sum_{i \in I}\left(R_{B, i}-\bar{R_i}\right)^2}} s(A,B)=iI(RA,iRiˉ)2 iI(RB,iRiˉ)2 iI(RA,iRiˉ)(RB,iRiˉ)
R A , i R_{A,i} RA,i 表示用户A在商品i上的打分, R i ˉ \bar{R_i} Riˉ表示商品i在所有用户上的打分均值。

皮尔逊相关系数

Pearson 相关系数是用来检测两个连续型变量之间线性相关的程度,它解决了余弦相似度会收到向量平移影响的问题。取值范围为 [−1,1],正值表示正相关,负值表示负相关,绝对值越大表示线性相关程度越高:
ρ x , y = cov ⁡ ( x , y ) σ x σ y = E [ ( x − μ x , y − μ y ) ] σ x σ y = ∑ i ( x i − x ˉ ) ( y i − y ˉ ) ∑ i ( x i − x ˉ ) 2 ∑ i ( y i − y ˉ ) 2 \begin{aligned} \rho_{\boldsymbol{x}, \boldsymbol{y}} &= \frac{\operatorname{cov}(\boldsymbol{x}, \boldsymbol{y})}{\sigma_{\boldsymbol{x}} \sigma_{\boldsymbol{y}}} \\ &= \frac{E\left[\left(\boldsymbol{x}-\mu_{\boldsymbol{x}}, \boldsymbol{y}-\mu_{\boldsymbol{y}}\right)\right]}{\sigma_{\boldsymbol{x}} \sigma_{\boldsymbol{y}}} \\ &= \frac{\sum_i\left(x_i-\bar{x}\right)\left(y_i-\bar{y}\right)}{\sqrt{\sum_i\left(x_i-\bar{x}\right)^2} \sqrt{\sum_i\left(y_i-\bar{y}\right)^2}} \end{aligned} ρx,y=σxσycov(x,y)=σxσyE[(xμx,yμy)]=i(xixˉ)2 i(yiyˉ)2 i(xixˉ)(yiyˉ)
如果把 x ′ = x − x ˉ , y ′ = y − y ˉ x'=x-\bar{x}, y'=y-\bar{y} x=xxˉ,y=yyˉ ,那么皮尔逊系数计算的就是 x ′ 和 y ′ x' 和 y' xy 的余弦相似度。


参考

  • 点积相似度、余弦相似度、欧几里得相似度
  • 常用的特征选择方法之 Pearson 相关系数
  • 图片向量相似检索服务(2)——四种基本距离计算原理
    • 这篇博客倒是很简洁,适合速读
  • 点积相似度、余弦相似度、欧几里得相似度
  • 相似性和距离度量 (Similarity & Distance Measurement)
http://www.yayakq.cn/news/793425/

相关文章:

  • 哪个网站是专做宝宝饭的南阳新闻最新消息
  • 三类人员 网站开发网站建设价格如何
  • 动易网站内容管理系统阿里巴巴seo排名优化
  • 企业准备做网站的准备工作外发加工网订货会
  • 做洁净的网站房产网站模板程序
  • 网站开发做什么科目肇庆seo网络推广
  • 行业平台网站建设flash网站设计
  • 公司的网站续费大企业网站建设方案
  • 益阳网站建设益阳教育网站建设 培训网站建设
  • 常州城乡和住房建设厅网站企业网站开发建设
  • 网站转化下降原因wordpress 清空回收站
  • 辽宁建设工程招标网站简繁网站怎么做
  • 做网站买域名就行了吗做网站被网监叫去很多次
  • 品牌建设成果seo费用
  • 三河市建设厅公示网站个人网站开发
  • 网站模板对seo的影响php第一季网站开发实例教程
  • 如何知道网站是否被k无锡模板建站多少钱
  • 网站集成微信登录手机app开发语言
  • 网站优化页面外贸营销网站制作
  • win2008搭建php网站怡清源在慧聪网网站建设情况
  • 地理云门户网站建设网站建设需要哪些知识
  • 广州网站网站建设免费ppt模板制作软件
  • 网站建设是指什么做网站教程第一课
  • 网站设立前置审批房地产建设企业网站
  • 自己怎么做直播网站点餐系统网站建设
  • ps课堂网站展厅设计ppt优秀案例分析
  • 甘肃建设厅网站wordpress安装好后怎么用
  • 自己的做网站西安做网站维护的公司
  • 整合资源加强全市网站建设深圳网站设计互联网品牌
  • 广州十大广告传媒公司静态网站怎么做优化