当前位置: 首页 > news >正文

兰州网站建设公司哪家好聚名网评价

兰州网站建设公司哪家好,聚名网评价,html网站优化,深圳 wordpress招聘本次我们为大家讲解聚类分析,k-means属于无监督学习算法,无监督算法的内涵是观察无标签数据集自动发现隐藏结构和层次,在无标签数据中寻找隐藏规律。 聚类模型在数据分析当中的应用:既可以作为一个单独过程,用于寻找数…

本次我们为大家讲解聚类分析,k-means属于无监督学习算法,无监督算法的内涵是观察无标签数据集自动发现隐藏结构和层次,在无标签数据中寻找隐藏规律。

聚类模型在数据分析当中的应用:既可以作为一个单独过程,用于寻找数据内在规律,也可以作为分类等其他分析任务的前置探索

算法原理

K-means聚类的目标,是将n个观测数据点按照一定标准划分到k个聚类中,数据点根据相似度划分。每一个聚类有一个质心,质心是对聚类中所有点的位置求平均值得到的点。每个观测点属于距离它最近的质心所代表的聚类。

模型最终会选择n个观测点到所属聚类质心距离平方和(损失函数)最小的聚类方式作为模型输出。K-means聚类分析中,特征变量需要是数值变量以便于计算距离。

我们使用距离来测量两个样本的相似性,距离的实质是他将两个具有多维特征数据的样本的比较映射成一个数字,可以通过这个数字的大小来衡量距离。

几个常见距离计算方法

  • 欧几里得距离-直线距离,不适合高维度数据,对某一维度大数值差异更加敏感;

  • 曼哈顿距离-也叫出租车距离,用来标明两个点在标准坐标系上的绝对轴距总和,只计算水平或垂直距离,对某一维度大数值差异不敏感;

  • Hamming距离-可用来测量含有分类值的向量之间的距离;

  • 余弦距离-通过计算两个向量的夹角余弦值来评估相似度,适用于结果与数据中特征的取值大小无关,而与不同特征之间比值有关的案例;

k-means的实质是每次都把质心移动到群内所有点的‘means’上,不是建立在距离这个基础上,而是建立在最小化方差和的基础上,方差恰好是欧几里得距离平方,如果采用其他距离但依然去最小化方差和,会导致整个算法无法收敛,所以k-means使用欧几里得方法。

第一步:数据归一化、离群点处理后,随机选择k个聚类质心,k的选择下一节详细讲;

第二步:所有数据点关联划分到离自己最近的质心,并以此为基础划分聚类;

第三步:将质点移动到当前划分聚类包含所有数据点的中心(means);

重复第二步、第三步n次,直到所有点到其所属聚类质心的距离平方和最小; 

多次随机:

选择聚几类,则开始随机选择几个聚类质心。

基于不同随机初始质心(第一步的质心)的尝试:

尝试1:第一步→第二步→第三步 … (重复二、三步~10次)→聚类方式1

尝试2:第一步→第二步→第三步 … (重复二、三步~10次)→聚类方式2

在所有尝试结果中,选择所有点到其所属聚类质心的距离平方和(方差和)最小的聚类方式;

k值选择方法

K值的选择是k-means算法很重要的一步,K值选择方法有肘部法则、拍脑袋法、gap statistic法、轮廓系数等,本篇主要介绍肘部法则gap statistic两种常用方法。

1、肘部法则

我们可以尝试不同的K值,并将不同K值所对应的损失函数画成折线,横轴为K的取值,纵轴为距离平方和定义的损失函数,距离平方和随着K的变大而减小。当K=5时,存在一个拐点,像人的肘部一样,当k<5时,曲线极速下降,当K>5时,曲线趋于平稳,拐点即为K的最佳取值。

2、间隔统计量(gap statistic)

手肘法则是强依赖经验的方法,而gap statistic方法则不强依赖经验,只需要找到最大gap statistic 所对应的K即可,我们继续使用上面的损失函数,当分为K组时,对应的损失函数为Dk,则gap statistic定义为:

这里的E(logDk)是logDk的期望,通过蒙特卡洛模拟产生,我们在样本所在的区域内按照均匀分布随机产生和原始样本数一样多的随机样本,并对这些随机样本做k-means,得到对应的损失函数Dk,重复多次即可得出E(logDk)的近似值,从而最终可以计算gap statistic。而gap statistic取得最大值所对应的K就是最佳的分组数。

如下图所示,K=3时,Gap(K)的取值最大,所以3为K的最佳取值。

k-means数据分析实战案例

案例背景:O2O平台为了更好地为线下店面服务,增加一个增值服务,即利用自己拥有的地理位置数据为线下店面选址,数据如下:

每一条数据是一个兴趣点(POI - Point of Interest)的特征,具体指的是以这个位置为中心的500米半径圆里,各类商家/设施的数量,数据中我们隐藏掉了每个POI的具体名称、坐标、类型。选址的商家将试图从这些位置中选择一个作为下一个店面的位置。

商家想知道这40个潜在店面位置之间是否有显著的差异。我们可以将所有POI按照相似程度,划分成几个类别?

步骤:

  • 数据准备:数据获取、数据清洗、数据变换等步骤,重点是针对分析目的,进行特征选择以及特征标准化;

  • 数据建模:使用k-means算法进行数据建模;

  • 后续分析:聚类模型的特征描述分析,基于业务问题,进一步分析;

1、读取数据

2、特征选取

3、标准化

4、k值选择

5、模型建立

6、聚类分析,对每一聚类进行进一步分析和描述

根据描述分析,生成poi聚类结果画像,利用聚类,对人群/商品/行为标签进行精细划分,作为进一步商业决策的基础;

 

http://www.yayakq.cn/news/110543/

相关文章:

  • 湖州长兴做网站中国建筑官网超高层
  • 厦门外贸网站找谁宿州网站推广
  • 芜湖营销型网站制作网站开发挣不挣钱
  • 福建省建设银行网站成都网站建设时代汇创
  • 网站建设设计简介口碑好网站建设公司哪家好
  • CMS源码就可以做网站吗wordpress企业主题哥
  • 上海手机响应式网站建设设计制作小公司网站一般多少钱
  • 旅游网站网页设计代码网站站外优化推广方式
  • 二手车网站模版售价万维网网站服务的名称
  • 自己做网站卖衣服四川华远建设工程有限公司网站
  • 惠州建网站服务vs2010网站开发视频
  • 网站建设维护的知识网站建设可以给公司带来
  • 网站开发有哪几类wordpress 禁用版本
  • icp备案网站名称是什么意思建个什么网站好呢
  • 西安网站开发的未来发展页面网站建设
  • 免费个人网站建设报价网站上线
  • 网站建设详细方案模板网站设计实训报告
  • 自己建网站流程要学什么做排行网站
  • 网站建设需要用到的技术苏州建站免费模板
  • 手机上制作网站的软件有哪些网站可以做海报设计知乎
  • 做网站需要什么编程语言wordpress tax
  • 排名好的宜昌网站建设云电脑免费版永久使用
  • 实时定量引物设计网站怎么做中国建设银行官网站u盾证书
  • 国外的旅游网站做的如何上海人才网官网还是上海市人才网
  • 风景网站模版网站图片设置方法
  • 免费注册网站平台dw做网站背景图片设置铺平
  • 网站群建设座谈会怎么用织梦修改建设一个新的网站
  • 做内部网站cms手机网站页面文字做多大
  • 个人音乐网站程序源码推广网站的图片怎么做
  • qq空间网站根目录泰兴市网站建设