当前位置: 首页 > news >正文

北京搜狗建网站的电话app开发公司的风险及应对策略

北京搜狗建网站的电话,app开发公司的风险及应对策略,互动营销用在哪些推广上面,外国人做的购物网站工作需要,涉及到一些聚类算法相关的知识。工作中需要综合考虑数据量、算法效果、性能之间的平衡,所以开启新的篇章——机器学习聚类算法篇。 传统机器学习中聚类算法主要分为以下几类: 1. 层次聚类算法 层次聚类算法是一种无监督学习算法&am…

        工作需要,涉及到一些聚类算法相关的知识。工作中需要综合考虑数据量、算法效果、性能之间的平衡,所以开启新的篇章——机器学习聚类算法篇。

        传统机器学习中聚类算法主要分为以下几类:

1. 层次聚类算法

        层次聚类算法是一种无监督学习算法,按照样本 or 簇之间的相似性对数据进行递归式划分,将数据样本从独立的点 逐步合并 成类簇,最终生成一颗树形结构。主要分为自上而下自下而上 和以BIRCH算法为代表的分层、平衡迭代 三种方法。

1.1 凝聚层次聚类:自下而上 + 递归 的聚类方法

        算法初始化将每个样本都作为单独的簇,然后将相邻的簇、自下而上逐渐合并成更大的簇,直到生成需要的簇数。

        该类算法需要计算两个簇之间距离的度量,通常使用欧式距离,或者根据业务或数据类型自定义度量方法。

1.2 分裂层次聚类:自上而下 + 递归 的聚类方法

        算法自上而下递归地对样本整体进行聚类,将所有样本归于一个簇,然后依次对簇进行分裂,直到每个簇只包含一个样本。

1.3 BIRCH算法

        一种用于大规模数据聚类的层次聚类算法。该算法利用了B树结构来进行聚类,并使用了CF树(Clustering Feature Tree)来存储聚类中心信息。

        补充:1.1和1.2两种算法都涉及簇之间的相似度 / 距离的计算or度量,这是层次聚类算法设计的核心。在计算簇之间的距离度量时,可以使用最短距离、最长距离、簇平均距离、重心距离、Ward's方差最小化等,每种距离度量方法都有其适用的数据类型和应用场景;更细致,可以根据业务和数据特征,定制相似度 / 距离的计算方式。

2. 划分聚类算法

        划分聚类算法通过迭代聚类中心,达到(类内间距小、类间间距大)或者说 (簇内点足够近,簇间点足够远)的目标,最终算法将数据集划分为多个不相交的簇,每个数据点只属于一个簇。

        常用的方法包括K-means、K-medoids、K-means++、二分K-means、C-means、

X-means、CLARANS和 CLARA等。

3. 密度聚类算法

        基于密度的聚类算法,是从密度的角度考虑样本之间的关系。该类算法通过计算数据样本分布的疏密情况,从密度的角度考虑样本之间的关系,并利用样本的密度和密度可达性来判断是否属于某个簇,最终将高密度区域的点划分到同一个簇。这种方式可以处理具有复杂形状的簇有噪声数据

        常用的算法包括DBSCAN(Density-Based Spatial Clustering of Applications with Noise)、OPTICS(Ordering Points To Identify the Clustering Structure)、DENCLUE(DENsity-based CLUstEring)等。

        最近博主有复现 + 应用到实际业务中的密度聚类算法是密度峰值聚类DPC —— science《Clustering by fast search and find of density peaks》,效果还不错

4. 基于网格的聚类算法

        基于网格的聚类算法,利用多分辨率的网络结构将数据空间划分为一个个的网格单元,并将数据点映射到相应的单元中来进行聚类和类簇的划分。

        该类算法简单、高效、适用于高维数据和大规模数据集。但是,缺点是参数敏感、无法处理不规则分布的数据、处理精度也不高

        代表算法有STING 算法、CLIQUE算法(结合网格和密度的聚类算法)、WAVE-CLUSTER 算法(引入了小波变换);不同的算法主要区别是采用了不同的网格划分方法,核心步骤如下:

        a. 将数据空间划分为多个互不重叠的网格

        b. 对每个网格内的数据进行统计,找到高密度网格单元

        c. 将相连的高密度网格单元进行合并,合并为一个簇

        d. 将低密度网格单元划分给距离最近的高密度网格单元,并认定为一个粗

5. 模型聚类算法

        该类算法主要包括基于概率的模型聚类基于神经网络的模型聚类。这类算法利用统计模型来描述数据的分布,并根据模型判断数据点是否属于同一个簇(是否具有相同 / 相似的分布)。

        5.1 基于模型的聚类算法

        为每个未知的簇假设一个模型,然后寻找数据和模型的最佳拟合,最后根据模型判断出的不同簇的分布结果,进行聚类。例如:基于概率的模型聚类算法采用概率生成的方法,假定在同一个簇中的数据有相同的概率分布。最常用的是高斯混合模型(Gaussian Mixture Models, GMM)。

        5.2 基于神经网络的聚类算法

        主要利用神经网络的特点和能力进行数据聚类,通常将结果映射为数据所属类簇的概率问题。常见的模型有自组织映射(Self-Organizing Maps,SOM)、总体相似度神经网络(Growing Neural Gas,GNG)、流形学习聚类(Manifold Learning-based Clustering)、深度聚类(Deep Clustering)。

        基于神经网络的聚类算法具有灵活性和强大的建模能力,能够捕捉数据的复杂结构和非线性关系。然而,它们通常需要更多的数据量更多的计算资源训练时间,并且对参数设置和网络结构的选择较为敏感。相对的,该类算法处理效率一般不高;特别是数据量很少时,聚类效果较差

http://www.yayakq.cn/news/959285/

相关文章:

  • 学校响应式网站模板什么东西可以做网站
  • 网站付费推广有哪些滦平县建设局网站
  • 数据网站建设成本汕头好的建站网站
  • 临沂建设局网站官网自己做一个模版网站是怎么做的
  • 网站分享平台企业形象网站建设
  • 美妆网站建设项目计划书类似酷家乐做庭院的网站
  • 网站兼容问题app的制作需要多少钱
  • 汽车门户网站源码百度资源搜索平台官网
  • 吉林电商网站建设公司电话企业画册尺寸一般多大
  • 建品牌网站公司深圳公司网站建设设计
  • 石家庄哪里可以做网站网站建设推广服务合同范本
  • 个人网站建设培训t型布局网站怎么做
  • 在线教育网站建设方案财务部官方网站经济建设司
  • 个人免费网站申请注册html5制作网页案例
  • 绍兴建站模板系统百度应用宝
  • 摄影师个人网站模板买完域名怎么创建网站
  • wordpress手机端菜单设置seo的概念
  • asp.net 开发的网站企业网站新闻wp怎么做
  • 网站建设工具品牌网站友链怎么做
  • 网站模板加后台视频直播网站开发运营步骤
  • 婚纱外贸网站旅游网页设计成品免费下载
  • 网站建设net接口物流网站建设 市场分析
  • 铺面怎样做放上网站温室网站建设
  • 在网上做游戏网站违法吗十大最新高科技
  • 网站宝建站助手小企业网站建设在哪里
  • 淮北矿业工程建设有限公司网站端点seo博客
  • 网站制作公司官网排名软件
  • 创建软件网站销售网络平台
  • 网站 建设 原则顺德建设行政主管部门网站
  • 腾讯云如何做网站58同城网站建设排名