当前位置: 首页 > news >正文

网站建设jz518湖南网站优化外包费用

网站建设jz518,湖南网站优化外包费用,可以接外包的网站,大连网站排名系统Bisecting K-Means 核心原理: Bisecting K-Means 是一种层次 K-Means 聚类算法,基于 Steinbach、Karypis 和 Kumar 的论文《A comparison of document clustering techniques》,并对 Spark 环境进行了修改和适应。 该算法通过递归地将数据集…

Bisecting K-Means

核心原理:
Bisecting K-Means 是一种层次 K-Means 聚类算法,基于 Steinbach、Karypis 和 Kumar 的论文《A comparison of document clustering techniques》,并对 Spark 环境进行了修改和适应。
该算法通过递归地将数据集分割为二叉树结构的子集群来执行聚类。开始时,整个数据集视为单个聚类,然后通过以下步骤逐步分割:

  1. 选择当前具有最大 SSE(Sum of Squared Errors)的聚类进行分割。
  2. 在选定的聚类中执行 K-Means 聚类,根据距离选择最佳的分割点。
    这种分割方法不断重复,直到达到预定的聚类数量或无法进一步分割。
    数学表达式:
    对于 Bisecting K-Means,其核心是基于 K-Means 的分割操作,数学表达式如下所示:
    C = arg ⁡ min ⁡ C ∑ i = 1 k ∑ x ∈ C i ∥ x − μ i ∥ 2 \mathbf{C} = \arg \min_{C} \sum_{i=1}^{k} \sum_{\mathbf{x} \in C_i} \|\mathbf{x} - \mathbf{\mu}_i\|^2 C=argCmini=1kxCixμi2
    其中:
  • ( C ) ( \mathbf{C} ) (C) 表示聚类结果,包含 ( k ) ( k ) (k) 个聚类 ( C i ) ( C_i ) (Ci)
  • ( x ) ( \mathbf{x} ) (x) 是数据点。
  • ( μ i ) ( \mathbf{\mu}_i ) (μi) 是第 ( i ) ( i ) (i) 个聚类 ( C i ) ( C_i ) (Ci) 的中心点。

K-Means

核心原理:
K-Means 是一种经典的聚类算法,通过最小化每个聚类中所有数据点与其所属聚类中心点之间的平方距离的总和来进行聚类。
该算法的步骤如下:

  1. 初始化:随机初始化 ( k ) ( k ) (k) 个聚类中心点。
  2. 迭代优化
    • 将每个数据点分配到最近的聚类中心。
    • 更新每个聚类中心为其分配的所有数据点的平均值。
    • 重复以上两步,直到收敛(即聚类中心不再变化或变化很小)。
      数学表达式:
      K-Means 的优化目标是最小化以下损失函数:
      C = arg ⁡ min ⁡ C ∑ i = 1 k ∑ x ∈ C i ∥ x − μ i ∥ 2 \mathbf{C} = \arg \min_{C} \sum_{i=1}^{k} \sum_{\mathbf{x} \in C_i} \|\mathbf{x} - \mathbf{\mu}_i\|^2 C=argCmini=1kxCixμi2
      其中:
  • ( C ) ( \mathbf{C} ) (C) 表示聚类结果,包含 ( k ) ( k ) (k) 个聚类 ( C i ) ( C_i ) (Ci)
  • ( x ) ( \mathbf{x} ) (x) 是数据点。
  • ( μ i ) ( \mathbf{\mu}_i ) (μi) 是第 ( i ) ( i ) (i) 个聚类 ( C i ) ( C_i ) (Ci) 的中心点。

Gaussian Mixture

核心原理:
高斯混合模型(Gaussian Mixture Model,GMM)是一种概率模型,假设数据是由多个高斯分布组成的混合体。每个高斯分布代表一个聚类,数据点是从这些高斯分布中生成的。
GMM 通过最大化似然函数来估计模型参数,即数据点出现的概率:
Θ = arg ⁡ max ⁡ Θ ∑ i = 1 n log ⁡ ( ∑ j = 1 k π j N ( x i ∣ μ j , Σ j ) ) \mathbf{\Theta} = \arg \max_{\Theta} \sum_{i=1}^{n} \log \left( \sum_{j=1}^{k} \pi_j \mathcal{N}(\mathbf{x}_i | \mathbf{\mu}_j, \mathbf{\Sigma}_j) \right) Θ=argΘmaxi=1nlog(j=1kπjN(xiμj,Σj))
其中:

  • ( Θ ) ( \mathbf{\Theta} ) (Θ) 是 GMM 的参数集合,包括每个高斯分布的均值 ( μ j ) ( \mathbf{\mu}_j ) (μj)、协方差矩阵 ( Σ j ) ( \mathbf{\Sigma}_j ) (Σj) 和混合系数 ( π j ) ( \pi_j ) (πj)
  • ( x i ) ( \mathbf{x}_i ) (xi) 是数据点。
  • ( N ( x ∣ μ j , Σ j ) ) ( \mathcal{N}(\mathbf{x} | \mathbf{\mu}_j, \mathbf{\Sigma}_j) ) (N(xμj,Σj)) 是第 ( j ) ( j ) (j) 个高斯分布的概率密度函数。
    这些算法分别用于不同的数据特性和应用场景,可以根据数据的特征选择合适的聚类算法。
http://www.yayakq.cn/news/753640/

相关文章:

  • 公众号网站qq小程序怎么关闭
  • 网站seo优化费用网站链接查询
  • 武昌建设局网站网站设计与建设的
  • 可以做图的网站wordpress后台怎么登入
  • 沧州免费网站建设怎么制作博客网站
  • 广东南方通信建设有限公司官方网站phpcms做视频网站首页
  • 淮北矿业集团工程建设公司网站网站 asp.net php
  • 网站建设玖金手指排名11如何用ps制作一个网页
  • 页面具有动态效果网站建设个人网页制作成品田田田田田田田田
  • 网站建设360元起全包长沙网络推广招聘
  • 一个设计网站多少钱外贸网站做排名
  • 宁波网站建设最好建设企业网站官网企业网银
  • 信用体系网站建设一体化建设高级wordpress搜索引擎
  • wordpress搭建商城网站广州搜索引擎优化方法
  • 营商环境建设局网站新网个人网站备案
  • 玄圭互联网站建设推广选择邯郸网站建设
  • 宠物网站首页模板在家建设一个网站需要什么
  • 怎么做服务网站毕设做网站和app
  • 游戏网站建设需要多少钱500个公司取名大全
  • 国内响应式网站建设永久免费云linux服务器网页
  • 石家庄网站建设云图手机建站图片
  • 个体可以做企业网站吗淘宝电脑版官网首页
  • 企业网站建设推广实训报告wordpress页面导航收录
  • 南阳网站建设多少钱seo效果最好的是
  • 鹤壁做网站推广网站设计的优点
  • 专业网站建设详细方案给网站怎么做tag标签
  • 企业网站模板html网站建设计划书怎么写
  • 申请免费网站空间网站登录后台地址
  • 佛山建站 网站 商城杭集手工活外发加工网
  • 南阳建网站企业有哪些大型网络游戏排行榜前十名