简而言之,聚类不过是根据某些属性分离观察值。用更专业的术语来说,聚类是一种无监督的机器学习算法,是一种过程,通过该过程将观察值(数据)进行分组,以使相似的观察值彼此靠近。这是一种“无监督”算法,因为与有监督算法(例如随机森林)不同,您不必使用标记的数据对其进行训练,计算机会根据基础模式和属性对数据进行聚类。
聚类分析是一种新兴的面向计算机的数据分析技术。它是许多研究领域的产物:统计、计算机科学、运筹学和模式识别。
本文的目的是重点介绍一些行业应用程序,并讨论最常用的聚类算法的优缺点。在第二部分中,我将以Python环境中的示例演示K-means聚类的实现。最后,我将为实践数据科学家留下一些其他技术说明。
为什么聚类在统计和机器学习领域如此流行呢?这是因为聚类分析是在许多业务应用程序案例中的强大数据挖掘工具。以下是许多应用程序中的一些:
探索性数据分析(EDA):聚类是最基本的数据分析技术的一部分,该技术用于理解和解释数据以及开发有关数据的特征和模式的初步直觉。统计分析:经常用于识别不同样本中同一变量的(不同)相似性(例如,城市A 与城市B的孩子之间的数学得分)。城市规划:聚类有助于识别具有相似特征的家庭和社区,以实施适当的社区发展政策。异常检测:保险行业使用聚类来识别异常和潜在的欺诈交易。客户细分:聚类广泛用于制定营销策略,例如,针对不同类别的客户进行不同类型的促销。计算机视觉:在计算机视觉/图像分割中,聚类用于基于模式识别过程将数据划分为不相交的组。在生物学中:聚类是遗传学和分类学的重要工具,有助于理解生物和灭绝生物的进化。聚类在其他方面也有广泛的应用,如建立推荐系统、社交媒体网络分析、土地利用分类中的空间分析等。聚类算法有几种变体:K-means、hierarchy、DBSCAN、spectrum、gaussian、birch、mean shift、affinity propagation等。下面,我重点介绍前三种算法中的一些关键点-最常用的算法。
K均值:首先,“ K ”是指所需的聚类数。也就是说,K = n表示要识别的n个聚类。所谓的“质心”,它是一个虚构/人造的数据点(数据点的平均值),每个数据聚类都围绕该点进行分区。因此,K = 2意味着该算法会将观测值(数据)划分为2个聚类,以使质心和观测值之间的距离最小。
优点:易于理解,易于实施
缺点:有时很难选择 K ; 离群值可能改动质心
层次聚类:层次聚类以两种不同的方式工作:第一种称为“自下而上”或agglomerative clustering,其中每个观测得到自己的聚类,然后将每一对聚类合并在一起以形成另一个聚类,依此类推。另一个(也称为 “自上而下”或divisive clustering)以相反的方向工作,即,所有观察都从一个聚类开始,然后反复分成较小的聚类。
优点:易于实施;通过查看树状图可以轻松识别聚类的数量;比K-均值聚类提供了更多信息
缺点:对异常值高度敏感;大型机器学习数据集可能很耗时
DBSCAN:于1996年提出,它是一种基于密度的算法,其中,根据给定的最少点数彼此之间的接近程度,将观察结果聚类。它具有两个参数:ε(epsilon)-确定点应在一个聚类中的半径;(ii)minPts —指定形成密集空间/集群的最小点数。有趣的是,提出该算法的1996年论文在2014年KDD会议上获得了“ Test of Time Award ”。
优点:与K-means和层次聚类不同,DBSCAN在异常值存在时是健壮的;因此可以用于异常(即离群值)检测。
缺点:对参数值( ε 和 minPts)敏感;无法以变化的数据密度适当地识别任何聚类。
实施聚类算法的整个过程非常简单,因为与其他监督型机器学习算法相比,该过程中的人工决策和参数调整更少。在本节中,我将演示使用sklearn库在Python环境中的K-means聚类实现。
第1步:安装依赖项
基本上,您需要三个库:pandas用于处理数据,seaborn用于可视化,sklearn用于输入预处理和机器学习建模。
第2步:数据
我在此演示中使用的数据是著名的虹膜数据集。我之所以选择此数据集,是因为可以在散点图中轻松/直观地分离聚类。
在许多情况下,导入数据后,您可能需要进行一些处理,例如对分类变量进行编码等。还需要确保没有任何NaN值。
第3步:准备模型输入
选择数据集之后,下一步是预处理/格式化输入,使模型能够使用它。在这个阶段会发生两件事:对所选特征进行归一化和将数据帧转换为numpy数组。
第4步:确定聚类数
在K-means算法中,您需要定义所需的聚类数。所谓的“elbow method”可以通过最小化误差平方和来帮助确定。
第5步:模型实现
在上一步中确定了唯一必需的参数后,可以很好地拟合机器学习模型,可视化二维图中的聚类数,并进行进一步分析以回答您正在寻找的研究问题。
版权声明:我们致力于保护作者版权,注重分享,被刊用文章【聚类分析的应用案例(聚类分析)】因无法核实真实出处,未能及时与作者取得联系,或有版权异议的,请联系管理员,我们会立即处理! 部分文章是来自自研大数据AI进行生成,内容摘自(百度百科,百度知道,头条百科,中国民法典,刑法,牛津词典,新华词典,汉语词典,国家院校,科普平台)等数据,内容仅供学习参考,不准确地方联系删除处理!;
工作时间:8:00-18:00
客服电话
电子邮件
beimuxi@protonmail.com
扫码二维码
获取最新动态
