Clustering-Algorithms

在“无监督学习”(unsupervised learning)中，训练样本的标记信息是未知的，目标是通过对无标记训练样本的学习来揭示数据的内在性质及规律，为进一步的数据分析提供基础。此类学习任务中研究最多、应用最广的是“聚类”(Clustering)。
聚类试图将数据集中的样本划分为若干个通常是不相交的子集，每个子集称为一个“簇”(Cluster)。通过这样的划分，每个簇可能对应于一些潜在概念(类别)，这些概念对聚类算法而言事先是未知的，聚类过程仅能自动形成簇结构，簇所对应的概念语义需由使用者来把握和命名。
聚类既能作为一个单独过程，用于寻找数据内在的分布结构，也可以作为分类等其他学习任务的前驱过程。例如，在一些商业应用中需对新用户的类型进行判别，但定义“用户类型”对商家来说却不太容易，此时往往可以先对用户数据进行聚类，根据聚类结果将每个簇定义为一个类，然后再基于这些类来训练分类模型，用于判别新用户的类型。
基于不同的学习策略，人们设计出多种类型的聚类算法。这里我们用Python实现了四种较为常见的聚类算法，具体包括：以K-Means、GMM为代表的原型聚类算法、以DBSCAN为代表的密度聚类算法、以AGNES为代表的层次聚类算法。

spirit0609 / Clustering-Algorithms

Clustering-Algorithms

About

Languages