![Python数据分析与挖掘实战](https://wfqqreader-1252317822.image.myqcloud.com/cover/191/53286191/b_53286191.jpg)
上QQ阅读APP看书,第一时间看更新
1.2 数据挖掘的常用方法
数据挖掘的常用方法包括分类与回归、聚类、关联规则、智能推荐、时间序列等,以帮助企业提取数据中蕴含的商业价值,提高企业的竞争力。具体方法介绍如下。
(1)分类与回归。分类是一种对离散型随机变量进行建模或预测的方法,反映的是如何找出同类事物之间具有共同性质的特征和不同事物之间的差异特征,用于将数据集中的每个对象归类到某个已知的对象类中。回归是通过建立模型来研究变量之间相互关系的密切程度、结构状态及进行模型预测的一种有效方法。分类与回归广泛应用于医疗诊断、信用卡的信用分级、图像模式识别、风险评估等领域。
(2)聚类。聚类是在预先不知道类别标签的情况下,根据信息相似度原则进行信息集聚的一种方法。聚类的目的是使得属于同一类别的个体之间的差别尽可能小,而不同类别的个体之间的差别尽可能大。因此,聚类的意义在于将类似的事物组织在一起。通过聚类,人们能够识别密集和稀疏的区域,从而发现全局的分布模式,以及数据属性之间的关系。聚类分析广泛应用于商业、生物、地理、网络服务等多个领域。
(3)关联规则。关联规则是一种使用较为广泛的模式识别方法,旨在从大量的数据当中发现特征之间或数据之间在一定程度上的依赖或关联关系。关联规则分析广泛应用于市场营销、事务分析等领域。
(4)智能推荐。智能推荐用于联系用户和信息,帮助用户发现对自己有价值的信息,同时让这些有价值的信息展现在对此感兴趣的用户面前,从而实现信息消费者和信息生产者的双赢。智能推荐广泛应用于金融、电商、服务等领域。
(5)时间序列。时间序列是对在不同时间段内取得的样本数据进行挖掘,分析样本数据的变化趋势。时间序列广泛应用于股指预测、生产过程监测、电气系统监测、销售额预测等领域。