数据挖掘的常用方法

1.神经网络方法

神经网络是基于生理学建立的智能仿生系统模型,具有良好的鲁棒性、自组织性、自适应性、并行处理、分布存储和高度容错性等特性,非常适合解决数据挖掘的问题,因此,近年来越来越受到重视。典型的神经网络模型有感知机、BP反向传播模型、函数型网络等。前馈式神经网络模型主要用于分类、预测和模式识别;Hopfield的离散模型和连续模型分别用于联想记忆和优化计算的反馈式神经网络模型;ART模型和Koholon模型主要用于聚类的自组织映射。2.遗传算法

遗传算法是一种基于生物自然选择与遗传机理的随机搜索算法,是一种仿生全局代护方法。遗传算法具有的隐含并行性、易于和其他模型结合等性质使得它在数据挖掘中被加以应用。现已成功地开发了一个基于遗传算法的数据挖掘工具,利用该工具对两架飞机失事的真实数据库进行了数据挖掘实验,结果表明遗传算法是进行数据挖掘的有效方法之一。遗传算法的应用还体现在与神经网络、粗糙集等技术的结合上。例如,利用遗传算法优化神经网络结构,在不增加错误率的前提下,删除多余的连接和隐层单元;用遗传算法和BP算法结合训练神经网络,然后从网络提取规则等。但遗传算法较复杂,较早陷于局部极小的收敛问题还没有解决。3.决策树

决策树是一种常用于预测模型的方法,它通过将大量数据有目的地分类,从中找到一些有价值的、潜在的信息。主要优点是描述简单,分类速度快,特别适合于大规模的数据处理。最有影响和最早的决策树方法是著名的基于信息熵的ID3算法。它的主要问题是:ID3是非递增学习算法; ID3决策树是单变量决策树,复杂概念的表达困难:同性间的相互关系强调不够:抗噪性差。针对上述问题,出现了一系列的改进算法。4.粗糙集方法

租糙集理论是研究不精确、不确定知识的数学工具。粗糙集方法的优点是不需要给出外信息、简化输入信息的表达空间、算法简单而易于操作。粗糙集处理的对象是类似于二维关系表的信息表。关系数据库管理系统和数据仓库管理系统为粗糙集的数据挖掘奠定了坚实的基础。但粗糙集的数学基础是集合论,难以直接处理连续的属性,而现实信息表中连续属性是普遍存在的,所以连续属性的离散化制约了粗糙集理论的实用化。5.覆盖正例排斥反例方法

覆盖正例排斥反例方法用覆盖所有正例、排斥所有反例来寻找规则。首先在正例集合中任选一个种子,到反例集合中逐个比较。与字段取值构成的选择子相容则舍去,相反则保留。按此思想循环所有正例种子,将得到正例的规则,即选择子的合取式。6.统计分析方法

在数据库字段项之间存在两种关系,函数关系(能用函数公式表示的确定性关系)和相关关系(不能用函数公式表示,怕不函数关系法即利用统计学原理对数据库中的但仍是关确定性关系),对它们的分析可采用统计学方法,即利用统计学原理对数据库中的信息进行分析,主要内容介绍如下:

统计分析:求解数据集中的最大值、最小值、总和、平均值等。

回归分析:用国归方程来表示变量间的数量关系。

相关分析:用相关系数来度量变量间的相关程度。

差异分析:从样本统计量的值得出差异来却确定总体参数之间是否存在差异等。7.模糊集方法

模糊集方法是利用模糊集合理论对实际问题进行模期评判、模糊决策、模糊模式识别和模糊聚类分析。系统的复杂性越高,模糊性越强,一般模糊集合理论是用隶属度来描述模糊事物的特性。8.离群点检测

离群点又称异常点、孤立点,离群点检测的任务是识别特征显著不同于其他数据的观测值,离群点检测算法的目标是发现真正的离群点,同时避免将正确的对象标注为离群点。

离群点检测的定义如下:给定一个有N个数据点或对象的数据集和期望的高群点数K,找出与数据集中共余数据显著不同的、异常的或不一致的前K个对象。挖掘离群点问题可以看作下述两个子问题,一个是定义在给定的数据集中,什么样的数据可以认为是不一致的:另一个是找到一个有效的方法来挖掘所定义的离群点。

(1)离群点产生的原因

存在多种原因导致离群点的产生,归纳如下。

欺诈、入侵、不寻常的实验结果数据。

自然发生,表示了数据集的数据分布特征,如气候变化、基因突变等。

数据测量和收集出现了误差,主要有认为错误、测量设备故障或存在噪声等。

(2)离群点分类

离群点分类

(3)离群点检测

常用的离群点检测方法如下。

基于统计的离群点检测。在统计方法中,首先对已知的给定数据样本集假设一个概率模型,例如泊松分布成正态分布,然后结合假设的模型进行不一致性检验, 确定离群点。

基于距离的离群点检测。对象O是一个基于距离的孤立点,可以表示为DB(p,d),其中p和d是对象O的参数,表示数据集S中至少存在P部分与对象O的距离大于d,也就是说,将那些与给定对象的距离较大的对象作为距离孤立点。基于距离的离群点检测的最大优点是减少了计算量。

基于偏差的离群点检测,基于偏差的离群点检测是一种通过检测对象的特征来找出不一致性数据的方法。如果一个对象偏离了给定对象的特征描述,那么此对象是不一致的,这也表明偏差的含义是异常。常用的基于偏整的高群点检测方法是序列异常技术和OLAP数据立方体技术。序列异常方法模仿了人类可以从一系列类似的对象中识别出异常对象的行为。OLAP数据立方体方法是使用了数据立方体来辨识高维数据中的异常区域,这种方法预先计算的是数据异常的度量,用于在数据集计算的所有层次上指导用户进行数据分析。如果数据立方体中的一个单元值与基于统计模型的期望值显著不同,那么这个单元值就可以认为异常。

发表评论
留言与评论(共有 0 条评论)
   
验证码:

相关文章

推荐文章

'); })();