数据挖掘功能及各自方法总结

时间：2024.5.24

数据挖掘功能的特点及主要挖掘方法

一、数据挖掘功能的特点及主要挖掘方法

数据挖掘的目标是从数据库中发现隐含的、有意义的知识，主要有以下几类功能：

(1)概念描述

概念描述又称数据总结，其目的是对数据进行浓缩，给出它的综合描述，或者将它与其它对象进行对比。通过对数据的总结，可以实现对数据的总体把握。最简单的概念描述就是利用统计学中的传统方法，计算出数据库中各个数据项的总和、均值、方差等，或者利用OLAP(0n Line Processing，联机分析处理技术)实现数据的多维查询和计算，或者绘制直方图、折线图等统计图形。

(2)关联分析

关联分析就是从大量数据中发现项集之间有趣的关联或相关联系。随着大量数据不停地收集和存储，许多业界人士对于从他们的数据库中挖掘关联规则越来越感兴趣。从大量商务事务记录中发现有趣的关联关系，可以帮助许多商务决策的制定。

关联分析的主要方法有Apriori算法、AprioriTid算法、FP-growth算法等。

(3)分类和预测

分类和预测是两种数据分析形式，可以用于提取描述重要数据类的模型或预测数据未来的趋势。就是研究已分类资料的特征，分析对象属性，据此建立一个分类函数或分类模型，然后运用该模型计算总结出的数据特征，将其他未经分类或新的数据分派到不同的组中。计算结果通常简化为几个离散值，常用来对资料作筛选工作。分类和预测的应用十分广泛，例如，可以建立一个分类模型，对银行的贷款客户进行分类，以降低贷款的风险；也可以通过建立分类模型，对工厂的机器运转情况进行分类，用来预测机器故障的发生。

分类的主要方法有ID3算法、C4.5算法、SLIQ算法、SPRINT算法、RainForest算法、Bayes分类算法、CBA(Classification Based on Association)算法、MIND(Mining in Database)算法、神经网络方法、粗糙集理论方法、遗传算法等。

(4)聚类分析

当要分析的数据缺乏描述信息，或是无法组成任何分类模式时就采用聚类的方法，将异质母体区隔为较具同构性的群（Cluster)，即将组之间的差异识别出来，并对个别组内的相似样本进行挑选，实现同组数据相近，不同组数据相异。分类功能和聚类功能是不同的，分类是根据预先定好的一些特征值对对象分组，组或类是预先确定好的，而聚类是事先不知道的条件下根据对象的一些相似特征分组。聚类也便于将观察到的内容组织成分层结构，把类似的事件组织在一起。

聚类分析的主要方法有划分方法、层次方法、基于网格的方法、统计学和神经网络方面的方法。

(5)孤立点分析

数据库中可能包含一些数据对象，它们与数据的一般行为或模式不一致。这些数据对象就是孤立点。许多数据挖掘算法试图使孤立点的影响最小化，或者排除它们。但在一些应用中孤立点本身可能是非常重要的信息。例如在欺诈探测中，孤立点可能预示着欺诈行为。

(6)时间序列分析

在时间序列分析中，数据的属性值是随着时间不断变化的。这些数据一般在相等的时间间隔内取得，但是也可以在不相等的时间间隔内取得。通过时间序列图可以将时间序列数据可视化。时间序列分析目前有三个基本功能：一是模式挖掘，即通过分析时间序列的历史形态来研究事务的行为特征；二是趋势分析，即利用历史时间序列预测数据的未来数值；三是相似性搜索，即使用距离度量来确定不同时间序列的相似性。

二、数据挖掘的综合应用

数据挖掘在网络入侵检测系统中的应用：

利用数据挖掘技术对审计数据加以分析，总结出一些正常模式，用来进行异常检测，将有助于提高入侵检测系统的检测准确性和完备性。在此实例中用到了聚类分析方法在非监督式异常检测中的应用，使用K均值算法通过一系列的实验证实了这种算法可以在大量的混合数据中提取出正常数据，并能够利用得到聚类中心进行异常检测；此实例中还用到了关联规则挖掘与频繁情节挖掘技术。

单纯采用布尔型的关联规则挖掘算法〔Apriori)可以挖掘出单条连接记录各

属性之间的相关性，得出的规则对于高密度的简单攻击具有较好的检测结果，但对于由多个行为构成的高级攻击，则检测效果不够理想。频繁情节算法挖掘的是连接记录之间的序列关系，相对于布尔型关联规则挖掘算法而言检测效果较好。

由此可见每种数据挖掘的方法都有其侧重点，对于现实的数据挖掘处理，不大可能使用单一的数据挖掘方法就能得到满意的结果，而要综合应用多种方法取各种方法之长补其之短，对数据进行挖掘才能得到满意的结果。

第二篇：数据挖掘要点总结

名词解释：

商务智能:商务智能是数据仓库、联机分析处理(OLAP)和数据挖掘等相关技术走向商业应用后形成的一种应用技术。

数据仓库（Data Warehouse）是一个面向主题的（Subject Oriented）、集成的（Integrate）、相对稳定的（Non-Volatile）、反映历史变化（Time Variant）的数据集合，用于支持管理决策。

OLAP：在线分析处理：是一种广泛应用的上午智能使用技术，可以根据分析人员的要求，迅速灵活地对大量数据进行复杂的查询处理，并以直观的容易理解的形式将查询结果提供给各种决策人员，使他们能够迅速准确地掌握企业的运营情况，了解市场的需求。特点：在线性，多维分析。

多维分析：指对多为数据集中的数据用切片、切块和旋转等方式分析数据，使用户能够多角度多侧面地去观察数据仓库中的数据。

最近邻数据挖掘技术：相互之间“接近”的对象具有相似的预测值。如果你知道了其中一个对象的预测值后，就可以用它来预测其最近的邻居对象。简答：

OLAP与OLTP区别：OLAP是联机分析处理OLTP是联机事务处理。OLAP是数据仓库系统的主要应用，支持复杂的分析操作，侧重决策支持，并且提供直观、易懂的查询结果。OLTP是传统的关系型数据库的主要应用模式，主要面对基本的、日常的事务处理；比如数据库记录的增、删、改、查。

DW、OLAP、DM的区别：OLAP、数据挖掘（DM）的对比(差异性：面向对象和问题不同。):OLAP主要由决策者查询分析、决策支持分析报告等一些预定的决策支持报告组成，这些OLAP主要面向一线直接从事具体业务，但又需要进行临时性决策的人员，这些人员需要使用一些定制的分析报告，以支持其日常决策活动。数据挖掘是一种从海量数据中寻找可以了解商务活动规律的信息处理工具，利用数据挖掘可以从大量的、不完全的、有噪声的商务数据中，提取隐含在其中的、人民所不知道的、但有时潜在有用的信息和知识。

数据挖掘过程：确定挖掘对象、准备数据、建立模型、挖掘数据、结果分析、知识应用。商务智能的体系结构：数据仓库，OLAP、数据挖掘，商务分析。

事实表模型设计原则：通过调查确定所有可能的事实，派生事实；按功能排序，删除重复事实；基于不同准则但是有相同性质的派生事实；确认计算派生事实的基本事实包含在模型中；事实表尽可能小！

元数据在数据仓库中的作用：1.数据仓库的元数据重要性：为数据仓库服务与DSS分析员及高层决策人员服务提供便利；解决操作型环境和数据仓库的复杂关系；数据仓库中数据的管理 2.元数据在数据仓库开发期间的使用：确认数据质量、同步化和刷新、映射

3.元数据在数据源抽取中的作用：资源领域的确定、跟踪历史数据结构变化的过程、属性到属性的映射、属性转换 4.元数据在数据求精与重构工程上的作用：数据的分割、概括与聚集、预算与推导、转换与再映像

三种概念模型的范围特征概念：1、规范的数据模型：将数据结构分解成较小且合适的组成过程，规范化主要强调实现存储的灵活性和高效性。第三范式：所有的非主属性都完全依赖于关键列；所有的主要属性都完全依赖于不属于他们的键；没有非主属性完全依赖于任一非主属性集，即不应出现传递依赖关系。2、星型模型：核心是事实表，围绕事实表的是维度表。通过事实表将各种不同的维度表连接起来，各个维度表都连接到中央事实表。雪花模型对星型模型的维度表进一步标准化，对星型模型中的维度表进行了规范化处理。事实星座（Fact constellations）: 复杂应用可能需要多个事实表共享维表, 这种模式可以看作星型模式的汇集，因此称为星系模式（galaxy schema），或者事实星座（fact constellation）现代数据挖掘的相关方法：1规则型现代挖掘技术：布尔关联规则、单维规则

buys(x,“computer”)=>buys(x,“finacial_management_software”)

量化关联规则、多维关联

age(“30..40”)∧income(“420xx..50000”)=>buys(x,“high_resolution_TV”) 多层关联规则

单层关联规则

age(x,“30..40”)=>buys(x,“IBM computer”)

age(x,“30..40”)=>buys(x,“computer”)

2神经网络型现代挖掘技术：神经网络的工作过程主要分两个阶段：学习阶段和工作阶段。学习方式则有三种：有教师（监督）学习、无教师（监督）学习和强化学习。

3遗传算法型现代挖掘技术：1.遗传算法的基本原理

达尔文的“适者生存”理论、继承的信息由基因携带、多个基因组成了染色体、基因座、等位基因、基因型和表现型

染色体对应的是一系列符号序列，通常用0、1的位串表示

进行生物的遗传进化。在这一过程中包括三种演化操作：在父代基因群中的双亲选择操作、两个父代双亲产生子代基因的交叉操作和在子代基因群体中的变异操作。

两种数据转换：从表现型到基因型的转换，另一种是从基因型到表现型的转换

遗传算法实质上是一种繁衍、检测和评价的迭代算法

最大优点是问题的最优解与初始条件无关，而且搜索最优解的能力极强

4决策树型现代挖掘技术：ID3，该算法建立在推理系统和概念学习系统的基础之上，基本步骤是。（1）创建一个节点。如果样本都在同一类，则算法停止，把该节点改成树叶节点，并用该类标记。（2）否则，选择一个能够最好的将训练集分类的属性，该属性作为该节点的测试属性。（3）对测试属性中的每一个值，创建相应的一个分支，并据此划分样本。（4）使用同样的过程自顶向下的递归，直到满足下面的三个条件中的一个时，就停止递归。 (a)给定节点的所有样本都属于同一类。(b)没有剩余的属性可以用来进一步划分。(c)继续划分得到的改进不明显。

聚类分析原理：在进行聚类分析时，必须用到n维空间。该空间用来定义聚类中必须解决的计量距离问题。聚类方法主要有：分层聚类、划分聚类、网格聚类、模型聚类。

spss中聚类分析的操作步骤:打开数据文件后Analyze--classify---K-means cluster 命令，选择需要聚类的变量到Variables，选择一个标记变量到label case by 中，在number of Cludter小框中指定聚类数。单击ok即可。

更多相关推荐：

数据挖掘总结: 数据挖掘总结职业篇数据分析微信公众号datadw关注你想了解的分享你需要的前面对数据挖掘相关资源等等进行了总结但是很多人不明白学习数据挖掘以后干什么这个问题也经常被问到记得刚学数据挖掘的时候有一个老师说学数据挖...
数据挖掘的一些总结: 深入浅出谈数据挖掘段勇编者的话本文对数据挖掘概念的产生数据挖掘与常规数据分析的主要区别所能解决的几大类问题和所应用的领域都有着非常清晰的论述作者在此篇文章中认为数据挖掘最重要的要素是分析人员的相关业务知识和思维...
数据挖掘与分析心得体会: 正如柏拉图所说：需要是发明之母。随着信息时代的步伐不断迈进，大量数据日积月累。我们迫切需要一种工具来满足从数据中发现知识的需求！而数据挖掘便应运而生了。正如书中所说：数据挖掘已经并且将继续在我们从数据时代大步跨…
数据挖掘总结: 1p2613假设你是BigUniversity的软件工程师任务是设计一个数据挖掘系统分析学校课程数据库该数据库包括如下信息每个学生的姓名地址和状态例如本科生或研究生所修课程以及他们的GPA平均积分点描述你要选取...
web数据挖掘总结: 一数据挖掘数据挖掘是运用计算机及信息技术从大量的不完全的数据集中获取隐含在其中的有用知识的高级过程Web数据挖掘是从数据挖掘发展而来是数据挖掘技术在Web技术中的应用Web数据挖掘是一项综合技术通过从Inter...
数据挖掘算法总结: 数据挖掘面试题总结转1给定ab两个文件各存放50亿个url每个url各占64字节内存限制是4G让你找出ab文件共同的url方案1可以估计每个文件安的大小为50G64320G远远大于内存限制的4G所以不可能将其完...
数据挖掘一些面试题总结: 数据挖掘一些面试题总结DataMining摘录一段企业面对海量数据应如何具体实施数据挖掘使之转换成可行的结果模型首先进行数据的预处理主要进行数据的清洗数据清洗处理空缺值数据的集成数据的变换和数据规约请列举您使用...

数据挖掘要点总结: 名词解释：商务智能:商务智能是数据仓库、联机分析处理(OLAP)和数据挖掘等相关技术走向商业应用后形成的一种应用技术。数据仓库（DataWarehouse）是一个面向主题的（SubjectOriented）、集…
数据挖掘中分类算法小结: 数据挖掘中分类算法小结数据仓库，数据库或者其它信息库中隐藏着许多可以为商业、科研等活动的决策提供所需要的知识。分类与预测是两种数据分析形式，它们可以用来抽取能够描述重要数据集合或预测未来数据趋势的模型。分类方法…
18大经典数据挖掘算法小结: 18大经典数据挖掘算法小结20xx-03-05CSDN大数据CSDN大数据csdnbigdataCSDN分享Hadoop、Spark、NoSQL/NewSQL、HBase、Impala、内存计算、流计算、机器学…
数据挖掘在市场营销的应用: 数据挖掘在市场营销的应用数据挖掘技术在企业市场营销中得到了比较普遍的应用，它是以市场营销学的市场细分原理为基础，其基本假定是“消费者过去的行为是其今后消费倾向的最好说明”。通过收集、加工和处理涉及消费者消费行为…
数据仓库总结: 数据仓库系统与传统数据库系统的区别数据库是面向事务的设计数据仓库是面向主题设计的数据库一般存储在线交易数据数据仓库存储的一般是历史数据数据库设计是尽量避免冗余一般采用符合范式的规则来设计数据仓库在设计是有意引入...

热门关注