Chyivtp数据挖掘技术-毕业设计-开题报告-毕业论文

时间:2024.4.27

-+

懒惰是很奇怪的东西,它使你以为那是安逸,是休息,是福气;但实际上它所给你的是无聊,是倦怠,是消沉;它剥夺你对前途的希望,割断你和别人之间的友情,使你心胸日渐狭窄,对人生也越来越怀疑。

数据挖掘技术综述

数据挖掘(Data Mining)是一项较新的数据库技术,它基于由日常积累的大量数据所构成的数据库,从中发现潜在的、有价值的信息——称为知识,用于支持决策。数据挖掘是一项数据库应用技术,本文首先对数据挖掘进行概述,阐明什么是数据挖掘,数据挖掘的技术是什么,然后介绍数据挖掘的常用技术,数据挖掘的主要过程, 如何进行数据挖掘,主要应用领域以及国内外现状分析。

一. 研究背景及意义

近十几年来,随着数据库系统的广泛流行以及计算机技术的快速发展,人们利用信息技术生产和搜集数据的能力大幅度提高。千万个数据库被用于商业管理、政府办公、科学研究和工程开发等,特别是网络系统的流行,使得信息爆炸性增长。这一趋势将持续发展下去。大量信息在给人们带来方便的同时也带来了一大堆的问题:第一是信息过量,难以消化;第二是信息真假难以辨认;第三是信息安全难以保证;第四是信息形式不一致,难以统一处理。面对这种状况,一个新的挑战被提出来:如何才能不被信息的汪洋大海所淹没,从中及时发现有用的知识,提高信息利用率呢?这时出现了新的技术——数据挖掘(Data Mining)技术便应用而生了。

面对海量的存储数据,如何从中发现有价值的信息或知识,成为一项非常艰巨的任务。数据挖掘就是为迎合这种要求而产生并迅速发展起来的。数据挖掘研究的目的主要是发现知识、使数据可视化、纠正数据。

二. 概述

1,数据挖掘

数据挖掘(Data Mining)就是从大量的、不完全的、有噪声的、模糊的、随机的数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。这些数据可以是结构化的,如关系数据库中的数据,也可以是半结构化的,如文本,图形,图像数据,甚至是分布在网络上的异构型数据。发现知识的方法可以是数学的,也可以是非数学的,可以是演绎的,也可以是归纳的。发现了的知识可以被用于信息管理、查询优化、决策支持、过程控制等,还可以进行数据自身的维护。数据挖掘借助了多年来数理统计技术和人工智能以及知识工程等领域的研究成果构建自己的理论体系,是一个交叉学科领域,可以集成数据数据库、人工智能、数理统计、可视化、并行计算等技术。

2,数据挖掘技术

数据挖掘就是对观测到的数据集进行分析,目的是发现未知的关系和以数据拥有者可以理解并对其有价值的新颖方式来总结数据。它利用各种分析方法和分析工具在大规模海量数据中建立模型和发现数据间关系的过程,这些模型和关系可以用来做出决策和预测。

数据挖掘的过程就是知识发现的过程,其所能发现的知识有如下几种:广义型知

识,反映同类事物共同性质的知识;特征型知识,反映事物各方面的特征知识;差异型知识,反映不同事物之间属性差别的知识;关联型知识,反映事物之间依赖或关联的知识;预测型知识,根据历史的和当前的数据推测未来数据;偏离型知识,揭示事物偏离常规的异常现象。所有这些知识都可以在不同的概念层次上被发现,随着概念树的提升,从微观到中观再到宏观,以满足不同用户、不同层次决策的需要。

数据挖掘是涉及数据库、人工智能、数理统计、机械学、人工神经网络、可视化、并行计算等的交叉学科,是目前国际上数据库和决策支持领域的最前沿的研究方向之一。

3,数据挖掘的功能

数据挖掘通过预测未来趋势及行为,做出预测性的、基于知识的决策。数据挖掘的目标是从数据库中发现隐含的、有意义的知识,按其功能可分为以

下几类。

3.1 关联分析(Association Analysis)

关联分析能寻找到数据库中大量数据的相关联系,常用的一种技术为关联规则和序列模式。关联规则是发现一个事物与其他事物间的相互关联性或相互依赖性。

3.2 聚类

输入的数据并无任何类型标记,聚类就是按一定的规则将数据划分为合理的集合,即将对象分组为多个类或簇,使得在同一个簇中的对象之间具有较高的相似度,而在不同簇中的对象差别很大。聚类增强了人们对客观现实的认识,是概念描述和偏差分析的先决条件。聚类技术主要包括传统的模式识别方法和数学分类学。

3.3 自动预测趋势和行为

数据挖掘自动在大型数据库中进行分类和预测,寻找预测性信息,自动地提出描述重要数据类的模型或预测未来的数据趋势,这样以往需要进行大量手工分析的问题如今可以迅速直接由数据本身得出结论。。

3.4 概念描述

对于数据库中庞杂的数据,人们期望以简洁的描述形式来描述汇集的数据集。概念描述就是对某类对象的内涵进行描述并概括出这类对象的有关特征。概念描述分为特征性描述和区别性描述,前者描述某类对象的共同特征,后者描述不同类对象之间的区别。生成一个类的特征性只涉及该类对象中所有对象的共性。生成区别性描述的方法很多,如决策树方法、遗传算法等。

3.5 偏差检测

数据库中的数据常有一些异常记录,从数据库中检测这些偏差很有意义。偏差包括很多潜在的知识,如分类中的反常实例、不满足规则的特例、观测结果与模型预测值的偏差、量值随时间的变化等。偏差检测的基本方法是寻找观测结果与参照值之间有意义的差别。这常用于金融银行业中检测欺诈行为,或市场分析中分析特殊消费者的消费习惯。

三.目前的研究现状及存在的主要问题

自KDD一词首次出现在19xx年8月举行的第11届国际联合人工智能学术会议以来。迄今为止,由美国人工智能协会主办的KDD国际研讨会已经召开了13次,规模由原来的专题讨论会发展到国际学术大会,人数由二三十人到超过千人,论文收录数量也迅速增加,研究重点也从发现方法逐渐转向系统应用直到转向大规模综合系统的开发,并且注重多种发现策略和技术的集成,以及多种学科之间的相

互渗透。其他内容的专题会议也把数据挖掘和知识发现列为议题之一,成为当前计算机科学界的一大热点。

与国外相比,国内对DMKD的研究稍晚,没有形成整体力量。19xx年国家自然科学基金首次支持我们对该领域的研究项目。目前,国内的许多科研单位和高等院校竞相开展知识发现的基础理论及其应用研究,这些单位包括清华大学、中科院计算技术研究所、空军第三研究所、海军装备论证中心等。其中,北京系统工程研究所对模糊方法在知识发现中的应用进行了较深入的研究,北京大学也在开展对数据立方体代数的研究,华中理工大学、复旦大学、浙江大学、中国科技大学、中科院数学研究所、吉林大学等单位开展了对关联规则开采算法的优化和改造;南京大学、四川联合大学和上海交通大学等单位探讨、研究了非结构化数据的知识发现以及Web数据挖掘。

四. 研究内容

1,数据挖掘的过程

数据挖掘是指一个完整的过程,该过程从大型数据库中挖掘先前未知的、有效的、可实用的信息,并使用这些信息做出决策或丰富知识。

数据挖掘的一般过程如下流程图所示:

图1,数据掘的一般过程

2.1 神经网络

神经网络方法是模拟人脑神经元结构,以MP模型和Hebb学习规则为基础。它主要有三种神经网络模型:前馈式网络、反馈式网络、自组织网络。为

2.2决策树

决策树学习着眼于从一组无次序、无规则的事中推理出决策树表示形式的分类规则。它采用自顶向下的递归方式,在决策树的内部结点进行属性值的比较并根据不同的属性值判断从该结点向下的分支,在决策树的叶结点得到结论。

2.3 遗传算法

遗传算法是一种优化技术,是模拟生物进化过程的算法。基于进化理论,并采用遗传结合、遗传变异以及自然选择等设计方法。由三个基本算子组成:繁殖、交叉、变异。

2.4 传统统计分析

这类技术建立在传统的数理统计的基础上。在数据库字段项之间存在两种关系:函数关系(能用函数公式表示的确定性关系)和相关关系(不能用函数公式表示,但仍是相关确定性关系),对它们的分析可采用判别分析、因子分析、相关分析、多元回归分

析及偏最小二乘回归方法等。

2.5 关联规则

关联规则是发现一个事物与其他事物间的相互关联性或相互依赖性。关联规则是展示属性: 值频繁地在给定数据集中一起出现的条件,是数据挖掘中作用比较广泛的知识之一。

2.6 可视化技术

可视化技术是利用计算机图形学和图像技术,将数据转换成图形或图像在屏幕上显示出来,并进行交互处理的理论、方法和技术。可视化数据挖掘技术将可视化

有机地融合到数

据挖掘之中,使用户对于数据挖掘有一个更加直接直观清晰的了解,提供让用户有效、主动参与数据挖掘过程的方法。

3,数据挖掘的应用领域

数据挖掘技术从一开始就是面向应用的。它不仅是面向特定数据库的简单检索查询调用,而且要对这些数据进行微观、中观乃至宏观的统计,分析,综合和推理,以指导实际问题的求解,企图发现事件间的相互关联,甚至利用已有的数据对未来的活动

进行预测。

一般Data Mining较长被应用的领域包括金融业、保险业、零售业、直效行销业、通讯业、制造业以及医疗服务业等。更广义的说法是:数据挖掘意味着在一些事实或观察数据的集合中寻找模式的决策支持过程。

4,数据挖掘的发展方向

目前,数据挖掘的研究方面主要有:数据库知识发现方面,将知识发现(KDD)与数据库系统、数据仓库系统和Web数据库系统紧密结合,力图充分利用Web中的丰富资源;机器学习方面,进一步研究知识发现方法,希望克服现存算法的计算性瓶颈,如注重对Bayes(贝叶斯)方法以及Boosting算法的研究和提高;统计领域,加大传统统计方法在数据挖掘中的

应用。数据挖掘研究正蓬勃开展,在今后还会掀起更大的波澜,其研究焦点集中到以下几个方面:研究专门用于知识发现的数据挖掘语言,也许会像SQL语言一样走向形式化和标准化;寻求数据挖掘过程中的可视化方法,使得知识发现的过程能够被用户理解,也便于在知识发现过程中的人机交互;研究在网络环境下的数据挖掘技术,特别是在Internet上建立数据挖掘服务器,与数据库服务器配合,实现数据挖掘;加强对各种非结构化数据的挖掘,如文本数据、图形图像数据、多媒体数据。

5,数据挖掘的新技术

Web数据挖掘技术首要解决半结构化数据源模型和半结构化数据模型的查询与集成问题。这就必须要有一个模型来清晰地描述Web上的数据,而寻找一个半结构化的数据模型是解决问题的关键所在。除此之外,还需要一种半结构化模型抽取技术,即自动地从现有数据中抽取半结构化模型的技术。

XML可看作一种半结构化的数据模型,可以很容易地将XML的文档描述与关系数据库中的属性对应起来,实施精确地查询与模型抽取。利用XML.Web设计人员不仅能创建文字和图形,而且还能构建文档类型定义的多层次、相互依存的系统、数据树、元数据、超链接结构和样式表。

6,数据挖掘面临的问题和挑战

虽然数据挖掘技术已经在各方面都得到了广泛的应用,但数据挖掘技术的研究还不够成熟,在应用上有很大的局限性。正是这些局限性,促使数据挖掘技术进一步的发展:

(1)挖掘的对象 数据库更大,维数更高,属性之间更复杂,数据挖掘处理的数据通

常十分巨大。

(2)数据丢失问题 因大部分数据库不是为知识发现而定做的,那么它就有可能会存在一些重要的数据和属性丢失的问题。

(3)多种形式的输入数据 目前数据挖掘工具能处理的数据形式有限,一般只能

处理数值型的结构化数据。

(4)网络与分布式环境的KDD问题 随网络的发展,资源的丰富,技术人员各自独立处理分离数据库的工作方式应是可协作的。

五.研究达到的预期结果

系统的介绍数据挖掘技术,使更多的研究人员在数据库中发现有用的,有潜在价值的数据知识。

六.小结

通过各方面资料的查找,理解了基本的数据挖掘概念、数据挖掘技术、数据挖掘的实际应用及国内外现状。在论文中将对数据挖掘的概念以及发展概况进行介绍,并总结数据挖掘中使用的技术,主要结合当前的研究成果,分析了数据挖掘领域的。研究领域方面,可能主要集中在网络信息中的主要应用。

七.毕业论文进程安排

序号 论文各阶段安排内容 日期

1 资料调研及方案设计 1.4-1.10

2 数据挖掘的概论研究 1.11-1.25

4 数据挖掘常用技术研究 1.26-2.15

5 数据挖掘的应用研究 2.15-3.1(中期检查)

6 数据挖掘的新技术研究 3.1-3.10

7 数据挖掘的发展方向 3.11-3.16

8 撰写论文 3.16-4.10

9 论文修改 4.11-4.30

10 准备答辩,交老师审阅 5.1-5.5

11 毕业论文答辩 5.6-?


第二篇:pnwvbm数_据挖掘技术-毕业设计-开题报告-毕业论文


、| !_ 一个人总要走陌生的路,看陌生的风景,听陌生的歌,然后在某个不经意的 瞬间,你会发现,原本费尽心机想要忘记的事情真的就这么忘记了..数据挖掘技术综述数据挖掘(Data Mining)是一项较新的数据库技术,它基于由日常积累的大量 数据所构成的数据库,从中发现潜在的、有价值的信息——称为知识,用于支持 决策。数据挖掘是一项数据库应用技术,本文首先对数据挖掘进行概述,阐明什 么是数据挖掘,数据挖掘的技术是什么,然后介绍数据挖掘的常用技术,数据挖 掘的主要过程, 如何进行数据挖掘,主要应用领域以及国内外现状分析。 一. 研究背景及意义 近十几年来,随着数据库系统的广泛流行以及计算机技术的快速发展,人们利用 信息技术生产和搜集数据的能力大幅度提高。千万个数据库被用于商业管理、政 府办公、 科学研究和工程开发等, 特别是网络系统的流行, 使得信息爆炸性增长。 这一趋势将持续发展下去。 大量信息在给人们带来方便的同时也带来了一大堆的 问题:第一是信息过量,难以消化;第二是信息真假难以辨认;第三是信息安全 难以保证;第四是信息形式不一致,难以统一处理。面对这种状况,一个新的挑 战被提出来:如何才能不被信息的汪洋大海所淹没,从中及时发现有用的知识, 提高信息利用率呢?这时出现了新的技术——数据挖掘(Data Mining)技术便 应用而生了。 面对海量的存储数据,如何从中发现有价值的信息或知识,成为一项非常艰巨的 任务。数据挖掘就是为迎合这种要求而产生并迅速发展起来的。数据挖掘研究的 目的主要是发现知识、使数据可视化、纠正数据。 二. 概述 1,数据挖掘 数据挖掘(Data Mining)就是从大量的、不完全的、有噪声的、模糊的、随机的 数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识 的过程。这些数据可以是结构化的,如关系数据库中的数据,也可以是半结构化 的,如文本,图形,图像数据,甚至是分布在网络上的异构型数据。发现知识的 方法可以是数学的,也可以是非数学的,可以是演绎的,也可以是归纳的。发现 了的知识可以被用于信息管理、查询优化、决策支持、过程控制等,还可以进行 数据自身的维护。 数据挖掘借助了多年来数理统计技术和人工智能以及知识工程 等领域的研究成果构建自己的理论体系,是一个交叉学科领域,可以集成数据数 据库、人工智能、数理统计、可视化、并行计算等技术。 2,数据挖掘技术 数据挖掘就是对观测到的数据集进行分析, 目的是发现未知的关系和以数据拥有 者可以理解并

对其有价值的新颖方式来总结数据。 它利用各种分析方法和分析工 具在大规模海量数据中建立模型和发现数据间关系的过程, 这些模型和关系可以 用来做出决策和预测。 数据挖掘的过程就是知识发现的过程,其所能发现的知识有如下几种:广义型知 识,反映同类事物共同性质的知识;特征型知识,反映事物各方面的特征知识; 差异型知识,反映不同事物之间属性差别的知识;关联型知识,反映事物之间依 赖或关联的知识;预测型知识,根据历史的和当前的数据推测未来数据;偏离型 知识,揭示事物偏离常规的异常现象。所有这些知识都可以在不同的概念层次上 被发现,随着概念树的提升,从微观到中观再到宏观,以满足不同用户、不同层 次决策的需要。 数据挖掘是涉及数据库、人工智能、数理统计、机械学、人工神经网络、可视化、 并行计算等的交叉学科, 是目前国际上数据库和决策支持领域的最前沿的研究方 向之一。 3,数据挖掘的功能 数据挖掘通过预测未来趋势及行为,做出预测性的、基于知识的决策。数据挖掘 的目标是从数据库中发现隐含的、有意义的知识,按其功能可分为以 下几类。 3.1 关联分析(Association Analysis) 关联分析能寻找到数据库中大量数据的相关联系, 常用的一种技术为关联规则和 序列模式。关联规则是发现一个事物与其他事物间的相互关联性或相互依赖性。 3.2 聚类 输入的数据并无任何类型标记,聚类就是按一定的规则将数据划分为合理的集 合,即将对象分组为多个类或簇,使得在同一个簇中的对象之间具有较高的相似 度,而在不同簇中的对象差别很大。聚类增强了人们对客观现实的认识,是概念 描述和偏差分析的先决条件。 聚类技术主要包括传统的模式识别方法和数学分类 学。 3.3 自动预测趋势和行为 数据挖掘自动在大型数据库中进行分类和预测,寻找预测性信息,自动地提出描 述重要数据类的模型或预测未来的数据趋势, 这样以往需要进行大量手工分析的 问题如今可以迅速直接由数据本身得出结论。。 3.4 概念描述 对于数据库中庞杂的数据,人们期望以简洁的描述形式来描述汇集的数据集。概 念描述就是对某类对象的内涵进行描述并概括出这类对象的有关特征。 概念描述 分为特征性描述和区别性描述,前者描述某类对象的共同特征,后者描述不同类 对象之间的区别。生成一个类的特征性只涉及该类对象中所有对象的共性。生成 区别性描述的方法很多,如决策树方法、遗传算法等。 3.5 偏差检测 数据库中的数据常有一些异常记录,从数据库中检测这些偏差很有意义。偏差包 括

很多潜在的知识,如分类中的反常实例、不满足规则的特例、观测结果与模型 预测值的偏差、量值随时间的变化等。偏差检测的基本方法是寻找观测结果与参 照值之间有意义的差别。这常用于金融银行业中检测欺诈行为,或市场分析中分 析特殊消费者的消费习惯。 三.目前的研究现状及存在的主要问题 自 KDD 一词首次出现在 1989 年 8 月举行的第 11 届国际联合人工智能学术会议以 来。迄今为止,由美国人工智能协会主办的 KDD 国际研讨会已经召开了 13 次,规 模由原来的专题讨论会发展到国际学术大会,人数由二三十人到超过千人,论文 收录数量也迅速增加,研究重点也从发现方法逐渐转向系统应用直到转向大规模 综合系统的开发,并且注重多种发现策略和技术的集成,以及多种学科之间的相 互渗透。其他内容的专题会议也把数据挖掘和知识发现列为议题之一,成为当前 计算机科学界的一大热点。 与国外相比,国内对 DMKD 的研究稍晚,没有形成整体力量。1993 年国家自然科 学基金首次支持我们对该领域的研究项目。目前,国内的许多科研单位和高等院 校竞相开展知识发现的基础理论及其应用研究,这些单位包括清华大学、中科院 计算技术研究所、空军第三研究所、海军装备论证中心等。其中,北京系统工程 研究所对模糊方法在知识发现中的应用进行了较深入的研究, 北京大学也在开展 对数据立方体代数的研究, 华中理工大学、 复旦大学、 浙江大学、 中国科技大学、 中科院数学研究所、吉林大学等单位开展了对关联规则开采算法的优化和改造; 南京大学、四川联合大学和上海交通大学等单位探讨、研究了非结构化数据的知 识发现以及 Web 数据挖掘。 四. 研究内容 1,数据挖掘的过程 数据挖掘是指一个完整的过程, 该过程从大型数据库中挖掘先前未知的、 有效的、 可实用的信息,并使用这些信息做出决策或丰富知识。 数据挖掘的一般过程如下流程图所示:图 1,数据掘的一般过程 2.1 神经网络 神经网络方法是模拟人脑神经元结构,以 MP 模型和 Hebb 学习规则为基础。它主 要有三种神经网络模型:前馈式网络、反馈式网络、自组织网络。为 2.2 决策树 决策树学习着眼于从一组无次序、 无规则的事中推理出决策树表示形式的分类规 则。它采用自顶向下的递归方式,在决策树的内部结点进行属性值的比较并根据 不同的属性值判断从该结点向下的分支,在决策树的叶结点得到结论。 2.3 遗传算法 遗传算法是一种优化技术,是模拟生物进化过程的算法。基于进化理论,并采用 遗传结合、遗传变异以及自然选择等设计方法。由三个基本算子

组成:繁殖、交 叉、变异。 2.4 传统统计分析 这类技术建立在传统的数理统计的基础上。在数据库字段项之间存在两种关系: 函数关系 (能用函数公式表示的确定性关系) 和相关关系 (不能用函数公式表示, 但仍是相关确定性关系) 对它们的分析可采用判别分析、 , 因子分析、 相关分析、 多元回归分 析及偏最小二乘回归方法等。 2.5 关联规则 关联规则是发现一个事物与其他事物间的相互关联性或相互依赖性。 关联规则是 展示属性: 值频繁地在给定数据集中一起出现的条件, 是数据挖掘中作用比较广 泛的知识之一。 2.6 可视化技术 可视化技术是利用计算机图形学和图像技术, 将数据转换成图形或图像在屏幕上 显示出来,并进行交互处理的理论、方法和技术。可视化数据挖掘技术将可视化 有机地融合到数 据挖掘之中,使用户对于数据挖掘有一个更加直接直观清晰的了解,提供让用户 有效、主动参与数据挖掘过程的方法。 3,数据挖掘的应用领域 数据挖掘技术从一开始就是面向应用的。 它不仅是面向特定数据库的简单检索查 询调用, 而且要对这些数据进行微观、 中观乃至宏观的统计, 分析, 综合和推理, 以指导实际问题的求解,企图发现事件间的相互关联,甚至利用已有的数据对未 来的活动 进行预测。 一般 Data Mining 较长被应用的领域包括金融业、 保险业、 零售业、 直效行销业、 通讯业、制造业以及医疗服务业等。更广义的说法是:数据挖掘意味着在一些事 实或观察数据的集合中寻找模式的决策支持过程。 4,数据挖掘的发展方向 目前,数据挖掘的研究方面主要有:数据库知识发现方面,将知识发现(KDD) 与数据库系统、数据仓库系统和 Web 数据库系统紧密结合,力图充分利用 Web 中的丰富资源;机器学习方面,进一步研究知识发现方法,希望克服现存算法的 计算性瓶颈,如注重对 Bayes(贝叶斯)方法以及 Boosting 算法的研究和提高; 统计领域,加大传统统计方法在数据挖掘中的 应用。数据挖掘研究正蓬勃开展,在今后还会掀起更大的波澜,其研究焦点集中 到以下几个方面:研究专门用于知识发现的数据挖掘语言,也许会像 SQL 语言一 样走向形式化和标准化;寻求数据挖掘过程中的可视化方法,使得知识发现的过 程能够被用户理解,也便于在知识发现过程中的人机交互;研究在网络环境下的 数据挖掘技术,特别是在 Internet 上建立数据挖掘服务器,与数据库服务器配 合,实现数据挖掘;加强对各种非结构化数据的挖掘,如文本数据、图形图像数 据、多媒体数据。 5,数据挖掘的新技术 Web 数据挖掘技术首要解

决半结构化数据源模型和半结构化数据模型的查询与 集成问题。这就必须要有一个模型来清晰地描述 Web 上的数据,而寻找一个半结 构化的数据模型是解决问题的关键所在。除此之外,还需要一种半结构化模型抽 取技术,即自动地从现有数据中抽取半结构化模型的技术。 XML 可看作一种半结构化的数据模型,可以很容易地将 XML 的文档描述与关系数 据库中的属性对应起来,实施精确地查询与模型抽取。利用 XML.Web 设计人员不 仅能创建文字和图形,而且还能构建文档类型定义的多层次、相互依存的系统、 数据树、元数据、超链接结构和样式表。 6,数据挖掘面临的问题和挑战 虽然数据挖掘技术已经在各方面都得到了广泛的应用, 但数据挖掘技术的研究还 不够成熟,在应用上有很大的局限性。正是这些局限性,促使数据挖掘技术进一 步的发展: (1)挖掘的对象 数据库更大,维数更高,属性之间更复杂,数据挖掘处理的数 据通 常十分巨大。 (2)数据丢失问题 因大部分数据库不是为知识发现而定做的,那么它就有可能 会存在一些重要的数据和属性丢失的问题。 (3)多种形式的输入数据 目前数据挖掘工具能处理的数据形式有限,一般只能 处理数值型的结构化数据。 (4)网络与分布式环境的 KDD 问题 随网络的发展,资源的丰富,技术人员各自 独立处理分离数据库的工作方式应是可协作的。 五.研究达到的预期结果 系统的介绍数据挖掘技术,使更多的研究人员在数据库中发现有用的,有潜在价 值的数据知识。 六.小结 通过各方面资料的查找,理解了基本的数据挖掘概念、数据挖掘技术、数据挖掘 的实际应用及国内外现状。在论文中将对数据挖掘的概念以及发展概况进行介 绍,并总结数据挖掘中使用的技术,主要结合当前的研究成果,分析了数据挖掘 领域的。研究领域方面,可能主要集中在网络信息中的主要应用。 七.毕业论文进程安排 序号 论文各阶段安排内容 日期 1 资料调研及方案设计 1.4-1.10 2 数据挖掘的概论研究 1.11-1.25 4 数据挖掘常用技术研究 1.26-2.15 5 数据挖掘的应用研究 2.15-3.1(中期检查) 6 数据挖掘的新技术研究 3.1-3.10 7 数据挖掘的发展方向 3.11-3.16 8 撰写论文 3.16-4.10 9 论文修改 4.11-4.30 10 准备答辩,交老师审阅 5.1-5.5 11 毕业论文答辩 5.6-?

更多相关推荐:
数据挖掘技术开题报告

毕业设计开题报告设计题目数据挖掘技术在苏宁电器客户关系管理中的应用研究系别专业姓名指导教师辅导教师12客户关系管理的研究现状不足和未来展望市场营销学34数据挖掘技术市场营销销售与客户关系管理领域应用数据挖掘客户...

开题报告(数据挖掘)

附表三高校教师在职攻读硕士学位研究生论文选题计划表研究生姓名指导教师专业计算机应用技术所属院所计算机科学与技术学院20xx年4月2日1234567考核小组对报告人查阅专业技术文献情况的评价8选题报告会记录910...

数据挖掘开题报告范文

数据挖掘技术综述数据挖掘DataMining是一项较新的数据库技术它基于由日常积累的大量数据所构成的数据库从中发现潜在的有价值的信息称为知识用于支持决策数据挖掘是一项数据库应用技术本文首先对数据挖掘进行概述阐明...

软件工程 数据挖掘 硕士学位论文开题报告

攻读硕士学位研究生题目硕士学位论文开题报告电子化加油数据仓库的建立及其数据挖掘的研究姓名学号院系软件学院专业软件工程研究方向数据挖掘指导教师一开题报告情况报告要求须就论文选题意义文献资料掌握情况论文研究方法论文...

基于数据挖掘技术的WWW推荐系统设计开题报告

桂林理工大学毕业设计论文开题报告基于数据挖掘技术的WWW推荐系统设计学院信息科学与工程学院班级计本073班学号3070417121姓名覃立泉指导老师陈晓辉20xx36基于数据挖掘技术的WWW推荐系统设计摘要在I...

开题报告_基于数据挖掘方法的学生课程推荐算法研究

基于数据挖掘方法的学生课程推荐算法研究一课题来源及研究的目的和意义11课题来源计算机技术的进步以及计算机网络建设的完善促使着社会信息化进程持续发展1信息数据的获取记录保存检索等操作也因为新技术的不断应用而变得更...

论文开题报告-数据挖掘技术的应用

在职攻读硕士学位研究生开题报告学号研究生类别高校教师工程硕士同等学历研究生班剑锋导师王燕研究方向智能信息处理论文题目数据挖掘技术在铝电解质量管理中的应用专业学科计算机技术学院计算机与通信学院入学时间20xx年4...

毕业设计_开题报告_Matlab数值分析在数据挖掘中的应用

毕业设计论文开题报告

pnwvbm数_据挖掘技术-毕业设计-开题报告-毕业论文

一个人总要走陌生的路看陌生的风景听陌生的歌然后在某个不经意的瞬间你会发现原本费尽心机想要忘记的事情真的就这么忘记了数据挖掘技术综述数据挖掘DataMining是一项较新的数据库技术它基于由日常积累的大量数据所构...

基于数据仓库的库存分析系统-开题报告和设计任务书

福建工程学院毕业设计论文开题报告计算机与信息科学系信息管理与信息系统专业设计论文题目基于数据仓库的库存分析系统研究与开发学生姓名学号起迄日期设计地点福建工程学院计算机与信息科学系指导教师孙水华20xx年2月18...

数据挖掘实验报告

数据挖掘实验报告K最临近分类算法学号108060894姓名沈洁一数据源说明1数据理解选择第二包数据IrisDataSet共有150组数据考虑到训练数据集的随机性和多样性选择rowNo模3不等于0的100组作为训...

《数据挖掘导论》读书报告

数据收集和数据存储技术的快速进步使得各组织机构可以积累海量数据然而提取有用的信息已经成为巨大的挑战通常由于数据量太大无法使用传统的数据分析丁具和技术处理它们有时即使数据集相对较小但由于数据本身具有一些非传统特点...

数据挖掘开题报告(18篇)