数据挖掘开题报告范文

时间:2024.4.20

数据挖掘技术综述

数据挖掘(Data Mining)是一项较新的数据库技术,它基于由日常积累的大量数据所构成的数据库,从中发现潜在的、有价值的信息——称为知识,用于支持决策。数据挖掘是一项数据库应用技术,本文首先对数据挖掘进行概述,阐明什么是数据挖掘,数据挖掘的技术是什么,然后介绍数据挖掘的常用技术,数据挖掘的主要过程, 如何进行数据挖掘,主要应用领域以及国内外现状分析。

一. 研究背景及意义

近十几年来,随着数据库系统的广泛流行以及计算机技术的快速发展,人们利用信息技术生产和搜集数据的能力大幅度提高。千万个数据库被用于商业管理、政府办公、科学研究和工程开发等,特别是网络系统的流行,使得信息爆炸性增长。这一趋势将持续发展下去。大量信息在给人们带来方便的同时也带来了一大堆的问题:第一是信息过量,难以消化;第二是信息真假难以辨认;第三是信息安全难以保证;第四是信息形式不一致,难以统一处理。面对这种状况,一个新的挑战被提出来:如何才能不被信息的汪洋大海所淹没,从中及时发现有用的知识,提高信息利用率呢?这时出现了新的技术——数据挖掘(Data Mining)技术便应用而生了。

面对海量的存储数据,如何从中发现有价值的信息或知识,成为一项非常艰巨的任务。数据挖掘就是为迎合这种要求而产生并迅速发展起来的。数据挖掘研究的目的主要是发现知识、使数据可视化、纠正数据。

二. 概述

1,数据挖掘

数据挖掘(Data Mining)就是从大量的、不完全的、有噪声的、模糊的、随机的数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。这些数据可以是结构化的,如关系数据库中的数据,也可以是半结构化的,如文本,图形,图像数据,甚至是分布在网络上的异构型数据。发现知识的方法可以是数学的,也可以是非数学的,可以是演绎的,也可以是归纳的。发现了的知识可以被用于信息管理、查询优化、决策支持、过程控制等,还可以进行数据自身的维护。数据挖掘借助了多年来数理统计技术和人工智能以及知识工程等领域的研究成果构建自己的理论体系,是一个交叉学科领域,可以集成数据数据库、人工智能、数理统计、可视化、并行计算等技术。 2,数据挖掘技术

数据挖掘就是对观测到的数据集进行分析,目的是发现未知的关系和以数据拥有者可以理解并对其有价值的新颖方式来总结数据。它利用各种分析方法和分析工具在大规模海量数据中建立模型和发现数据间关系的过程,这些模型和关系可以用来做出决策和预测。

数据挖掘的过程就是知识发现的过程,其所能发现的知识有如下几种:广义型知识,反映同类事物共同性质的知识;特征型知识,反映事物各方面的特征知识;差异型知识,反映不同事物之间属性差别的知识;关联型知识,反映事物之间依赖或关联的知识;预测型知识,根据历史的和当前的数据推测未来数据;偏离型知识,揭示事物偏离常规的异常现象。所有这些知识都可以在不同的概念层次上被发现,随着概念树的提升,从微观到中观再到宏观,以满足不同用户、不同层次决策的需要。

数据挖掘是涉及数据库、人工智能、数理统计、机械学、人工神经网络、可视化、并行计算等的交叉学科,是目前国际上数据库和决策支持领域的最前沿的研究方向之一。

3,数据挖掘的功能

数据挖掘通过预测未来趋势及行为,做出预测性的、基于知识的决策。数据挖掘的目标是从数据库中发现隐含的、有意义的知识,按其功能可分为以 下几类。

3.1 关联分析(Association Analysis)

关联分析能寻找到数据库中大量数据的相关联系,常用的一种技术为关联规则和序列模式。关联规则是发现一个事物与其他事物间的相互关联性或相互依赖性。

3.2 聚类

输入的数据并无任何类型标记,聚类就是按一定的规则将数据划分为合理的集合,即将对象分组为多个类或簇,使得在同一个簇中的对象之间具有较高的相似度,而在不同簇中的对象差别很大。聚类增强了人们对客观现实的认识,是概念描述和偏差分析的先决条件。聚类技术主要包括传统的模式识别方法和数学分类学。

3.3 自动预测趋势和行为

数据挖掘自动在大型数据库中进行分类和预测,寻找预测性信息,自动地提出描述重要数据类的模型或预测未来的数据趋势,这样以往需要进行大量手工分析的问题如今可以迅速直接由数据本身得出结论。。

3.4 概念描述

对于数据库中庞杂的数据,人们期望以简洁的描述形式来描述汇集的数据集。概念描述就是对某类对象的内涵进行描述并概括出这类对象的有关特征。概念描述分为特征性描述和区别性描述,前者描述某类对象的共同特征,后者描述不同类对象之间的区别。生成一个类的特征性只涉及该类对象中所有对象的共性。生成区别性描述的方法很多,如决策树方法、遗传算法等。

3.5 偏差检测 数据库中的数据常有一些异常记录,从数据库中检测这些偏差很有意义。偏差包括很多潜在的知识,如分类中的反常实例、不满足规则的特例、观测结果与模型预测值的偏差、量值随时间的变化等。偏差检测的基本方法是寻找观测结果与参照值之间有意义的差别。这常用于金融银行业中检测欺诈行为,或市场分析中分析特殊消费者的消费习惯。

三.目前的研究现状及存在的主要问题

自KDD一词首次出现在19xx年8月举行的第11届国际联合人工智能学术会议以来。迄今为止,由美国人工智能协会主办的KDD国际研讨会已经召开了13次,规模由原来的专题讨论会发展到国际学术大会,人数由二三十人到超过千人,论文收录数量也迅速增加,研究重点也从发现方法逐渐转向系统应用直到转向大规模综合系统的开发,并且注重多种发现策略和技术的集成,以及多种学科之间的相互渗透。其他内容的专题会议也把数据挖掘和知识发现列为议题之一,成为当前计算机科学界的一大热点。

与国外相比,国内对DMKD的研究稍晚,没有形成整体力量。19xx年国家自然科学基金首次支持我们对该领域的研究项目。目前,国内的许多科研单位和高等院校竞相开展知识发现的基础理论及其应用研究,这些单位包括清华大学、中科院计算技术研究所、空军第三研究所、海军装备论证中心等。其中,北京系统工程

研究所对模糊方法在知识发现中的应用进行了较深入的研究,北京大学也在开展对数据立方体代数的研究,华中理工大学、复旦大学、浙江大学、中国科技大学、中科院数学研究所、吉林大学等单位开展了对关联规则开采算法的优化和改造;南京大学、四川联合大学和上海交通大学等单位探讨、研究了非结构化数据的知识发现以及Web数据挖掘。

四. 研究内容

1,数据挖掘的过程

数据挖掘是指一个完整的过程,该过程从大型数据库中挖掘先前未知的、有效的、可实用的信息,并使用这些信息做出决策或丰富知识。

数据挖掘的一般过程如下流程图所示:

图1,数据掘的一般过程

2.1 神经网络

神经网络方法是模拟人脑神经元结构,以MP模型和Hebb学习规则为基础。它主要有三种神经网络模型:前馈式网络、反馈式网络、自组织网络。为

2.2决策树

决策树学习着眼于从一组无次序、无规则的事中推理出决策树表示形式的分类规则。它采用自顶向下的递归方式,在决策树的内部结点进行属性值的比较并根据不同的属性值判断从该结点向下的分支,在决策树的叶结点得到结论。

2.3 遗传算法

遗传算法是一种优化技术,是模拟生物进化过程的算法。基于进化理论,并采用遗传结合、遗传变异以及自然选择等设计方法。由三个基本算子组成:繁殖、交叉、变异。

2.4 传统统计分析

这类技术建立在传统的数理统计的基础上。在数据库字段项之间存在两种关系:函数关系(能用函数公式表示的确定性关系)和相关关系(不能用函数公式表示,但仍是相关确定性关系),对它们的分析可采用判别分析、因子分析、相关分析、多元回归分

析及偏最小二乘回归方法等。

2.5 关联规则

关联规则是发现一个事物与其他事物间的相互关联性或相互依赖性。关联规则是展示属性: 值频繁地在给定数据集中一起出现的条件,是数据挖掘中作用比较广泛的知识之一。

2.6 可视化技术

可视化技术是利用计算机图形学和图像技术,将数据转换成图形或图像在屏幕上显示出来,并进行交互处理的理论、方法和技术。可视化数据挖掘技术将可视化有机地融合到数

据挖掘之中,使用户对于数据挖掘有一个更加直接直观清晰的了解,提供让用户有效、主动参与数据挖掘过程的方法。

3,数据挖掘的应用领域

数据挖掘技术从一开始就是面向应用的。它不仅是面向特定数据库的简单检索查询调用,而且要对这些数据进行微观、中观乃至宏观的统计,分析,综合和推理,

以指导实际问题的求解,企图发现事件间的相互关联,甚至利用已有的数据对未来的活动

进行预测。

一般Data Mining较长被应用的领域包括金融业、保险业、零售业、直效行销业、通讯业、制造业以及医疗服务业等。更广义的说法是:数据挖掘意味着在一些事实或观察数据的集合中寻找模式的决策支持过程。

4,数据挖掘的发展方向

目前,数据挖掘的研究方面主要有:数据库知识发现方面,将知识发现(KDD)与数据库系统、数据仓库系统和Web数据库系统紧密结合,力图充分利用Web中的丰富资源;机器学习方面,进一步研究知识发现方法,希望克服现存算法的计算性瓶颈,如注重对Bayes(贝叶斯)方法以及Boosting算法的研究和提高;统计领域,加大传统统计方法在数据挖掘中的

应用。数据挖掘研究正蓬勃开展,在今后还会掀起更大的波澜,其研究焦点集中到以下几个方面:研究专门用于知识发现的数据挖掘语言,也许会像SQL语言一样走向形式化和标准化;寻求数据挖掘过程中的可视化方法,使得知识发现的过程能够被用户理解,也便于在知识发现过程中的人机交互;研究在网络环境下的数据挖掘技术,特别是在Internet上建立数据挖掘服务器,与数据库服务器配合,实现数据挖掘;加强对各种非结构化数据的挖掘,如文本数据、图形图像数据、多媒体数据。

5,数据挖掘的新技术

Web数据挖掘技术首要解决半结构化数据源模型和半结构化数据模型的查询与集成问题。这就必须要有一个模型来清晰地描述Web上的数据,而寻找一个半结构化的数据模型是解决问题的关键所在。除此之外,还需要一种半结构化模型抽取技术,即自动地从现有数据中抽取半结构化模型的技术。

XML可看作一种半结构化的数据模型,可以很容易地将XML的文档描述与关系数据库中的属性对应起来,实施精确地查询与模型抽取。利用XML.Web设计人员不仅能创建文字和图形,而且还能构建文档类型定义的多层次、相互依存的系统、数据树、元数据、超链接结构和样式表。

6,数据挖掘面临的问题和挑战

虽然数据挖掘技术已经在各方面都得到了广泛的应用,但数据挖掘技术的研究还不够成熟,在应用上有很大的局限性。正是这些局限性,促使数据挖掘技术进一步的发展:

(1)挖掘的对象 数据库更大,维数更高,属性之间更复杂,数据挖掘处理的数据通

常十分巨大。

(2)数据丢失问题 因大部分数据库不是为知识发现而定做的,那么它就有可能会存在一些重要的数据和属性丢失的问题。

(3)多种形式的输入数据 目前数据挖掘工具能处理的数据形式有限,一般只能处理数值型的结构化数据。

(4)网络与分布式环境的KDD问题 随网络的发展,资源的丰富,技术人员各自独立处理分离数据库的工作方式应是可协作的。

五.研究达到的预期结果

系统的介绍数据挖掘技术,使更多的研究人员在数据库中发现有用的,有潜在价

值的数据知识。

六.小结

通过各方面资料的查找,理解了基本的数据挖掘概念、数据挖掘技术、数据挖掘的实际应用及国内外现状。在论文中将对数据挖掘的概念以及发展概况进行介绍,并总结数据挖掘中使用的技术,主要结合当前的研究成果,分析了数据挖掘领域的。研究领域方面,可能主要集中在网络信息中的主要应用。

七.毕业论文进程安排

序号 论文各阶段安排内容 日期

1 资料调研及方案设计 1.4-1.10

2 数据挖掘的概论研究 1.11-1.25

4 数据挖掘常用技术研究 1.26-2.15

5 数据挖掘的应用研究 2.15-3.1(中期检查)

6 数据挖掘的新技术研究 3.1-3.10

7 数据挖掘的发展方向 3.11-3.16

8 撰写论文 3.16-4.10

9 论文修改 4.11-4.30

10 准备答辩,交老师审阅 5.1-5.5

11 毕业论文答辩 5.6-?


第二篇:软件工程 数据挖掘 硕士学位论文开题报告


攻读硕士学位研究生

硕士学位论文开题报告

题目:电子化加油数据仓库的建立及其数据挖掘的研究                             


一、开题报告情况

报告要求:须就论文选题意义、文献资料掌握情况、论文研究方法、论文总体设计等方面进行详细的公开及书面报告,提请指导小组予以审查



二、考核意见


三、书面开题报告及文献名录(可另附页)

硕士学位论文开题报告

一  论文题目

       《电子化加油数据仓库的建立及其数据挖掘的研究》

二  选题的意义

加油站作为各机动车,非机动车延续动力之源的手段,在交通运输物流行业中显得极为重要。传统加油站收费以现金为主,随着电脑技术的出现,各行各业信息化进度的不断深入,加油站收费逐渐传为电子化的收费方式。加油用户可在网内加油站进行刷卡,刷卡分为预存与信用。预存指卡需有余额才可以进行刷卡消费,信用方式则为可以预支刷卡,在指定期限内进行还款的方式。系统除了联网刷卡加油外,系统还维护单位,商户信息,对消费流水进行代扣,同时还可以进行单位金额代发。随着越来越多的单位及加油商户加入应系统,随着每天加油流水的不断增加,系统保存了越来越多的用户,商户,消费记录。系统对这些数据只是做一些查询,一些对帐单,一些简易报表。这些数据的价值仅仅不限此,对这些数据进行数据挖掘,可对其进行宠观上的决策分析。对加油过程的信息化无法对个人,单位,商户正真意义上的改进,只有对消费流水信息提炼出有价值,才可以对企业,个人,商户实现三盈。

近年来,数据挖掘引起了信息产业界的极大关注,其主要原因是存在大量数据,可以广泛使用,并且迫切需要将这些数据转换成有用的信息和知识。获取的信息和知识可以广泛用于各种应用,包括商务管理,生产控制,市场分析,工程设计和科学探索等。数据挖掘和数据仓库的协同工作,一方面,可以迎合和简化数据挖掘过程中的重要步骤,提高数据挖掘的效率和能力,确保数据挖掘中数据来源的广泛性和完整性。另一方面,数据挖掘技术已经成为数据仓库应用中极为重要和相对独立的方面和工具。   

数据挖掘和数据仓库是融合与互动发展的,其学术研究价值和应用研究前景将是令人振奋的。它是数据挖掘专家、数据仓库技术人员和行业专家共同努力的成果,更是广大渴望从数据库“奴隶”到数据库“主人”转变的企业最终用户的通途。

本课题主要是为满足工作中的数据分析决策需要,对数据库中部分值得研究的加油量和加油拥挤程序进行提取,建立与加油单位及商户业务相适应的数据仓库,并通过对数据仓库中的信息的分析和数据挖掘,提取有价值或者过往没有发现的信息,为企业决策提供指导。

三  国内外研究现状

1)   数据仓库技术

数据仓库技术是基于信息系统业务发展的需要,基于数据库系统技术发展而来,并逐步独立的一系列新的应用技术。使用这些技术建设的信息系统我们称为数据仓库系统。随着数据仓库技术应用的不断深入,近几年数据仓库技术得到长足的发展。典型的数据仓库系统,比如:经营分析系统,决策支持系统等等。也随着数据仓库系统带来的良好效果,各行各业的单位,已经能很好的接受“整合数据,从数据中找知识,运用数据知识、用数据说话”等新的关系到改良生产活动各环节、提高生产效率、发展生产力的理念。

数据仓库创始人W.H.Inmon是这样定义数据仓库的:数据仓库是面向主题的、集成的、时变的、非易失的数据集合,用以支持管理决策。自从数据仓库的概念提出以后,它就在飞速地发展。数据仓库不是简单的对数据进行存储,而是对数据进行再组织,它的目的是要建立一种体系化的信息存贮环境,将分析决策所需的大量数据从传统的操作环境中分离出来,使分散的、不一致的数据转换成集成的、统一的数据,不同用户通过运用其中的数据进行分析,发现新的问题、新的想法、进而开发出行之有效的决策系统。

本论对用户在消费过程产生的数据进行数据仓库的建立

2)   数据挖掘技术

数据挖掘(Data Mining)是从大量的、不完全的、有噪声的。模糊的、随机的数据中提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。数据挖掘可以看成是一种数据搜寻过程,它不必预先假设或提出问题,但是仍能找到那些非预期的却令人关注的信息,这些信息表示了数据元素的关系和模式。它能挖掘出数据键潜在的模式(pattern),找出最有价值的信息和知识(knowledge)。指导商业行为或辅助科学研究。研究对象是大规模和超大规模的数据集合。

四  主要研究内容

1)   数据仓库的设计和建立

       建立数据仓库是为数据分析和数据挖掘服务的,建立电子化加油数据仓库必须要结合单位、商户的数据特点,确定源数据库哪些表和数据需要抽取,以及抽取的方法和策略,把历史数据重新组织。电子化加油数据仓库的设计包括概念模型设计、逻辑模型设计和物理模型设计。

数据来源

系统不是对所有用户都可以进行电子化加油,用户需要归属特定单可以才进行电子化加油,故系统实现单位下指定用户实现指定范围内商户加油站的电子化加油。

    a) 各大单位与银行相关中间业务部门进行协商,签定合作协议,单位才可以在系统进行单位信息的注册,作为电子化加油的前提。

b) 单位注册后,需指定对应该项目,本论文重点对加油时产生数据进行数据仓库的建立及对加油消费数据进行数据挖掘,所以项目即加油项目。

c) 单位下的用户可以提交进行电子化加油功能申请,并提交用户信息至系统,系统生成相应卡号,制成相应实体加油IC卡,并发到用户。

d) 各大加油站欲向用户提供电子化加油功能,加油站需向系统提交加油站信息,系统注册加油站信息,并安装相应刷卡POS,与本系统相连

e) 用户至系统注册的加油站进行刷卡消费,系统记录消费流水,进行实现扣款或信用扣款

数据属性

1)      单位信息包括单位在地区、单位名称、单位对公银行账号(用于扣款)

2)      单位项目信息包括单位主键,项目信息

3)      用户信息包括单位主键、卡号、单辆信息

4)      加油站信息包括加油站所在地区,加油站地址

加油交易流水信息包括卡号主键、加油站信息、交易金额、加油交易信息(油号,加油升数)、单位主键、项目主键

概念模型设计

数据仓库的概念模型设计即是选定分析主题域,界定系统边界,按照分析要求确定主题域的公共键码、联系以及属性组,然后分析原有业务系统的数据组织、分布等,形成关于主题域的完整概念模型。

电子化加油数据主要取自于综合专用卡管理系统,其数据库是数据仓库源数据抽取和转换的主要对象。根据分析的需求,建立以下二个主题。

a)      加油量加油及金额

本论文主要对用户在加油过程中产生的消费信息数据进行分析,用户在消息过程不断产生不同的消费量及消费金额,所以加油量加油及金额是在这一次过程产生主题域。

b)      消费次数

用户可能习惯于在某个加油进行电子化加油,也有可能由于时间,事件等原因随机的找一个加油站进行加油,在用户的消费所有过程中,用户在不同维度的消费次数形成一主题域。

逻辑模型的设计

数据仓库的逻辑模型描述了数据仓库主题的逻辑实现,也就是每个主题所对应的关系表的关系模式定义,是数据仓库由概念模型到物理模型转换的桥梁。逻辑模型应该是按主题域组织起来的,主题域之间的关联关系可以引申到各主题下各个逻辑模型之间的关联关系,不但可以很容易满足现有的一些跨主题查询需求,还可能产生大量有价值,但尚未提出需求的分析。并且,在逻辑模型设计还应尽可能充分地考虑各主题的指标,相关维度,以及其他与分析无关但有明细查询意义的字段,例如银行账户,地址,电话号码等等。

星型模型显示了一种多维分析的结构。星型的中心是分析的内容,对应事实表;四周是访问的角度,对应维表;每一维又可划分不同的粒度。以本课题研究的加油量和加油种类及加油费用为例,事实表包含油类别、油量、加油费用及加油次数基本信息,维表分为时间维、单位维、商户维,时间维又可以按月、季、年分为不同的层次,具体如下:

主题域

a)      加油量加油金额主题域

用户在不同的时间点进行电子化加油,时间维可以分为年,季,月,日 或时,分,秒); 用户会不在不同的加油站进行加油,加油站又总会在不同的区,形成空间维为加油站或不同区, 用户总是属不同的单位,形成单位维。

b)      加油次数

   用户在不同的时间点进行电子化加油,时间维可以分为年,季,月,日 或时,分,秒); 用户会不在不同的加油站进行加油,加油站又总会在不同的区,形成空间维为加油站或不同区, 用户总是属不同的单位,形成单位维。

维度的不同层次

a)      时间维

   层次1:年,季,月,日

   层次 2:时,分,秒

b)      空间维

层次1:加油站

层次 2:不同区

数据仓库逻辑模型大概有以下三点注意事项:
  1、逻辑模型设计基于主题域设计完成的基础上;

  2、逻辑模型设计尽量做到即满足现在信息消费需求,还有很好的可扩展性满足新需求,作为其他系统的数据提高平台;

  3、逻辑模型设计必须有灵活、统一的数据组织结构,尽量包含现有和未来业务关心的信息。

物理模型的设计

这一步所做的工作是确定数据的存储结构,确定索引策略,确定数据存放位置,确定存储分配。

确定数据仓库实现的物理模型,要求设计人员必须做到以下几方面:

要全面了解所选用的数据库管理系统,特别是存储结构和存取方法。

了解数据环境、数据的使用频度、使用方式、数据规模以及响应时间要求等,这些是对时间和空间效率进行平衡和优化的重要依据。

. 了解外部存储设备的特性,如分块原则,块大小的规定,设备的I/o特性等。

1.确定数据的存储结构

一个数据库管理系统往往都提供多种存储结构供设计人员选用,不同的存储结构有不同的实现方式,各有各的适用范围和优缺点,设计人员在选择合适的存储结构时应该权衡三个方面的主要因素:存取时间、存储空间利用率和维护代价。

2.确定索引策略

数据仓库的数据量很大,因而需要对数据的存取路径进行仔细的设计和选择。由于数据仓库的数据都是不常更新的,因而可以设计多种多样的索引结构来提高数据存取效率。

在数据仓库中,设计人员可以考虑对各个数据存储建立专用的、复杂的索引,以获得最高的存取效率,因为在数据仓库中的数据是不常更新的,也就是说每个数据存储是稳定的,因而虽然建立专用的、复杂的索引有一定的代价,但一旦建立就几乎不需维护索引的代价。

3.确定数据存放位置

我们说过,同一个主题的数据并不要求存放在相同的介质上。在物理设计时,我们常常要按数据的重要程度、使用频率以及对响应时间的要求进行分类,并将不同类的数据分别存储在不同的存储设备中。重要程度高、经常存取并对响应时间要求高的数据就存放在高速存储设备上,如硬盘;存取频率低或对存取响应时间要求低的数据则可以放在低速存储设备上,如磁盘或磁带。

数据存放位置的确定还要考虑到其它一些方法,如:决定是否进行合并表;是否对一些经常性的应用建立数据序列;对常用的、不常修改的表或属性是否冗余存储。如果采用了这些技术,就要记入元数据。

4.确定存储分配

许多数据库管理系统提供了一些存储分配的参数供设计者进行物理优化处理,如:块的尺寸、缓冲区的大小和个数等等,它们都要在物理设计时确定。这同创建数据库系统时的考虑是一样的。

 

2) 数据挖掘

       数据挖掘的过程有三个主要阶段构成:数据准备和预处理、数据挖掘、结果表达和解释。如下图所示

主要步骤

1) 数据选择:从现有的数据中,确定哪些数据是和本次数据分析相关的。

2) 数据预处理:对于选择出的数据,进行数据清洗工作。将数据转变成“干净”的数据。

3) 数据转换:将“干净”的数据转换成数据挖掘算法所需要的格式。

4) 数据挖掘:使用合适的数据挖掘算法完成数据分析。

5) 解释和评估:以适当的可视化技术和知识表示技术将模式以合适的形式提供给用户,让用户能够对模型结果作出解释,同时能够评估模型的有效性。

分析指标

a)       客户指标

用户总是习惯的或随机有规律不同的加油站进行加油,对消费数据进行数据仓库及数据挖掘可以分析到得到用户的特征,分析可得到一些频繁用户的消费特征,可对其它进行建许议到最近或人数少的加油站进行加油,以提高客户满意度。

b)      资源指标

       对不同商户的消费记录进行数据挖掘,分析出是否应该在附件新建加油站来缓解加油滞泻,同时可以缓解交通路况,另外可以分析出某些零星加油次数加油站存在的不必要性,建议拆除。分析不同种类油的消费情况,帮助宏观油量调度供应。

五  研究条件和可能存在的问题

5)        本论文研究的源数据是来各大单位及个人的加油消费数据库,数据中存在个人用户信息,车牌信息,由于数据涉及个人信息,故需对个人基本信息进行过滤处理。数据来源于历史数据,与现行情况存在一定的差别,分析结果反应历史特性。

6)        建立数据仓库后的数据分析和数据挖掘暂时未定使用的软件,可能利用Oracle的Analytic Workspace Manager现有的分析工具完成,也可能利用Weka或者matlab连接到数据做分析,存在一点技术应用风险,但估计通过查找相关的开发资料可以解决。

7)        现掌握和阅读的相关文献未够充分,因为本论文的工作首先是要建立数据立方体,所以前期收集的资料以数据仓库、数据立方体的资料为主,有关数据挖掘的资料只是以前所学课程时掌握的,在下一阶段要找相应同类研究和相关算法的论文来看,但通过互联网和图书馆的资源可以解决。

六  预期的结果、进度安排

       预期结果为建立电子化加油业务中油量油类型的数据立方体,并在此基础上分析结果,做数据挖掘的聚类分析。如果如果能克服技术上和本人现有掌握知识的不足,尝试做电子化加油的趋势分析,和加油拥挤度分析。

       具体的时间安排如下:

       2011.5.1-5.31      继续掌握构建数据仓库和与本论文相关的数据挖掘技术的相关文献,开始分析现有电子加油系统数据库的表结构,对数据仓库进行概念模型和逻辑模型设计。

       2011.6.1-6.30      掌握使用Oracle构建数据仓库的方法,并开始尝试构建加油量加油类型信息的数据立方体。

       2011.7.1-7.31      继续完善构建的数据立方体,提出改进,并开始使用Analytic Workspace Manager里的分析工具来尝试分析数据,提取一些指标。

       2011.8.1-9.30      对建立的数据立方体进行数据挖掘方面的研究,首要完成聚类分析,条件允许的话研究加油拥挤度分析。

       2011.10.1-10.31  检讨、完善前期的工作成果,并开始为编写论文做前期准备,包括可能用到的引用文献的整理,论文格式模板的编制,了解学院对论文的具体要求。

       2011.11.1-2012.1.31  进行论文的编写。

       2012.2.1-3.31      修改完善论文,根据学员要求,做相关准备。

更多相关推荐:
数据挖掘技术开题报告

毕业设计开题报告设计题目数据挖掘技术在苏宁电器客户关系管理中的应用研究系别专业姓名指导教师辅导教师12客户关系管理的研究现状不足和未来展望市场营销学34数据挖掘技术市场营销销售与客户关系管理领域应用数据挖掘客户...

开题报告(数据挖掘)

附表三高校教师在职攻读硕士学位研究生论文选题计划表研究生姓名指导教师专业计算机应用技术所属院所计算机科学与技术学院20xx年4月2日1234567考核小组对报告人查阅专业技术文献情况的评价8选题报告会记录910...

基于数据挖掘技术的WWW推荐系统设计开题报告

桂林理工大学毕业设计论文开题报告基于数据挖掘技术的WWW推荐系统设计学院信息科学与工程学院班级计本073班学号3070417121姓名覃立泉指导老师陈晓辉20xx36基于数据挖掘技术的WWW推荐系统设计摘要在I...

开题报告_基于数据挖掘方法的学生课程推荐算法研究

基于数据挖掘方法的学生课程推荐算法研究一课题来源及研究的目的和意义11课题来源计算机技术的进步以及计算机网络建设的完善促使着社会信息化进程持续发展1信息数据的获取记录保存检索等操作也因为新技术的不断应用而变得更...

论文开题报告-数据挖掘技术的应用

在职攻读硕士学位研究生开题报告学号研究生类别高校教师工程硕士同等学历研究生班剑锋导师王燕研究方向智能信息处理论文题目数据挖掘技术在铝电解质量管理中的应用专业学科计算机技术学院计算机与通信学院入学时间20xx年4...

电子商务环境下数据挖掘在客户关系管理的应用 开题报告

毕业论文开题报告06届大学本科题目学院专业班级姓名学号主指导教师年月日教务处印制一引言1课题背景本课题研究电子商务环境下基于数据挖掘DataMiningDM的客户关系管理CustomerRelationship...

数据挖掘技术对提升企业竞争力的影响研究 开题报告

河南科技大学毕业设计论文开题报告学生填表学院国际教育学院20xx年03月15日

Dfbyvq数据挖掘技术-毕业设计-开题报告-毕业论文

生活需要游戏但不能游戏人生生活需要歌舞但不需醉生梦死生活需要艺术但不能投机取巧生活需要勇气但不能鲁莽蛮干生活需要重复但不能重蹈覆辙无名数据挖掘技术综述数据挖掘DataMining是一项较新的数据库技术它基于由日...

毕业设计(论文)开题报告-基于数据挖掘的直销电子商务平台会员奖励管理系统开发-洪维坤

附件2毕业设计论文开题报告填表日期20xx年1月4日注表格不够填写可另续页

Chyivtp数据挖掘技术-毕业设计-开题报告-毕业论文

懒惰是很奇怪的东西它使你以为那是安逸是休息是福气但实际上它所给你的是无聊是倦怠是消沉它剥夺你对前途的希望割断你和别人之间的友情使你心胸日渐狭窄对人生也越来越怀疑数据挖掘技术综述数据挖掘DataMining是一项...

毕业设计_开题报告_Matlab数值分析在数据挖掘中的应用

毕业设计论文开题报告

数据挖掘实验报告

数据挖掘实验报告K最临近分类算法学号108060894姓名沈洁一数据源说明1数据理解选择第二包数据IrisDataSet共有150组数据考虑到训练数据集的随机性和多样性选择rowNo模3不等于0的100组作为训...

数据挖掘开题报告(18篇)