软件工程 硕士学位论文开题报告

时间:2024.4.20

攻读硕士学位研究生

题目:

硕士学位论文开题报告 水量水费数据仓库的建立及其数据挖掘的研究 姓 名: 学 号: 院 系: 软件学院 专 业: 软件工程 研究方向: 数据挖掘 指导教师:

年 月 日

一、开题报告情况

报告要求:须就论文选题意义、文献资料掌握情况、论文研究方法、论文总体设计等方面进行详细的公开及书面报告,提请指导小组予以审查

软件工程硕士学位论文开题报告

1

2

软件工程硕士学位论文开题报告

二、考核意见

软件工程硕士学位论文开题报告

3

三、书面开题报告及文献名录(可另附页)

硕士学位论文开题报告

一 论文题目

《水量水费数据仓库的建立及其数据挖掘的研究》

二 选题的意义

作为国民经济基础行业的自来水企业,需要利用现代信息科技技术来加强自来水公司生产经营管理。现在企业业务上最重要的系统是营业抄收管理系统,负责全市的业务查询、水费交纳、用户信息管理、工单管理、报表统计等重要功能。营业抄收管理系统上线多年,并且随着抄表到户的推展,系统用户户数不断增加,数据库积累了大量的营业数据。这些数据对企业来说是宝贵的资源,但是平时只限于系统日常的事务处理和生成一些固定的报表,没有利用其对宏观上的决策分析。企业认识到,信息系统的真正价值在于能帮助企业制定改进管理过程的决策,而不仅仅是实现信息化。

数据仓库和数据挖掘作为决策支持新技术在近些年来得到了迅速的发展。数据挖掘技术作为挖掘大量信息的关键技术越来越受到人们的重视,它能为决策者提供非常重要的、极有价值的信息或知识,从而产生不可估量的效益。因此,数据挖掘市场份额正日益扩大,越来越多的企业开始利用数据挖掘来分析信息系统中所积累的数据,以辅助决策,数据挖掘已逐渐成为他们在市场竞争中立于不败之地的法宝。

本课题主要是为满足工作中的数据分析决策需要,对数据库中部分值得研究的水量和水费信息进行提取,建立与自来水企业业务相适应的数据仓库,并通过对数据仓库中的信息的分析和数据挖掘,提取有价值或者过往没有发现的信息,为企业决策提供指导。

三 国内外研究现状

1) 数据仓库技术

对数据的处理分为两类:操作型处理与分析型处理。操作型处理也称为联机事务处理(OLTP),是指对企业数据进行日常的业务处理,这类处理主要是对企业数据库的一个或一批记录的查询、更新或删除操作。分析性处理则主要用于管理人员的决策分析,通过对大量数据的综合、统计和分析得出有利于企业决策的信息。在以往的数据库设计中,通常是面向应用,以数据库为中心,数据库的设计与开发都是以OLTP为基础的,所以数据分析的结果并不是很理想,因此将操作型数据环境和分析型数据环境分离是很有必要的。数据仓库从数据库中发展而来,加入了数据分析的功能,弥补了许多传统数据库的不足。数据仓库最大用途是提供给决策者一种全新的方式从宏观或微观的角度来观察多年累积的数据,从而使决策者可以迅速地掌握自己企业的经营状况、利润分布等对企业发展和决策有重要意义的信息,4

以利于做出更加准确、科学的决策

数据仓库创始人W.H.Inmon是这样定义数据仓库的:数据仓库是面向主题的、集成的、时变的、非易失的数据集合,用以支持管理决策。自从数据仓库的概念提出以后,它就在飞速地发展。数据仓库不是简单的对数据进行存储,而是对数据进行再组织,它的目的是要建立一种体系化的信息存贮环境,将分析决策所需的大量数据从传统的操作环境中分离出来,使分散的、不一致的数据转换成集成的、统一的数据,不同用户通过运用其中的数据进行分析,发现新的问题、新的想法、进而开发出行之有效的决策系统。

数据仓库技术在近几年蓬勃发展起来,不少厂商都推出了他们的数据仓库产品,同时也推出了一些分析工具。仅仅拥有数据仓库是不够的,在其上应用各种工具进行分析,才能使数据仓库真正发挥作用,联机分析处理和数据挖掘就是这样的分析工具。

2) 数据挖掘技术

数据挖掘的基本思想是从数据中抽取有价值的信息,其目的是寻找数据间潜在的关联,发现被忽略的要素,并形成可以理解的规则等,供决策者进行分析和决策。数据挖掘技术现有分类、聚类、关联分析、异常检测几大类,研究方向包括以下几大类型:神经元网络技术、决策树、进化式程序设计、遗传算法和非线性回归等。

在国外,数据挖掘技术已经广泛的应用于零售、证券、电信、航空、保险、石化、能源、交通、银行等领域,近年来计算机的普及又促进了数据挖掘在快速消费品、电子商务行业甚至社会科学等领域的发展。利用数据挖掘技术识别客户的购买行为模式,对客户进行分析;对银行或商业上经常发生的诈骗行为进行预测,都是经典的应用。数据挖掘技术汇集了来自机器学习、模式识别、数据库、统计学以及管理信息系统等学科的成果。多学科的相互交融和相互促进,使得数据挖掘这一新学科得以蓬勃发展。

在国内,数据挖掘也在很多行业内推广,虽然未必是复杂的应用,但都对企业的决策分析提供帮助。例如在自来水行业中,有对故障损坏的水表信息进行数据挖掘,根据用水类别、水表品牌、水表口径、水表使用的时间长短来进行关联分析,找出其中的规律,对今后企业的运营提供决策上的支持。除此之外,在供电行业可以对供电量数据进行趋势分析,保证高峰用电安全;在证券行业,根据客户的投资记录,分析客户的操作习惯和风险偏好,提供适合的投资产品。

四 主要研究内容

1) 数据仓库的设计和建立

建立数据仓库是为数据分析和数据挖掘服务的,建立水量水费数据仓库必须要结合水量水费的数据特点,确定源数据库哪些表和数据需要抽取,以及抽取的方法和策略,把历史数据重新组织。水量水费数据仓库的设计包括概念模型设计、逻辑模型设计和物理模型设计。 概念模型设计

数据仓库的概念模型设计即是选定分析主题域,界定系统边界,按照分析要求确定主题域的公共键码、联系以及属性组,然后分析原有业务系统的数据组织、分布等,形成关于主

5

题域的完整概念模型。

水量水费数据主要取自于自来水企业现有的营业收费管理系统,其数据库是数据仓库源数据抽取和转换的主要对象。根据分析的需求,建立水量和水费两个主题。

逻辑模型的设计

数据仓库的逻辑模型描述了数据仓库主题的逻辑实现,也就是每个主题所对应的关系表的关系模式定义,是数据仓库由概念模型到物理模型转换的桥梁。数据仓库是建立在关系数据库基础上的,因此在数据仓库的设计中采用的逻辑模型就是关系模型。关系模型概念简单、清晰,用户易懂、易用,有严格的数学基础和在此基础上发展的关系数据库理论。利用关系模型可以创建星型模型来描述维度实体和详细类别视图的关系模式。

星型模型显示了一种多维分析的结构。星型的中心是分析的内容,对应事实表;四周是访问的角度,对应维表;每一维又可划分不同的粒度。以本课题研究的水量水费信息为例,事实表包含时间、行业类别、区域、口径,水量、售水单价等基本信息,维表分为时间维、行业维、区域维、口径维,时间维又可以按月、季、年分为不同的层次。

物理模型的设计

在完整的逻辑模型设计基础上,进行多维数据库的物理模型设计。物理模型设计同关系数据库物理模型设计类似,分以下几个步骤:

(a)定义数据标准:明确命名约定,包括数据类型、约束条件、索引、缺省等。

(b)定义实体:星型结构可以很方便地确定面向主题的数据仓库共享实体,完整定义其属性,包括主键、可选键标、外部键、非主键数据、空值等。

(c)确定数据容量和更新频率:要对每一个数据仓库实体进行容量和更新频率的评估,容量包括实体预期的行和模式增加的数量。

(d)确定实体特征:完全识别实体特征很重要,这包括键的属性、值的有效性范围、完整性约束条件、类型和长度等。

本论文初步准备使用Oracle的数据库产品,提取企业数据库中的部分用于分析的数据。再使用其Analytic Workspace Manager来构建数据立方体。为数据分析和数据挖掘做准备。

2) 数据挖掘

数据挖掘的过程有三个主要阶段构成:数据准备和预处理、数据挖掘、结果表达和解释。 数据预处理包括数据的抽取,数据的转换,脏数据的清洗等,这些步骤在建立数据仓库时也一并解决。由建立的数据立方体上钻到适当的粒度,选取适应的维来切片提取数据。

数据挖掘的算法分为很多种类型,同一类型也存在多种算法,也就是说,实现同一个目标的挖掘算法有很多种。因此,应根据以下两个因素选择合适的算法:一是要根据待分析的数据特点;二是要根据用户的需求。选择合适的数据挖掘算法还包括选择适当的模型和参数。对于水量水费数据,主要采用聚类分析来区分不同客户的特点,实现客户群细分。同时可以用异常检测,找出离群点,进一步分析这些异常用户是否存在问题。

对数据挖掘中发现的模式,经过机器评估和实际分析,可能会发现这些模式中存在冗余或者无关的模式,此时应该将其剔除。如果模式不能满足需求,就要分析问题产生的原因,并返回到前面的处理过程中进行反复提取。最终确定的模式或者聚类结果,可以用图表的方式展示。

6

五 研究条件和可能存在的问题

1) 本论文研究的源数据是来自营业抄收系统的备份数据库,数据只是过往的历史数据,没有定时更新。由于企业内部数据的保密和安全,只抽取部分数据表,并在此基础上建立数据仓库,所以数据仓库的规模不大,但不影响本选题的研究。重点在于数据立方体的建立,为数据分析做准备。

2) 建立数据仓库后的数据分析和数据挖掘暂时未定使用的软件,可能利用Oracle的Analytic Workspace Manager现有的分析工具完成,也可能利用Weka或者matlab连接到数据做分析,存在一点技术应用风险,但估计通过查找相关的开发资料可以解决。

3) 现掌握和阅读的相关文献未够充分,因为本论文的工作首先是要建立数据立方体,所以前期收集的资料以数据仓库、数据立方体的资料为主,有关数据挖掘的资料只是以前所学课程时掌握的,在下一阶段要找相应同类研究和相关算法的论文来看,但通过互联网和图书馆的资源可以解决。

六 预期的结果、进度安排

预期结果为建立自来水业务中水量水费的数据立方体,并在此基础上分析结果,做数据挖掘的聚类分析。如果如果能克服技术上和本人现有掌握知识的不足,尝试做用水量的趋势分析,和水费缴纳情况的信誉度分析。

具体的时间安排如下:

2011.5.1-5.31 继续掌握构建数据仓库和与本论文相关的数据挖掘技术的相关文献,开始分析现有企业营业系统数据库的表结构,对数据仓库进行概念模型和逻辑模型设计。 2011.6.1-6.30 掌握使用Oracle构建数据仓库的方法,并开始尝试构建水量水费信息的数据立方体。

2011.7.1-7.31 继续完善构建的数据立方体,提出改进,并开始使用Analytic Workspace Manager里的分析工具来尝试分析数据,提取一些指标。

2011.8.1-9.30 对建立的数据立方体进行数据挖掘方面的研究,首要完成聚类分析,条件允许的话研究水费缴纳情况的信誉度分析。

2011.10.1-10.31 检讨、完善前期的工作成果,并开始为编写论文做前期准备,包括可能用到的引用文献的整理,论文格式模板的编制,了解学院对论文的具体要求。

2011.11.1-2012.1.31 进行论文的编写。

2011.2.1-3.31 修改完善论文,根据学员要求,做相关准备。

7


第二篇:软件工程 数据挖掘 硕士学位论文开题报告


攻读硕士学位研究生

硕士学位论文开题报告

题目:电子化加油数据仓库的建立及其数据挖掘的研究                             


一、开题报告情况

报告要求:须就论文选题意义、文献资料掌握情况、论文研究方法、论文总体设计等方面进行详细的公开及书面报告,提请指导小组予以审查



二、考核意见


三、书面开题报告及文献名录(可另附页)

硕士学位论文开题报告

一  论文题目

       《电子化加油数据仓库的建立及其数据挖掘的研究》

二  选题的意义

加油站作为各机动车,非机动车延续动力之源的手段,在交通运输物流行业中显得极为重要。传统加油站收费以现金为主,随着电脑技术的出现,各行各业信息化进度的不断深入,加油站收费逐渐传为电子化的收费方式。加油用户可在网内加油站进行刷卡,刷卡分为预存与信用。预存指卡需有余额才可以进行刷卡消费,信用方式则为可以预支刷卡,在指定期限内进行还款的方式。系统除了联网刷卡加油外,系统还维护单位,商户信息,对消费流水进行代扣,同时还可以进行单位金额代发。随着越来越多的单位及加油商户加入应系统,随着每天加油流水的不断增加,系统保存了越来越多的用户,商户,消费记录。系统对这些数据只是做一些查询,一些对帐单,一些简易报表。这些数据的价值仅仅不限此,对这些数据进行数据挖掘,可对其进行宠观上的决策分析。对加油过程的信息化无法对个人,单位,商户正真意义上的改进,只有对消费流水信息提炼出有价值,才可以对企业,个人,商户实现三盈。

近年来,数据挖掘引起了信息产业界的极大关注,其主要原因是存在大量数据,可以广泛使用,并且迫切需要将这些数据转换成有用的信息和知识。获取的信息和知识可以广泛用于各种应用,包括商务管理,生产控制,市场分析,工程设计和科学探索等。数据挖掘和数据仓库的协同工作,一方面,可以迎合和简化数据挖掘过程中的重要步骤,提高数据挖掘的效率和能力,确保数据挖掘中数据来源的广泛性和完整性。另一方面,数据挖掘技术已经成为数据仓库应用中极为重要和相对独立的方面和工具。   

数据挖掘和数据仓库是融合与互动发展的,其学术研究价值和应用研究前景将是令人振奋的。它是数据挖掘专家、数据仓库技术人员和行业专家共同努力的成果,更是广大渴望从数据库“奴隶”到数据库“主人”转变的企业最终用户的通途。

本课题主要是为满足工作中的数据分析决策需要,对数据库中部分值得研究的加油量和加油拥挤程序进行提取,建立与加油单位及商户业务相适应的数据仓库,并通过对数据仓库中的信息的分析和数据挖掘,提取有价值或者过往没有发现的信息,为企业决策提供指导。

三  国内外研究现状

1)   数据仓库技术

数据仓库技术是基于信息系统业务发展的需要,基于数据库系统技术发展而来,并逐步独立的一系列新的应用技术。使用这些技术建设的信息系统我们称为数据仓库系统。随着数据仓库技术应用的不断深入,近几年数据仓库技术得到长足的发展。典型的数据仓库系统,比如:经营分析系统,决策支持系统等等。也随着数据仓库系统带来的良好效果,各行各业的单位,已经能很好的接受“整合数据,从数据中找知识,运用数据知识、用数据说话”等新的关系到改良生产活动各环节、提高生产效率、发展生产力的理念。

数据仓库创始人W.H.Inmon是这样定义数据仓库的:数据仓库是面向主题的、集成的、时变的、非易失的数据集合,用以支持管理决策。自从数据仓库的概念提出以后,它就在飞速地发展。数据仓库不是简单的对数据进行存储,而是对数据进行再组织,它的目的是要建立一种体系化的信息存贮环境,将分析决策所需的大量数据从传统的操作环境中分离出来,使分散的、不一致的数据转换成集成的、统一的数据,不同用户通过运用其中的数据进行分析,发现新的问题、新的想法、进而开发出行之有效的决策系统。

本论对用户在消费过程产生的数据进行数据仓库的建立

2)   数据挖掘技术

数据挖掘(Data Mining)是从大量的、不完全的、有噪声的。模糊的、随机的数据中提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。数据挖掘可以看成是一种数据搜寻过程,它不必预先假设或提出问题,但是仍能找到那些非预期的却令人关注的信息,这些信息表示了数据元素的关系和模式。它能挖掘出数据键潜在的模式(pattern),找出最有价值的信息和知识(knowledge)。指导商业行为或辅助科学研究。研究对象是大规模和超大规模的数据集合。

四  主要研究内容

1)   数据仓库的设计和建立

       建立数据仓库是为数据分析和数据挖掘服务的,建立电子化加油数据仓库必须要结合单位、商户的数据特点,确定源数据库哪些表和数据需要抽取,以及抽取的方法和策略,把历史数据重新组织。电子化加油数据仓库的设计包括概念模型设计、逻辑模型设计和物理模型设计。

数据来源

系统不是对所有用户都可以进行电子化加油,用户需要归属特定单可以才进行电子化加油,故系统实现单位下指定用户实现指定范围内商户加油站的电子化加油。

    a) 各大单位与银行相关中间业务部门进行协商,签定合作协议,单位才可以在系统进行单位信息的注册,作为电子化加油的前提。

b) 单位注册后,需指定对应该项目,本论文重点对加油时产生数据进行数据仓库的建立及对加油消费数据进行数据挖掘,所以项目即加油项目。

c) 单位下的用户可以提交进行电子化加油功能申请,并提交用户信息至系统,系统生成相应卡号,制成相应实体加油IC卡,并发到用户。

d) 各大加油站欲向用户提供电子化加油功能,加油站需向系统提交加油站信息,系统注册加油站信息,并安装相应刷卡POS,与本系统相连

e) 用户至系统注册的加油站进行刷卡消费,系统记录消费流水,进行实现扣款或信用扣款

数据属性

1)      单位信息包括单位在地区、单位名称、单位对公银行账号(用于扣款)

2)      单位项目信息包括单位主键,项目信息

3)      用户信息包括单位主键、卡号、单辆信息

4)      加油站信息包括加油站所在地区,加油站地址

加油交易流水信息包括卡号主键、加油站信息、交易金额、加油交易信息(油号,加油升数)、单位主键、项目主键

概念模型设计

数据仓库的概念模型设计即是选定分析主题域,界定系统边界,按照分析要求确定主题域的公共键码、联系以及属性组,然后分析原有业务系统的数据组织、分布等,形成关于主题域的完整概念模型。

电子化加油数据主要取自于综合专用卡管理系统,其数据库是数据仓库源数据抽取和转换的主要对象。根据分析的需求,建立以下二个主题。

a)      加油量加油及金额

本论文主要对用户在加油过程中产生的消费信息数据进行分析,用户在消息过程不断产生不同的消费量及消费金额,所以加油量加油及金额是在这一次过程产生主题域。

b)      消费次数

用户可能习惯于在某个加油进行电子化加油,也有可能由于时间,事件等原因随机的找一个加油站进行加油,在用户的消费所有过程中,用户在不同维度的消费次数形成一主题域。

逻辑模型的设计

数据仓库的逻辑模型描述了数据仓库主题的逻辑实现,也就是每个主题所对应的关系表的关系模式定义,是数据仓库由概念模型到物理模型转换的桥梁。逻辑模型应该是按主题域组织起来的,主题域之间的关联关系可以引申到各主题下各个逻辑模型之间的关联关系,不但可以很容易满足现有的一些跨主题查询需求,还可能产生大量有价值,但尚未提出需求的分析。并且,在逻辑模型设计还应尽可能充分地考虑各主题的指标,相关维度,以及其他与分析无关但有明细查询意义的字段,例如银行账户,地址,电话号码等等。

星型模型显示了一种多维分析的结构。星型的中心是分析的内容,对应事实表;四周是访问的角度,对应维表;每一维又可划分不同的粒度。以本课题研究的加油量和加油种类及加油费用为例,事实表包含油类别、油量、加油费用及加油次数基本信息,维表分为时间维、单位维、商户维,时间维又可以按月、季、年分为不同的层次,具体如下:

主题域

a)      加油量加油金额主题域

用户在不同的时间点进行电子化加油,时间维可以分为年,季,月,日 或时,分,秒); 用户会不在不同的加油站进行加油,加油站又总会在不同的区,形成空间维为加油站或不同区, 用户总是属不同的单位,形成单位维。

b)      加油次数

   用户在不同的时间点进行电子化加油,时间维可以分为年,季,月,日 或时,分,秒); 用户会不在不同的加油站进行加油,加油站又总会在不同的区,形成空间维为加油站或不同区, 用户总是属不同的单位,形成单位维。

维度的不同层次

a)      时间维

   层次1:年,季,月,日

   层次 2:时,分,秒

b)      空间维

层次1:加油站

层次 2:不同区

数据仓库逻辑模型大概有以下三点注意事项:
  1、逻辑模型设计基于主题域设计完成的基础上;

  2、逻辑模型设计尽量做到即满足现在信息消费需求,还有很好的可扩展性满足新需求,作为其他系统的数据提高平台;

  3、逻辑模型设计必须有灵活、统一的数据组织结构,尽量包含现有和未来业务关心的信息。

物理模型的设计

这一步所做的工作是确定数据的存储结构,确定索引策略,确定数据存放位置,确定存储分配。

确定数据仓库实现的物理模型,要求设计人员必须做到以下几方面:

要全面了解所选用的数据库管理系统,特别是存储结构和存取方法。

了解数据环境、数据的使用频度、使用方式、数据规模以及响应时间要求等,这些是对时间和空间效率进行平衡和优化的重要依据。

. 了解外部存储设备的特性,如分块原则,块大小的规定,设备的I/o特性等。

1.确定数据的存储结构

一个数据库管理系统往往都提供多种存储结构供设计人员选用,不同的存储结构有不同的实现方式,各有各的适用范围和优缺点,设计人员在选择合适的存储结构时应该权衡三个方面的主要因素:存取时间、存储空间利用率和维护代价。

2.确定索引策略

数据仓库的数据量很大,因而需要对数据的存取路径进行仔细的设计和选择。由于数据仓库的数据都是不常更新的,因而可以设计多种多样的索引结构来提高数据存取效率。

在数据仓库中,设计人员可以考虑对各个数据存储建立专用的、复杂的索引,以获得最高的存取效率,因为在数据仓库中的数据是不常更新的,也就是说每个数据存储是稳定的,因而虽然建立专用的、复杂的索引有一定的代价,但一旦建立就几乎不需维护索引的代价。

3.确定数据存放位置

我们说过,同一个主题的数据并不要求存放在相同的介质上。在物理设计时,我们常常要按数据的重要程度、使用频率以及对响应时间的要求进行分类,并将不同类的数据分别存储在不同的存储设备中。重要程度高、经常存取并对响应时间要求高的数据就存放在高速存储设备上,如硬盘;存取频率低或对存取响应时间要求低的数据则可以放在低速存储设备上,如磁盘或磁带。

数据存放位置的确定还要考虑到其它一些方法,如:决定是否进行合并表;是否对一些经常性的应用建立数据序列;对常用的、不常修改的表或属性是否冗余存储。如果采用了这些技术,就要记入元数据。

4.确定存储分配

许多数据库管理系统提供了一些存储分配的参数供设计者进行物理优化处理,如:块的尺寸、缓冲区的大小和个数等等,它们都要在物理设计时确定。这同创建数据库系统时的考虑是一样的。

 

2) 数据挖掘

       数据挖掘的过程有三个主要阶段构成:数据准备和预处理、数据挖掘、结果表达和解释。如下图所示

主要步骤

1) 数据选择:从现有的数据中,确定哪些数据是和本次数据分析相关的。

2) 数据预处理:对于选择出的数据,进行数据清洗工作。将数据转变成“干净”的数据。

3) 数据转换:将“干净”的数据转换成数据挖掘算法所需要的格式。

4) 数据挖掘:使用合适的数据挖掘算法完成数据分析。

5) 解释和评估:以适当的可视化技术和知识表示技术将模式以合适的形式提供给用户,让用户能够对模型结果作出解释,同时能够评估模型的有效性。

分析指标

a)       客户指标

用户总是习惯的或随机有规律不同的加油站进行加油,对消费数据进行数据仓库及数据挖掘可以分析到得到用户的特征,分析可得到一些频繁用户的消费特征,可对其它进行建许议到最近或人数少的加油站进行加油,以提高客户满意度。

b)      资源指标

       对不同商户的消费记录进行数据挖掘,分析出是否应该在附件新建加油站来缓解加油滞泻,同时可以缓解交通路况,另外可以分析出某些零星加油次数加油站存在的不必要性,建议拆除。分析不同种类油的消费情况,帮助宏观油量调度供应。

五  研究条件和可能存在的问题

5)        本论文研究的源数据是来各大单位及个人的加油消费数据库,数据中存在个人用户信息,车牌信息,由于数据涉及个人信息,故需对个人基本信息进行过滤处理。数据来源于历史数据,与现行情况存在一定的差别,分析结果反应历史特性。

6)        建立数据仓库后的数据分析和数据挖掘暂时未定使用的软件,可能利用Oracle的Analytic Workspace Manager现有的分析工具完成,也可能利用Weka或者matlab连接到数据做分析,存在一点技术应用风险,但估计通过查找相关的开发资料可以解决。

7)        现掌握和阅读的相关文献未够充分,因为本论文的工作首先是要建立数据立方体,所以前期收集的资料以数据仓库、数据立方体的资料为主,有关数据挖掘的资料只是以前所学课程时掌握的,在下一阶段要找相应同类研究和相关算法的论文来看,但通过互联网和图书馆的资源可以解决。

六  预期的结果、进度安排

       预期结果为建立电子化加油业务中油量油类型的数据立方体,并在此基础上分析结果,做数据挖掘的聚类分析。如果如果能克服技术上和本人现有掌握知识的不足,尝试做电子化加油的趋势分析,和加油拥挤度分析。

       具体的时间安排如下:

       2011.5.1-5.31      继续掌握构建数据仓库和与本论文相关的数据挖掘技术的相关文献,开始分析现有电子加油系统数据库的表结构,对数据仓库进行概念模型和逻辑模型设计。

       2011.6.1-6.30      掌握使用Oracle构建数据仓库的方法,并开始尝试构建加油量加油类型信息的数据立方体。

       2011.7.1-7.31      继续完善构建的数据立方体,提出改进,并开始使用Analytic Workspace Manager里的分析工具来尝试分析数据,提取一些指标。

       2011.8.1-9.30      对建立的数据立方体进行数据挖掘方面的研究,首要完成聚类分析,条件允许的话研究加油拥挤度分析。

       2011.10.1-10.31  检讨、完善前期的工作成果,并开始为编写论文做前期准备,包括可能用到的引用文献的整理,论文格式模板的编制,了解学院对论文的具体要求。

       2011.11.1-2012.1.31  进行论文的编写。

       2012.2.1-3.31      修改完善论文,根据学员要求,做相关准备。

更多相关推荐:
软件工程硕士论文开题报告

学院专业软件工程学号20xx姓名导师姓名导师职称副教授年月日武汉大学关于研究生学位论文开题报告的规定根据中华人民共和国学位条例及其暂行实施办法和武汉大学学位授予工作细则的精神为做好研究生学位论文的开题报告保证学...

硕士论文开题报告—软件工程java

电子科技大学工程硕士学位论文开题报告工程领域名称软件工程班级学号硕士生姓名导师姓名硕士生所在单位名称1填表日期年月日开题报告内容提示1工程硕士的学位论文的选题应直接来源于生产实际或具有明确的生产背景和应用价值可...

山东大学软件工程硕士学位论文开题报告

分类号TP311单位代码学号山东大学软件工程硕士学位论文开题报告硕士学位论文ShandongUniversityMaster39sThesis论文题目会计内控管理系统的设计与实现TheDesignandImpl...

软件工程硕士论文开题报告-某企业内部信息发布系统的设计与实现

硕士论文开题报告论文名称某企业内部信息发布系统的设计与实现姓名学号专业软件工程与管理所属院系学院指导老师企业指导教师企业指导老师单位论文起止时间目录1课题来源及意义12国内外现状分析221国外研究现状23工作目...

软件工程硕士开题报告

工程硕士学位论文选题报告及论文工作计划课题名学号姓名专业领域所在院系校内导师校外导师选题时间同济大学研究生院20xx年9月3日1课题来源电脑的普及使越来越多的学校开始对自己的业务采用电脑管理在应用之余总希望有好...

软件工程毕业设计开题报告范文

淮海工学院毕业设计开题报告学生姓名朱兵学号011122152专业计算机应用与维护设计题目基于WEB的销售管理系统ASP开发指导教师樊宁20xx年4月16日1开题报告填写要求1开题报告作为毕业设计论文答辩委员会对...

软件工程毕业设计开题报告

软件工程毕业设计开题报告开题报告填写要求1.开题报告作为毕业设计(论文)答辩委员会对学生答辩资格审查的依据材料之一。此报告应在指导教师指导下,由学生在毕业设计(论文)工作前期内完成,经指导教师签署意见及教研室审…

软件工程硕士论文阶段流程

浙江大学软件学院软件工程硕士论文阶段流程试行010203浙江大学软件工程硕士开题报告格式040506070810浙江大学软件工程硕士论文格式审查意见表11双证研究生在系统中打印此表1213浙江大学硕士学位申请书...

软件工程毕业设计(论文)开题报告(模板)

东北大学东软信息学院本科生毕业设计论文开题报告格式与要求一开题报告必须采用计算机输入打印幅面A4于左侧装订成册二开题报告的内容应包括1选题的背景目的和意义2毕业设计论文应用的原理和理论依据3毕业设计论文方案论证...

四川大学软件工程OA开题报告

四川大学工程硕士专业学位生学位论文开题报告院系所软件学院工程领域软件工程姓名学号指导教师指导教师四川大学研究生院二0一一年九月此表经主管院长系主任所长批准后复印一式两份一份存院系所一份交研究生院备案

软件工程 数据挖掘 硕士学位论文开题报告

攻读硕士学位研究生题目硕士学位论文开题报告电子化加油数据仓库的建立及其数据挖掘的研究姓名学号院系软件学院专业软件工程研究方向数据挖掘指导教师一开题报告情况报告要求须就论文选题意义文献资料掌握情况论文研究方法论文...

电子科大工程硕士开题报告模板

电子科技大学工程硕士学位论文开题报告撰写规范说明第一条开题报告是工程硕士生论文阶段工作的重要环节为规范和统一工程硕士开题报告材料现对其内容和格式做以下说明请工程硕士生按此撰写第二条工程硕士生在公开开题报告会前应...

软件工程硕士论文开题报告(25篇)