篇一 :数据挖掘大作业结果分析报告

   

数据仓库期末作业  -  数据挖掘分析报告

某药店常用药品信息数据挖掘解决方案

作    者    刘金龙               

学    院    计算机信息管理学院   

专    业    计算机科学与技术     

年    级    2011                 

学    号    112103209            


某药房常用药品价格、产地的数据挖掘解决方案

一、    提出问题

1、单位基本情况及相关业务流程介绍;

对于药店,储存大量的常用药品是必不可少的工作,随之而来的对药品的数据信息管理和储存成为了令人头疼的问题,在接到货源后,工作人员需要统计药品产地和价格的信息,为以后的货源供给地,用合理的价格出售药物,是至关重要的工作。

2、单位存在的问题。

由于货物种类、名称众多,在短时间内分析好相关数据几乎不可能,大量的数据,依靠人力或是非数据统计软件进行统计工作,事倍功半。严重影响药店的正常进货,出售药品的工作。

…… …… 余下全文

篇二 :证券客户数据挖掘应用分析报告

证券客户数据挖掘应用分析报告

一、      前言

证券行业是中国计算机应用高度密集的行业之一,较高的信息化水平使其积累了大量的数据,既有企业内部的数据,如财务状况、经营状况等,又有来自外部的客户账户信息、客户交易数据、股票市场信息、上市公司信息等。其中,客户相关数据挖掘利用是券商摆脱低层次的同质化竞争,走出差异化服务优势的重要途径。本文将重点分析证券行业在客户数据分析方面的应用情况,并尝试提出初步建设方案。

二、      行业应用现状

互联网企业为什么能介入金融?靠的不是它的技术,更是它的数据。互联网企业充分利用其平台积累的大数据资源,将海量交易数据转化为金融商机,通过对大数据的深度挖掘实现了精准的金融服务。互联网金融风生水起的背后,大数据功不可没。大数据现在不仅仅是IT行业的一个炒作的概念,更像是一场IT界的全民运动。国内证券公司也已经在大数据领域进行了一些探索。

20##年,海通证券自主开发的“给予数据挖掘算法的证券客户行为特征分析技术”(简称“行为特征分析技术”)问世。这项技术主要应用在两方面——根据客户历史交易行为,为每一位客户打上交易行为特点的标签;根据客户流失概率的预测。海通证券通过对100多万样本客户、半年交易记录的数据进行分析,建立了客户分类、客户偏好、客户流失概率的模型。据此为海通证券400多万位客户打上了行为偏好的标签。该项技术开发时的最大初衷,是希望通过客户行为的量化分析,测算客户将来可能流失的概率,为客户维系与挽留工作提供有力的支持。

此前,券商挽留客户的做法无非是降低其佣金,但最终得到的往往是一个无效客户。通过这样一个模型,可确定客户类型和特点,为他们提供特定服务,比如,已经发现了购买某一商品的客户特征,就可以向那些具有同样特征但还没购买该商品的客户进行推销;又比如找到流失客户的特征,然后对那些还未流失、但具有同样特征的客户进行针对性弥补。

…… …… 余下全文

篇三 :数据挖掘报告

研究方向前沿读书报告

数据挖掘技术的算法与应用

目录

第一章 数据仓库... 5

1.1 概论... 5

1.2 数据仓库体系结构... 6

1.3 数据仓库规划、设计与开发... 7

1.3.1 确定范围... 7

1.3.2 环境评估... 7

1.3.3 分析... 7

1.3.4 设计... 8

1.3.5 开发... 8

1.3.5 测试... 8

1.3.6 运行... 8

1.4 小结... 9

第二章 数据挖掘... 9

2.1 概论... 9

2.2 数据挖掘研究的内容和本质... 10

2.2.1 广义知识... 10

2.2.2 关联知识... 10

2.2.3 分类知识... 11

2.2.4 预测型知识... 11

2.3 数据挖掘流程... 11

2.3.1 确定业务对象... 12

2.3.2 数据准备... 12

2.3.3 数据挖掘... 12

2.3.4 结果分析... 12

2.3.5 知识的同化... 13

2.4 数据挖掘的方法... 13

2.4.1 神经网络方法... 13

2.4.2 遗传算法... 13

2.4.3 决策树方法... 14

2.4.4 粗集方法... 14

2.4.5 覆盖正例排斥反例方法... 14

2.4.6 统计分析方法... 14

2.4.7 模糊集方法... 14

2.6 数据挖掘工具的现状... 15

2.7 数据挖掘未来研究方向及热点... 16

2.4.1 网站的数据挖掘... 16

2.4.2 生物信息或基因数据挖掘... 17

2.4.3 文本的数据挖掘... 17

2.4.4 20##年十大热点问题... 17

2.5 小结... 18

第三章  关联规则... 18

3.1 概论... 18

…… …… 余下全文

篇四 :数据挖掘实验报告

    数据挖掘实验报告

班    级:       

学    号:       

姓    名:   

一,实验目的:掌握使用weka对数据进行apriori算法、分类以及聚类的实现方法。

二,实验内容:对数据进行apriori算法、分类和聚类的分析,其功能为:

  (1) apriori算法:用该算法对一组关联规则进行分析并计算其支持度和置信度,以此来衡量它的中他的重要性。

  (2)分类:用以区分不同类的对象,预测未知记录的类标。

(3)聚类:WEKA中实现K均值的算法。点击旁边的文本框,修改“numClusters”为6,说明我们希望把这600条实例聚成6类,即K=6。下面的 “seed”参数是要设置一个随机种子,依此产生一个随机数,用来得到K均值算法中第一次给出的K个簇中心的位置。我们不妨暂时让它就为10。

三,实验原理:

1,apriori算法:对于一条关联规则L->R,我们常用支持度(Support)和置信度(Confidence)来衡量它的重要性。规则的支持度是用来估计在一个购物篮中同时观察到L和R的概率P(L,R),而规则的置信度是估计购物栏中出现了L时也出会现R的条件概率P(R|L)。关联规则的目标一般是产生支持度和置信度都较高的规则。

2,分类:对训练集数据进行分析分类,按这种分类方法将预测集的数据进行分类,预测未知记录的类标。

3,聚类(k-means算法):根据数据中的发现的描述对象及其关系的信息,将数据对象分组。

四,实验步骤

1,apriori算法:

 (1) 数据准备:对实验数据进行处理,导入数据;

 (2) 参数设置:按实验要求进行相关参数的设置,

…… …… 余下全文

篇五 :分析报告、统计分析和数据挖掘的区别

分析报告、统计分析和数据挖掘的区别

“分析报告给你后见之明 (hindsight);统计分析给你先机 (foresight);数据挖掘给你洞察力 (insight)”

举个例子说:

你看到孙悟空跟二郎神打仗,然后写了个分析报告,说孙悟空在柔韧性上优势明显,二郎神在力气上出类拔萃,所以刚开始不相上下;结果两个人跑到竹林里,在竹子上面打,孙悟空的优势发挥出来,所以孙悟空赢了。这叫分析报告。

孙悟空要跟二郎神打架了,有个赌徒找你预测。你做了个统计,发现两人斗争4567次,其中孙悟空赢3456次。另外,孙悟空斗牛魔王,胜率是89%,二郎神斗牛魔王胜率是71%。你得出趋势是孙悟空赢。因为你假设了这次胜利跟历史的关系,根据经验作了一个假设。这叫统计分析。

你什么都没做,让计算机自己做关联分析,自动找到了出身、教育、经验、单身四个因素。得出结论是孙悟空赢。计算机通过分析发现贫苦出身的孩子一般比皇亲国戚功夫练得刻苦;打架经验丰富的人因为擅长利用环境而机会更多;在都遇得到明师的情况下,贫苦出身的孩子功夫可能会高些;单身的人功夫总比同样环境非单身的高。孙悟空遇到的名师不亚于二郎神,而打架经验绝对丰富,并且单身,所以这次打头,孙悟空赢。这叫数据挖掘。

数据挖掘跟OLAP的区别在于它没有假设,让计算机找出这种背后的关系,而这种关系可能是你所想得到的,也可能是所想不到的。比如数据挖掘找出的结果发现在2亿条打斗记录中,姓孙的跟姓杨的打,总是姓孙的胜利,孙悟空姓孙,所以,悟空胜利。

用在现实中,我们举个例子来说,做OLAP分析,我们找找哪些人总是不及时向电信运营商缴钱,一般会分析收入低的人往往会缴费不及时。通过分析,发现不及时缴钱的穷人占71%。而数据挖掘则不同,它自己去分析原因。原因可能是,家住在五环以外的人,不及时缴钱。这些结论对推进工作有很深的价值,比如在五环外作市场调研,发现需要建立更多的合作渠道以方便缴费。这是数据挖掘的价值。

…… …… 余下全文

篇六 :数据挖掘报告

摘要

数据挖掘技术可以在浩瀚的数据中进行统计、分析、综合、推理,发现数据内部关联,并作出预测,提供数据信息,为决策提供辅助支持。目前,数据挖掘技术已经广泛应用在商业领域,同样,可以将数据挖掘技术与国家教育项目相结合,对项目中的各类数据信息进行挖掘分析,提取隐藏的数据信息,为项目开发部门提供决策依据,进一步提高项目的科学性和高效性。

本文结合自身参与教育部指定的关于城市集群竞争力项目的实践经验,分析数据挖掘技术在国家教育项目中应用的可行性,并以此为例,采用JAVA语言编写实现KNN算法。

在项目实施方案中,以城市集群的数据为基础,完成数据挖掘的全过程:确定数据挖掘的对象和目标、数据清理和预处理,对某个指标缺失的数据引入神经网络方法进行预测填补,对缺失较多的数据引入对比和类比的方法进行预测填补,采用KNN算法实现数据分类,形成指标体系。利用数据挖掘的结果,通过对指标数据的分析,预测决定城市集群竞争力的主要因素,从而为今后城市集群的发展方向和职能定位提供参考,为城镇体系的总体发展指明方向,为提高我国城市集群整体经济实力和综合竞争力提供一些有益的建议和对策,促进成熟集群向一体化方向发展,同时也可以为国内其他城市集群的发展提供给一些有益的参考。

【关键词】 数据挖掘 KNN算法 数据分类 JAVA 城市集群竞争力

1

目录

摘要................................................................ 1

目录................................................................ 2

第一章 绪论 ....................................................... 3

1.1研究背景和研究意义 .............................................. 3

…… …… 余下全文

篇七 :数据挖掘实验报告

市场购物篮分析

经济管理学院     企业管理专业    1306122427   杨欢欢

一、实验背景

随着社会进入信息化时代,现代化的企业搜集了大量数据或高维数据,包括市场、客户、供货商、竞争对手以及未来趋势等重要信息,但是信息超载与无结构化,使得企业决策部门无法有效利用现存的信息,甚至使决策行为产生混乱与误用。通过数据挖掘技术,可以从大量的数据中,挖掘出不同的信息与知识来支持决策,必能产生企业的竞争优势。

数据挖掘和知识发现是一个涉及多学科的研究领域。数据库技术、人工智能、机器学习、统计学、粗糙集、模糊集、神经网络、模式识别、知识库系统、高性能计算、数据可视化等均与数据挖掘相关。近年来,与数据库的知识发现研究领域已经成为热点,其中关联规则数据挖掘算法是数据挖掘中的一个很重要的课题,它是从背后发现数据中的关联或联系。

本实验主要处理描述超级市场购物篮内容(所购买的全部商品的集合)的虚构数据,以及购买者的相关个人数据。目的是寻找购买相似产品并且购买相似产品的客户群特征。

二、实验目的

1、掌握数据挖掘的基础知识,能够深刻理解并熟练运用GRI和C5.0规则,能够熟练运用SPSS Clementine11.1软件进行数据分析。

2、利用GRI和C5.0规则对商场客户交易数据进行分析,从中发现客户购买的商品之间的关联关系,并进一步归纳出购买相似商品的顾客群的特征 。

3、理解并操作实验中数据挖掘的两个部分,一是关联规则建模和一个显示所购买商品关联关系的网络图;二是C5.0 规则归纳,显示购买建立的产品组合的顾客群具有的特征。

三、操作环境

1、系统环境:Windows XP

2、软件环境:SPSS Clementine11.1

3、软件简介:作为一个数据挖掘平台, Clementine结合商业技术可以快速建立预测性模型,进而应用到商业活动中,帮助人们改进决策过程。强大的数据挖掘功能和显著的投资回报率使得Clementine在业界久负盛誉。同那些仅仅着重于模型的外在表现而忽略了数据挖掘在整个业务流程中的应用价值的其它数据挖掘工具相比, Clementine其功能强大的数据挖掘算法,使数据挖掘贯穿业务流程的始终,在缩短投资回报周期的同时极大提高了投资回报率。

…… …… 余下全文

篇八 :数据挖掘读书报告

读书报告

数据挖掘可以看成是信息技术自然化的结果。数据挖掘(Data mining),又译为资料探勘、数据采矿。它是数据库知识发现(Knowledge-Discovery in Databases,简称:KDD)中的一个步骤。数据挖掘一般是指从大量的数据中自动搜索隐藏于其中的有着特殊关系性(属于Association rule learning)的信息的过程。数据挖掘通常与计算机科学有关,并通过统计、在线分析处理、情报检索、机器学习、专家系统(依靠过去的经验法则)和模式识别等诸多方法来实现上述目标。

数据挖掘利用了来自如下一些领域的思想:(1) 来自统计学的抽样、估计和假设检验,(2)人工智能、模式识别和机器学习的搜索算法、建模技术和学习理论。数据挖掘也迅速地接纳了来自其他领域的思想,这些领域包括最优化、进化计算、信息论、信号处理、可视化和信息检索。一些其他领域也起到重要的支撑作用。特别地,需要数据库系统提供有效的存储、索引和查询处理支持。源于高性能(并行)计算的技术在处理海量数据集方面常常是重要的。分布式技术也能帮助处理海量数据,并且当数据不能集中到一起处理时更是至关重要。 数据挖掘是一种决策支持过程,它主要基于人工智能、机器学习、模式识别、统计学、数据库、可视化技术等,高度自动化地分析企业的数据,做出归纳性的推理,从中挖掘出潜在的模式,帮助决策者调整市场策略,减少风险,做出正确的决策。

知识发现过程由以下三个阶段组成:(1)数据准备(2)数据挖掘(3)结果表达和解释。数据挖掘可以与用户或知识库交互。

数据挖掘的任务有关联分析、聚类分析、分类分析、异常分析、特异群组分析和演变分析,等等。

数据挖掘完整的步骤如下:

① 理解数据和数据的来源(understanding)。

② 获取相关知识与技术(acquisition)。

③ 整合与检查数据(integration and checking)。

…… …… 余下全文