篇一 :数据挖掘WEKA实验报告

数据挖掘-WAKA

实验报告


一、WEKA软件简介

在我所从事的证券行业中,存在着海量的信息和数据,但是这些数据日常知识发挥了一小部分的作用,其包含了大量的隐性的信息并不为所用,但是却可以为一些公司的决策和对客户的服务提供不小的价值。因此,我们可以通过一些数据采集、数据挖掘来获得潜在的有价值的信息。

数据挖掘就是通过分析存在于数据库里的数据来解决问题。在数据挖掘中计算机以电子化的形式存储数据,并且能自动的查询数据,通过关联规则、分类于回归、聚类分析等算法对数据进行一系列的处理,寻找和描述数据里的结构模式,进而挖掘出潜在的有用的信息。数据挖掘就是通过分析存在于数据库里的数据来解决问题。WEKA的出现让我们把数据挖掘无需编程即可轻松搞定。

WEKA是由新西兰怀卡托大学开发的开源项目,全名是怀卡托智能分析环境(Waikato Environment for Knowledge Analysis)。WEKA是由JAVA编写的,它的源代码可通过http://www.cs.waikato.ac.nz/ml/WEKA得到,并且限制在GBU通用公众证书的条件下发布,可以运行在所有的操作系统中。是一款免费的,非商业化的机器学习以及数据挖掘软件

WEKA作为一个公开的数据挖掘工作平台,集合了大量能承担数据挖掘任务的机器学习算法,包括对数据进行预处理,分类,回归、聚类、关联规则以及在新的交互式界面上的可视化。如果想自己实现数据挖掘算法的话,可以看一看WEKA的接口文档。在WEKA中集成自己的算法甚至借鉴它的方法自己实现可视化工具并不是件很困难的事情。

安装WEKA也十分简单,首相要下载安装JDK环境 ,JDK在这个页面可以找到它的下载 http://java.sun.com/javase/downloads/index.jsp。点击JDK 6之后的Download按钮,转到下载页面。选择Accepct,过一会儿页面会刷新。我们需要的是这个 Windows Offline Installation, Multi-language jdk-6-windows-i586.exe 53.16 MB ,点击它下载。也可以右键点击它上面的链接,在Flashget等工具中下载。安装它和一般软件没什么区别。不过中间会中断一下提示你安装JRE,一并装上即可。之后就是安装WEKA软件,这个在网上很多地方都有。同样简单地按默认方法安装后即可使用。

…… …… 余下全文

篇二 :《数据挖掘实训》weka实验报告

      《数据挖掘实训》课程

论文(报告、案例分析)

院    系  信 息 学 院       

专    业  统       计       

班    级  10级统计 3 班     

学生姓名   李健              

学    号   2010210453        

任课教师  刘  洪   伟       

20##年 01月17日


课程论文评分表


《数据挖掘实训》课程论文

选题要求:

根据公开发表统计数据,请结合数据挖掘理论与方法,撰写一篇与数据挖掘领域相关的论文。

写作要求:

(1)数据准确、有时效性,必须是最新的数据。

(2)文章必须有相应的统计方法,这些统计方法包括以前专业课中学到的任何统计方法,如参数估计、假设检验、相关与回归、多元统计等等。

(3)论文的内容必须是原创,有可靠的分析依据和明确的结论。

(4)论文按照规定的格式化撰写;

…… …… 余下全文

篇三 :数据挖掘实验报告 Weka的数据聚类分析

甘肃政法学院

本科生实验报告

(2)

姓名:

学院:计算机科学学院

专业:信息管理与信息系统 

班级:

实验课程名称:数据挖掘

实验日期:

指导教师及职称:

实验成绩:

开课时间:20##—2014 学年 一 学期

甘肃政法学院实验管理中心印制

…… …… 余下全文

篇四 :数据挖掘weka数据分类实验报告

一、实验目的

         使用数据挖掘中的分类算法,对数据集进行分类训练并测试。应用不同的分类算法,比较他们之间的不同。与此同时了解Weka平台的基本功能与使用方法。

二、实验环境

         实验采用Weka 平台,数据使用Weka安装目录下data文件夹下的默认数据集iris.arff。

         Weka是怀卡托智能分析系统的缩写,该系统由新西兰怀卡托大学开发。Weka使用Java写成的,并且限制在GNU通用公共证书的条件下发布。它可以运行于几乎所有操作平台,是一款免费的,非商业化的机器学习以及数据挖掘软件。Weka提供了一个统一界面,可结合预处理以及后处理方法,将许多不同的学习算法应用于任何所给的数据集,并评估由不同的学习方案所得出的结果。

三、数据预处理

   Weka平台支持ARFF格式和CSV格式的数据。由于本次使用平台自带的ARFF格式数据,所以不存在格式转换的过程。实验所用的ARFF格式数据集如图1所示

图1 ARFF格式数据集(iris.arff)

         对于iris数据集,它包含了150个实例(每个分类包含50个实例),共有sepal length、sepal width、petal length、petal width和class五种属性。期中前四种属性为数值类型,class属性为分类属性,表示实例所对应的的类别。该数据集中的全部实例共可分为三类:Iris Setosa、Iris Versicolour和Iris Virginica。

…… …… 余下全文

篇五 :weka实验报告

数据挖掘实验报告

基于weka的数据分类分析实验报告

姓名: 学号:

1实验基本内容

本实验的基本内容是通过使用weka中的三种常见分类方法(朴素贝叶斯,KNN和决策树C4.5)分别在训练数据上训练出分类模型,并使用校验数据对各个模型进行测试和评价,找出各个模型最优的参数值,并对三个模型进行全面评价比较,得到一个最好的分类模型以及该模型所有设置的最优参数。最后使用这些参数以及训练集和校验集数据一起构造出一个最优分类器,并利用该分类器对测试数据进行预测。

2数据的准备及预处理

2.1格式转换方法

原始数据是老师直接给的arff文件,因此不用转换,可以直接导入。但如果原始数据是excel文件保存的xlsx格式数据,则需要转换成Weka支持的arff文件格式或csv文件格式。由于Weka对arff格式的支持更好,这里我们选择arff格式作为分类器原始数据的保存格式。

转换方法:假如我们准备分析的文件为“breast-cancer.xlsx”,则在excel中打开“breast-cancer.xlsx”,选择菜单文件->另存为,在弹出的对话框中,文件名输入“breast-cancer”,保存类型选择“CSV(逗号分隔)”,保存,我们便可得到“breast-cancer.csv”文件;然后,打开Weka的Exporler,点击Open file按钮,打开刚才得到的“filename”文件,点击“save”按钮,在弹出的对话框中,文件名输入“breast-cancer”,文件类型选择“Arff data files(*.arff)”,这样得到的数据文件为“breast-cancer.arff”。

1

数据挖掘实验报告

2.2如何建立数据训练集,校验集和测试集

weka实验报告

通过统计数据信息,发现带有类标号的数据一共有286行,为了避免数据的过度拟合,必须把数据训练集和校验集分开,目前的拆分策略是训练集200行,校验集86行。类标号为‘no-recurrence-events’的数据有201条,而类标号为‘recurrence-events’的数据有85条,为了能在训练分类模型时有更全面的信息,所以决定把包含115条no-recurrence-events类标号数据和85条recurrence-events类标号数据作为模型训练数据集,而剩下的86条类标号类no-recurrence-events的数据将全部用于校验数据集,这是因为在校验的时候,两种类标号的数据的作用区别不大,而在训练数据模型时,则更需要更全面的信息,特别是不同类标号的数据的合理比例对训练模型的质量有较大的影响。另外,我们为了做预测测试,我们将分类标号为no-recurrence-events的86行数据集的分类标号去掉,作为预测数据集。

…… …… 余下全文

篇六 :WEKA数据挖掘实验报告

WEKA实验报告

一、    数据集

实验采用Wisconsin医学院的William H.Wolberg博士提供的乳腺癌的数据样本。所有数据来自真实临床案例,每个案例有10个属性。其中前九个属性是检测指标,每个属性值用1到10的整数表示,1表示检测指标最正常,10表示最不正常。第十个属性是分类属性,指示该肿瘤是否为恶性。数据集中的肿瘤性质是通过活检得出的结果。

肿块厚度               Clump_Thickness integer [1,10]

细胞大小的均匀性       Cell_Size_Uniformity integer [1,10]

细胞形状的均匀性       Cell_Shape_Uniformity integer [1,10]

边缘粘性               Marginal_Adhesion integer [1,10]

单上皮细胞的大小       Single_Epi_Cell_Size integer [1,10]

裸核                   Bare_Nuclei integer [1,10]

…… …… 余下全文

篇七 :数据挖掘WEKA实验报告2

数据挖掘-WEKA

实验报告二

             姓名及学号 : 杨珍20131198

      班级 : 卓越计科1301

指导老师 :   吴珏老师  

一、实验内容

1、分类算法:(掌握weka中分类算法的使用)

       1)掌握决策树分类算法(C4.5,CART算法)

       2)打开数据集weahter.nominal.arrf,使用C4.5分类器(C4.5算法在Weka中是作为一个分类器来实现的,名称为J48)构建决策树。

       3)对结果进行分析。

       4)使用贝叶斯网络编辑器编辑贝叶斯网络。(选做)

二、实验步骤

(1)打开数据集weahter.nominal.arrf

(2)采用J48构建决策树

J48的结果

J48的在窗口的可视化:

J48的决策树可视化结果:

(3)采用FilterClassifier构建决策树

FilterClassifier的数据结果

(4)使用贝叶斯

贝叶斯的可视化结果:

思考与分析

使用FilterClassifier和J48,并采用有监督的二元离散化,与只使用J48处理原始数据的结果想比较。为何从离散化后的数据构建决策树,比直接从原始数据构建决策树,有更好的预测效果?

(1)算法需要,例如决策树,NativeBayes等算法本身不能直接使用连续型变量,连续型数据只有经过离散化处理后才能进入算法引擎。

…… …… 余下全文

篇八 :数据挖掘实验报告2-Weka

 

Southwest university of science and technology

   数据挖掘实验报告

实验二

二〇##年十一月    

一、  实验要求

掌握weka中聚类算法并分析结果

二、  实验平台

Xp weka

三、  实验内容

1、分类算法:(掌握weka中分类算法的使用)

       1)掌握决策树分类算法(C4.5,CART算法)

       2)打开数据集weahter.nominal.arrf,使用C4.5分类器(C4.5算法在Weka中是作为一个分类器来实现的,名称为J48)构建决策树。

       3)对结果进行分析。

四、实验步骤和结果

打开文件:

用j48决策树决策树分类算法,并用默认值执行

结果如下:

 

五、思考与分析

1、使用FilterClassifier和J48,并采用有监督的二元离散化,与只使用J48处理原始数据的结果想比较。为何从离散化后的数据构建决策树,比直接从原始数据构建决策树,有更好的预测效果?

用FilterClassifier建立决策树

因为现实中的数据大多是连续型的数据,使用离散化数据可以提高建立决策树算法的性能

…… …… 余下全文