篇一 :weka实验报告

数据挖掘实验报告

基于weka的数据分类分析实验报告

姓名: 学号:

1实验基本内容

本实验的基本内容是通过使用weka中的三种常见分类方法(朴素贝叶斯,KNN和决策树C4.5)分别在训练数据上训练出分类模型,并使用校验数据对各个模型进行测试和评价,找出各个模型最优的参数值,并对三个模型进行全面评价比较,得到一个最好的分类模型以及该模型所有设置的最优参数。最后使用这些参数以及训练集和校验集数据一起构造出一个最优分类器,并利用该分类器对测试数据进行预测。

2数据的准备及预处理

2.1格式转换方法

原始数据是老师直接给的arff文件,因此不用转换,可以直接导入。但如果原始数据是excel文件保存的xlsx格式数据,则需要转换成Weka支持的arff文件格式或csv文件格式。由于Weka对arff格式的支持更好,这里我们选择arff格式作为分类器原始数据的保存格式。

转换方法:假如我们准备分析的文件为“breast-cancer.xlsx”,则在excel中打开“breast-cancer.xlsx”,选择菜单文件->另存为,在弹出的对话框中,文件名输入“breast-cancer”,保存类型选择“CSV(逗号分隔)”,保存,我们便可得到“breast-cancer.csv”文件;然后,打开Weka的Exporler,点击Open file按钮,打开刚才得到的“filename”文件,点击“save”按钮,在弹出的对话框中,文件名输入“breast-cancer”,文件类型选择“Arff data files(*.arff)”,这样得到的数据文件为“breast-cancer.arff”。

1

数据挖掘实验报告

2.2如何建立数据训练集,校验集和测试集

weka实验报告

通过统计数据信息,发现带有类标号的数据一共有286行,为了避免数据的过度拟合,必须把数据训练集和校验集分开,目前的拆分策略是训练集200行,校验集86行。类标号为‘no-recurrence-events’的数据有201条,而类标号为‘recurrence-events’的数据有85条,为了能在训练分类模型时有更全面的信息,所以决定把包含115条no-recurrence-events类标号数据和85条recurrence-events类标号数据作为模型训练数据集,而剩下的86条类标号类no-recurrence-events的数据将全部用于校验数据集,这是因为在校验的时候,两种类标号的数据的作用区别不大,而在训练数据模型时,则更需要更全面的信息,特别是不同类标号的数据的合理比例对训练模型的质量有较大的影响。另外,我们为了做预测测试,我们将分类标号为no-recurrence-events的86行数据集的分类标号去掉,作为预测数据集。

…… …… 余下全文

篇二 :数据挖掘weka数据分类实验报告

一、实验目的

         使用数据挖掘中的分类算法,对数据集进行分类训练并测试。应用不同的分类算法,比较他们之间的不同。与此同时了解Weka平台的基本功能与使用方法。

二、实验环境

         实验采用Weka 平台,数据使用Weka安装目录下data文件夹下的默认数据集iris.arff。

         Weka是怀卡托智能分析系统的缩写,该系统由新西兰怀卡托大学开发。Weka使用Java写成的,并且限制在GNU通用公共证书的条件下发布。它可以运行于几乎所有操作平台,是一款免费的,非商业化的机器学习以及数据挖掘软件。Weka提供了一个统一界面,可结合预处理以及后处理方法,将许多不同的学习算法应用于任何所给的数据集,并评估由不同的学习方案所得出的结果。

三、数据预处理

   Weka平台支持ARFF格式和CSV格式的数据。由于本次使用平台自带的ARFF格式数据,所以不存在格式转换的过程。实验所用的ARFF格式数据集如图1所示

图1 ARFF格式数据集(iris.arff)

         对于iris数据集,它包含了150个实例(每个分类包含50个实例),共有sepal length、sepal width、petal length、petal width和class五种属性。期中前四种属性为数值类型,class属性为分类属性,表示实例所对应的的类别。该数据集中的全部实例共可分为三类:Iris Setosa、Iris Versicolour和Iris Virginica。

…… …… 余下全文

篇三 :《数据挖掘实训》weka实验报告

      《数据挖掘实训》课程

论文(报告、案例分析)

院    系  信 息 学 院       

专    业  统       计       

班    级  10级统计 3 班     

学生姓名   李健              

学    号   2010210453        

任课教师  刘  洪   伟       

20##年 01月17日


课程论文评分表


《数据挖掘实训》课程论文

选题要求:

根据公开发表统计数据,请结合数据挖掘理论与方法,撰写一篇与数据挖掘领域相关的论文。

写作要求:

(1)数据准确、有时效性,必须是最新的数据。

(2)文章必须有相应的统计方法,这些统计方法包括以前专业课中学到的任何统计方法,如参数估计、假设检验、相关与回归、多元统计等等。

(3)论文的内容必须是原创,有可靠的分析依据和明确的结论。

(4)论文按照规定的格式化撰写;

…… …… 余下全文

篇四 :weka实验报告

DW&DM课程实验报告

                     

                          班级:信管11-1

                       姓名:陈丽华

                            学号:201108071131

一、    实验目的

验证

二、    实验内容

(一)聚类分析

(1)数据准备

1. 数据文件格式转换

      使用WEKA作数据挖掘,面临的第一个问题往往是我们的数据不是ARFF格式的。幸好,WEKA还提供了对CSV文件的支持,而这种格式是被很多其他软件,比如Excel,所支持的。现在我们打开“bank-data.csv”。

…… …… 余下全文

篇五 :数据挖掘实验报告 Weka的数据聚类分析

甘肃政法学院

本科生实验报告

(2)

姓名:

学院:计算机科学学院

专业:信息管理与信息系统 

班级:

实验课程名称:数据挖掘

实验日期:

指导教师及职称:

实验成绩:

开课时间:20##—2014 学年 一 学期

甘肃政法学院实验管理中心印制

…… …… 余下全文

篇六 :(电子商务)weka实验

项 目 列 表

…… …… 余下全文

篇七 :实验5:在weka中进行关联规则挖掘

《商务智能》实验指导书――实验五 - 1 -

实 验 五

实验项目名称:在weka中进行关联规则挖掘

实验要求:

(1) 熟悉weka软件;

(2) 掌握关联规则挖掘基本概念;

(3) 掌握在weka中进行关联规则挖掘的相关方法。

(4) 本实验要求列出每个主要步骤,附上截图,对挖掘出的关联规则的结

果进行详细的说明。要求附上sql代码。

实验步骤:

(1)首先对big_university数据集中的数据进行预处理。注意:weka采用的算法只能对分类属性进行操作,因此需要对big_university数据集中的tj属性进行处理。建议:

? 先将原始数据通过sql写入数据库表big_university,然后编写一个存

储过程,对数据库表记录进行处理,删除tj属性,但数据库表所表达的含义不能改变。

? 将表中的记录导出到EXCEL表中,转换成CSV文件

? 在weka中将big_university.csv存储为big_university.arff文件。

(2)对big_university.arff进行关联规则分析。该分析没有使用到概念分层,属于低层的关联规则挖掘。

(3)编写一个存储过程,针对big_university数据库表中的字段值进行概念分层替换,然后对新产生的big_university.arff进行关联规则分析。该分析使用到概念分层,属于高层的关联规则挖掘。

《商务智能》实验指导书――实验五 - 2 -

设最小支持度阈值为2%,最小置信度阈值为50%

假定描述Big-University 大学学生的数据关系已被泛化为下表 的泛化关系R。 设概念分层如下:

status: {freshman, sophomore, junior, senior} ∈ undergraduate

…… …… 余下全文

篇八 :数据挖掘WEKA实验报告

数据挖掘-WAKA

实验报告


一、WEKA软件简介

在我所从事的证券行业中,存在着海量的信息和数据,但是这些数据日常知识发挥了一小部分的作用,其包含了大量的隐性的信息并不为所用,但是却可以为一些公司的决策和对客户的服务提供不小的价值。因此,我们可以通过一些数据采集、数据挖掘来获得潜在的有价值的信息。

数据挖掘就是通过分析存在于数据库里的数据来解决问题。在数据挖掘中计算机以电子化的形式存储数据,并且能自动的查询数据,通过关联规则、分类于回归、聚类分析等算法对数据进行一系列的处理,寻找和描述数据里的结构模式,进而挖掘出潜在的有用的信息。数据挖掘就是通过分析存在于数据库里的数据来解决问题。WEKA的出现让我们把数据挖掘无需编程即可轻松搞定。

WEKA是由新西兰怀卡托大学开发的开源项目,全名是怀卡托智能分析环境(Waikato Environment for Knowledge Analysis)。WEKA是由JAVA编写的,它的源代码可通过http://www.cs.waikato.ac.nz/ml/WEKA得到,并且限制在GBU通用公众证书的条件下发布,可以运行在所有的操作系统中。是一款免费的,非商业化的机器学习以及数据挖掘软件

WEKA作为一个公开的数据挖掘工作平台,集合了大量能承担数据挖掘任务的机器学习算法,包括对数据进行预处理,分类,回归、聚类、关联规则以及在新的交互式界面上的可视化。如果想自己实现数据挖掘算法的话,可以看一看WEKA的接口文档。在WEKA中集成自己的算法甚至借鉴它的方法自己实现可视化工具并不是件很困难的事情。

安装WEKA也十分简单,首相要下载安装JDK环境 ,JDK在这个页面可以找到它的下载 http://java.sun.com/javase/downloads/index.jsp。点击JDK 6之后的Download按钮,转到下载页面。选择Accepct,过一会儿页面会刷新。我们需要的是这个 Windows Offline Installation, Multi-language jdk-6-windows-i586.exe 53.16 MB ,点击它下载。也可以右键点击它上面的链接,在Flashget等工具中下载。安装它和一般软件没什么区别。不过中间会中断一下提示你安装JRE,一并装上即可。之后就是安装WEKA软件,这个在网上很多地方都有。同样简单地按默认方法安装后即可使用。

…… …… 余下全文