weka

时间:2024.5.4

甘肃政法学院

本科生实验报告

(一)

姓名:***

学院:信息工程学院

专业:信息管理与信息系统

班级:信管班

实验课程名称:数据仓库与数据挖掘

实验日期:  20## 年 10 月 15 日

指导教师及职称:*** 

实验成绩:

开课时间:***  学年  ** 学期

甘肃政法学院实验管理中心印制


第二篇:weka实验报告


数据挖掘实验报告

基于weka的数据分类分析实验报告

姓名: 学号:

1实验基本内容

本实验的基本内容是通过使用weka中的三种常见分类方法(朴素贝叶斯,KNN和决策树C4.5)分别在训练数据上训练出分类模型,并使用校验数据对各个模型进行测试和评价,找出各个模型最优的参数值,并对三个模型进行全面评价比较,得到一个最好的分类模型以及该模型所有设置的最优参数。最后使用这些参数以及训练集和校验集数据一起构造出一个最优分类器,并利用该分类器对测试数据进行预测。

2数据的准备及预处理

2.1格式转换方法

原始数据是老师直接给的arff文件,因此不用转换,可以直接导入。但如果原始数据是excel文件保存的xlsx格式数据,则需要转换成Weka支持的arff文件格式或csv文件格式。由于Weka对arff格式的支持更好,这里我们选择arff格式作为分类器原始数据的保存格式。

转换方法:假如我们准备分析的文件为“breast-cancer.xlsx”,则在excel中打开“breast-cancer.xlsx”,选择菜单文件->另存为,在弹出的对话框中,文件名输入“breast-cancer”,保存类型选择“CSV(逗号分隔)”,保存,我们便可得到“breast-cancer.csv”文件;然后,打开Weka的Exporler,点击Open file按钮,打开刚才得到的“filename”文件,点击“save”按钮,在弹出的对话框中,文件名输入“breast-cancer”,文件类型选择“Arff data files(*.arff)”,这样得到的数据文件为“breast-cancer.arff”。

1

数据挖掘实验报告

2.2如何建立数据训练集,校验集和测试集

weka实验报告

通过统计数据信息,发现带有类标号的数据一共有286行,为了避免数据的过度拟合,必须把数据训练集和校验集分开,目前的拆分策略是训练集200行,校验集86行。类标号为‘no-recurrence-events’的数据有201条,而类标号为‘recurrence-events’的数据有85条,为了能在训练分类模型时有更全面的信息,所以决定把包含115条no-recurrence-events类标号数据和85条recurrence-events类标号数据作为模型训练数据集,而剩下的86条类标号类no-recurrence-events的数据将全部用于校验数据集,这是因为在校验的时候,两种类标号的数据的作用区别不大,而在训练数据模型时,则更需要更全面的信息,特别是不同类标号的数据的合理比例对训练模型的质量有较大的影响。另外,我们为了做预测测试,我们将分类标号为no-recurrence-events的86行数据集的分类标号去掉,作为预测数据集。

2.3预处理具体步骤

第一步:把breast-cancer.arff文件复制一份,作为总的训练数据集。文件名称为build_model.arff。

第二步:从breast-cancer.arff文件数据里面选取分类标号为no-recurrence-events的86行数据作为校验数据集(validate_data.arff)。

第三步:从把剩下的breast-cancer.arff文件改名为train_data.arff。

第四部:由于老师给的全部都是有类标号的数据集,为了我们方便进行预测测试,我们将分类标号为no-recurrence-events的86行数据集的分类标号去掉,作为预测数据集。 2

数据挖掘实验报告

3. 实验过程及结果截图

3.1决策树分类

用“Explorer”打开刚才得到的“train-data.arff”,并切换到“Class”。点“Choose”按钮选择“tree (weka.classifiers.trees.j48)”,这是WEKA中实现的决策树算法。

选择Cross-Validatioin folds=10,然后点击“start”按钮:

weka实验报告

使用不同配置训练参数,得到的实验数据:

weka实验报告

3

数据挖掘实验报告

4

weka实验报告

数据挖掘实验报告

3.2 K最近邻算法分类

点“Choose”按钮选择“laze->ibk”,这是WEKA中实现的决策树算法。

weka实验报告

使用不同配置训练参数,得到的实验数据:

weka实验报告

5

数据挖掘实验报告

6

weka实验报告

数据挖掘实验报告

3.3 朴素贝叶斯分类

点“Choose”按钮选择“bayes”,这是WEKA中实现的决策树算法。

weka实验报告

得出的准确率为66%

weka实验报告

7

数据挖掘实验报告

3.4 三类分类方法的校验结果比较

weka实验报告

8

数据挖掘实验报告

3.5 训练最优模型

weka实验报告

9

数据挖掘实验报告

10

weka实验报告

数据挖掘实验报告

4.三种算法在进行测试的性能比较

4.1实验结果

weka实验报告

11

数据挖掘实验报告

12

weka实验报告

数据挖掘实验报告

5.实验总结

本次实验进行比较顺利,使我对如何在Weka中进行分类分析有了更深刻的了解,对Weka中进行分类分析的KNN算法,朴素贝叶斯算法和决策树算法都有了进一步的理解,同时也深刻体会到数据预处理对于数据挖掘的重要性。

13

weka实验报告

更多相关推荐:
GRE argument官方满分范文分析

argument全部官方范文分析写在前面的话1官方范文的重要性不言而喻论坛里对官方范文的态度也有褒有贬有人说这些6分的官方文章都是大牛写出来的我们学不来于是有的同学的重心就转向了北美范文但有一点是不可否认的官方...

GRE 写作argument全部官方范文分析汇总

GRE写作argument全部官方范文分析汇总写在前面的话1官方范文的重要性不言而喻大家对官方范文的态度也有褒有贬有人说这些6分的官方文章都是大牛写出来的我们学不来于是有的同学的重心就转向了北美范文但有一点是不...

gre aw 绝招!!

北美范文GRE作文战略级别指导第一核心思想最短的时间获得最多的分数有一个思想绝对是准备GRE机考也好笔考也好还是其他任何考试的核心最短的时间内获得最多的分数这句话大家都懂关键是做起来很多人就蒙了怎么在最短的时间...

gre aw 作文总结--个人类

个人类内因和外因12人们的态度由他们所处的环境而不是他们的个性决定martinLutherking无论是最初自己的观点受到了别人的质疑还是在自己的Ihaveadream演讲打动了全国人无论是在受到了死亡威胁还是...

gre aw机考作文资料大全

第一大类issue题目GRE作文分类题库ISSUE一教育类1Anationshouldrequireallitsstudentstostudythesamenationalcurriculumuntilthey...

gre aw 6分习作

Issue17TherearetwotypesoflawsjustandunjustEveryindividualinasocietyhasaresponsibilitytoobeyjustlawsandeve...

gre aw

PoliticiansJohnAdamsAmericaRevolutionunitedstatesdeclarationofindependenceFranklinDelanoRooseveltnewdealsecondworld...

gre aw words

Essential本质的实质的精华的ephemeral朝生暮死的短暂的短命的mere仅仅的起码的纯粹的merely仅仅dispensablesuperficialcontemporarypossibleperh...

gre aw issue练习稿

151quotHighspeedelectroniccommunicationsmediasuchaselectronicmailandtelevisiontendtopreventmeaningfulandt...

GRE AW Argument Part

GREAWArgumentPart1Introductoryparagraph6分钟arepeat结论拆开写brepeat支持结论的细节不照抄c说有问题unwarranted不要说false没有错只是缺乏论证条...

AW5.5大牛的新GRE argument高频提纲(50之后的)

113假设1课程有效果学生一可能本来速度就很快也没有数据说明他阅读的效率也许读得快但理解记住很少学生二的成就可能使他因造成两个学生样本太少2对我们公司有用公司不同工作内容员工都不同我们的员工可能阅读已经不错了3...

例证 gre aw

Name1ArtsPicasso19xxsSpanishCivilWarPigeonLeonardoDaVinci2MusicBlackmusicElvisPresleytheBeatlesJohnLennon...

greaw(12篇)