应用多元统计分析实验报告
聚类分析
专业:数学与应用数学
班级:09-01
姓名:杨明雪
学号:540910020145
应用多元统计分析实验报告
实验2 聚类分析
1.1 实验名称:聚类分析
1.2 实验目的:通过本实验掌握使用SAS进行聚类分析
1.3 实验内容:对样品做标准变换下的类平均法,离差平方和法和K值法进行聚类分析。
1.3.1 代码
1)类平均法和离差平方和法程序代码
proc cluster data=sasuser.exec65 method=ave std pseudo;
id nation;
proc tree horizontal;
id nation;
proc cluster data=sasuser.exec65 method=war notie std pseudo;
id nation;
proc tree horizontal;
id nation;
run;
2)K值法程序代码
procstandand data=sasuser.exec65 mean =0 std=1 out=stan;
procfastclus data=stan out=out65 maxc=5 drift list;
var x1-x8;
id nation;
run;
proccandisc data=out65 out=can65 ;
var x1-x8;
class cluster;
run;
procplot data=can65;
plot can2*can1=cluster;
run;
.1.3.2 实验结果
类平均法的树形图:
2.离差平方和法的树形图
K值法:初始凝聚点见图表
分类结果见图表
分类结果的散点图见图表
.
.1.4 实验体会
由于上次的实验使我对SAS的程序编写和图表分析有了一定的认识,因此这次做实验速度明显提高了许多。不再像上次那样摸不着头脑,在我认真对实验内容了解清楚之后,经过思索与分析能做出点眉目,然后通过对程序的修改和实验运行最终得到结果,心里很高兴。依然佩服作SAS软件的大师,复杂的数据就很清楚的展现在我们面前。但实验中依然有很多问题需要注意,提前预习实验内容很重要能节省上机时间,还有就是对程序要真正弄懂才能以后加以利用。
第二篇:实验报告 聚类分析
多元统计分析实验报告——刘晓丽
实验四 聚类分析
实验要求:
选取一组有实际意义的数据,利用SAS的五种系统聚类方法将n个样本进行分类,要求:
1)说明每一种方法的分类结果;
2)利用主成分分析说明哪一种分类结果更合理。
实验目的:
学会利用SAS语言编写程序以实现聚类分析过程。
实验过程与结果分析:
我们仍对实验一的数据集chengshi(20xx年各省市主要城市建设水平指标年度统计数据)进行聚类分析。
第一步:编写SAS程序。
proc cluster data=chengshi method=single outtree=tree1;
id region;
proc tree data=tree1 horizontal graphics;
id region;
run;
proc cluster data=chengshi method=complete outtree=tree2;
id region;
proc tree data=tree2 horizontal graphics;
id region;
run;
proc cluster data=chengshi method=centroid outtree=tree3;
id region;
proc tree data=tree3 horizontal graphics;
id region;
run;
proc cluster data=chengshi method=average outtree=tree4;
id region;
proc tree data=tree4 horizontal graphics;
id region;
run;
proc cluster data=chengshi method=ward outtree=tree5;
id region;
多元统计分析实验报告——刘晓丽
proc tree data=tree5 horizontal graphics; id region;
run;
第二步: 将数据集提交运行,运行结果见图1-图10;
图1 利用最小距离法所得到的树状分类图
图2 最小距离法的聚类过程
多元统计分析实验报告——刘晓丽
图3 利用最大距离法所得到的树状分类图
图4 最大距离法的聚类过程
多元统计分析实验报告——刘晓丽
图5 利用重心法所得到的树状分类图
图6 重心法的聚类过程
多元统计分析实验报告——刘晓丽
图7 利用平均距离法所得到的树状分类图
图8 平均距离法的聚类过程
多元统计分析实验报告——刘晓丽
图9 利用离差平方和法所得到的树状分类图
图10 离差平方和法的聚类过程
第三步:对输出的结果进行分析。
若将各地区城市建设水平分成三类,由图1可知:最短距离法的聚类结果为北京、天津、上海和山东为一类,西藏自治区为一类,其他地区为一类;由图3可知:最大距离法的聚类结果为北京、天津、上海、山东、河北、辽宁、湖北、新疆、青海、山西、安徽、江西、湖南、陕西和江苏为一类,内蒙古、黑龙江、吉林、重庆、福建、广东、广西、四川、海南、浙江、河南、甘肃、贵州、宁夏和云南为第二类,西藏为第三类;由图5、图7和图9可知:重心法、平均距离法和离差平方和法均与最短距离法的聚类结果相同。
在使用的五种聚类方法中,有两种聚类结果。最后分类的确定需要另外的一些分类信息,如考察一下实验三利用主成分分析进行分类的结果,
最终确定城市建设较完善地区包括北京、
多元统计分析实验报告——刘晓丽
天津、上海、山东,其他除西藏地区外均为中等城市建设水平,西藏地区城市建设水平最差。这个分类结果只是一个初步的结论。因为在这个分类过程中并没有考虑与城市建设密切相关的城市及周边环境和建设资源等其他影响因素。
图2、4、6、8、10给出的是五种系统聚类法的聚类分析过程。