实验三聚类分析与判别分析

时间:2024.4.5

广东金融学院实验报告

课程名称: 《数据分析与SAS实验》

附录:

实验步骤和程序:

1.下载大盘成长、大盘价值、中盘成长、中盘价值、小盘成长、小盘价值数据,并在SAS软件里纵向合并,程序如下:

data hi;

set a b c d e f;

run;

2.对数据预处理,程序如下:

procaceclus data=Hi out=ace p=0.03 noprint;

var a1-a17;

run;

3.聚类分析,程序如下:(图1)

proccluster data=ace outtree=Tree method =ward

ccc pseudo print=15;

var can1 can2 can3 can4 can5 can6 can7 can8 can9 can10 can11 can12 can13 can14 can15 can16 can17;

id num;

4.做谱系聚类图,程序如下:(图2)

proctree data=Tree out=new n=5 graphics haxis=axis1 horizontal;

height _rsq_;

copy can1 can2 can3 can4 can5 can6 can7 can8 can9 can10 can11 can12 can13 can14 can15 can16 can17;

id num;

run;

5.把聚类结果用散点图显示,程序如下:(图3)

procgplot data=new;

plot can2*can1=cluster/haxis=-10 to 100 by 5vaxis=-20 to 100 by 1;

run;

6.逐步判别,程序如下:(图4)

procstepdisc data=new;

class cluster;

run;

7.判别分析,程序如下:(图5)

procdiscrim data=new outstat=newstat method=normal pool=yes list

crossvalidate;

class cluster;

priors proportional;

var can1 can2 can3 can4 can6 can7 can8 can10 can12 can14 can15 can16;

run;


第二篇:实验三、聚类分析


实验三、聚类分析

一、  实验目的及要求

掌握利用SPSS 10.0软件进行分类分析的基本操作方法,理解SPSS 10.0软件给出的分析结果。

二、  实验内容

了解SPSS 10.0软件中Statistics菜单的Classify子菜单的主要功能;利用SPSS 10.0软件进行系统聚类分析。

三、  实验仪器、设备及材料

硬件环境:PC

软件环境:操作系统 Windows 系列

                 SPSS 10.0

四、  实验原理

计量地理学中关于地理数据聚类分析和判别分析的基本理论及SPSS 10.0软件操作指南。

五、  实验步骤

SPSS的分类分析功能被集中在Statistics菜单的Classify子菜单中。其中:K-Means Cluster过程可完成由用户指定类别数的大样本资料的逐步聚类分析;Hierarchical Cluster过程可完成系统聚类分析;Discriminant过程可完成判别分析。

这里主要训练Hierarchical Cluster过程的操作。

实例:我国各地区三次产业产值如所示,试根据三次产业产值进行聚类分析。

SPSS 操作步骤如下:

(1)在SPSS中录入数据。

(2)选择[Statistics]=>[Classify]=>[Hierarchical Cluster],打开系统聚类对话框。

(3)把变量X1、X2、X3 选入[Variable]框,把变量region 选入[Label Cases],系统默认为样品聚类。

(4)单击[Statistics]按钮选择要输出的统计量,统计量对话框中各选项如下:

Agglomeration schedule(凝聚状态表):显示聚类过程的每一步合并的类或样品、被合并的类或样品之间的距离以及样品或变量加入到一类的类水平。

Proximity matrix(相似矩阵):给出各类之间的距离或相似测度值。

Cluster Membership(类成员):显示每个样品被分配到的类或显示若干步凝聚过程。具体内容有三个选项: None为不显示类成员表,是默认值; Single solution为要求列出聚为一定类数的各样品所属的类;Range of solutions为要求列出某个范围中每一步各样品所属的类。

这里均使用默认设置。

(5)单击[Plots]按钮选择统计图表,统计图表对话框各选项如下:

Dendrogram(树形图):树形图表明每一步中被合并的类及其系数值,把各类之间的距离转换成1 至25 之间的数值。

Icicle(冰柱图):冰柱图把聚类信息综合到一张图上。纵向冰柱图(Vertical):参与聚类的个体各占一列,标以样品(或变量)号或标签;聚类过程中的每一步占一行,标以步的顺序号。横向冰柱图(Honrizontal):参与聚类的样品(或变量)各占一行,聚类的每一步各占一列。如果不加限定的选择项,则显示聚类的全过程。

这里仅选择树形图,其它选项不变

(6)单击[Method]按钮选择聚类方法,其对话框中各选项如下:

Cluster:聚类方法选择

Measure:对距离和相似系数的不同测量方法

Transform Values:转换数值的方法,标准化方法。

(注:如果参与聚类的变量的量纲不同会导致错误的聚类结果。在聚类之前必须先标准化数据,以消除量纲的影响。如果参与聚类的变量量纲相同,可以使用系统默认值None,即不进行标准化处理。标准化处理方法有: Z scores:把数值减去均值后再除以其标准差;Range -1 to 1:标准化到-1 到+1 之间; Range 0 to 1:标准化到0 到1 之间; Maximum magnitude of 1:标准化到最大值为1; Mean of 1:标准化在一个均值范围内; Standard deviation of 1:标准化到单位标准差。)

Transform Measures:测度的转换方法。其中:Absolute Values为把距离值标准化; Change sign为把相似性值变为不相似值,或相反; Rescale to 0~1 range为首先去掉最小值然后除以范围把距离标准化。对于已经按某种换算方法标准化了的测度一般不再使用此方法进行转换。

这里全部使用默认选项。

(7)单击[SAVE]按钮,显示保存新变量对话框,选项如下:

这里使用默认选项。

(8)设置完各种选项后,单击[OK]钮,输出聚类结果。

注:这里省略了聚类谱系图,实验中要求输出聚类谱系图并进行分类。

六、  实验报告要求

内容要求:(1)实验时间和实验地点;(2)实验操作过程归纳;(3)参照理论知识对聚类分析输出结果进行解释。

七、  实验注意事项

遵守实验室管理规范和计算机操作规范。

八、  思考题目

选择合适的距离对所给样本进行聚类,利用相关理论知识进行解释,并思考:如果距离选择不同,对聚类结果会有什么影响。

更多相关推荐:
聚类分析实验报告

应用多元统计分析实验报告聚类分析专业数学与应用数学班级0901姓名杨明雪学号540910020xx5应用多元统计分析实验报告实验2聚类分析11实验名称聚类分析12实验目的通过本实验掌握使用SAS进行聚类分析13...

聚类分析实验报告 SPSS

一实验目的及要求1目的用SPSS软件实现聚类分析及其应用2内容及要求用SPSS对实验数据运用系统聚类法和K均值聚类法进行分析二仪器用具三实验方法与步骤准备工作把实验所用数据从Word文档复制到Excel并进一步...

聚类分析实验报告

应用多元统计分析课程实验报告实验名称用聚类分析的方法研究山东省17个市的产业类型的差异化学生班级统计0901学生姓名贾绪顺杜春霖陈维民张鹏指导老师张艳丽完成日期20xx1212一实验内容根据聚类分析的原理使用系...

聚类分析实验报告

江西财经大学实验实训报告项目名称实验3聚类分析所属课程名称多元统计分析项目类型设计性实验实验实训日期20xx年5月15日班级学号0082698姓名蒋青青指导教师朱永军

SPSS的聚类分析实验报告

实验报告

对数据进行聚类分析实验报告

对数据进行聚类分析实验报告1方法背景聚类分析又称群分析是多元统计分析中研究样本或指标的一种主要的分类方法在古老的分类学中人们主要靠经验和专业知识很少利用数学方法随着生产技术和科学的发展分类越来越细以致有时仅凭经...

模糊聚类分析实验报告

实验报告一一实验内容模糊聚类在土地利用分区中的应用二实验目的本次上机实习主要以指导学生掌握如何应用模糊聚类方法进行土地利用规划分区为目标三实验方法本次试验是在Excel中实现利用土地利用规划学P114页数据使用...

基于weka的数据分类和聚类分析实验报告

数据挖掘实验报告基于weka的数据分类分析实验报告1实验基本内容本实验的基本内容是通过使用weka中的三种常见分类和聚类方法决策树J48KNN和kmeans分别在训练数据上训练出分类模型并使用校验数据对各个模型...

数据挖掘报告,聚类分析 kmeans算法

数据挖掘实验报告班级姓名学号1数据来源描述本次数据挖掘实验的数据源来自加州大学计算机与信息院是用于合成控制图时间序列聚类分析的一组数据数据集中一共包含600组数据每一组数据都有60个分量也就是数据是60维的数据...

使用wireshark进行协议分析实验报告

1深圳大学实验报告实验课程名称计算机网络实验项目名称学院计算机与软件学院专业计算机科学与技术报告人同组人指导教师实验时间实验报告提交时间教务处制2一实验目的与要求学习使用网络数据抓包软件学习使用网络数据抓包软件...

信息分析工具实验报告spss

课程实验报告123

现代实验分析报告

水泥中MgOCaOAl2O3Fe2O3含量的测定一实验目的1学习复杂物质分析的方法2掌握尿素均匀沉淀法二实验原理本实验采用硅酸盐水泥一般较易为酸所分解试样经HCl溶液分解HNO3氧化后用均匀沉淀法使FeOH3A...

聚类分析实验报告(31篇)