数据分析实验报告

时间:2024.3.20

数据分析课程实验报告

学 院:理学院

专 业:信息与计算科学

班 级:

姓 名:

学 号:

一、实验题目

所做实验属于哪一部分的内容。例如:一元线形回归及其在SPSS中的实现。

二、实验目的

1、加深对聚类分析原理的理解;

2、理解聚类分析中变量聚类的原理;

3、运用SPASS软件解决关于聚类分析方面具体的问题;

三、实验原理

聚类分析也称群分析、点群分析,他是研究分类的一种多元统计方法。 例如,我们可以根据学校的师资、设备、学生的情况,将大学分成一流大学,二流大学等;国家之间根据其发展水平可以划分为发达国家、发展中国家;自然界生物可以分为动物和植物等等。这些就是一些分类。

那么分类根据什么分呢?

聚类分析的基本思想是在样品之间定义距离,在样品之间定义相似系数,距离或相似系数代表样品或者变量之间的相似程度。按相似程度的大小,将样品(或变量)逐一归类,关系密切的类聚集到一个小的分类单位,然后逐步扩大,使得关系疏远的聚合到一个大的分类单位,直到所有的样品(或变量)都聚集完毕,形成一个表示亲疏关系的谱系图,依次按照某些要求对样品(或变量)进行分类。根据分类对象不同分为样品聚类和变量聚类,样品聚类在统计学中又称为https://upload.fanwen118.com/wk-img/img100/3552185_1.jpg型聚类,它是根据被观测的对象的各种特征即反映被观测对象的特征的各变量值进行分类;变量聚类在统计学中有称为https://upload.fanwen118.com/wk-img/img100/3552185_2.jpg型聚类,它反映事物特点的变量有很多,我们往往根据所研究的问题选择部分变量对事物的某一方面进行研究。依据聚类方式的不同我们可以有很多种聚类如:快速聚类法,谱系聚类法等等。

https://upload.fanwen118.com/wk-img/img100/3552185_3.jpg型聚类分析的主要作用是:

1、不但可以了解个别变量之间的关系的亲疏程度,而且可以了解各个变量组合之间的亲疏程度。

2、根据变量的分类结果以及它们之间的关系,可以选择主要变量进行回归分析或https://upload.fanwen118.com/wk-img/img100/3552185_4.jpg型聚类分析。

https://upload.fanwen118.com/wk-img/img100/3552185_5.jpg型聚类分析的优点是:

1、可以综合利用多个变量的信息对样本进行分类;

2、分类结果是直观的,聚类谱系图非常清楚地表现其数值分类结果;

3、聚类分析所得到的结果比传统分类方法更细致、全面、合理。

变量聚类的基本原理

变量聚类在实际中也是广泛应用,一方面,通过变量聚类可以发现某些变量之间的一些共性,以有利于分析问题和解决问题;另一方面,变量聚类也可作为某些数据分析的中间过程,例如,在回归分析中,若涉及的自编来那个很多,则可以先考虑用变量聚类,再在每一类变量中进行主成分分析,选取各类中的某些主成分作为新的自变量,这样不但可以消除变量间的复共线性,而且也可以达到降低自变量维数的目的。

设对https://upload.fanwen118.com/wk-img/img100/3552185_6.jpg个变量https://upload.fanwen118.com/wk-img/img100/3552185_7.jpg个观测了https://upload.fanwen118.com/wk-img/img100/3552185_8.jpg次,得到的观测数据向量为变量的观测向量https://upload.fanwen118.com/wk-img/img100/3552185_9.jpghttps://upload.fanwen118.com/wk-img/img100/3552185_10.jpg间的相似性可以用相似系数度量。设https://upload.fanwen118.com/wk-img/img100/3552185_11.jpghttps://upload.fanwen118.com/wk-img/img100/3552185_12.jpghttps://upload.fanwen118.com/wk-img/img100/3552185_13.jpghttps://upload.fanwen118.com/wk-img/img100/3552185_14.jpghttps://upload.fanwen118.com/wk-img/img100/3552185_15.jpg的相似系数是https://upload.fanwen118.com/wk-img/img100/3552185_16.jpg显见,https://upload.fanwen118.com/wk-img/img100/3552185_17.jpg若将https://upload.fanwen118.com/wk-img/img100/3552185_18.jpghttps://upload.fanwen118.com/wk-img/img100/3552185_19.jpg看作https://upload.fanwen118.com/wk-img/img100/3552185_20.jpg维空间向量,则https://upload.fanwen118.com/wk-img/img100/3552185_21.jpg是它们的夹角余弦。变量观测向量https://upload.fanwen118.com/wk-img/img100/3552185_22.jpg两两间的相似系数构成相似系数矩阵 https://upload.fanwen118.com/wk-img/img100/3552185_23.jpg

显然,对于标准化数据,https://upload.fanwen118.com/wk-img/img100/3552185_24.jpg即原观察数据的相关系数矩阵,这时https://upload.fanwen118.com/wk-img/img100/3552185_1.jpg的大小反应了两个变量https://upload.fanwen118.com/wk-img/img100/3552185_26.jpghttps://upload.fanwen118.com/wk-img/img100/3552185_27.jpg线性关系的强弱。

https://upload.fanwen118.com/wk-img/img100/3552185_28.jpg出发,关于变量的谱系聚类过程与从距离矩阵出发,关于样品的谱系聚类过程类似,只是由于https://upload.fanwen118.com/wk-img/img100/3552185_29.jpg越大,表明https://upload.fanwen118.com/wk-img/img100/3552185_30.jpghttps://upload.fanwen118.com/wk-img/img100/3552185_31.jpg越相似,因此,每次应选取相似矩阵或更新的相似矩阵中主对角线以外的最大元素所对应的两个变量或两个类合并。类与类之间的相似性度量可类似于前述的定义。需要指出的是,在https://upload.fanwen118.com/wk-img/img100/3552185_32.jpg系统的https://upload.fanwen118.com/wk-img/img100/3552185_33.jpghttps://upload.fanwen118.com/wk-img/img100/3552185_34.jpg过程中,总是从不相似度量的距离矩阵出发进行巨雷,因此看,若利用此过程对变量聚类,应先将相似矩阵https://upload.fanwen118.com/wk-img/img100/3552185_35.jpg变化为不相似度量的距离矩阵https://upload.fanwen118.com/wk-img/img100/3552185_36.jpg,再从出https://upload.fanwen118.com/wk-img/img100/3552185_37.jpg发,按照样品的谱系聚类法对变量角力。通常的变换有https://upload.fanwen118.com/wk-img/img100/3552185_38.jpg 或 https://upload.fanwen118.com/wk-img/img100/3552185_39.jpg, https://upload.fanwen118.com/wk-img/img100/3552185_40.jpghttps://upload.fanwen118.com/wk-img/img100/3552185_41.jpg为相关系数矩阵,且我们一变量的线性关系强弱作为相似性的度量,这时可令https://upload.fanwen118.com/wk-img/img100/3552185_42.jpg https://upload.fanwen118.com/wk-img/img100/3552185_43.jpg.

样品间的距离

1、距离定义:设满足下面的三个条件

(1)https://upload.fanwen118.com/wk-img/img100/3552185_44.jpghttps://upload.fanwen118.com/wk-img/img100/3552185_45.jpg当且仅当https://upload.fanwen118.com/wk-img/img100/3552185_46.jpg时;

(2)https://upload.fanwen118.com/wk-img/img100/3552185_47.jpg

(3)https://upload.fanwen118.com/wk-img/img100/3552185_48.jpg

距离定义有很多种,常见的有:

(1)欧氏距离(Euclidean distance)

https://upload.fanwen118.com/wk-img/img100/3552185_49.jpghttps://upload.fanwen118.com/wk-img/img100/3552185_50.jpg

(2)绝对距离(Block距离)

https://upload.fanwen118.com/wk-img/img100/3552185_51.jpg

(3)切比雪夫距离(Chebychev)

https://upload.fanwen118.com/wk-img/img100/3552185_52.jpg

2、我们主要用到快速聚类,因此我们讲述一下快速聚类的步骤:

(1)选择聚点,得到初始聚点的集合,可以假定聚类中采用距离是欧氏距离,即上面的式子。

(2)按照如果某一个点到该聚点的距离比到其他聚点的距离小,就把该点分为该聚点的类的原则,实现对所有点的初始划分,得到初始类:

https://upload.fanwen118.com/wk-img/img100/3552185_53.jpg https://upload.fanwen118.com/wk-img/img100/3552185_54.jpg

(3)从https://upload.fanwen118.com/wk-img/img100/3552185_55.jpghttps://upload.fanwen118.com/wk-img/img100/3552185_56.jpg出发,计算新的聚点集合https://upload.fanwen118.com/wk-img/img100/3552185_57.jpghttps://upload.fanwen118.com/wk-img/img100/3552185_58.jpg的重心为新的聚点

https://upload.fanwen118.com/wk-img/img100/3552185_59.jpg

其中https://upload.fanwen118.com/wk-img/img100/3552185_60.jpg是类https://upload.fanwen118.com/wk-img/img100/3552185_61.jpg中的样品数,这样得到新的聚点集合:

https://upload.fanwen118.com/wk-img/img100/3552185_62.jpg

https://upload.fanwen118.com/wk-img/img100/3552185_63.jpg出发,将样品进行新的分类。记

https://upload.fanwen118.com/wk-img/img100/3552185_64.jpg

这样依次计算下去

(4)设在第https://upload.fanwen118.com/wk-img/img100/3552185_65.jpg步得到分类

https://upload.fanwen118.com/wk-img/img100/3552185_66.jpg

在以上的递推过程中,https://upload.fanwen118.com/wk-img/img100/3552185_67.jpg是类https://upload.fanwen118.com/wk-img/img100/3552185_68.jpg的重心,但是其不一定是样品,又一般不是下一聚类的重心,但是当https://upload.fanwen118.com/wk-img/img100/3552185_69.jpg逐渐增大时,分类趋于稳定此时有https://upload.fanwen118.com/wk-img/img100/3552185_70.jpg就会近似为https://upload.fanwen118.com/wk-img/img100/3552185_71.jpg的重心,从而https://upload.fanwen118.com/wk-img/img100/3552185_72.jpghttps://upload.fanwen118.com/wk-img/img100/3552185_73.jpghttps://upload.fanwen118.com/wk-img/img100/3552185_74.jpg,算法即可结束,实际计算时候若相邻的两次迭代使得分类相同,则计算即告结束。

一般情况下,我们也可以设置收敛准则为当聚点改变的最大距离小于或等于初始聚点之间的最小距离乘以给定的某个数值https://upload.fanwen118.com/wk-img/img100/3552185_75.jpg时,计算过程结束。

四、实验内容

例题.

我们以20##年31个省,市,自治区的城镇居民月平均消费支出数据为例,在spss中利用K-均值法对31个省市自治区的城镇居民消费水平进行聚类分析。

城镇居民消费水平通常用表9.13中的八项指标来描述,八项指标间存在一定的线性相关。为研究城镇居民的消费结构,需将相关性强的指标归并到一起,这实际就是对指标聚类。原始数据列于表9.13。

表9.13 20##年31个省、市、自治区城镇居民月平均消费数据

五、实验步骤

在spss中依次点击“analyze,classify,k-means cluster”,打开k-means cluster analysis对话框,将8个变量选入variable框中,将表示地区的变量选入label cases by 栏中,将分类数定为3.另外,点击iterate按钮可以在其中输入最大迭代次数和收敛标准;在save中按钮中可以选择保存样本的聚类结果和各样本距各自中心点的距离。过程如下:

1.打开k-means cluster analysis对话框。https://upload.fanwen118.com/wk-img/img100/3552185_76.jpg

2. 将8个变量选入variable框中https://upload.fanwen118.com/wk-img/img100/3552185_77.jpg

3.选择最大迭代次数

https://upload.fanwen118.com/wk-img/img100/3552185_78.jpg

https://upload.fanwen118.com/wk-img/img100/3552185_79.jpg

4.输出结果

https://upload.fanwen118.com/wk-img/img100/3552185_80.jpg

https://upload.fanwen118.com/wk-img/img100/3552185_81.jpghttps://upload.fanwen118.com/wk-img/img100/3552185_82.jpg

六、实验结果与分析

其中第一个表显示了3个类的初始类中心情况,可以看出,第一类的各指标值总体上是最优的,往下依次为第二类和第三类。第二个表展示了3个类中心点每次迭代的偏移情况,可知第一次迭代3个类中心点分别偏移了42.593,416,66.676,直到第三一迭代3个类的中心点偏移才达到指定判定标准(0)。第三个表展示了3个类的最终类中心情况,总体来看,第一类各指标值仍是最优的。最后一个表给出了各类中的样品数目,第一类包括4个地区,第二类包括6个地区,第三类包括21个地区。

更多相关推荐:
有关实验报告的书写格式

有关实验报告的书写格式江苏省泗阳县李口中学沈正中一、完整实验报告的书写完整的一份实验报告一般包括以下项目:实验名称:实验目的:实验器材:实验原理:实验步骤:实验数据记录(表格)及处理:实验结论(结果推导):实验…

实验报告(实验步骤、评分标准)

实验报告实验步骤评分标准实验A探究化学变化过程中常伴随的现象实验仪器酒精灯坩埚钳石棉网镊子试管胶头滴管烧杯废液缸1打开细口瓶用量筒胶头滴管准确量取3ml蒸馏水2将量取的3ml食盐水倒入试管中3夹持试管给食盐水加...

网页制作实验报告完成步骤

《网页与Web程序设计》实验报告年级:20xx级(必修)学号:20xx姓名:专业:一、实验题目分析或参考给定的“网站设计实例”,设计一个自选题材的网站。说明:1.自行设计的网站可以只包含静态网页(.htm),也…

程序实验报告

程序设计基础实验报告实验一面向过程的简单程序设计1实验目的掌握C语言的数据类型包括对各种数据类型变量的定义初始化赋值等运算符和表达式的使用掌握赋值语句的使用掌握数据的输入输出方法2实验设备VisualC6013...

过程控制实验报告

实验报告课程名称过程控制检测仪表学生学院自动化学院专业班级电气信息类创新实验班姓名学号指导教师朱燕飞20xx年12月20日1实验一单回路控制系统实验实验项目名称单容液位定值控制系统实验项目性质综合型实验所属课程...

过程控制实验报告

过程控制实验姓名高鹏班级09自动化学号0953505028I实验项目实验一单容水箱对象特性的了解和测试实验二单回路控制系统的参数整定实验三串级控制系统的参数整定实验装置简介过程控制课程实验的试验装置是用THKG...

过程控制实验报告.doc

实验报告专业自动化姓名学号实验一计算机控制系统实验一实验目的1了解计算机控制系统的基本构成2掌握本装置计算机实时监控软件的使用3熟悉计算机控制算法4掌握计算机控制的参数整定方法二实验设备1THKGK1过程控制实...

建筑物理实验报告(步骤及测量数据)

建筑热工部分实验一室内外热环境参数的测定一实验目的与内容通过实验使学生了解室内外热环境参数测定的基本内容初步掌握常用仪器仪表的性能和使用方法明确各项测定应达到的目的室内外热环境参数的测定共有三个部分的内容一温度...

实验报告

楚雄师范学院实验报告课程名称推销学任课老师杨佩珍班级08市场营销学号姓名教室东403学期20xx20xx第一学期经济信息管理及计算机应用系1实验报告说明此为正面的反面1实验项目名称要用最简练的语言反映实验的内容...

实验报告-各种排序方法及其实现

计算机学院实验报告专用纸实验室网络实验室机号网38实验日期20xx年6月25日1计算机学院实验报告附页2计算机学院实验报告附页3计算机学院实验报告附页4计算机学院实验报告附页5计算机学院实验报告附页6计算机学院...

数据库实验报告过程

数据库实验报告实验五实验题目过程指导老师李萍专业班级计算机科学与技术系1001班姓名刘萌20xx10015520xx年12月1日实验类型验证实验室软件实验室一一实验题目1过程二实验目的和要求掌握用户存储过程的创...

华工操作系统实验3实验报告及实验步骤详解

华南理工大学操作系统课程实验报告

实验报告步骤(31篇)