第一章 地理空间数据分析与GIS
1.地理空间数据处理与建模
地理空间数据分析是:(地理学和地理信息科学领域),它通过研究地理空间数据及其相应分析理论、方法和技术,探索、证明地理要素之间的关系,揭示地理特征和过程的内在规律和机理,实现对地理空间信息的认知、解释、预测和调控。
2.1地理空间数据挖掘概述
可以分为序列模式发现、依赖关系发现、异常值分析和趋势发现等。 地理空间数据挖掘系统包括三大支柱模块:地理空间数据立方体、联机分析处理(OLAP)模块和空间数据挖掘模块.
2.2地理空间数据挖掘典型方法:
⑴地理空间统计方法:分析地理空间数据的统计方法,主要是基于空间中邻近的要素通常比相离较远的要素具有较高的相似性这一原理。
ⅰ.与传统分析有两大差异:①空间数据间并非独立,而是在多维空间中具有某种空间相关性,且在不同的空间分辨率下呈现不同的相关程度;②大多数空间问题仅有一组(不规则分布空间中)观测值,而无重复观测的资料。
ⅱ.地理空间统计模型大致可分为三类:①地统计;是以区域化变量理论为基础,以变差函数为主要工具,研究空间分布上既具有随机性又具有结构性的自然现象的科学。 根据离散数据生成连续表面,通过空间自相关进行空间预测。②格网空间模型:用以描述分布于有限(或无穷离散)空间点(或区域)上数据的空间关系。③空间点分布形态:在自然科学研究中,许多资料是由点(或小区域)所构成的集合。由于形成机制不同,空间点分布形态具有随机、丛聚或规则等不同类型。
⑵地理空间聚类方法:地理空间数据聚类是按照某种距离度量准则,在大型、多维数据集中标识出聚类或稠密分布的区域,从而发现数据集的整体空间分布模式。该方法把空间数据库中的对象分为有意义的子类,使同一子类内部的成员有尽可能多的相同属性,而不同的子类之间差异较大。
⑶地理空间关联分析:地理空间关联分析利用空间关联规则提取算法发现空间数据库中空间目标间的关联程度.GIS数据库是典型的空间数据库,从GIS数据库中挖掘空间关联规则是理解GIS模型和将GIS数据转化成知识的一种有效方法。 关联的规则包括:相邻,相连, 共生,包含.表示空间对象之间的拓扑关系、空间方位、排列次序以及距离信息. ⑷地理空间分类与预测分析:根据已知的分类模型把数据库中的数据映射到给定类别中,进行数据趋势预测分析的方法。预测是利用历史数据记录自动推导出对给定数据的推广描述,实现对未来数据的趋势分析。
ⅰ.分类和聚类算法的差别在于:①聚类算法是根据一定要求将对象聚为一个集合,最后得到的分布模式是聚类之前未确知的;②分类算法则是根据已知分布模式的属性要求,将数据库对象归入相应的分类中。
ⅱ.分类和回归都可用于预测,空间回归规则与空间分类规则相似,也是一种分类器,其差别在于空间分类规则的预测值是离散的,空间回归规则的预测值是连续的。 ⑸异常值分析:若一个数据库包含的数据目标与通常的行为或数据模型不一致,则这些数据目标被称为异常值。绝大多数数据挖掘方法把异常值作为噪音或例外数据,然而,在很多情况下这将会导致重要隐含信息的丢失。 基于计算机的异常值分析方法主要有三种:基于统计的异常值分析;基于距离的异常值探测;基于偏差的异常值探测。
3.1空间分析:是集空间数据分析和空间模拟于一体的技术方法,通过地理计算和空间表 - 1 -
达挖掘潜在空间信息,以解决实际问题。
ⅰ.空间分析的本质特征包括:探测模式;研究关系并建立模型;提高适合于所有观察模式处理过程的理解;改进预测和控制能力。空间分析的研究对象:空间分析主要通过对空间数据和空间模型的联合分析来挖掘空间目标的潜在信息。空间分析研究的主要目标有:认知。解释.预报.调控.
ⅱ.GIS环境下空间分析框架:一类是基于点、线、面基本地理要素的空间分析,通过空间信息查询与量测、缓冲区分析、叠置分析、网络分析、地统计分析等空间分析方法挖掘出新的信息;另一类是地理问题模拟,解决应用领域对空间数据处理与输出的特殊要求,地理实体和空间关系通过专业模型得到简化和抽象,而系统则通过模型进行深入分析操作。 ⅲ.GIS环境下空间分析方法分为如下六个方面:
①确定性空间分析:分析处理确定性空间数据或解决确定性空间问题的方法,它是高级空间分析的基础。算法基本上是基于经典数学方法建模的
②探索性空间数据分析:(Exploratory Spatial Data Analysis,ESDA)是利用统计学原理和图形图表相结合对空间数据的性质进行分析、鉴别,用以引导确定性模型的结构和解法的一种技术,本质上是一种“数据驱动”的分析方法。研究数据的空间相关性与空间异质性,在知识发现中用于选取感兴趣的数据子集,以发现隐含在数据中的某些特征和规律。
相对于传统的统计分析而言,ESDA技术不是预设数据具有某种分布或某种规律,而是一步步地、试探性地分析数据,逐步地认识和理解数据。EIL:探索性归纳学习方法=数据聚焦EDA+数据泛化AOIL+Rough集
③时空数据分析:挖掘系统沿时间变化的规律。数据结构、数据操作和完整性约束三部分组成。目前,较典型的时空数据模型概括起来有以下四种:(1)把时间作为新的维数;
(2)面向对象建模;(3)将时间作为属性附加项;(4)基于状态和变化建模。
④专业模型集成分析:
⑤智能化的空间分析:可以兼容大规模现实世界问题中的不精确性和不确定性,能够达到易加工、鲁棒性、可编程、低成本、快速和精确(与人类操作接近)处理空间数据的目的。 智能化空间分析方法经历了从决策树、基于知识的专家系统到基于智能计算的分析方法的发展历程。
⑥可视化空间分析:分析空间对象的空间分布规律,进行空间对象的空间性质计算,表现数据的内在复杂结构、关系和规律。目前,可视化空间分析已由静态空间关系的可视化发展到动态表示系统演变过程的可视化 .
第二章 GIS空间分析基础
1.空间分析地理对象的空间位置、空间形态、空间格局、空间关系等特征信息需要通过空间坐标系统、空间尺度、空间数据结构和空间数据模型等来表达与描述,地理空间问题需要通过空间计算、空间推理等方法来获取与求解。
2.ⅰ.空间:是一个复杂的概念,具有多义性,既有与时间对应的含义,也有“宇宙空间”的含义。
ⅱ.欧氏空间:是对物理空间的一种数学理解与表达,是GIS中常用的一种重要空间。欧式空间擅长平面二维空间目标的空间方位、规模的表达 。
欧氏平面的基本变换类型为:①全等变换:形状和尺寸;②相似变换:形状; ③仿射变换:相似性;④投影变换:投影性质。⑤拓扑变换:拓扑特征.
ⅲ.拓扑空间是另一种理解和描述物理空间的数学方法,也是GIS中常用的重要数学空间。而拓扑空间则是描述空间目标宏观分布或目标之间相互关系的有效方法 。
拓扑关系(Topological Relation)是不考虑距离和方向的空间目标之间的关系。包括: - 2 -
相邻;邻接;关联;包含.
在拓扑空间中,欧氏平面可以想象成由理想弹性模型做成的平面,它可以任意延伸和收缩,但不允许折叠和撕裂。
若空间目标间的关联、相邻与连通等几何属性不随空间目标的平移、旋转、缩放等变换而改变,这些保持不变的性质称为拓扑属性,变化的称为非拓扑属性。
3.地理空间是指物质、能量、信息的存在形式在形态、结构、过程、功能关系上的分布方式、格局及其在时间上的延续。它是上至大气电离层,下至地幔莫霍面的区域内物质与能量发生转化的时空载体,是宇宙过程对地球影响最大的区域,它被定义为具有空间参考信息的地理实体或地理现象发生的时空位置集。
绝对空间(属性描述的空间几何位置的集合, 由一系列不同位置的空间坐标组成 )和相对空间两种形式(具有空间属性特征的实体集合, 由不同实体之间的空间关系构成 ).
4.地理网格系统是一种以平面子集的规则分级剖分为基础的空间数据结构,具有较高的标准化程度。它能由粗到细、逐级地分割地球表面,将地球曲面用一定大小的多边形网格进行近似模拟,再现地球表面,其目的是将地理空间的定位和地理特征的描述一体化,并将误差控制在网格单元的大小范围内。
ⅰ.地理网格既可以类似于栅格数据用最小单元网格来表达空间对象,还可以像矢量数据那样用网格点代替传统的坐标点对来表达空间实体的几何特征,因此出现了两种类型的地理网格。一类是用于存储区域信息的网格系统(区域网格系统),另一类是用于存储位置信息的网格系统(位置网格系统).
ⅱ.地理坐标网格系统也存在明显的缺陷:
*由于网格单元面积不等造成统计分析的复杂性;
*网格的面积变形、形状变形以及内点位置误差由赤道向南北极逐渐递增;
*网格系统的最顶端和最底端的网格形状实际上并不是显示在平面上的方形而是三角形; *地理坐标网格系统的方形网格单元具有复杂的邻接特性,每一个格网都有四个与之共边的、且中心点等距的邻接四边形,同时它还有四个与之共顶点的、且与中心点不等距的四个邻接四边形,这种复杂的邻接关系不利于模拟应用。
5.地理空间数据特征:多尺度\多维结构\时空特征\不确定性\海量性
6.空间分布与格局 :地理对象通常可以抽象为点目标、线目标、面目标三类
? 空间分布分析
*通常采用分布密度、均值、分布中心(几何中心、分布重心)、离散度、空间集聚度以及粗糙度等指标进行空间分布格局的描述;
*通过空间分布检验来确定地理对象的聚集、分散、均匀、随机等分布类型;
*用空间聚类分析方法反映分布的多中心特征并确定这些中心;
*通过趋势面分析反映现象的空间分布趋势等。
7.资源配置是在资源总量不足的背景条件下,将有限的资源重新进行时空分配,使稀缺的资源的功效最大化,从而保证社会经济和生态效益最优化。
8.空间关系与影响:空间关系包括:距离、方向、连通、拓扑
空间相互影响:利用状态变量和影响因素之间的关系类比建立数学模型,并用实测数据回归获得参数,然后进行分析预测。它一般应用于社会经济领域的问题.空间关系分析的必要性:略
9.空间动态与过程: *时空数据的分类和时间量测 *基于时间的平滑和综合 *变化的统计分析、时空叠加 *时间序列分析以及预测分析
- 3 -
第三章 空间量测与计算
空间量测与计算是指对GIS数据库中各种空间目标的基本参数进行量算与分析,如空间目标的位置、距离、周长、面积、体积、曲率、空间形态以及空间分布等。
ⅰ.维度:0维、1维、2维、3维、分数维存在;3维和4维,即2维+时间维和3维+时间维的形式存在。空间维的划分还存在高维空间,但在GIS空间量测中只考虑与空间量测关系密切的0维、1维、2维、3维、4维以及分数维。(不同空间维之间的转化主要取决于用户根据不同的需要所确定的空间尺度,有时也受制于技术条件和客观条件) ⅱ.比例尺:决定了空间数据的密度、空间坐标的精确有效位和相应影像数据的空间分辨率,空间维。比例尺越大,其所承载的空间信息越多,在进行空间量测时所能够量测的信息也就越多,所得到的量测值越精确。
ⅲ.属性数据:在GIS中,属性数据是指与空间位置无直接关系的特征数据,它是与地理实体相联系、经过抽象的地理变量,通常可将其分为定性和定量两种形式。
①定性属性数据包括名称、类型、种类等用以表述空间实体性质方面的特征,多用字符、符号表示;②定量属性数据包括数量、等级等用以表述空间实体数量方面的特征,多用数字形式表示。字符形式的属性类别数据采用逻辑关系处理,而数字形式的属性数字数据通常采用数学关系处理。 ③属性数据的量测尺度由粗略至详细大致可分为命名量、次序量(不同次序之间的间隔大小可以不同)、间隔量(不参照某个固定点,按间隔表示相对位置)及比率量(有真零值而且量测单位间隔相等的数据,可加、减、乘、除)等四个层次。 ④命名量、次序量、间隔量、比率量的区别和联系
(1)数据量测尺度的差别不是事物本质的差异,而是人们对事物观察角度的差异。数据从不同的侧面反映了事物的本质,由于“侧面”的不同,数据的量测尺度会有所不同。简单地说,土壤按土质好坏可以统计为土地等级资料,即为次序量尺度,也可以按土壤的结构和成分统计为土壤类型资料,即为命名量尺度。
(2)属性数据的不同量测尺度之间可以转化。根据现实需要可以将一组统计好的数据进行量测尺度转化,这种转化只能按比率量→次序量→间隔量→命名量方向进行,因为从命名量到比率量描述事物的能力越来越强,越来越精确。
比率尺度数据如果不考虑可计算操作性,就成为间隔尺度数据,间隔尺度数据经过分级处理就成为次序尺度数据,而次序尺度数据不考虑其“序”就是命名量尺度数据,这个转换过程中,信息的丢失和“忽略”是必然的,因此其逆向变换是不可能的,但通过间接方法,如分布密度、面积比等可以实现定性变量的定量化。
3.2 (位置、中心、重心、长度、面积、体积和曲率) ⅰ.位置:在矢量数据结构中,由于其位置直接由坐标点来表示,所以位置是明显的,但属性是隐含的;在栅格数据结构中,每一个位置点都表现为一个单元(Cell或Pixel),属性是明显的,而位置是隐含的。 点\线\面(线目标表示)\体(面和线目标表示) 绝对位置:以经纬网为参照确定的位置可以说是一种绝对位置。通常利用角度量测系统,另外,一个参照点或坐标系中坐标原点确定的位置. 相对位置:…..
位置精度是指数据集(如地图)中物体的地理位置与其真实地面位置之间的差别. ⅱ.中心测量:空间量测的中心多指几何中心
ⅲ.重心测量:是描述地理对象空间分布的一个重要指标。从重心移动的轨迹可以得到空间目标的变化情况和变化速度。重心量测经常用于宏观经济分析和市场区位选择,
- 4 -
ⅳ.长度测量:距离量测:最短、最大、重心距离。
距离实际情况:函数距离(棋盘距离、曼哈顿) 曼哈顿距离的度量性质与欧氏距离相似,都保持对称性和三角不等式成立;两者不同的是,在讨论空间邻近性时,不同点间距离的排序有很大差异。当坐标轴变动时,点对之间的距离就会不同,因此曼哈顿距离只适用于讨论具有规则布局的城市街道等相关问题。
*若障碍物对空间目标物产生的阻抗值小于某一临界值,则为相对障碍物;若障碍物的阻抗值大于或等于这一特征值,则空间目标物的运动被完全阻止,障碍物变为绝对障碍物。
ⅴ.面积量测:多边形边界分解为上下两半,其面积是上半边界下的积分值与下半边界下的积分值之差。
将三维曲面投影到二维平面上,计算其在平面上的投影面积。
ⅵ.体积量测:在对地形数据处理时,当体积为正时,工程上称之为“挖方”;体积为负时,称之为“填方”---以基准面积(三角形或正方形等)乘以格网点曲面高度的均值,得到基本格网的体积,各个基本格网的体积累积之和就是区域总体积
3.3地理空间目标形态量测
1.线状地物 :绝对和非绝对线状。直线和曲线两种;面状。
2.空间完整性是空洞区域内空洞数量的度量,通常使用欧拉
函数量测。欧拉函数是关于碎片程度及空洞数量的一个数值
量测法。
3.4 空间分布计算与分析 空间分布的研究内容主要有两个方面: 分布对象和分布区域
1.点模式的空间分布
点模式的描述参数有分布密度、分布中心、分布轴线、离散度、样方分析、最近邻分析等 ①分布密度:分子为分布对象的计量,分母为分布区域的计量。均一(规则)、随机和簇状。 *如果每个均一的样方包含相同数量的点对象,则整个研究区分布具有均一性,这种检验分布性的标准型方法称为样方分析。 --将观测得到的频率分布和已知的频率分布或理论上的随机分布作比较,判断点模式的分布类型。
*QA对分布模式判别产生影响的主要因素有:样方的形状,采样的方式,样方的起点,大小等,这些因素都会影响到点的观测频次和分布。
*最邻近分析:先测出每点与其最近点间的距离,然后将量
测值与所测距离的均值进行比较。这种统计方法仅涉及计算
每对最近点间距离的平均值,平均最近邻距离提供了空间分布中点之间距离的量度或点之间的距离指数。最邻近距离法:最邻NNI近指数测度: 检验最邻近指数显著性方法:
② 分布中心:可以概略表示点状分布对象的总体分布特征、中心位置、聚集程度等信息。几何中心、加权平均中心、中位中心以及极值中心等。
核密度分析法:在研究区域中使用滑动的圆形区域来统计出落在圆域内的事件数量,在除以圆的面积,就得到估计点S处的事件密度。
KDE中的边缘效应:在KDE中,靠近研究区域R边界的地方会产生扭曲核估计的边缘效应 ③分布轴线和离散度 :离散点群在空间的分布趋势或走向可以用分布轴线来确定。 离散度是反应分布对象聚集程度的空间分布参数,它是分布中心和分布轴线的补充。
2.线模式的空间分布
线密度: 对线要素也要进行密度分析,用某区域内线的长度之和除以该区域面积总和即可得到某一区域的线密度,单位是m/m2,或km/km2。
- 5 -
最近邻分析以线中点的位置来代替线,忽略线的长度,对各中心点进行最近邻统计。 密度估计值: (n-1)*l/n*a
连通度:线状物体在空间中形成网络,因此研究线状物体之间的连通性极为重要。线状物体连通度是指线划要素在构成网络时的连接性以及从一处到另一处的连通程度,它是对网络复杂性的一种量度。
3.区域模式:离散区域分布和连续区域分布
一种是与点模式完全相同的多边形数量密度;一种是和点模式稍微有差别的面积密度,它的方式是先求出多边形的面积,然后计算各类多边形的面积与研究区域总面积的比值,得出的结果是百分比而不是点模式的密度比。
- 6 -
第四章
一、空间表达
*空间表达是基于地理认知理论,对复杂地理客观世界的等级、层次特征及多种性质的地学过程和现象进行科学抽象和描述的方法,是科学理论和现实世界之间的一座桥梁。
*客观世界的抽象:首先通过人类的感知系统对客观世界进行地理空间的认知,并将其抽象概括为地理问题,最后再用计算机表示,将空间数据集成与管理,建立客观世界的数字模型。 *地理空间的表达形式:
1.数据结构:
?矢量数据结构是通过记录坐标方式,利用欧几里德几何学中的点、线、面及其组合体来表示地理实体空间分布的一种数据表达方式。
?栅格数据结构是指将空间分割成有规则的网格,在各个网格上给出相应的属性值来表示地理实体的数据表达形式。
?矢量与栅格数据区别:矢量方式表达的地理数据
位置精度较高,具有显示地建立目标的空间关系的
能力,适于几何转换及拓扑关系描述,图形输出效
率较高,适于几何转换及拓扑关系描述,图形输出
效率较高,但叠加分析的算法复杂,空间分析效率
低; 栅格表达方式具有叠加分析的简单算法,空间
分析效率高的优点,但无法满足拓扑关系分析的要
求,图形输出效率也很低。
2.空间参考系统:地图制图和GIS数据共享的基础,保证同一地理信息系统内(甚至不同地理信息系统之间)的数据能够实现交换、配准和共享。包括坐标系统和地图投影系统 。
3.图形表达:显示了地理实体和现象的特征(数量和质量)、分布(组合)及规律。
4.时空尺度与比例尺:在不同空间尺度下,对地理目标抽象表达的信息密度差异很大,而空间数据在不同的观察层次上所遵循的规律以及体现出的特征也不尽相同。比例尺反映了空间数据的空间尺度特性。
*空间表达的意义:地理空间表达为地理科学研究与现实世界架设了桥梁,使得人类不断地向自身认知的极限挑战,也促使人们从更加开阔的视野、更多的视角来研究和认识地球表层特征空间。
二、空间数据转换格式
*意义:空间数据获取的手段 ; GIS空间数据处理的重要任务; 实现数据共享的方法之一. *栅格结构数据中混合像元的处理:1:面积占优;长度占优; 中心点法; 重要性法。2:缩小栅格单元面积。
*栅格结构数据的编码方法:
1.直接栅格编码:简单直观,是压缩编码方法的逻辑原型(栅格文件);
2.链码:效率高,接近矢量结构,边界运算方便,无区域性质,区域运算难;
3.游程长度编码:大程度压缩,最大限度的保留,易编码解码,适合于微机;
4.块码和四叉树编码:区域性质,可变的分辨率,较高效率,四叉树编码可以直接进行大量图形图象运算,效率较高,是很有前途的编码方法。
三、地理空间坐标变换
*意义:GIS实现多源数据无缝集成的基础; GIS空间分析的基础 ; GIS输出显示成果的需要 。
*坐标系转换方法:仿射变换(六参数变换),相似变换(4个参数:平移、旋转、缩放)。
- 7 -
*地图投影转换方法:正解(直接变换)、反解(地理坐标作为两种投影的中介)、数值变换(利用两投影间的若干离散点,用数值逼近的理论和方法来建立两投影间的关系)。:解析变换、数值变换和数值-解析变换。
四、空间尺度变换
*尺度(Scale)是实体、模式或过程在空间或时间上的基准尺寸。或研究范围。
*尺度定义为地理空间信息被观察、表示、分析和传输的详细程度,可从空间尺度、时间尺度和语义尺度(语义强弱、属性层次)三方面来说明。
*尺度变换(Scaling):信息在不同尺度范围(相邻尺度或多个尺度)之间的变换,也称尺度推绎。尺度变换将某一尺度上所获得的信息和知识扩展到其他尺度上,实现跨越不同尺度的辨识、推断、预测或推绎,包括尺度上推(向更大尺度:分配和聚集)和尺度下推(选择和解集)。
*GIS空间数据多尺度表达:空间地理系统是一种具有等级结构特征的复杂系统,地理特征在不同尺度上都有其约束体系和临界值,格局与过程具有明显的尺度依赖性。空间数据多尺度特征主要表现在数据的可综合性。
通过多尺度变换,建立多个尺度之间空间数据的逻辑关系,空间数据集由一种转换为另一种(不同应用层次和详细程度、内在一致性)(完备地数据派生过程)
*尺度变换方法:1.空间数据自动综合 (模型综合和制图综合方法实现空间和属性两方面的变换); 2. 小波变换 (海量数据中提取基本特征); 3.LOD技术。
*无级比例尺GIS(Scaling GIS)是以一个大比例尺数据库为基础数据源,在一定区域内空间对象的信息量随着比例尺的变化自动增减,实现一种GIS空间信息的压缩和复现与比例尺自适应的信息处理。
*无级比例尺数据处理:在原图信息载负量基础上,根据空间对象的信息综合模型(包括数量选取模型、内容选取模型和图形概括模型),最后在满足地图输出比例尺和最佳目视效果条件下,以最大的信息载负量进行可视化输出新图。
无级比例尺数据处理技术流程:
① 建立空间数据库; ②确定地理范围(确定地理区域和区域在新图中的面积); ③ 计算新图比例尺(根据新图中的面积,即可推算出新的地图比例尺);
④ 确定地物要素选取数量(空间对象的数量选取模型确定地物要素的数量选取指标); ⑤确定地物要素选取数量(通过地物要素数量选取指标(Nb)和内容选取模型确定选取的地物要素);
⑥地物要素的图形概括(通过图形概括模型进行图形化简,以突出地物的主要轮廓形态特征); ⑦地物要素的图形修饰(为了复现原来的图形轮廓,可用曲线光滑模型对图形进行修饰,最后成图输出。)
*无级比例尺变换的原理及方法:①地理坐标空间和WINDOWS坐标空间的映射关系(移动中,在进行坐标转换时始终将地理原点变换到WINDOWS的坐标原点,然后再依照所建立的映射公式转换其余的坐标点。) ;②地理逻辑窗口和动态裁剪(对多幅地图拼接而成的地图进行快速地全图缩放漫游。只有当要素范围与地理逻辑窗口的边界相交才能进行裁剪。) ;③缩放漫游的实现 (不论地理原点或WINDOWS的坐标原点移动到何处,总是将地理原点对应到WINDOWS的坐标原点或将WINDOWS的坐标原点对应到地理原点。);④多幅地图的缩放漫游及数据管理 (先分层、建立拓扑关系、范围超过则换层)。
五、图形变换
*图形变换是为了深入研究空间要素的某种特性,将原有空间要素的图形表达形式改变为另一种图形表达形式的过程。
*常见图形表达形式: 剖面图(简单、展平、叠加、组合)、图解分布图、玫瑰图和块状图。 - 8 -
*图形变换分为:
1.量度变换:实体量度变换(等级指标单位)、区域量度转换(区域的形状量度变换)。
2.结构变换: 截断变换、概括变换、类别与级别变换、质量与数量形式变换、连续化离散化、图形分解。
3.表示方法变换:点状图和区域图的变换 ;独立符号和点值法地图的变换;等值线图的变换。
第五章 空间几何关系分析
GIS环境下的空间分析:从GIS目标之间的空间关系中获取派生信息和新知识。 空间关系限定为由空间目标几何特征所引起或决定的关系。
空间几何关系分析主要包括邻近度分析、叠加分析、网络分析等。
(一)邻近度分析
一、缓冲区分析
1.邻近度(Proximity)是定性描述空间目标距离关系的重要物理量之一,表示地理空间中两个目标地物距离相近的程度。
2.缓冲区 是指为了识别某一地理实体或空间物体对其周围地物的影响度而在其周围建立的具有一定宽度的带状区域。
3.缓冲区分析 则是对一组或一类地物按缓冲的距离条件,建立缓冲区多边形,然后将这一图层与需要进行缓冲区分析的图层进行叠加分析,得到所需结果的一种空间分析方法。
4.均质与非均质缓冲区=静态与动态缓冲区:均质:影响度不随距离而变化 。
*动态缓冲区:分析模型(线性、二次和指数模型)
*连续变化转化成阶段性变化的缓冲区:把影响度根据实际情况分成几个典型等级,在每一个等级取一个平均影响度,并根据影响度确定的等级。
5.矢量数据缓冲区的建立方法 :点要素、线要素和面要素。(点、多、分级)
6.栅格数据缓冲区的建立方法 :推移或扩散(Spread),推移或扩散实际上是模拟主体对邻近对象的作用过程,物体在主体的作用下沿着一定的阻力表面移动或扩散,距离主体越远所受到的作用力越弱。像元加粗法:以分析目标生成像元,借助于缓冲距离R计算出像元加粗次数,然后进行像元加粗形成缓冲区。
7.缓冲区实现有两种基本算法:矢量方法(中心线扩张法,又称加宽线法或图形加粗法)和栅格方法(数学形态学扩张算法)。
8.缓冲区多边形的重叠合并:矢量数据:数学运算法、矢量—栅格转换法、矢量—栅格混合法; 栅格数据:影响度小的服从于影响度大。
二、泰森多边形分析--点内插生成面、最近邻点法
1.泰森多边形:将所有相邻气象站连成三角形,作三角形各边的垂直平分线,每个气象站周围的若干垂直平分线便围成一个多边形,用这个多边形内所包含的惟一一个气象站的降雨强度来表示这个多边形区域内的降雨强度。
2.特性:1.内仅一个控制点数据;2.内的点到控制点的距离最近;3.边上的点到其两边控制点的距离相等;4.判断一个控制点与其他哪些控制点相邻。
3.隐含的假设是任何地点的未知数据均使用距它最近的采样点数据。
4.Delaunay三角网是由与相邻泰森多边形共享一条边的相关点连接而成的三角网,它与泰森多边形是对偶关系。
5.不足:分析产生的结果边界变化突然、内部均质,不符合空间现象的实际分布特征。
(二)叠加分析
-、叠加分析概述
- 9 -
1.叠加分析操作:在GIS环境下,将分层存储的各种专题要素自动叠和相交,便可以得到包含原始图层空间信息以及与之相关联的属性信息的新图层。(传统透图桌最多叠三张图件,叠加分析原则上可实现无限制的叠加,方便地对多专题要素进行研究,减少盲目性。)
2.叠加分析是指将同一地区、同一比例尺、同一数学基础,不同信息表达的两组或多组专题要素的图形或数据文件进行叠加,根据各类要素与多边形边界的交点或多边形属性建立具有多重属性组合的新图层,并对那些在结构和属性上既相互重叠,又相互联系的多种现象要素进行综合分析和评价;或者对反映不同时期同一地理现象的多边形图形进行多时相系列分析,从而深入揭示各种现象要素的内在联系及其发展规律的一种空间分析方法。
3.矢量数据模型(涉及空间要素)与栅格数据模型(空间信息隐含)的属性叠加处理分为代数运算与逻辑运算两大类,其中栅格数据模型的叠加运算常被称为地图代数,应用非常广泛。
二、空间要素图形叠加
1.矢量数据图形要素的叠加处理按要素类型可分为点与多边形的叠加、线与多边形的叠加(多个交点将一个线目标分割成多个线段)、多边形与多边形的叠加(首先求出所有多边形边界线的交点,再根据这些交点重新进行多边形拓扑运算,对新生成的拓扑多边形图层的每个对象赋予惟一的标识码)三种。
2.多边形叠加分析操作:并、叠和、交。
3.按照叠加的方式,空间要素属性叠加可分为代数叠加与逻辑叠加。(矢量数据在进行空间图形叠加处理之后,必须将相应图层的属性表关联到一起)
三、空间要素属性叠加
1.对于任意栅格单元用作标识的行列号I0、J0是不变的,进行叠加的时候只是增加了属性表的长度。
2.栅格数据来源复杂,叠加分析操作的前提是要将其转换为统一的栅格数据格式,且各个叠加层必须具有统一的地理空间(参考、比例尺、分辨率)。
3.栅格数据的叠加分析操作主要通过栅格之间的各种运算来实现。
4.地图代数与代数运算:代数运算不完全适用于地图运算。
5.地图代数中的运算符:算术运算、关系运算(真值返回1、假返回0)、布尔运算、位运算(1-2、2-4)、累积运算(所有格值相加)、赋值运算、逻辑运算(Diff差异运算符(有差异输出为0、没差异输第一个图)、In包含运算符(分离出一组数字)、Over非零查找运算符(两个输入栅格矩阵搜索0值单元格中:第一个栅格所有非0输出、有0的以第二个值输出);以第一个图层为参考)。---这种基于数学运算的数据层间的叠加运算,在地理信息系统中称为地图代数。
6.基于不同的运算方式和叠加形式:
①局部变换:每一个像元经过局部变换后的输出值与这个像元本身有关系,而不考虑围绕该像元的其他像元值。如果输入单层格网,局部变换以输入格网像元值的数学函数计算输出格网的每个像元值。
1.数学函数:对一幅输入栅格地图单元的值进行初等函数计算的函数。
2.选择函数:按照指定的条件对输入栅格数据集进行单元格的选择或提取。--比较运算函数CON,连接多个栅格数据集,执行多个条件的比较,将比较结果输出。
3.重分类函数:用输出的新单元格值替换单元格输入值。如添加的是一个多波段的栅格 ,第一个波段将被用于重分类。
4.统计函数:众数、最大值、平均值、中值等等。
②邻域变换:邻域变换输出栅格层的像元值主要与其相邻像元值有关。如果要计算某一像元的值,就将该像元看作一个中心点,一定范围内围绕它的格网可以看作它的辐射范围,这个中心点的值取决于采用何种计算方法将周围格网的值赋给中心点,其中的辐射范围可自定 - 10 -
义。(中心点的值除了可以通过求和得出之外,还可以取平均值、标准方差、最大值、最小值、极差频率等。)邻域变换的一个重要用途是数据简化(重采样)。常用领域的形状:矩形、圆形 、环面形、 扇形
③分带变换:将同一区域内具有相同像元值的格网看作一个整体进行分析运算,称为分带变换。区域内属性值相同的格网可能并不毗邻,一般都是通过一个分带栅格层来定义具有相同值的栅格。
类区函数:众数、最大值??
④全局变换是基于区域内全部栅格的运算,一般指在同一网格内进行像元与像元之间距离的量测。自然距离量测运算或者欧几里德几何距离运算均属于全局变换。
欧几里德距离运算首先定义源像元,然后计算区域内各个像元到最近的源像元的距离。 在方形网格中,垂直或水平方向相邻的像元之间距离等于像元的尺寸大小或者等于两个像元质心之间距离;如果对角线相邻,则像元距离约等于像元大小的1.4倍;如果相隔一个像元那么它们之间的距离就等于像元大小的2倍,其他像元距离依据行列来进行计算。
⑤栅格逻辑叠加:栅格数据中的像元值有时无法用数值型字符来表示,不同专题要素用统一的量化系统表示也比较困难,故使用逻辑叠加更容易实现各个栅格层之间的运算。二值逻辑叠加模型:将各个图层二值化(TRUE,FALSE)或(0,1)\and..and...and
块函数:众数、平均数??3X3....
(三)网络分析
*最佳路线定义为阻抗最低的路线,其中,阻抗由用户来选择。确定最佳路线时,所有有效网络成本属性均可用作阻抗。
*OD 成本矩阵是一个包含从每个起始点到每个目的地的网络阻抗的表。
*网络分析 是通过研究网络的状态以及模拟和分析资源在网络上的流动和分配情况,对网络结构及其资源等的优化问题进行研究的一种空间分析方法。网络分析的理论基础是图论和运筹学。
1.概念: 环、重边、简单图、有向图、弧、路、有向路、连通图、回路。
*如果一个连通图中不存在任何回路,则称为树。
*任意一个连通图,去掉一些边后形成的树叫做连通图的生成树。
*赋以权数的有向图称为赋权有向图,也可称之为网络。
*用来描述图与网络常用的方法:邻接矩阵表示法、关联矩阵表示法、
邻接表表示法是用来描述图与网络常用的方法。
*邻接矩阵 用来表示图中任意两点间的邻接关系及其权值.如果两点间
有一条弧,则邻接矩阵中对应的元素为 1;否则为 0
*关联矩阵 中,每行对应图的一个节点,每列对应图的一条弧。如果一个节点是一条弧的起点,则关联矩阵中对应的元素为1;如果一个节点是一条弧的终点,则关联矩阵中对应的元素为–1;如果一个节点与一条弧不关联,则关联矩阵中对应的元素为0。
*邻接表 是图中所有节点邻接表的集合。
不足:矩阵表示图所需的空间大、且有关结点的信息
表示。
无法
- 11 -
*链(Link) :链是构成网络的骨架,包括图形信息和属性信息,链的属性信息包括阻碍强度和资源需求量,链有方向。链的阻碍强度是指在通过一条链时所需要花费的时间或者费用等,如资源流动的时间、速度。
*结点:结点是网线的端点,又是网线的汇合点。其状态属性除了包括阻碍强度和资源需求量等:(阻碍强度值为负数,则表示资源禁止流向特定的弧段。)
① 障碍(Barrier):禁止资源在网络中的链上流动的点。唯一不表示任何属性的点。 ② 拐点(Turn):出现在网络链中的分割结点上,资源运动方向可能转变。
③ 中心(Center):网络中具有一定的容量,能够接受或分配资源的结点所在的位置。 ④ 站点(Stop):在路径选择中资源增减的结点。
路径分析 另一种路径分析功能是求解最佳游历方案,又分为弧段最佳游历方案求解和结点最佳游历方案求解两种。 其核心实现方法都是最短路径算法。
最短路径问题从算法研究的角度考虑最短路径问题通常可归纳为两大类:一类是所有点对之间的最短路径,另一类是单源点间的最短路径问题。
*迪杰斯特拉(Dijkstra)算法思想:
1)初始时令 S={V0},T={其余顶点},T中顶点对应的距离值; 若存在<V0,Vi>,为<V0,Vi>弧上的权值;若不存在<V0,Vi>,为*.2)从T中选取一个其距离值为最小的顶点W,加入S;
3)对T中顶点的距离值进行修改:若加进W作中间顶点,从V0到Vi的距离值比不加W的路径要短,则修改此距离值;4)重复上述步骤,直到S中包含所有顶点,即S=V为止.
*弗洛伊德算法:1)初始时设置一个n阶方阵,令其对角线元素为0,若存在弧<Vi,Vj>,则对应元素为权值;否则为*.2)逐步试着在原直接路径中增加中间顶点,若加入中间点后路径变短,则修改之;否则,维持原值.3)所有顶点试探完毕,算法结束.(逐个顶点试探法.)*矩阵算法:该算法是利用矩阵来求出图的最短距离矩阵。① 已知图的邻接矩阵A; ② 求出A, A[2], A[3] , ?, A[n-2] ;③ D = AA[2]A[3] ?A[n-2] = (di,j)n×n。
*步骤:首先,对于一定区域范围内庞大的交通网络要考虑它的存储结构。然后是网络搜索。 3.现实中常需要知道从某一结点或边出发能够到达的全部结点或边,这一类问题称为连通分量求解;另一类连通分析问题是求解最少费用连通方案,即在耗费最小的情况下使全部结点相互连通。
*连通图:任意两个顶点Vi,Vj∈V,Vi和Vj都是连通的。
*一个连通图的生成树是含有该连通图的全部顶点的一个极小连通子图。
*从图中某一顶点出发访遍图中其余顶点,且使每一顶点仅被访问一次,这一过程叫做图的遍历。遍历图的基本方法有两种:深度优先搜索(纵向、尽快地远离起始点似的。)和广度优先搜索(横向、先访问起始顶点的所有邻接点,然后再访问较远的区域)。
*避圈法:
加权距离来确定的)原则寻找供应中心(资源发散或汇集地)两个问题。包括定位与分配两个问题。
*选址问题:取决于可供选择的范围,
所选位置的质量判断标准
这两个条件。
- 12 -
*使最大距离达到最小的位置称为网络的中心点,使最大距离总和达到最小的位置称为网络的中位点。
中心点(距最远结点)、一般中心点(距最远点)、绝对中心点(任意)、一般绝对中心(任意) 中位点(到其他各结点)、一般中位点(到其他各点)、绝对中位点(任意)、一般绝对中位点(到各条网络边)
*中心服务范围分析作为基本网络分析功能,是指一个服务中心在给定的时间或范围内能够到达的区域,它为评价服务中心的位置及其通达性提供了有利工具。依次求出服务费用不超过中心阻值的路径,组成这些路径的网络结点和边的集合构成了该中心的服务范围。
*P中心定位问题:所谓目标方程是用数学方式表达满足所有需求点到供应点的加权距离最小的条件方程。实际中常用启发式算法来逼近P-中心问题的最佳结果--全局/区域性交换式算法:① 先选P个候选点作为起始供应点集,并将所有需求点分配到最近的供应点,计算其目标方程值,即总的加权距离。② 作全局性调整:③ 对每一供应点依次作出区域性调整。 运送至另一个地点的优化方案(时间最少、费用最低、路程最短或运送量最大等),
网络元素的性质决定了优化的规则。网络流的最优化问题主要涉及两方面内容:
网络最大流问题和最小费用流问题。 正向路、正向增广路、饱和流
最大流问题: Ford-Fulkson 算法,亦为标记法。 Dinic算法的思想是减少增广
次数
从带发点和收点的容量网络中的任何一个可行流开始,用流的增广算法寻找流的增广链。直到找不到流的增广链为止,此时的可行流就是G的最大流。 ???
最小费用流问题:可以描述为在上述网络中求出一个流值为 v0 的费用最小的可行流,也可以理解为如何制定运输方案使得从 vs 到 vt恰好运送流值为 v0 的流且总运费最小。、 GIS网络分析中一种基于网络线的动态分析、显示和绘图技术。通过建立一种比“弧段-结点”数据模型高级的“动态段-动态结点”模型,来实现根据不同的属性按照某种度量标准对线性要素进行相对位置的划分。
*线性参照是使用沿测量的线状要素的相对位置存储地理位置的方法。距离测量值用于定位沿线的事件。线性参照还用于将多个属性集与线状要素的部分关联,不需要在每次更改属性值时分割(分段)基本线。
*动态分段是使用线性参照测量系统计算事件表中存储和管理事件的地图位置以及在地图上显示它们的过程。可以用相互关联的量测尺度来表示线性要素的多种属性级的技术。
*利用动态分段,可将多组属性与现有线状要素的任意部分相关联。动态分段模型在“弧段-结点”模型基础上进行了扩展,引入段(Section)、路径(Route)、事件(Event)(点事件、线事件、连续事件)、路径系统(Route System)等分别用来模拟线性系统中的不同特征。 动态分段实质是通过在线性空间数据上建立段属性表(Section表),再在段属性表上建立路径属性表(Route表),并基于路径属性表建立关联来完成段、路径、事件的联系。--基础是“弧段-结点”模型。 以公路地理信息系统 为例,(空间数据、属性表、基于线性参照组织属性数据) *地理编码是指将坐标对、地址或地名等位置描述转换为地球表面上某位置的过程。
*地址匹配(Address Matching)是一种基于空间定位的技术,是地理编码(Geocoding)的核心技术,它提供了一种把描述成地址的地理位置信息转换成可以被用于GIS系统的地理坐标的方式。地址匹配过程可分为基于道路的匹配和基于地块的匹配两种类型。
*提高匹配:地址数据标准化;选择较好地理参考的数据库系统并多种; 可以接受“非标准 - 13 -
化”的地址数据;按一定顺序匹配;
第六章 空间统计学分析:是以区域化变量理论为基础,以变异函数为主要工具,
研究具有地理空间信息特性的事物或现象的空间相互作用及变化规律的学科。
*空间统计分析方法:由分析空间变异与结构的半变异函数和用以空间局部估计的克立格插
值法两个主要部分组成,是GIS空间分析的一个重要技术手段。
实质是:提示相关规律和利用相关规律进行未知点预测。
空间自相关性:通过检测一个位置上的变异是否依赖于邻近位置的变异来判断该变异是否存
在空间自相关性。当某一测样点属性值高,而其相邻点同一属性值也高时,为空间正相关;
反之,为空间负相关。各向同性、各向异性。
*相关性:不同观察对象的同一属性变量,则称之为自相关。
*变异的性质可以分为三种类型:绝对型变异(如花形态,红色或白色等);等级型变异(如
植被密度等级等);连续型变异(如形态测量,基因频率等)。
*空间自相关方法按功能大致分为两类:全域型自相关和区域型自相关。最为常用的计算空
间自相关方法是:Moran’s I、Geary’s C、Getis、Join count以及空间自相关系数图等。
1、Moran’s I法:空间自相关分析的主要功能在于同时可以处理数据的区位和属性,因此
在进行空间自相关性分析时,应首先建立区位相邻矩阵。
Moran Index:空间自相关性判定指标,I>0为正相关,数值越大表示空间分布的相关性越大,
即空间上聚集分布的现象越明显;I<0为负相关,数值越小代表示相关性小;I趋于0时,代
表空间分布呈现随机分布的情形。
空间间隔自相关:基于统计学相关系数的协方差关系。
区域空间自相关:Local Moran Index区域型自相关(LISA)利用位于聚集区内的空间自相
关值较非聚集区高,可得知聚集区在空间中的分布位置,并辅以GIS空间可视化功能。
2.空间自相关系数图分析法:隆起处,代表微视尺度及宏观尺度上,存在显著的聚集分布现
象;空间自相关值有波峰,即在此空间间隔时,其空间分布有最大的自相关性。
*具体的确定性插值法包括反距离加权法、全局多项式法(当一个研究区域的表面变化缓慢)、
局部多项式法以及径向基函数法等。其中,反距离加权法和径向基函数法属于精确性插值方
法,而全局多项式法和局部多项式法则属于非精确性插值方法。
*反距离加权(Inverse Distance Weighted,IDW)插值法是基于相近相似原理,即两个物体
离得越近,它们的性质就越相似,反之,离得越远则相似性越小。反距离加权法使用预测区
域内已知的样点值来预测区域内除样点外的任何位置的值。
*一般统计分析:指对GIS地理空间数据库中的属性数据进行常规统计分析。
--先对数据进行描述性统计分析(频数分析、数据的集中趋势分析、数据的离散程度分析、数
据的分布、以及一些基本的统计图形。), --再选择进一步分析的方法。
*探索性空间数据分析(ESDA):指利用统计学原理和图形图表相结合对空间信息的性质进行
分析、鉴别,用以引导确定性模型的结构和解法。探索性数据分析的基本思想是: ①让数据说话,即先分析数据再建立模型;
②不局限于方法的理论根据,以一种比较松散的、非正式的方式分析数据。
分为:探索阶段和证实阶段。过程有四个主题,即耐抗性、残差、数据转换以及图示。
内容:(1)检查数据是否有错误(2)获得数据的分布特征(3)对数据规律的初步考察
- 14 -
*EDA是不对数据总体做任何假设的条件下识别数据的特征和关系的分析技术。
箱线图反映数据的集中性、分散性、偏态性、异常性等统计量。直方图、茎叶图、散点图和散点矩阵。Q-Q概率图是根据变量分布的分位数对所指定的理论分布分位数绘制的图形,它是一种用来检验样点数据分布的统计图。趋势分析。
*探索性空间数据分析是一种图形化的数据分析方式:
1. 检验数据分布
直方图中通过观察均值和中值能确定分布的中心
2. 寻找离群值
寻找离群值的方法有,用直方图查找离群值以及用半变异/协方差函数云图识别离群值。
3. 全局趋势分析
预测表面主要由两部分组成,即确定的全局趋势和随机的短程变异。假设全局趋势是确定的,而短程变异是随机的。最终的预测表面是确定表面和随机表面的总和。
*动态联系窗口:
*对非空间数据:中值计算、四分位和四分位间的分布分析、箱线图分析、ESDA查询。 对空间数据:平滑、识别地图数据的趋势和梯度、空间自相关分析、检测空间例外。
第七章:三维
三维GIS数据模型:体模型(三维栅格结构、八叉树结构、结构实体结构、四面体格网模型)、面模型(GRID、TIN不规则三角网)、混合模型(TIN-Octree多边形矢量编码、 TIN-Octree混合构模、Octree-TEN混合构模)
TIN的优点是存储高效,数据结构简
单,与不规则的地面特征和谐一致,
可以表示细微特征或叠加任意形状的
区域边界。缺点是数据量大,不便于
规范化管理与动态显示,难以与矢量
和栅格数据结构进行联合分析。
2.5维的数字高程模型(Digital
Elevation Models,DEM)和数字地面
模型(Digital Terrain Models,DTM)
是目前GIS进行三维分析的主要手段。两者都是描述地面特性空间分布的有序数值阵列。与DTM不同的是,DEM的地面特征是高程值Z。两者的关系如图。
(1)格网DEM转成TIN :由规则分布的采样点生成TIN的特例,目的是尽量减少TIN的顶点数目,同时尽可能多地保留地形信息,如山峰、山脊、谷底和坡度突变处。代表性算法有:保留重要点法、启发丢弃法。
(2)等高线转成格网DEM :虽然现有地图中的等高线经过数字化后可以自动获取DEM数据。但数字化的等高线不适合于计算坡度或制作地貌渲染图等地形分析,因此,必须把数字化等高线转为格网高程矩阵。
(3)TIN转成格网DEM :TIN转成格网DEM可以看作普通的不规则点生成格网DEM的过程。具体方法是按要求的分辨率大小和方向生成规则格网,对每一个格网搜索最近的TIN数据点,由线性或非线性插值函数计算格网点高程。
- 15 -
三维分析与计算:空间查询、属性计算、等值线生成、山体阴影创建、剖面线绘制、通视分析(按视点位置与否,通视分析可分为静态通视和动态通视线。根据通视问题输出维数的不同,通视可分为 点对点的通视、点对线通视、点对区域通视。)、流域分析(已填补高程格网、流向格网、水流累积格网)、
第9章 智能化空间分析
*空间数据的不确定性类型分为概念不确定性和量测不确定性。随机不确定性和模糊不确定性。
*GIS空间数据的不确定性包括
空间位置的不确定性 属性不确定性 时域不确定性 逻辑上的不一致性
数据的不完整性
模型的不确定性 GIS数据产品的不确定性 GIS工程的不确定性
*智能化GIS是指与专家系统(Expert System,ES)、人工神经网络、模糊逻辑、遗传算法等相结合的GIS。重点要解决空间知识的发现、表达、推理与计算等问题。
智能计算:则基于操作者提供的数据,不依赖于知识,以数据为基础,通过训练建立联系,进行问题求解。特点:智能、稳健、不确定性、强化计算、容错性、全局优化
*模糊集合是一组具有连续隶属度的元素所组成的集合。可以用于处理空间数据的不确定性。 模糊逻辑是由二值逻辑到无限值逻辑的推广。:命题的条件、结论甚至命题本身是模糊的; 事实和规则的条件只是近似吻合;命题的条件和结论缀有模糊量词。
模糊集合比经典集合更能准确地表达客观世界,模糊空间信息表达的关键问题在于隶属度的精确给定。
*元素隶属于模糊集合的程度可以通过一个一般化的特征函数来度量,该函数称为隶属函数。一个模糊集合以隶属函数和隶属度进行描述与量化,因此,隶属函数是描述模糊概念的关键,是模糊集理论的基石。(1)主观评分法;(2)借助模糊分布确定隶属函数。
- 16 -