摘 要 本文首先介绍了数据挖掘的概念和方法,而后作为实例对轨道交通与城市发展协调性问题进行了研究。
关键词 数据挖掘实例 SPSS 轨道交通 城市发展
6600cc6公海彩船在商业智能(BI)应用中经常会遇到数据分析挖掘,由于数据挖掘和具体业务关联紧密,对分析人员素质有较高的要求,在实施过程中总会或多或少地遇到这样那样的问题。本文结合轨道交通行业实际项目经验,介绍了数据挖掘的基本概念和方法,并就轨道交通建设与城市发展匹配度、协调性问题借助SPSS工具进行了实例研究,以期和各位读者共同学习、进步。
1.数据挖掘概念及方法
1.1数据挖掘概念
数据挖掘(Data Mining)就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。
1.2数据挖掘方法
数据挖掘不仅仅是数据的组织或者呈现,也不仅是数据分析和统计建模,而是一个从理解业务需求、寻求解决方案到接受实践检验的完整过程。总体而言数据挖掘分成六个阶段:商业理解(Business Understanding),数据理解(Data Understanding),数据准备(Data Preparation),建模(Modeling),评估(Evaluation)和发布(Deployment)。
2.数据挖掘在轨道交通行业应用案例
2.1目标确定
我国已有10多个城市拥有共30多条城市轨道交通运营线路,运营里程达到近千公里,年客运总量达20多。同时,北京、上海等15个城市共有约50条,1154公里轨道交通线路在建。此外,27个城市正在筹备建设城市轨道交通。预计至2015年前后,北京、上海、广州等22个城市将建设79条轨道交通线路,总长2259.84公里,总投资8820.03亿元。由此可以看出国内城市轨道交通建设呈现异常“火爆”的局面。
发展城市轨道交通对于解决大都市交通问题是很好的解决方案,在有效缓解城市交通的同时,也会对城市形态的发展也起到了积极的引导作用。在目前形势下,发展城市轨道交通还能够在短时间内拉动固定资产投资,促进经济平稳较快发展。但发展城市轨道交通投资巨大,建设一公里的地铁线路需要投资近7亿元人民币,因此被称为“天价工程”,其盈利模式也是世界性难题,因此对在哪些城市建设轨道交通、建设的规模有多大等重大问题,始终没有公认的判定标准。一般认为城市轨道交通建设只有与城市的发展协调同步才能取得良好的社会、经济效益,但如何界定轨道交通与城市发展的协调程度需要有科学的评价方法,基于此种考虑,本文提出城市轨道交通与城市发展协调度的概念,对轨道交通与城市协调性进行定性分析,为城市轨道交通建设规模、建设时机提供决策支持。
2.2数据理解
2.2.1指标体系的建立
轨道交通和城市发展协调性评价涉及到社会、人口、经济、城市综合交通等各方面包含众多因子,依照科学性、客观性、可比性和动态性原则,同时考虑各方面因素和资料占有的可能选取指标。
2.2.2 轨道交通状况评价指标
本文选取3个方面6个原始指标评价某城市轨道交通发展状况:
表示城市轨道交通网发展规模和发展水平的指标A1,包括两个子指标:轨道交通网线路长度(X1,公里)和投入的运营车辆数量(X2,节);
表示城市轨道交通系统运营状况的的指标A2,包括两个子指标:轨道交通系统客运总量(X3,万人)和运营车辆行驶总里程(X4,公里节);
表示城市轨道交通系统经营管理状况的指标A3,包括两个子指标:轨道交通系统利润(X5,万元)和轨道交通系统从业人数(X6,人次)
2.2.23城市发展状况评价指标
本文选取4个方面18个原始指标评价该城市发展状况:
人口子系统的总量及结构(B1),包括3个指标:城市人口总量(Y1,万人),非农业人口总量(Y2,万人)和从业人口总量(Y3,万人);
经济子系统的总量及结构(B2),包括5个指标:国民生产总值(Y4,亿元),第一产业生产总量(Y5,亿元),第二产业生产总量(Y6,亿元),第三产业生产总量(Y7,亿元),城市财政收入(Y8,亿元);
城市居民生活状况(B3):包括5个指标:城市消费价格指数(Y9),城镇居民人均住宅面积(Y10,平方米),城镇居民人均可支配收入(Y11,元),失业率(Y12,%),城市市政建设投入(Y13,亿元);
城市公共交通状况(B4):包括5个指标:城市交通投入(Y14,亿元),城市人均道路长度(Y15,公里/人),城市人均道路面积(Y16,平方公里/人),居民万人公交车拥有量(17,辆/万人),公交客运总量(Y18,万人次)。
2.3数据准备
所选评价指标的各个指标数值来源于1996—2007 年的《中国城市统计年鉴》、《xx市统计年鉴》,因篇幅所限,在此不一一列出原始数据。
2.4建立模型
2.4 .1综合发展指数计算
主成分分析法 ( Principal Component Analysis) 简称PCA法是利用线性代数有关理论,将原来众多指标转化为少数几个互相独立,并由原来各单项指标的线性组合来表示的综合指标。其突出优点在于比较客观,提高了评价结果的可靠性和准确性。为了消除量纲不同所造成的影响,需进行标准化处理。
标准化处理后的数据进行主成分分析,得到相关矩阵的特征根、各指标的贡献率、累计贡献率等。选取累计贡献率大于85%的前K个指标作为主成分,求得各主成分得分:
式中:
——第k 个主成分的载荷值;
X1,X2,…,Xp ——标准化后的指标值。
根据各主成分的贡献率计算系统综合得分,求得系统综合发展指数。
式中:
—— i年各指标综合发展指数( i = 1 ,2 ,…,n年) ;
——第m个主成分的贡献率( m = 1 ,2 ...k 个) ;
——第i年的第m个主成分得分。
2.4.2协调度计算
协调是两个或两个以上系统之间的一种良性的发展关系。协调度则是对其协调状况好坏程度进行度量的定量指标,可采用模糊数学中隶属度概念对其进行描述,隶属度变化规律可以通过隶属度函数来反映,建立协调度函数:
式中:
——i系统相对于j 系统的状态协调度;
——j系统对i系统的实际值;
——j系统对i系统要求的协调值;
——i系统的实际方差。
实际值越接近于协调值状态协调度 越大,说明系统的协调发展程度越高。通过状态协调度 可以对系统间协调发展程度进行评价:
式中:
U——i,j 两个系统的协调度指数;
U(i/j) —— i系统对j系统的状态协调度;
U(j/i) ——j系统对i系统的状态协调度。
为了便于更清楚的反映系统协调发展的程度,进行等级划分如表1:
表1 协调等级划分及其标准
协调度U |
0-0.1 |
0.1-0.2 |
0.2-0.3 |
0.3-0.4 |
0.4-0.5 |
等级 |
极度失调 |
严重失调 |
中度失调 |
轻度失调 |
濒临失调 |
协调度U |
0.5-0.6 |
0.6-0.7 |
0.7-0.8 |
0.8-0.9 |
0.9-1 |
等级 |
勉强协调 |
初级协调 |
中级协调 |
良好协调 |
优质协调 |
2.5过程及结论
利用SPSS13.0软件分别对城市轨道交通系统和城市发展进行主成分分析。
得出各个年份城市轨道交通系统发展的综合发展指数如表2:
表2 各个年份城市轨道交通系统综合发展指数
年份 |
1996 |
1997 |
1998 |
1999 |
2000 |
2001 |
综合得分 |
9.20 |
5.43 |
4.05 |
2.15 |
1.78 |
-0.12 |
年份 |
2002 |
2003 |
2004 |
2005 |
2006 |
2007 |
综合得分 |
-1.00 |
-2.54 |
-3.77 |
-5.00 |
-5.06 |
-5.11 |
得出各个年份城市发展状况的综合发展指数,如表3:
表3 各年份城市发展状况的综合发展指数
年份 |
1996 |
1997 |
1998 |
1999 |
2000 |
2001 |
综合得分 |
19.14 |
13.71 |
10.89 |
7.37 |
3.53 |
1.89 |
年份 |
2002 |
2003 |
2004 |
2005 |
2006 |
2007 |
综合得分 |
-1.27 |
-4.97 |
-8.69 |
-10.88 |
-13.90 |
-16.87 |
计算轨道交通与城市发展的协调指数,并依据评判标准给以评判,如表4。
表4 轨道交通与城市发展协调指数及等级
年份 |
1996 |
1997 |
1998 |
1999 |
2000 |
2001 |
协调指数 |
0.871 |
0.453 |
0.301 |
0.455 |
0.311 |
0.649 |
协调程度 |
良好协调 |
濒临失调 |
轻度失调 |
濒临失调 |
轻度失调 |
初级协调 |
年份 |
2002 |
2003 |
2004 |
2005 |
2006 |
2007 |
协调指数 |
0.888 |
0.724 |
0.880 |
0.634 |
0.552 |
0.480 |
协调程度 |
优质协调 |
中级协调 |
良好协调 |
初级协调 |
勉强协调 |
濒临失调 |
2.6结论
1.对该城市轨道交通12年的协调指数进行分析,可以看出城市轨道交通与城市发展协调性总体上呈上升趋势(拟合直线的斜率为正),说明伴随经济、社会进步,城市轨道交通也在同步发展,且其发展速度快于城市发展的整体速度,两者的协调不断改善;另一方面,也可以看出两者的协调度始终小于0.8,说明还没有达到理想值,仍需在轨道交通的建设、管理方面加大力度。
图1 轨道交通与城市发展协调指数变化及拟和图
2.透过协调指数的波动规律,可以看出轨道交通与城市发展协调性变化幅度比较大(在0.3与0.8之间),时间上呈现出波浪式,说明城市轨道交通建设与城市发展处于协调——不协调——再协调的动态变化之中,反映出对轨道交通建设的调控存在时滞性;另一方面其波动范围在逐渐减少,表明协调程度对调控的反应时间逐渐缩短、反应更加灵敏。