基于移动定位大数据的城市空间研究进展

责任编辑：editor007 作者：丁亮钮心毅宋小冬 |来源：企业网D1Net 2015-11-19 17:39:21 本文摘自：199IT网

326326032

通过文献梳理，发现大数据为空间研究提供了丰富的样本，但当前的数据存在非全样本、缺少社会经济属性、非随机缺失的缺陷。大数据研究的广度和深度正在不断扩展，呈现出多学科参与的特点，但研究结论还缺少新的理论探索和解决实际问题的应用。据此提出当前的大数据只是传统数据的有益补充，适用于描述、分析空间现象和规律，适宜于两方面研究：验证理论模型、提出研究问题；分析空间现状、评估空间规划。这两方面研究可通过统计汇总和空间计算的方法实现。

关键词：移动定位，大数据，城市空间研究，城市规划

近年来随着移动定位服务和云处理技术的发展，搜集和处理个人定位信息已成为现实。由移动定位数据组成的海量数据（大数据）库打破了传统的资料搜集方式，推动了城市空间研究的发展。诸多学者利用当前可获取的移动定位大数据（本文中的大数据均指移动定位大数据，包括手机数据、公交刷卡数据、GPS 数据、社交网站签到数据等）开展了城市空间研究，取得了较丰富的成果。当前已有国内学者对这些研究成果做了介绍，如秦萧等从城市等级体系、交通、功能区、特征与活动、社交关系、重大事件等方面介绍了大数据在城市空间研究中的最新进展，提出了基于大数据的城市空间研究体系[1]。叶宇等从实体空间、社会空间两方面介绍了大数据在城市空间研究中的成果，提出大数据时代城市规划在数据搜集、响应速度、编制方式、决策辅助、编制策略、关注要点、实施过程、评价力度等方面面临革新[2]。冉斌等提出了手机定位数据在不同层面城市规划中的应用方向，并论述了职住人口空间分布、OD 客流分布、城市间客流联系等方面的应用实例[3]。任颐等用无锡手机数据探索了通勤人口分布、居民出行OD、重点区域人口集散特征等方面的应用[4]。

这些论文重在对已有研究和应用成果做较系统的归纳整理，有的还构建了基于大数据的城市研究框架，对于近年来热议的“大数据时代城市规划如何应对机遇与挑战”提供了借鉴。但笔者认为城市规划作为一门实践性较强的学科，在使用数据时必须根据数据的特点加以不同方式的利用，方能使数据真实反映城市现状问题，为规划设计提供帮助。因此，还有必要对大数据及其研究特征作一个较深入的分析，包括大数据与传统数据相比有何优势和缺陷，当前大数据研究中遇到哪些局限等问题。本文选取了收录在Web of Science 上的聚焦城市规划的对象－－空间的文献进行分析，以期能从这些文献中解答上述问题，梳理出大数据在城市规划中适宜的研究。

一、基于大数据的城市空间研究类型

艾斯（Ahas）等是较早提出可用手机的移动定位数据进行城市空间研究的学者。2005 年他提出基于手机的社会定位方法（Social Positioning Method）能监测人口总量和移动轨迹、预测和防止由人流集聚产生的问题，这一方法会在不久的将来获得广泛应用，并从根本上改变公共生活和公共管理[5]，但文中并未阐述具体的研究成果。随后，拉蒂（Ratti）等于2006 年以热点图的方式展现了用手机数据分析城市活动时空变化的研究成果。提出“随着新技术的发展，人们的生活和工作习惯正在发生变化，活动变得更加灵活，城市的动态性正在变得更加复杂，需要新的方法和数据来分析城市”。拉蒂在文中还提出了“移动景观”（MobileLandscapes）的概念，来回答如何记录OD、如何理解个体移动以及城市形态和流之间是什么关系，认为移动景观能反映时实移动图，而不需要再借助传统模型。并将米兰20 km×20 km 空间范围内2004 年4 月19 日－5 月4 日的移动通话时长数据汇总为人流密度，可视化反映人流活动分别在白天、晚上以及工作日、周末、重大活动日等不同时间段的变化[6]。这一研究开启了应用移动定位数据大范围、大样本、动态认识城市系统的研究领域：通过数据的统计汇总，认为城市空间活动虽然由无数个体的无序活动组成，但在整体层面有规律可循，可以用移动定位数据来反映城市活动的时空变化。

此后便有学者在拉蒂的研究基础上，用手机数据、公交刷卡数据、GPS 数据、社交网站签到数据等移动定位大数据探索城市空间研究，并将研究由描述空间的表面现象、识别空间功能深入到验证传统理论模型、分析空间联系测度中心体系。

（一）空间现象描述

拉蒂的研究对用移动定位大数据开展城市空间研究已经产生了较大影响，至2015 年1 月已在Web of Science 上有117 次被引，是同类论文中最多的。受拉蒂的影响，诸多学者开展了类似的研究。例如，维埃拉（Vieira）等用手机通话、短信数据表征人流密度变化，发现中心区工作日早上密度最高，下午密度下降，晚上商业、商务区和地铁线周围密度最高，郊区周末早上和下午密度最高等现象[7]。塞夫塞克（Sevtsuk）等利用罗马398 个基站的手机通话时长数据研究日常活动的规律，发现通话时长可以分为24 小时（即每天的活动是有规律的）、3.5 天（即工作日和周末的规律是不同的）、12 小时（表示昼夜的活动规律）和8 小时（表示工作时间、非工作时间的活动规律）的周期，大多数活动都有规律可循，不同地区的活动受人口、设施、环境等因素影响[8]。克瑞斯珀（Krisp）用赫尔辛基的手机数据研究人流密度时实分布情况作为消防和安全设施布局的依据[9]。贝克尔（Becker）等利用手机通话和短信数据研究莫里斯敦（Morristown）工作、娱乐人群的居住地分布，发现莫里斯敦对周边地区就业活动的吸引力大于娱乐活动的吸引力，作者还利用通话和短信记录区分人群，发现工作时间比非工作时间使用短信多的人群的空间分布范围更大[10]。塞戈（Sagl）等用乌迪内（Udine）的手机握手数据、通话时长数据和Flicker 社交网站签到数据分析城市不同时段的活动强度。由手机数据发现西部地区与中心区的联系比东部地区与中心区的联系强，西北地区的通信呈现双峰特征；由社交网站签到数据发现不同地点的活动特征受季节影响[11]。随后又用手机通话、短信数据，通过可视化分析方法研究乌迪内工作日和周末空间活动的时实变化[12]。曼弗雷迪尼（Manfredini）等利用2009 年和2010 年蒙扎（Monza）和布里安扎（Brianza）的手机通话时长、短信、移动交换中心活跃用户数据研究城市动态活动，提出可以用手机数据描述城市空间以小时、天、周为单位的使用强度变化，以此为依据制定城市政策、计算人口密度、时实监测本地和外来人口[13]。约翰（John）等用手机数据模拟爱尔兰区域性人口流动，结合马尔科夫链分析人口密度分布，这一研究结果与中央统计局的人口普查数据高度一致[14]。上述研究中使用的手机数据有通话时长、通话频次、短信量、握手数据等，用来表征城市空间活动强度的统计口径并不统一。因此，康朝贵等对研究中用通话时长、通话频次、手机用户数能否表示真实的人流活动提出了质疑，通过研究3 个数据与2008 年全球人口动态统计分析数据（LandScan）的关系发现，通话时长和通话频次的关系随时间变化，通话频次与手机用户数呈线性相关，手机用户数和真实人口数量的比例在不同地区是不同的，不能用来表示真实的人口数量，因此，通话活动能反映活动强度但不能代表人口分布[15]。

空间现象描述利用大数据大样本、高频率的优点，用简单的统计汇总、可视化表达就能实现传统调查方法难以开展的研究。但是，研究结论只是一般现象的描述，并未深入分析、挖掘现象背后的规律。

（二）空间功能识别

部分学者在用大数据描述空间现象的基础上通过空间计算，根据空间使用特征识别其主导功能，包括识别不同的功能区、土地使用类型等。例如，瑞兹（Reades）等将罗马47 km2 划分为1 600 m2 为单位的栅格，计算每个栅格的平均通话时长并进行标准化处理，并用聚类分析分离出8 类地区，识别罗马中心城区边界[16]。此后又用特征分解法（EigendeComposition）识别和提取罗马100 万手机用户的通话时长数据，以栅格数据反映日间热点地区，发现与用企业黄页数据得到的商业密度分布非常契合。研究结果证实了可用手机数据来进行空间计算和比较分析[17]。齐观德（Guande）等利用杭州300 万条出租车GPS 数据，分析载客量与城市社会功能区的关系。发现载客量与社会活动强度有关，不同地区的载客量不同。作者用聚类法识别不同的社会功能区，准确率达到了97.44%[18]。刘瑜等分析了上海6 600 辆出租车的GPS 数据。发现载客量呈现以24 小时为周期的变化规律，市中心、居住区、虹桥机场、浦东机场、郊区5 个点的载客量具有不同的时间序列。进而利用普利亚姆（Pulliam）提出的“源－库”（Source-Sink）模型，通过计算上下客人次的差值聚类来分析土地利用现状，研究结果与2007 年的土地使用情况一致性高达78.5%[19]。裴韬等通过新加坡的手机通话数据的聚类分析表征不同的用地类型，准确率达到了58.03%，并且发现用地异质性越高准确率越低，手机基站数量越多准确率越高[20]。

空间功能识别解答了用大数据描述空间现象是否准确的疑问。将大数据识别的空间功能和普查、统计数据进行比较，证明了大数据有可能较准确地反映空间和土地使用，可为开展后续研究提供支撑。但该类研究本身与城市规划关系并不密切，只是开展后续规划研究的基础。

（三）理论模型验证

随着大数据研究的广泛开展，空间现象描述和空间功能识别已经较为成熟，但其局限性也日益显现，即对研究的实际贡献较小，只是数据可视化展示和可信性证明。因此，有研究者开始探索大数据在验证距离衰减效应、重力模型等理论模型研究中的作用。例如，拉蒂等将英国12 万个居民和商户的固定电话时长数据赋值到3 042 个栅格中，分析不同地区的联系程度。在两次迭代后分离出了23 个地区，与行政边界高度一致，证明了行政边界不仅影响人口空间分布，还影响通讯交流[21]。卡拉布雷塞（Calabrese）等用聚类分析研究手机用户的动态OD 矩阵，发现手机数据和普查数据在县级层面（county level）的交通流、工作日早交通、重力模型的标准差的拟合度分别达到了0.73、0.76、0.59，但在普查区层面（census-tract levels）仅有不到0.3、0.36、0.1。作者认为这是由于普查区层面的样本量较少、统计时间不一致引起的[22]。康朝贵等通过研究439 万手机用户的通话数据发现城市间的通话量不但存在距离衰减效应，还存在位序分布[23]。高松等做了相似研究，发现哈尔滨90% 的通话距离在20 km 之内，通话量的距离衰减参数（1.45）与空间距离衰减参数（1.60）相似，反映了网络空间的距离限制略小于物理空间[24]。卡拉布雷塞等用马塞诸塞州的手机数据研究出行距离的影响因素，发现公共交通越便捷，公众会越倾向于使用公共交通从而增加出行距离[25]。

理论模型验证是大数据理论研究价值的有益探索。大数据不再仅是“炫耀”数据可视化及分析技术的工具，开始吸引关注理论模型研究的专业学者。但当前的理论研究还只是对传统理论的验证，用大数据探索新理论尚有较大难度。

（四）中心体系分析

还有学者通过空间计算对空间现象开展了更为深入的研究，主要致力于定量分析城市中心体系，通过测度人流量及其空间联系识别城市中心、分析中心职能。例如，刘亮等用深圳5 000 个出租车GPS 数据和500 万个公交和地铁IC 卡数据，建立了一个时实的城市动态集成图（Integrated UrbanMobility Patterns）来认知城市、优化城市动态分析方法。作者通过研究地铁站进出人流量发现世界之窗、岗厦站是居住中心，国贸、大剧院、华强路、购物公园、车公庙站是工作中心，老街和华强路是购物和娱乐中心。工作日早高峰呈现以世界之窗和岗厦站为中心的由西向东的单向流特征，晚高峰呈现以华强路和大剧院站为中心的由东向西的单向流特征，钟摆交通量周六大于周日大于工作日。作者又通过分析出租车OD 数据发现罗湖、福田、南山3 个重要的经济发展区联系最紧密[26]。罗斯（Roth）等提出世界城市有复杂的空间结构，人口、密度、区位已经发生了巨大变化，不能用简单的单中心城市结构来解释。作者将伦敦203 万人1 122 万条地铁刷卡数据在空间上以1 500 m 为半径进行聚类分析，发现人流向多个中心集聚，证明伦敦是多中心结构的大城市[27]。刘瑜等将上海以人民广场为圆心的13 km 半径范围分为每2 km 为间隔的同心圆，通过每个圈层中出租车上下客人次的差值聚类识别用地功能，发现由中心至外围商业、娱乐用地减少，工业用地增加，证明了上海呈单中心结构[19]。钟晨等使用新加坡的公交刷卡数据用空间插值（SpatialInterpolation）和汇总统计（Summary Statistics）的方法分析新加坡空间结构的变化。研究发现随着公交和地铁系统的完善，出行距离和客流量都在增长，反映了城市的联系强度在加强。因地铁促进了长距离交通，较高中心度的地区逐渐增加，有地铁站点的城市枢纽的功能集聚度增强。增长的公共交通客流量主要集中在副中心所服务的新建社区，证明新加坡正在向多中心城市结构转变[28]。

中心体系分析不同于空间现象描述，多由专业学者以研究问题为目标，借助空间分析方法，应用专业知识分析数据、解读结果。这类研究与城市规划中的空间结构规划有密切关系，识别城市中心、分析中心职能的方法已经能用于评估公共中心规划的实施效果，展现出了一定的应用前景。

二、大数据在城市空间研究中的思考

由上述文献可知，近年来大数据研究的关注度和成果数量呈上升趋势。《城市科技杂志》（Journal of UrbanTechnology）2010 年第1 期开设了地理和规划中的移动定位和追踪（Mobile Positioning and Tracking in Geography andPlanning）专刊，2014 年第2 期又一次开设了移动通信和城市空间（Mobility，Communication，and Urban Space）专刊。这与当前城市空间活动过于复杂有密切关系，需要借助大数据分析城市中的各种流（Flow）来认识由人流、物流、信息流构成的网络（Network），了解城市要素内和要素间的相互作用和关系，认识城市空间的发展规律[29] 有密切关系。但大数据在受到热捧的同时，还需要理性看待，因为大数据并非万能，其研究可能会遇到诸多局限，例如，康朝贵等对通话时长、通话频次、手机用户数能否表示真实的人流活动的质疑[15] 值得引起重视。基于上述文献，笔者认为当前大数据及其研究存在以下特征。

（一）大数据的优势和缺陷

大数据的一大特征就是海量数据，提供个体时实移动轨迹数据。从文献中可知出租车GPS 数据的样本量和记录量分别约为103 / 天和105/ 天，公交刷卡数据为106/ 天和107/ 天，手机数据更是高达107/ 天和108/ 天（不同城市可能会有所差别），远远超出了传统调查方法能够获取的数据量。从数据内容来看，虽然数据产生和存储不是以空间研究为目的（例如，手机数据是通信商为了解基站负荷，以便及时增减基站而存储），但数据中包含的“谁－什么时候－在什么地方”的信息与城市空间研究所需的样本空间数据基本一致，为定量分析提供了充足的样本。

但大数据也有缺陷。首先，“大数据就是全样本”[30] 只是在理论上成立，公交刷卡数据、GPS 数据、手机数据等都只记录了特定人群的时空轨迹（例如，公交刷卡数据只记录了使用公交卡的用户的数据），这种抽样是非随机的，是否能准确代表总体时空轨迹特征存在质疑[25]。其次，数据内容单一，仅有空间信息，不包含样本的年龄、收入、职业等社会经济信息[25]，只能通过数据反映空间的现象和规律，而难以解释其背后的社会经济原因。在这种情况下，研究者只能以一般行为规律为依据，识别行为目的，以试图挖掘数据隐藏的信息。但根据龙瀛等的研究，从公交刷卡数据中能同时识别居住和工作地的用户仅占总用户的2.8%[31] ；根据艾斯的研究，从手机数据中能同时识别居住和工作地的用户仅占总用户的44.5%[32]。大数据一旦进行识别处理，其以全样本保证抽样随机性的优势就不复存在，识别结果很有可能会与总体产生偏差，在如此大样本情况下这种偏差尚缺少科学方法校准，总量和空间上偏差多少也难以给出确切数据。若用识别数据进行下一步研究很有可能会产生“精确的错误”。最后是数据质量问题，上文综述的文献中虽未提到这一问题，但笔者在研究实践中[33] 发现大数据并非如迈尔· 舍恩伯格（Mayer-Schonberger）等所说可以“允许不精确”[30]。“允许不精确”需要随机错误这一前提，然而从笔者获得的数据来看，由于数据记录和存储等问题，数据存在非随机缺失，有的表现为空间缺失，有的表现为记录缺失。从当前的研究成果来看尚缺少验证数据质量、提高数据应用可靠性的方法。

（二）大数据研究的局限

从已发表的文献来看，大数据并未被研究者过度追捧。很多研究者认为大数据只是提供了过去难以获取的数据源[6，22]，上文综述的文献中标题、摘要或关键词中出现大数据（Bigdata 或Big Data）的仅有1 篇，正文中出现大数据的也仅有2 篇。研究依然依托传统理论开展，将大数据作为一种数据资料，研究结论也并无新的理论突破。而从应用移动定位大数据的时间来看，GPS 数据和公交刷卡数据都已有10 多年的研究历史。近年来出现的手机数据在数据内容上与其并无多大区别，只是数据量有了巨大增长。当时研究者并未提出大数据这个词，或者说大数据尚不能作为学术术语出现在研究成果中。只是近年来由于商业、政府等非学术机构的推动，学术界才开始逐渐接受这个词。

从这些文献的研究内容来看，空间现象描述占主导，并且仍然是近年来的研究热点，理论模型验证、中心体系分析等方面的研究开始涌现，研究的广度和深度正在逐步提升。说明研究者在掌握基本的数据处理技术后，已开始关注城市空间现象背后的深层次规律。移动定位大数据由于具有较丰富的空间信息吸引了地理学者、计算机学者、社会学者跨学科研究空间问题。

从研究结论来看，即使经过深入的数据分析对理论模型和中心体系有所探讨，其结论也只是对一般规律的描述，缺少新的理论探索和解决实际问题的应用。用大数据发现新现象、找出研究问题[30] 的潜力尚未被充分挖掘。这与部分大数据缺少社会经济属性有关，也与大数据需要数据处理技术与规划知识的紧密融合有一定关系，城市规划学者由于缺少数据处理技术，在研究中很难真正充分利用数据，而非规划学者因缺少专业思想指导，又难以提出对规划应用有实际指导价值的研究问题。

基于上述分析，笔者认为大数据并不能取代传统数据，只是传统数据的有益补充。在研究中应充分发挥两者各自的优势：大数据具有丰富的空间信息，传统数据具有较丰富的社会经济信息。可用大数据来描述、分析空间的现象和规律，回答“是什么”的问题，再用传统数据来做解释，回答“为什么”的问题。

三、大数据在城市规划中适宜的研究方向

基于大数据的城市空间研究类型及从文献中总结的大数据的优势和缺陷、大数据研究的局限，笔者认为当前大数据在城市规划中适宜于两方面的研究。一是验证理论模型和提出研究问题。利用大数据丰富的个体移动轨迹信息，从个体出发以全样本或大样本验证传统规划模型正确与否以及具体参数的取值，并试图从中发现用传统小数据难以发现的“不符合一般认识”的现象和规律，提出有意义的研究问题，为规划研究提供思路。二是分析空间现状和评估空间规划。应用大数据，建立一种自下而上的现状分析途径，将大数据分析得到的现状结论与规划蓝图比较，评估现状或规划实施效果，提高规划设计的科学性、合理性。

基于文献中的研究方法，笔者认为可通过两种方法实现上述两方面研究。一是统计汇总。包括：（1）按时间截面汇总每个统计单元的个体数量，反映特征时间点的人流密度，只要通过简单的描述统计分析、时间序列分析等方法就能在空间中反映城市的动态变化过程，结果往往用热点图表示，如拉蒂[6]、塞夫塞克[8]、曼弗雷迪尼[13] 等学者的研究。（2）按规律性行为汇总每个统计单元的个体数量，反映就业、居住、游憩等活动的空间分布，需要首先依据一般行为规律，识别个体行为目的，再用统计学方法分析不同行为的空间使用特征，如贝克尔[10] 的研究。二是空间计算。即在热点图的基础上运用密度分析、栅格计算、聚类分析等空间计算方法挖掘空间现象背后的规律，如瑞兹[17]、刘瑜[19]、罗斯[27] 等学者的研究。

四、结语

本文通过基于移动定位大数据的城市空间研究文献的梳理，发现基于大数据的城市空间研究的广度和深度不断扩展，但是数据本身及相关研究尚存在较多缺陷和局限，需要与传统数据结合才能发挥更好的作用，大数据在城市规划中适宜于验证理论模型和提出研究问题、分析空间现状和评估空间规划两方面研究。在信息社会，城市问题更加复杂，利用大数据进行规划将会变得越来越普遍。规划师亟需转变思路，以多学科协作的方式积极参与基于大数据的城市空间研究，接受新的思维和方法，应对城市问题。

关键字：研究特征数据隐藏