国家发改委和中央信息办在智慧城市建设规划中,将“时空基础设施”建设的组织任务分配给(原)国家测绘地理信息局,很多城市启动了“智慧城市时空大数据与云平台”项目。
在《智慧城市时空大数据与云平台建设技术大纲(2017版)》中,明确:“时空基础设施作为智慧城市的重要组成,既是智慧城市不可或缺的、基础性的信息资源,又是其他信息交换共享与协同应用的载体,为其他信息在三维空间和时间交织构成的四维环境中提供时空基础,实现基于统一时空基础下的规划、布局、分析和决策。”
对以上目标,笔者完全认同。同时,笔者认为——在“信息资源提供”和成为“交换共享与协同应用的载体”两者之中,后者更为重要,时空作为数据融合共享的载体是天然的。我们一起剥丝抽茧,讨论一下时空大数据在智慧城市中的应用模式。
01.支撑时空决策,是时空大数据的存在价值
关于“大数据”的描述,笔者认同Teradata首席分析专家Bill Franks在《驾驭大数据》中表达的观点:没有一种数据叫做“大数据”,“大”和“数据”都不重要,使用数据的方法才重要。我们无需争论哪些数据属于大数据和时空大数据,所有的数据都在时空中,也都是大数据,只要用大数据的方法去使用。
收集和使用数据的方法取决于需要解决的问题,我们把工作任务分为两类,一类是事务性任务,需要精确采集、记录事实信息和处置过程,比如土地所有权发证、工程测量、办理银行存款、电子商务交易;一类是决策类任务,例如土地规划、应急指挥、营销策略制定等,需要收集多维度数据进行综合分析。
大数据的应用目标是支持决策类任务,而非事务性工作。事务性工作是数据产生的源头,其积累的数据成果,经过抽取、融合后方可成为支撑大数据分析的输入。大数据分析不必、也不能直接面向原始业务数据。
顺便说一下大数据和云平台的关系。云平台的本质是计算资源和存储资源的虚拟化,是大数据实施的适宜支撑环境,但非必须。云平台能力并不等同于大数据能力,两者的关系类似于“结婚和买房”。
02.数据融合,是时空大数据的核心能力
智慧城市首先强调数据共享,各地纷纷成立“大数据局”汇集数据,此举就可以消除“信息孤岛”了吗?一位资深地方信息中心主任半开玩笑地说:以前是“烟囱式”的数据调用,现在将一堆烟囱捆在一起集中排放,污染更加严重。
数据如果无法融合,共享便失去意义。
数据融合有两种,一种是以人为线索。比如,将一个人在公安、社保、工商、税务等多个部门的数据打通,实现信息互通。这是办公流程的优化,事务性工作的效率提升,严格讲不属于大数据的范畴。在商业大数据领域,通过人的行为数据进行“客户画像”,制定个性化的营销策略,应属于大数据应用范畴。
另外一种融合,便是时空融合,目的是支撑城市管理者的时空决策,例如:土地规划、产业布局规划、交通治理、环境治理、应急指挥等等,基本逻辑是“何时、何地、何为”。时间和空间即是所有数据的共同特征,又是所有智能的基础,基于时空的数据融合是必然途径。
数据融合需要线索,在商业大数据中,围绕着“人”为线索形成“客户画像”;在时空大数据中,需要定义“地理实体”进行数据融合,形成“地理画像”。
03.基于“地理实体”的数据融合
在《智慧城市时空大数据与云平台建设技术大纲(2017版)》中,明确要求建设“地理实体”数据:以地形图为基础,对境界、政区、道路、水系、院落、建筑物、植被等内容进行实体化,并赋予唯一编码,作为与其它行业和专题数据进行关联的基础。
地理实体是占据一定空间的地物或者现象,地理实体定义及编码的目标是“通过编码交换空间信息”,交换的内容是指附着在空间上的属性信息,例如土地性质、人口统计、经济指标等等。实施的关键是:建立编码与空间范围的对应关系并使之成为统一标准,例如全国统一的邮政编码和行政区划。
编码是沟通效率最高、不易产生歧义且管理效率最高的手段,比如身份证号、楼栋号、学籍号、地类代码等。用编码代表空间范围也是一种常用手段,如标准图幅号、投影带号、电话区号等。
用地理编码作为数据的空间关联线索,可以避免多尺度、多投影、多格式地图数据整合所带来的繁琐工作。
但是,空间单元本质上是业务管理单元,每个部门都有各自的单元划分和编码标准,并在业务运行和信息系统建设中贯彻执行。邮政部门划定邮政编码、教育部门划定学区、交通部门划定道路分段、国土部门划定地块、城管部门划定城管网格、公安部门划定片警辖区……。
不同领域的空间业务单元划分差异性很大,互不相容,不可能设计出一套适合所有行业的划分规则;即使存在完美方案也难以推广,会涉及业务规则调整和信息系统重建,统一的、唯一的编码无从谈起,将编码作为数据关联线索也就无法落实。
在“大数据局”模式下,各部门提交原始业务数据,必会由数据规格多样而带来数据融合困境,“烟囱”依旧;而制定一个统一空间标准,强制推广到各个部门,业务规则冲突必然导致障碍重重;只有在所有业务的底层,设计一个共同的融合架构,才可能从根本上解决数据融合的问题。
04.基于空间网格的地理实体定义和编码方法
有没有一种方法,既不改动各领域的业务单元划分,又能够实现“通过编码交换空间信息”的目标呢?
答案就是基于空间网格的地理实体定义和编码方法。第一步,设计一套全域覆盖的多级基础空间网格,并赋予唯一编码。设定最小网格尺寸,按四叉树逐级向上合并生成上一级网格,网格编码作为网格在计算机中的存储形态。
第二步,用网格集合定义地理实体,网格集合编码作为地理实体编码。不同行业,不同尺度的地理实体,选择不同层次的网格集合来定义。例如:用1米网格记录建筑物信息,用2米网格记录土地利用现状,用100米网格记录人口数量,用1公里网格记录空气质量,用5公里网格记录气象信息。
地理实体编码由所覆盖“基础网格编码”组合生成,最完整的编码是把所有覆盖网格的编码连接在一起,也可进行编码压缩避免过长。这样,解析编码即可获得地理对象的组成网格,进而获得地理实体的覆盖范围。如下图示意,可根据需要的空间精度选择合适层次的网格,网格越小,编码越长,也越接近原始精度。
事实上,在大数据应用中,并不需要原始精度的业务数据,也不需要原始数据的完整内容,而是根据应用分析和决策支持的需要进行抽取和简化,而空间网格是空间简化的适宜方式。如果需要原始数据,通过网格索引调用即可。
由于编码只与地理实体的覆盖网格有关,而与业务内容无关,此编码可自动生成;同一领域的业务单元划分在空间上不重叠,编码的唯一性可以保证;当某一领域的空间业务单元调整时,数据共享融合系统无需改动。
如用户的数据为GIS数据,解析图形即可获得编码;如用户数据为表格数据,解析其中地名地址信息即可生成编码,只需提前生成标准的地名地址网格编码;对于智能感知数据,也可选择合适的网格级别进行空间化标定。
通过一个轻量化的数据抽取工具,对接到不同行业的业务系统中,即可以自动生成形式为“地理实体编码+属性数据”交换数据,由于所有地理实体基于相同的基础空间网格生成,基础网格是不同地理实体沟通的桥梁,各种空间分析可利用“编码计算”完成,利用地理编码进行多源异构数据的共享、交换、协同和融合得以实现。
05.基础时空框架与时空网格数据仓库
在李德仁院士的论文《从数字地图到空间信息网格——空间信息多级网格理论思考》(2003)中,明确指出:“空间数据种类繁多、数据格式各异、存在多种比例尺、多种空间参考系和多种投影类型。这给需要使用空间数据的用户带来了很大的困难,不利于空间信息的共享。究其原因,主要在于GIS是面向空间数据,特别是地图数据的,而不是直接面向空间信息的。” 空间信息网格使空间应用直接面向空间信息,走出地图的束缚。
智慧城市时空大数据平台需要建立基础空间网格,作为空间基础设施;将连续的时间离散化,形成多尺度基础时间网格,是以时间为线索进行数据检索和融合的基础框架;还需建立标准的地名地址网格对象,是地名地址空间范围的网格表达,是基于基础空间网格的公共网格集合。“基础时空网格+地名地址网格对象”组成了智慧城市“基础时空框架”,是大数据时空融合的底层支撑。
基础时空框架与具体数据无关,网格划分是静态的,不会因城市扩张、行政区划合并、撤消、分割等情况而改变,不同时间的信息网格具有空间可比性,可方便地进行时序分析。同时,各种量化的统计指标都基于共同的基础时空框架,也便于不同行业的统计数据进行时空对比分析。
从不同行业数据库中抽取出来的网格数据汇集到一起,形成了“时空网格数据仓库”。数据仓库是面向决策过程的、面向主题的、集成的、稳定的、不同时间的时空网格数据集合,是实现时空决策分析的数据基础和支撑环境。在数据仓库之上,构建若干时空决策分析服务,形成支撑智慧城市时空大数据决策支持分析的完整架构。
在基础时空框架的支撑下,时空大数据平台可提供基于网格的公用基础数据资源;各行业之间在框架内基于网格交换信息;更重要的是,有共同基因的网格数据汇聚到一起后,智慧城市的各项时空决策得以高效务实地进行。
总结
智慧城市时空大数据与云平台建设中,数据类型和数据范围扩展以及运行环境的云平台升级,仅完成了“基础信息资源提供”的目标,而利用时空网格体系构建基础时空框架和数据仓库,突破数据融合瓶颈,才能成为“交换共享与协同应用的载体”,实现“基于统一时空基础下的规划、布局、分析和决策”,才能称得上智慧城市的“时空基础设施”。
(转自《千家网》原标题:“智慧城市”大数据时空融合密码)