未标题-1.png

信息详情

1         研究概述

1.1     研究背景和意义

1.1.1  研究背景

现今世界随着互联网、新媒体的不断涌现,以及云计算、物联网等技术的兴起,数据正以前所未有的速度不断地增长和累积,形成大数据。数据最大的价值是通过数据分析来改善决策,进而提高社会生产力。大数据具有规模性、多样性、高速性和价值性四个特征。

                                             

                                                                                                  图1        从数据处理时代到大数据时代的发展过程

近年来,美国、英国、日本、韩国等发达国家已将大数据上升为国家战略。美国将大数据视为强化美国竞争力的关键因素之一,把大数据研究和生产计划提高到国家战略层面,并大力发展相关信息网络安全项目。中国将大数据上升为国家战略层面,既是顺应时代潮流,也是当前推进创新发展的迫切需要。大数据之所以能成为世界其他主要国家的国家战略,源于其在商业、交通、医疗等领域多年来的成功应用。

20158月,国务院发布《促进大数据发展行动纲要》(以下简称为《纲要》),这是指导中国大数据发展的国家顶层设计和总体部署。《纲要》明确指出了大数据的重要意义,大数据成为推动经济转型发展的新动力、重塑国家竞争优势的新机遇、提升政府治理能力的新途径。《纲要》清晰地提出了大数据发展的主要任务:加快政府数据开放共享,推动资源整合,提升治理能力;推动产业创新发展,培育新兴业态,助力经济转型;强化安全保障,提高管理水平,促进健康发展。《纲要》的出台,进一步凸显大数据在提升政府治理能力、推动经济转型升级中的关键作用。“数据兴国”和“数据治国”已上升为国家战略,将成为中国今后相当长时期的国策。未来,大数据将在稳增长、促改革、调结构、惠民生中发挥越来越重要的作用。

政府高度重视大数据,在云计算、大数据等技术迅速发展的背景下,国家各部委和国内也有一些城市在利用大数据推动创新发展方面初见成效。

 

住房城乡建设部近日发布了《2016-2020年建筑业信息化发展纲要》,旨在增强建筑业信息化发展能力,优化建筑业信息化发展环境,加快推动信息技术与建筑业发展深度融合。纲要提出,“十三五”时期,全面提高建筑业信息化水平,着力增强BIM、大数据、智能化、移动通讯、云计算、物联网等信息技术集成应用能力,建筑业数字化、网络化、智能化取得突破性进展,初步建成一体化行业监管和服务平台,数据资源利用水平和信息服务能力明显提升,形成一批具有较强信息技术创新能力和信息化应用达到国际先进水平的建筑企业及具有关键自主知识产权的建筑业信息技术企业。

《北京市大数据和云计算发展行动计划(2016-2020年)》提出,健全融合开放体系,建立北京市大数据管理中心及市级大数据管理平台和公共数据开放平台,推动重点领域公共大数据的汇聚融合和共享应用,加快推动区级公共大数据汇聚中心建设。大数据成为提升政府治理能力的新途径。

“大数据”是信息产业发展的新兴热点,西城区城市管理监督指挥中心一贯注重以前沿技术驱动管理机制改进,于2010年申请立项并在2014年末完成了“西城区城市管理信息资源库”项目的系统建设。该项目按照人、地、事、物、组织的分类收纳了西城区城市管理领域内的相关资源,并可通过共享服务将相关资源数据共享给区内其他委办局进行应用,目前已对西城区各个委办局和街道提供了全区GIS图、行政区划、城市部件等共享数据资源。在该项目的建设过程中完善并确立了西城区城市运行管理信息资源目录、标识符编码、采集和更新、发布与共享等一系列标准规范,并不断地对信息资源库进行数据方面的更新和扩充,积累了大量的城市运行信息资源。2015年“西城区区级全响应协同平台建设”项目围绕着西城区“社会服务、社会管理、行政服务、城市管理、应急处置”五位一体的全响应社会服务管理理念,搭建了西城区区级全响应协同平台数据仓库,在西城区城市管理信息资源库的基础上与15个街道和相关委办局对接了五位一体其他领域内的相关基础资源数据,共涵盖了:访听解、全响应事项、城市管理案件、民情日志、为民服务、12341、应急事件、街道社区网上办事八大类“事”的数据;整合了以城管部件为基础的共7大类98小类合计约60余万个“物”的数据;汇总了包括行政区划、商业设施、文化设施、公共服务等“地”的数据;对接了区人口库、法人库中的常住人口及流动人口等“人”的数据;汇集了区内6万余家生产经营单位和相关社区组织、社会组织等“组织”的数据。2016年,西城区城市管理监督指挥中心正在围绕着区全响应协同平台数据仓库中的数据成果,在大数据应用方面进行试点建设,主要是建设西城区全响应数据搜索引擎基础平台和该搜索平台在业务上的试点应用,为全区各级领导和部门辅助决策提供依据。

西城区城市管理监督指挥中心在大数据背景下,基于正在建设的数据搜素引擎项目和已有的信息资源库,通过调研研究,结合全响应社会服务管理需要,利用大数据和云计算等先进技术,将大数据技术和城市运行管理平台多年积累的基础数据相结合,构建大数据平台,探索大数据背景下的资源整合和应用,研究新形势下大数据在网格化管理、精细化管理中的应用与实践,探索大数据推动城市管理和社会服务管理发展的新路径,努力提高决策支持能力。

1.1.2    研究意义

大数据给政府的精细化管理提供有效的技术支持,同时,它的运用也必将对政府的流程再造乃至管理体制的变革起到积极的推动作用。在当下政府加快职能转变的关键时刻,以技术创新倒逼政府体制改革的声响越来越大。因此,从这个意义上说,推动大数据分析的建设,建立跨部门、跨领域、跨界别的数据联通与开放标准体系,推进大数据整体实施方案的完善,保护数据安全和个人隐私,对于国家治理体系的完善和国家治理能力的提升有着极为重要的意义。

本项目的研究意义主要包括以下内容:

1) 通过大数据技术与城市管理运行平台多年积累的基础数据相结合,以前沿技术驱动管理机制改进,可以推动城市管理和社会服务管理发展,对信息化城市管理工作发挥重大促进作用。

2) 顺应大数据时代潮流,通过大数据在网格化管理、精细化管理中的应用与实践,为政府精细化管理和服务型转变提供更全面、更有效的支撑。

3) 大数据将提升电子政务和政府社会治理的效率。大数据的包容性将打开政府各部门间、政府与市民间的边界,信息孤岛现象大幅消减,数据共享成为可能,政府各机构协同办公效率和为民办事效率提高,同时大数据将极大地提升政府社会治理能力和公共服务能力。

4) 大数据提高政府决策的科学性和精准性,提高政府预测预警能力以及应急响应能力,政府摈弃经验和直觉,依赖电子政务的数据和分析进行决策。现在大数据又超越了传统的数据分析方法,不但是对纯数据可以进行分析挖掘,对言论、图表等都可以进行深度挖掘、人工智能。

1.2     研究目标

大数据背景下的资源整合,研究新形势下大数据在网格化管理、精细化管理中的应用与实践,建立大数据平台,为决策分析提供支撑,促进城市管理和社会服务管理发展。

1.3     研究技术路线

本课题的技术路线主要是根据课题的研究目标采取的技术手段、具体步骤及解决关键性问题的方法等在内的研究途径,合理的技术路线可保证顺利的实现既定目标。

研究技术路线:前期调研——项目论证——项目计划——实践探索——反思调适——收集资料——总结分析——构建模式——形成报告——推广应用。

2         研究范围

围绕正在建设的数据搜索引擎项目,研究大数据背景下的全响应社会服务管理数据资源整合和决策分析,目前数据整合存在的问题和下一步打算,为后续系统决策分析提供一些依据;探索“大数据”推动城市管理和社会服务管理发展的新路径,以前沿技术驱动管理机制改进,将大数据理论和技术与城市管理运行平台多年积累的基础数据相结合,通过调查研究,结合实际工作,构建大数据平台,探索新形势下大数据在网格化管理、精细化管理中的应用与实践,努力提高决策支持能力。

3         大数据技术

3.1     大数据概念

“大数据”是一个体量特别大,数据类别特别大的数据集,并且这样的数据集无法用传统数据库工具对其内容进行抓取、管理和处理。

1) 百度百科——大数据

大数据(big data),指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力来适应海量、高增长率和多样化的信息资产。

2) 研究机构Gartner大数据概念

研究机构Gartner给出这样的定义:大数据(Big data)是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。从数据的类别上看,“大数据”指的是无法使用传统流程或工具处理或分析的信息。

大数据基于物联网、云计算、移动互联网等新一代信息技术,实现对事物存在和演化过程全生命周期内产生的所有数据的记录和收集,它从完整的表达一个事物、一个系统的角度出发,表达的了事物内在的耦合关系。当全景、全生命周期的数据足够大时,当系统的组分结构、每个个体的静态数据和动态数据均被记录下来,大数据可完整的刻画复杂系统及其涌现现象。

大数据具有4V特征,即体量巨大(Volume),从TB级别跃升到PB级别,增长遵循摩尔定律;类型繁多(Variety),包括社交数据、图片、声音和视频等多源、异构数据;实时性强(Velocity),要求实时的生成、存储、处理和分析;价值密度低(Value),知识提纯难度高,需结合行业应用深度挖掘,才能显示它的巨大的数据价值。

                                                                                                                                                     图2        大数据的特征

大数据实践当中,往往多比单纯的大更重要,大数据的多样性主要表现在数据来源多、数据类型多和关联性强等方面。

大数据不是关于如何定义,最重要的是如何使用。最大的挑战在于哪些技术能更好的使用数据以及大数据的应用情况如何。这与传统的数据库相比,开源的大数据分析工具的如Hadoop的崛起,这些非结构化的数据服务的价值在哪里。

3.2     大数据技术

大数据带来的不仅是机遇,同时也是挑战.传统的数据处理手段已经无法满足大数据的海量实时需求,需要采用新一代的信息技术来应对大数据的爆发。大数据的发展历程见下图。

                                                                                                                                            图3        大数据的发展历程

大数据的挑战主要表现在管理能力和存储能力的挑战。

采用新一代的信息技术来应对大数据的爆发,大数据与相关技术的关系见下图。

大数据需要解决快速的数据流转、多样的数据类型和海量的数据规模等问题。

 

大数据技术主要分为五大类。

1) 基础架构支持

主要包括为支撑大数据处理的基础架构级数据中心管理、云计算平台、云存储设备及技术、网络技术、资源监控等技术,大数据处理需要拥有大规模物理资源的云数据中心和具备高效的调度管理功能的云计算平台的支撑。云计算管理平台能为大型数据中心及政府提供灵活高效的部署、运行和管理环境,通过虚拟化技术支持异构的底层硬件及操作系统,为应用提供安全、高性能、高可扩展、高可靠和高伸缩性的云资源管理解决方案,降低应用系统开发、部署、运行和维护的成本,提高资源使用效率。

2) 数据采集技术

数据采集技术是数据处理的必备条件,首先需要有数据采集的手段,把信息收集上来,才能应用上层的数据处理技术.数据采集除了各类传感设备等硬件软件设施之外,主要涉及到的是数据的ETL(采集、转换、加载)过程,ETL工具负责将分布的、异构数据源中的数据如关系数据、平面数据文件等抽取到临时中间层后进行清洗、转换、集成,最后加载到数据仓库或数据集市中,成为联机分析处理、数据挖掘的基础。

3) 数据存取技术

数据经过采集和转换之后,需要存储归档。针对海量的大数据,一般可以采用分布式文件系统和分布式数据库的存储方式,把数据分布到多个存储节点上,同时还需提供备份、安全、访问接口及协议等机制。包括关系数据库、NOSQLSQL等。

4) 数据计算技术

我们把与数据查询、统计、分析、预测、挖掘、图谱处理、BI商业智能等各项相关的技术统称为数据计算技,数据计算技术涵盖数据处理的方方面面,也是大数据技术的核心。

5) 数据展现与交互

数据展现与交互在大数据技术中也至关重要,因为数据最终需要为人们所使用,为生产、运营、规划提供决策支持。选择恰当的、生动直观的展示方式能够帮助我们更好地理解数据及其内涵和关联关系,也能够更有效地解释和运用数据,发挥其价值。在展现方式上,除了传统的报表、图形之外,还可以结合现代化的可视化工具及人机交互手段,甚至是基于最新的如Google眼镜等增强现实手段,来实现数据与现实的无缝接口。

3.3     大数据分析

大数据分析是指对规模巨大的数据进行分析。大数据可以概括为5个V, 数据量大(Volume)、速度快(Velocity)、类型多(Variety)、价值(Value)、真实性(Veracity)。

大数据分析的六个基本方面:

1) 可视化分析(Analytic Visualizations

不管是对数据分析专家还是普通用户,数据可视化是数据分析工具最基本的要求。可视化分析可以直观的呈现大数据特点,让数据自己说话,就如同看图说话一样简单明了。

2) 数据挖掘算法(Data Mining Algorithms)

大数据分析的理论核心就是数据挖掘算法,各种数据挖掘的算法基于不同的数据类型和格式才能更加科学的呈现出数据本身具备的特点,集群、分割、孤立点分析还有其他的算法才能深入数据内部,挖掘价值。这些算法不仅要处理大数据的量,也要处理大数据的速度。

3) 预测性分析能力(Predictive Analytic Capabilities)

大数据分析最重要的应用领域之一就是预测性分析,从大数据中挖掘出特点,通过科学的建立模型,之后便可以通过模型带入新的数据,根据可视化分析和数据挖掘的结果做出一些预测性的判断。

4) 语义引擎(Semantic Engines)

由于非结构化数据的多样性带来了数据分析的新的挑战,我们需要一系列的工具去解析,提取,分析数据。语义引擎需要被设计成能够从“文档”中智能提取信息。

5) 数据质量和数据管理(Data Quality and Master Data Management)

大数据分析离不开数据质量和数据管理,高质量的数据和有效的数据管理,能够保证分析结果的真实和有价值。

6) 数据存储、数据仓库

数据仓库是为了便于多维分析和多角度展示数据按特定模式进行存储所建立起来的关系型数据库。在商业智能系统的设计中,数据仓库的构建是关键,是商业智能系统的基础,承担对业务系统数据整合的任务,为商业智能系统提供数据抽取、转换和加载(ETL),并按主题对数据进行查询和访问,为联机数据分析和数据挖掘提供数据平台。

4         数据资源整合

4.1     全响应社会服务管理模式

2012年按照西城区委、区政府社会服务管理工作创新的统一部署,建立了全响应网格化社会服务管理指挥中心,2013年6月正式揭牌。在此项工作中,西城区城市管理监督指挥中心的主要职责是以城市运行管理系统为依托,整合区内信息化资源,负责全响应网格化社会服务管理指挥中心区级平台的建设。

西城区全响应网格化社会服务管理模式见下图。

全响应网格化社会服务管理指挥中心作为全响应模式信息化支撑平台的重要组成,其建设的业务目标是:为践行“服务立区”的战略,以有效支撑全区全响应社会服务管理工作为目标,通过充分整合现有资源,及时准确感知全区社会服务管理态势;建成社会服务管理业务闭环,业务功能服务涵盖社会服务、社会管理、行政服务、城市管理、应急管理,通过对接街道平台,实现区街两级平台联动,不同层级服务中心、服务管理机构和部门之间网络互联互通、信息共享和业务协同,实现社会服务管理“全覆盖、全感知、全时空、全参与、全联动”。

全响应网格化社会服务管理工作内涵见下图。

目前西城区已初步实现了全区社会服务管理各有关业务部门和14个街道平台的互联互通,数据共享,搭建了全响应网格化社会服务管理指挥中心信息化平台的总体框架,但无法满足区领导对数据发掘、数据分析方面的需求,需要进一步将各类整合数据纳入到全响应“人、地、事、物、组织”数据资源下进行综合应用。

4.2     数据资源整合的任务

数据资源整合就是要将西城区全响应社会服务管理业务范围内的,原本离散的、多元的、异构的、分布的信息资源通过逻辑的或物理的方式组织为一个整体使之有利于管理、利用和服务,也就是把分散的资源集中起来把无序的资源变为有序,形成共享的数据应用环境,消除“信息孤岛”。具体来说是将数据、业务流程、应用软件、硬件和各种标准联合起来,在两个或更多的业务应用系统之间实现无缝集成,使它们像一个整体一样进行业务处理和信息共享,共同发挥集成效应,而使这些具有不同体系的内容能很好的协同起来,必须重视统一基础标准的制定和实施。

通过数据资源整合,强化对信息资源的有效管理和综合利用,形成统一数据标准,构建总体信息化规划和管控的解决方案,用以指导、控制和协调业务应用系统的集成化开发和整合,避免分散开发、各自为战、浪费资源和重复投资等问题出现,提升信息系统的综合效能,规避系统风险,为西城区各个层面提供决策支持。

总体而言,信息资源整合的主要任务如下:

1)使西城区网格化全相应社会服务管理指挥中心的零散信息成为信息资源;

2)提升现有信息系统的综合效能;

3)规避风险、保护投资;

4)提高西城区网格化全相应社会服务管理指挥中心决策支持能力。

4.3     目前数据资源整合存在的问题

足够的数据量是大数据战略建设的基础,因此数据采集就成了大数据分析的前站,采集是大数据价值挖掘重要的一环,其后的分析挖掘都建立在采集的基础上。大数据技术的意义确实不在于掌握规模庞大的数据信息,而在于对这些数据进行智能处理,从中分析和挖掘出有价值的信息,但前提是拥有大量的数据。

西城区全响应的需求分析见下图。

                                                                                                                     图4        西城区全响应的需求分析(1

 

                                                                                                                     图5        西城区全响应的需求分析(2

西城城市全响应社会服务管理信息资源虽然取得一些成效,搭建了西城区区级全响应协同平台数据仓库,在西城区城市管理信息资源库的基础上与15个街道办事处、区科信委和相关委办局对接了五位一体其他领域内的相关基础资源数据,并依托区全响应协同平台进行了对应的数据展示和决策分析功能建设。但与城市发展的要求和市民的期盼相比,还有相当的差距,特别是在信息资源整合、大数据应用推广等方面都需要进一步加强和完善。

一是大数据资源汇聚整合方面。目前全响应资源整合项目和协同平台项目完成了全区全响应领域的五位一体的信息资源整合、区街两级信息资源整合,以及区街两级指挥调度的深度融合,实现了全响应协同平台数据仓库的合理架构和数据活化,较之以往无论从数据种类、数据范围、数据数量都发生了几何级数的增长。虽然初步形成了信息资源共享机制,但依然存在部分信息资源难以整合,信息资源共享机制还需要进一步完善,信息资源共享的技术标准和规章制度需要加快建立完善。

二是数据开发应用方面。在基础平台建设和资源整合的同时,信息资源使用效率不高,实际应用还不充分,效果还不明显。目前,西城区城市管理监督指挥中心实现了城市日常运行状态的感知和全响应建设成果展示等功能,也起到良好效果。2016年,西城区城市管理监督指挥中心计划围绕着区全响应协同平台数据仓库中的数据成果,在大数据应用方面进行试点建设。系统建设完成后,通过基于搜索引擎平台全部数据的框搜索和精确搜索方面的应用,可有效解决目前数据仓库中海量基础数据模糊查询、精准查询、关联查询方面的问题。但是在大大数据应用和提升数据价值方面还需要加强。

4.4     数据资源整合模型设计

数据资源整合的方式很多,本课题研究重点就信息化中常用的基于数据库系统的数据整合进行模型设计。基于数据库系统的数据整合的核心是数据的处理方式,即数据共享中心的模型设计。基于数据库系统的数据整合的核心思想是建立一个数据共享中心,在数据共享中心存放所有业务系统共享的数据。单个业务系统需要访问其它业务系统的数据时,可以通过关联本系统和数据共享中心的数据,达到访问其它业务系统的访问权限、系统资源以及具体的业务逻辑,只需要关注数据共享中心的数据即可达到相同的效果。数据整合的结构见下图。

数据共享中心存放所有业务系统公共的数据信息,包括企业业务数据信息、数据库建库信息、统一接口规范信息、数据转换定义信息等。

4.5     数据搜索引擎项目

根据西城区全响应社会化服务管理工作的要求,2015年基本完成了资源整合的建设内容,同时完成了西城区协同平台的需求调研工作。借助全响应平台与城管平台的初步整合和五位一体业务的初步融合,从业务上实现了区级、街道/委办局、科所队三级协同,实现了全响应工作流闭环,为了使全响应工作得以有效推进,积累的全响应相关数据更好的为区领导提供帮助,建立基于大数据的搜索引擎能力,以及满足街道当前业务的应用需要和个性化需求。

目前已经建设的内容为:

1)              西城区全响应大数据搜索引擎基础平台

西城区全响应平台已经对接并积累的海量的业务数据,依据全响应工作的明确要求,在全响应领域进行大数据的试点应用。现阶段,虽然真正立体交叉的数据分析挖掘应用尚没有明确的业务需求,但是通过建立大数据搜索引擎的方式可以满足相当大一部分对数据的查询需求,以及基于分本的分析、匹配等要求。

依托西城区全响应数据仓库和搜索引擎框架,构建一个独立的全响应搜索引擎平台,来支撑数据的服务与利用。搜索引擎平台具备同时管理全响应事项、城管事件、民情日志等多组索引库的能力。它对外提供类似于Restful架构的API接口,通过接收http请求post的XML/JSON数据,搜索引擎平台可以生成数据索引;也可以通过接收Http Get操作提出查找请求,并返回XML/JSON格式的结果。

2       西城区全响应大数据搜索引擎试点应用。

基于数据平台,建设了西城区全响应大数据搜素引擎试点应用项目。

西城区全响应大数据搜索引擎试点应用建设主要包括以下内容:

(1)      框搜索

基于搜索引擎平台对数据,提供框式搜索支持,用户可以模糊搜索全部种类的数据,也可以搜索特定种类的数据;框搜索是一种数据的模糊搜索方式(类:百度),用户通过输入搜索关键字,实现数据的快速检索。全响应框搜索功能在使用时,用户可以针对全部数据分类、单个数据分类进行有选择性的搜索。

图1.            数据搜索平台框搜索

在交互搜索条件时,会检索词库,并提出搜索建议,方便用户确认搜索关键字进行搜索建议提示;

图2.            历史搜索记录和高频词

对于搜索结果,可以根据时间、数据种类等统一信息进行排序;搜索结果中将关键词以高亮方式醒目显示,并支持页面条数据设置、时间、数据类别等快速搜索功能,降低用户搜索难度。

 

图3.   搜索结果多形式展示

图4.   搜索结果多形式展示

 

点击搜索结果,可以连接业务系统的详情展示页面。

本期系统建设以西城区城市管理监督指挥中心和广内街道为试点,西城区城市管理监督指挥中心可以搜索全区的数据;广内街道只能搜索广内街道范围内的数据。

(2)      精确搜索

框搜索提供了数据的模糊搜索应用,在一些业务场景,需要根据数据的属性信息,进行精确数据搜索。。精确搜索的界面类似于淘宝、京东的电商商品搜索页面,左边以目录的方式列举出索引库的数据目录,包括全响应事项数据、民情日志数据、城管事件数据、综治基本信息、综治业务事项信息、广内老人数据、广内实有人口数据、园林巡查记录、渣土消纳案件信息、渣土消纳许可公示信息;右边针对不同种类的数据,依据索引结构,提供多条件的组合查询交互界面,包括基础查询条件,如街道、时间、来源等和个性化查询条件如事件的属性信息和人的属性信息;用户在交互以后,在页面的下方实时显示查询的结果。

图5.            数据搜索平台精确搜索

对于搜索结果,可以根据时间、数据种类等统一信息进行排序;

搜索结果中的关键词,可以以高亮的方式醒目显示。

图6.            搜索结果展示

点击搜索结果,可以连接业务系统的详情展示页面。

图7.            单一条件支持多选

本期系统建设以西城区城市管理监督指挥中心和广内街道为试点,西城区城市管理监督指挥中心可以搜索全区的数据;广内接到只能搜索广内街道范围内的数据。

(3)      基于数据相似度的案件甄别

目前常有统一事件从多个渠道进行上报,客观上增大了服务管理的工作量和成本。基于搜索平台的底层功能,可以实现文本相似度比较,在查询的同时默认将相似度较高的结果返回。系统基于相似度比较,对各类来源、渠道、系统的事件内容进行相似度匹配,实现疑似案件的查重功能。

本期重点完善区街两级全响应指挥调度系统,在街道全响应分平台中,以广内街道为试点,实现全响应、城管事件和民情日志的查重功能。

在街道指挥分中心待办表单中增加案件查重功能,点击可弹出所有由系统判定的疑似案件列表,人工判断后选择相似案件并进行保存,系统会记录对应的关联关系。

(4)      基于高频词语的民情日志分析

目前,14个街道的民情日志均没有分类,不便于西城区全响应指挥中心和各个分中心基于民情日志对民情需求进行分析汇总,本期系统随已考虑增加民情日志分类,但仍无法对民情的细化需求进行分析。基于搜索引擎技术的分析提取高频词库的功能,定期对民情日志内容描述的进行高频词分析、汇总,实现按街道、按社区的民情热点分析,以及民情热点趋势变化分析。

为全响应区街两级指挥调度平台提供民情日志分析功能,系统自动提取出指定时间范围内,在民情日志信息中出现频次最多的关键词语,并按照数量多少倒序排列,点击每一个词组后的汇总数字,还可以打开民情日志明细列表,查看每一条具体的民情日志信息,其中区级平台可对全区的民情日志进行分析,街道平台只能查看本街道数据的分析成果。

4.6     数据资源整合的下一步工作

1) 统一信息资源模式,强化数据标准建设

大数据时代,信息资源整合的关键是依托主数据管理(MDMMaster Data Management),强化数据标准化建设,实现信息资源模式的统一。主数据管理就是将多个业务系统中整合最核心的、最需要共享的数据(主数据),集中进行数据的清洗和丰富,并且以服务的方式把统一的、完整的、准确的、具有权威性的主数据分发给政府管理部门内部需要使用这些数据的应用。

2) 加强统筹规划,优化大数据共享机制

一是研究并完善社会服务管理信息资源共享管理办法,从信息安全、信息公开的角度,在信息资源来源、采集、传输、渠道建立等方面形成规范,明确信息资源分类、管理、安全和开发利用等方面的具体程序要求。

3) 完善数据共享平台,推进信息资源整合。为全区各级政务部门、区、街道、社区提供统一的高质量的政务外网平台,与各区、街镇、社区现有局域网有效联接,形成全区各类政务数据“一张网”上运行

4) 建立指标采集监测平台,推进信息资源整合

为全区、街道、社区提供统一的高质量的指标采集监测平台平台,指标采集监测平台主要包括信息采集、信息综合处理、统计分析查询、信息展现、信息分发与服务。

采集的数据资源包括基础设施监测数据资源(为城市设施体征提供数据监测,为设施应用分析提供支撑组件和管理功能,充分发挥数据潜在价值,从而提高政府在城市基础实施的监管水平)、公众民情采集与服务数据资源(基于已有的数据资源体系,采用民情热线、舆情监测、移动终端等物联网技术对城市中的人、事、情、组织产生的民情民意数据进行整合)、公共安全数据资源等。

在信息采集阶段主要是通过数据交换等方式实现对城市运行监测对象(城市运行体征指标数据、事件数据和视频数据)的有效采集;然后经过一个信息综合处理的过程,对所采集的信息进行清洗、格式转换和封装入库,为后期应用做好数据准备;在信息展现阶段,主要是通过体征模型和态势预测模型,并结合GIS空间可视化服务,基于展示控制面板实现用户可灵活自定义的、个性化的信息展现服务;同时,基于库中已有历史数据,提供灵活的单/多条件的综合查询和统计分析,满足用户日常工作中的查询、统计、分析需求,并可为重大突发事件中领导的辅助决策提供数据支撑服务;最后,通过个性化的定制服务,为用户提供基于体征日报的城市运行信息服务。

信息采集是实现各职能部门重大城市运行问题及指标填报单位城市运行体征指标数据及时采集的有效途径。根据内容的不同,信息采集可分为城市运行体征指标数据采集(简称指标采集)、重大事件/应急事件采集(简称事件采集)、综合报送信息采集(简称信息采集)和城市运行状态体征采集(简称体征采集)。信息采集主要实现信息上报、信息接收和催报功能。

5) 积极部署大数据应用,驱动信息资源的有效利用

大数据时代,信息资源整合的最终目标是利用大数据分析与挖掘技术实现信息资源的高效利用。应用系统是大数据的根基,应加大大数据技术的应用部署力度,综合运用云计算、分布式计算、数据交换、数据仓库、数据挖掘以及非结构化的数据处理等多层次的大数据技术搭建大数据平台。

6) 重视数据安全管理,确保大数据生态圈信息安全

大数据时代,信息系统之间互联是必然的,他们会形成一个息息相关的生态圈。在这一生态圈里,存储和管理的大量数据信息是核心,需要对数据安全问题进行控制和管理。因此,在信息资源整合过程中应以数据安全管理为前提,从管理制度、流程和技术手段等多方面协作确保大数据生态圈的数据信息安全。

5         大数据应用

5.1     构建大数据平台

目前,大数据尚未具有一个全面的、整合的平台,通过对以上需求进行分析,针对全响应社会服务管理领域应用中数据规模大、数据关联性强等特点,亟需构建一个能够有效支撑大数据应用的平台,从而解决大数据的服务、共享、整合和分析的集成性问题。运用互联网资源优势,整合西城区全响应社会服务管理信息资源,实现全响应社会服务管理信息资源全面融合及统筹管理,基于大数据平台,充分利用大数据分析、数据仓库、数据挖掘等技术进行深入的分析和挖掘,实现综合查询、统计分析、预测预警等辅助决策支撑功能,为社会服务管理等方面的科学决策提供实时数据、预测模型、评估分析等综合信息服务,依托相关技术对互联网内容进行舆情分析,实现对突发事件进行跨时间、跨空间综合分析,获知事件发生全貌,为决策和研究提供科学全面的参考。

5.1.1  大数据平台架构

大数据平台在逻辑上表现为一种层次架构,自上而下包括应用层、门户层、服务层、感知/接入层和资源层。而相关的标准、规范和安全机制贯穿所有层次。

1)   应用层:面向社会服务、公共安全等领域大规模数据的业务应用,支撑智能监控、事态预测、统计分析、分析模拟、指挥决策等核心应用。

2)   门户层:为应用层提供“云模式”和“云+端模式”两种使用方式。无论是应用人员还是平台管理人员,只需通过本地即可登录平台门户,访问平台层中各系统,有效检索管理平台中各系统的结构化以及非结构化数据,从而有效支撑完成各种应用。

3)   服务层包含业务服务层和支撑服务层。业务服务层:面向大数据的采集、建模、管理、分析、挖掘和融合等全生命周期,为上层业务应用提供相关服务。支撑服务层:涵盖物联化中间件、虚拟化中间件、服务化中间件、资源调度中间件以及分布式存储中间件(如Hadoop等),其中,资源调度中间件提供负载均衡、容错调度在等支撑服务,对底层资源全面整合和全生命周期集中管理,从而为各类应用提供资源支持。

4)   感知/接入层:通过各类感知设备获取各类大数据信息,同时通过无线传感网络、4G等多种途径传递大数据信息,并对这些大数据进行初步融合。

5)   资源层:为大数据平台的运行基础支撑提供包括存储服务器、计算服务器等高性能硬件资源,结构化和非结构化的数据资源,以及平台资源和模型/服务资源等软件资源。

大数据平台体系架构见下图。

                                                                                                                                        图6        大数据平台体系架构

5.1.2  大数据建模与存储管理

多源、分布和异构数据的整合和统一管理问题目前主要有两方面:第一,通过大数据统一建模,支持异构多源数据的管理问题;第二,应用一种新的同构存储机制支持大数据的管理问题。建立社会服务管理数学模型库,进行深度数据挖掘,提供政府科学决策,提升政府精准管理。

1)   大数据建模

要进行大数据统一建模,就需要对纷繁的大数据化繁为简,从大数据特性出发,归纳总结其最小信息结构,进而从应用出发,着重抽取关联关系,进而将大数据进行抽象,实现对大数据的建模。依据对大数据的分析,提出基于大数据的统一描述框架的建模方法。通过对大数据的分析,首先定义大数据的三类关键信息:大数据基本信息、功能信息,以及协同联动信息,以建立大数据体的元描述。而后在顶层大数据中定义结构化数据基体、非结构化数据基体和大数据体,其中依据大数据的不同特征进行聚合形成大数据基体。大数据体由较小粒度的大数据体或大数据基体构成,其通过协同联动信息组织起来,这里的协同联动信息可认为是一类约束性信息。大数据体、结构化数据基体及非结构化数据基体的实例化就成为大数据实例,大数据实例由于粒度的大小又可成为功能模块大数据,专业领域大数据等。而后,利用大数据统一描述框架,对每一类异构大数据利用统一描述框架进行抽取和处理就可以得到表达一致的大数据,进而有效支持大数的统一存储、并行挖掘等。

此外,例如面向多源整合的大数据可以应用索引和描述技术来解决大数据的描述管理问题。首先,需要建立多源数据的索引和描述,常规索引建立主要分为三个方面:大数据分类索引构建,空间数据R树索引构建,层次索引树建立。

2)   大数据海量存储管理

“大数据”来袭时,传统的数据存储方式已不能满足要求,需要开展分布式存储的研究,大数据分布式存储主要考虑以下几个问题:

(1)      存储资源管理方法

为了解决集群存储环境下的存储资源管理问题,采用存储资源映射方法通过在物理存储资源和虚拟存储资源请求之间建立合理的映射关系,来进行有效的存储资源管理。可利用合理的集群存储资源映射方法,将虚拟存储资源请求均匀地分配到节点上,然后进行节点内部设备级别的资源映射。

(2)      支持多用户的资源使用和存储环境隔离机制

当用户数量增多,有限的存储资源已经不能满足用户对该类资源的需求时,用户与资源的矛盾就会突显出来。解决这种矛盾的最有效办法就是采取有效资源共享机制,将有限数量的资源按需动态共享给多个用户使用。此外,在存储资源共享的同时,从用户角度看每个应用系统是独立的,不依赖于其他应用系统运行而运行,也不受其他应用系统和资源的运行结果影响,因此需要存储环境隔离技术来屏蔽各个应用系统对存储资源运行的互相影响。利用存储虚拟化技术来整合不同厂商的存储系统。通过隔离主机层与物理存储资源,存储虚拟化技术可以将来自于不同存储设备(即使是不同厂商的设备)的存储容量汇集到一个共享的逻辑资源池中,这样存储的管理就更容易了。任何单体存储阵列所创建的物理卷的容量都是有限制的,而多个异构的存储系统联合在一起就可以创建出一个更大的逻辑卷。

(3)       基于Hadoop的大数据存储机制 

大数据的各类描述方式的多样性,存在着结构化数据、半结构化数据和非结构化数据需要进行处理。对于结构化数据,虽然现在出现了各种各样的数据库类型,但通常的处理方式仍是采用关系型数据知识库进行处理;对于半结构化和非结构化的知识,Hadoop框架提供了很好的解决方案。Hadoop分布式文件系统HDFS是建立在大型集群上可靠存储大数据的文件系统,是分布式计算的存储基石。基于HFDS的Hive和HBase能够很好地支持大数据的存储。具体来说,使用Hive可以通过类SQL语句快速实现MapReduce统计,十分适合数据仓库的统计分析。HBase是分布式的基于列存储的非关系型数据库,它的查询效率很高,主要用于查询和展示结果;Hive是分布式的关系型数据仓库,主要用来并行处理大量数据。将Hive与HBase进行整合,共同用于大数据的处理,可以减少开发过程,提高开发效率。使用HBase存储大数据,使用Hive提供的SQL查询语言,可以十分方便地实现大数据的存储和分析。

5.1.3  大数据处理应用标准规范

“标准先行”已成为当前各行业数据应用的共识,有了标准数据才能共享,才能支撑大数据处理平台应用的开展。大数据的相关标准规范主要分为技术标准体系及应用标准体系两个方面,包含各类大数据资源的接入标准,大数据处理平台的各类接口标准,各类大数据处理服务的标准等,此外还包括大数据的应用标准,如对接相关行业标准,大数据平台应用的安全标准等。

5.2     大数据在精细化管理中的应用

信息共享下大数据推动城市管理和社会服务发展,大数据可极大提升政府社会管理的“智慧”水平和科学决策能力。利用大数据平台对基础数据库中的海量数据进行管理、维护并深化应用价值,变海量数据为真正的有效数据,使数据为实际工作服务,为精细化城市管理提供依据,为科学决策提供有效支持。

如何对社会服务管理大数据进行分析处理,就需要解决大数据平台的应用模式问题。将各种多源、分布和异构的数据资源接入大数据平台,通过分布式存储和并行数据挖掘,提供在线实时监控模式和离线统计分析模式两种应用模式,对各类大数据全方位地进行实时和离线分析处理。

1)   数据查询与展示

利用已有的信息化成果-全响应搜索引擎平台,来支撑数据的服务与利用,通过大数据搜索引擎的方式可以满足相当大一部分对数据的查询需求,以及基于数据的分析、匹配等要求。搜索引擎平台具备同时管理全响应事项、城管事件、民情日志等多组索引库的能力。它对外提供类似于Restful架构的API接口,通过接收http请求post的XML/JSON数据,搜索引擎平台可以生成数据索引;也可以通过接收Http Get操作提出查找请求,并返回XML/JSON格式的结果。

大数据平台与全响应搜索引擎平台通过接口对接,通过基于搜索引擎平台全部数据的框搜索和精确搜索方面的应用,可有效解决目前数据仓库中海量基础数据模糊查询、精准查询、关联查询方面的问题。基于数据相似度的案件甄别方面的应用,通过各类事件的描述信息进行模糊匹配,筛选疑似案件,可解决跨业务、跨平台案件重复上报的问题,有效减少行政成本。通过基于高频词语的民情日志分析方面的应用,对民情日志内容描述的进行高频词分析、汇总,实现按街道、按社区的民情热点分析,以及民情热点趋势变化分析,提取辖区居民重点关注问题和热点趋势,为领导辅助决策提供依据。

2)   大数据和网格化技术相融合

加强大数据和网格化技术的运用,准确分析、识别、评估风险并及时预警。大数据技术具有定位、搜索、挖掘和深度分析功能,可以为预警分析提供科学方法,而网格化管理技术则把活动区域划分为一个个网格,依托统一的全响应协同平台对网格实时巡查,主动发现问题,实现应急处置。构建基于大数据和网格化技术相融合、相支撑的大数据分析应用平台,实现信息资源共享,使用大数据分析,发现城市运行和安全生产中存在的薄弱环节和隐患,采取措施防患于未然。有了大数据技术的支撑,可以将城市安全工作逐步从事后应对转变为事前预防,并形成可复制可推广的经验。

大数据应用网格化,结合整合网格内各种资源。这样,各个部门可以同用一个信息资源管理平台,共享居民的大数据,大大提升服务效能。

3)   多因素分析

利用大数据平台,进行多因素分析,主要包括以下应用:

(1)      系统内部的案件数据、其他部门数据、空间数据关联分析等的关联分析;

(2)      流动商贩问题(时间、周边居民区构成、周边市场超市分布);

(3)      黑车问题(时间、周边居民区空间分布、居民构成、公交线路分布、公交车间隔)

找出产生的原因,提出解决的方案,供领导决策参考。

4)   时空分析

利用大数据技术,分析案件发生的规律、跟时间空间的关系,尤其是周期性的高发案件的分析。

预测同类案件可能发生的时间地点,做好预案、从容应对。

5)   视频数据智能分析

以大数据应用为牵引,提出面向海量信息资源、空间信息、图像资源以及广泛采集的数据进行深度整合和应用的手段。围绕专项业务领域,构建有层次全方位的视频信息化应用平台,实现西城区跨部门的匹配信息、检索信息、预测信息共享及协同应用。能够与GIS结合,形成视频的VGIS,提供海量视频实时快速检索、视频智能关联检索、视频时空分析研判、目标运动轨迹的动态标绘和预测等功能。初步实现基于全响应社会服务管理大数据的事前防范、事后处理为一体的综合应用体系,结合智能视频分析处理功能提高城市管理的业务智能,包括:特征提取、人车分离、特征比对、内容检索等功能,提高业务人员的工作效率;为案件流程管理等提供有效手段,从日常事件管理到上报、立案、分析、办理、办结反馈等,对这一系列业务流程及业务中所产生的相关信息进行管理。

6)   视频立案

视频立案分析主要包括以下内容:

(1)      智能分析核心技术类:特征提取、目标跟踪。

(2)      图像处理类:图像质量分析、图像拼接。

(3)      检测类:人员行为检测、火焰检测、烟雾检测。

(4)      统计类:人流量统计、车流量统计、人员密度分析。

(5)      禁区检测,过线检测,人员聚集检测,违法违规行为检测,人员徘徊检测等一系列智能分析。

通过分析,减少视频监督员的工作量,分析出可能的问题,人工再核实。

7)   安全决策

将大数据技术运用到安全生产中,通过对海量安全生产事故数据进行分析,分析和查找事故发生的季节性、周期性、关联性等规律、特征,从而找出事故根源,有针对性地制定预防方案,提升源头治理能力,降低安全生产事故的发生。

6   结论和展望

6.1     结论

1) 大数据的研究应用已逐步成为一项数据工程,研究跨领域、跨平台的大数据的应用急需一个新的平台来支撑全生命周期内大数据采集、存储、管理和分析处理等活动。另外,需要在支撑大数据平台的分析工具和开发环境上进行创新,面向全响应社会服务管理的大数据平台才具有生命力。

2) 当前跨领域、跨行业的数据共享仍存在大量壁垒,是后续大数据平台的一个重要发展方向之一。

3) 如何优化大数据平台的分析处理过程,更快、更绿色地实现大数据的分析应用,支持各种先进处理分析方法和理念的智能化和快速融入,是需要着重发展的方向之一。

4) 大数据平台具有很强的开放性和包容性,支持“数据即服务”的应用模式。

6.2     展望

1) 多渠道数据资源搜集

在整合现有政府数据资源外,积极收集社会各领域数据资源,如数据交易平台、社会组织和团体,互联网企业、搜索引擎企业、服务企业等积累的数据资源。扩大资源收集范围和增大数据量,为后续数据分析提供基础资料。

2) 提升大数据中心支撑能力

按照等级保护要求,合理部署安全技术产品综合防范,对政务数据中心云计算平台、容灾备份方面进行提升与改造,满足未来5年内机关各部门的服务器、存储、操作系统、数据库等基础软硬件需求,为“智慧西城”重点项目提供优质的信息化基础设施服务。

3) 进一步推进大数据应用的示范建设,提升智慧城市管理水平

组织大数据分析、应用等示范项目建设,集中力量建设一批大数据应用功能性示范工程,力争率先取得突破。

4) 建设大数据服务平台,促进大数据技术成果惠及民众

在大数据时代,只要能产生价值的信息都可以加以开发与利用。特别在智慧城市建设中,只有不断盘活已有存量数据,充分利用大数据增量,才能提升智慧城市公共服务水平,促使城市管理从“经验管理”转向“科学管理”。

5) 加强大数据异构信息融合技术的研究

加强大数据异构信息融合技术的研究,通过对平台管理的大数据信息资源进行补充、完善与整合,为西城区全响应社会服务管理应用提供更为全面的信息支撑,为后续的系统决策分析提供支持。

 

北京市西城区城市管理监督指挥中心网通科


      主办单位:  北京市西城区城市管理监督指挥中心

地址:北京市西城区二龙路27号