智能交通大数据及云应用平台解决方案 - 云技术产业创新及应用 - ENI经济和信息化网

当前位置：首页 >互联网•IT > 云计算 > 云应用 > 正文

瑞阳制药IT负责人赵新江：开足马力，推动智慧工厂建设

来源：网络大数据作者：佚名 2018-09-07 09:59:58

随着日益增长的交通“大数据”，给交通管理创新带来的新挑战，以及对交通管理工作提出的新要求，交通信息化建设必然步入云计算智慧应用阶段，利用云计算破解当前诸多交通瓶颈问题。

模块负责对实时或历史视频图像中的人体影像进行模糊处理，保护个人隐私。

l 视频摘要模块

视频摘要模块负责对实时或历史视频进行摘要处理，提取出视频中有用的信息，合并到同一个背景中，以此缩短视频播放时间。视频摘要可有效缩短用户观看视频的时间，提高工作效率。

l 视频浓缩模块

视频浓缩模块负责对实时或历史视频进行浓缩处理，视频中有事件出现时进行慢放，无事件时进行快放，以此缩短视频播放时间。视频浓缩可有效缩短用户观看视频的时间，提高工作效率。

l 视频质量诊断模块

视频质量诊断模块负责对实时视频流进行质量诊断，以巡检的方式对前端接入视频流进行分析，实时发现摄像机是否在线、画面是否正常等问题。

l 视频图像增强复原模块

视频图像增强复原模块负责对实时或历史视频图像进行增强复原，对效果较差的视频、图像进行智能修复并增强处理。

1.1.2 通用大数据技术平台

通用大数据技术平台是大数据的存储和计算中心，具有分布式、统一存储、统一访问、动态扩容的特点，用于汇集视频、图像、报警、卡口信息、位置信息、案事件等大数据，为数据的综合利用提供支撑。

系统技术架构图

分布式文件系统HDFS 2.0：运行在通用硬件上的可扩展高容错的分布式文件系统，已经成为海量数据存储的事实标准。负责海量数据存储，将数据分散存储在多台独立的设备上，系统采用可扩展的体系结构，利用多台存储服务器分担存储负荷，利用元数据服务器定位存储信息，它不但提高了系统的可靠性、可用性和存取效率，还易于扩展。

分布式资源管理YARN：分布式资源管理框架，负责计算、存储资源的管理，用以提高分布式集群环境下的资源利用率，这些资源包括内存、IO、网络、磁盘等。

分布式计算Map/Reduce：分布式计算框架，负责将一个需要非常巨大的计算能力才能解决的问题分成许多小的部分，然后把这些部分分配给许多计算机进行处理，最后把这些计算结果综合起来得到最终的结果。

分布式数据库HBase：一个分布式的、按列存储的、多维表结构的实时分布式数据库，用于存储粗粒度的结构化数据，适合构建高并发低延时的在线数据服务系统。

全文检索引擎Solr：一个基于Lucene构建的开源，分布式，RESTful搜索引擎，设计用于云计算中，能够达到稳定、可靠、快速实时搜索。

内存计算Spark：下一代基于内存的 Map/Reduce 计算引擎，处理大数据像“光速”一样快，比Hadoop Map/Reduce 快 10x 到 100x 倍。

流计算Stream：流计算，负责对流媒体数据的分析计算。

分布式协作Zookeeper：分布式协作系统，作为一个分布式锁及共享数据管理者，提供集群节点间的事物协调服务，保证HDFS、HBase、Spark、Map/Reduce等分布式系统的安全可靠运行。

Kafka：分布式数据总线，负责数据的采集、整合、交互。

Sqoop：SQL to Hadoop，一个数据抽取工具，用于从关系数据导入数据到Hadoop。

1、分布式文件系统

HDFS是分布式计算中数据存储管理的基础，具有高容错性、高可靠性、高可扩展性、高吞吐率等特点，可以设计部署在低廉的硬件上，为海量数据提供了不怕故障的存储，适合那些有着超大数据集的应用程序。

2、分布式数据库

HBase是一种构建在HDFS之上的分布式、面向列的存储系统，它具有高可靠、高性能、面向列和可伸缩的特性。HBase适合于存储大表数据(表的规模可以达到数百亿行以及数百万列)，并且对大表数据的读、写访问可以达到实时级别。

3、分布式计算

MapReduce是一种处理海量数据的并行编程模型和计算框架，用于对大规模数据集(通常大于1TB)的并行计算。MapReduce的名字源于该模型中的两项核心操作：Map和Reduce。Map将一个任务分解成为多个任务，Reduce将分解后多任务处理的结果汇总起来，得出最终的分析结果。

4、分布式协作系统

ZooKeeper是一个针对大型分布式系统的可靠协调系统，主要提供两个功能：帮助系统避免单点故障，建立可靠的应用程序;提供分布式协作服务和维护配置信息。

1.1.3 行业大数据平台

行业大数据平台负责与通用大数据平台进行对接，负责对结构化数据(过车数据、测速数据)进行分析计算，提供快速检索、分析、统计、挖掘等功能，并提供用户最终的操作界面。面向交通行业的大数据业务展示平台，即为XZX-TMS-9200智能交通综合管控平台。

1.1.4 大数据管理平台

大数据管理平台负责对整个大数据平台进行部署和管理，结构示意图如下图所示，包括集群部署、集群管理、任务管理、服务管理、状态监控、用户管理、告警、日志等模块。

大数据管理平台架构图

1.2 数据流程设计

前端新建及已建能够按照标准协议接入的设备通过智能交通综合管控平台交通接入服务器接入转发至云分析平台进行车辆建模和二次识别。已经部署云存储模块的系统，云分析也能够直接从云存储中读取图片信息进行车辆建模和二次识别。

已建的第三方平台，提供符合要求的SDK协议，智能交通综合管控平台进行数据整合后再转发至云分析平台进行车辆建模和二次识别。

云分析通过智能交通综合管控平台提供的图片URL信息加载图片，进行建模和二次识别，完成建模和二次识别后，将识别结果信息如车牌、车型、车辆品牌等信息提供给大数据平台。

大数据平台读取二次识别的结果信息，写入到HDFS分布式文件存储系统中;基于HDFS分布式文件系统部署分布式数据库，用来承载数据的预统计表和二级索引表。在数据搜索层，部署基于Solr分词的全文检索搜索引擎，并通过MapReduce分布式计算框架提供高效数据分析速度。Zookeeper提供分布式文件系统之间的多进程协调服务。

数据写入、检索、统计和研判应用，大数据平台提供统一的webservice接口，智能交通管控平台通过调用大数据平台接口进行处理应用。

1.2.1 云分析数据处理流程

云分析可以采用的工作模式主要包括主动工作模式和被动工作模式。目前采用的是被动工作模式。

主动工作模式的特点是中央强力控制，即由中心管理服务下派任务到指定的计算节点，计算节点没有发起任务申请的权利。被动工作模式则相反，由计算节点主动向中心管理服务发起申请，申请获得批准后获得执行任务，然后开始任务执行，任务执行过程中与中心管理服务保持实时更新，确保任务能够正常完成。

被动工作模式相比主动工作模式而言能够突出计算节点的优势，管理单元越小，管理的难度也就越小。如果按照主动工作模式，由中心管理服务全部承担任务分派、任务调度等功能，负载、责任过大，容易造成单点失败。即便采用集群方式或者单点灾备模式，依然没有真正解决负载过重、任务调度节点易失败等情况。被动工作模式把任务申请职责交给了计算节点，各个计算节点按照自己的实际情况决定是否发起任务申请，这样可以有效地避免计算节点出现计算资源使用率频繁切换、异常波动，同时，降低了中心管理服务的压力。

任务调度方面，云分析通过接入第三方应用平台，实时获取执行任务信息，然后通过中心服务管理动态调度任务的方式达到高优先级任务优先执行的目的。对于计算节点来说，它申请获得任务没有优先级之分，一旦申请成功，立即转入工作状态。同时，由于云分析节点是分布式部署，系统高并发执行的效果可以有效的提高分析执行效率、优化网络带宽的流量压力，使得整个监控系统的性能得到更大的提升。

1.2.2 大数据数据处理流程

大数据技术平台是大数据的存储和计算中心，具有分布式、统一存储、统一访问、动态扩容的特点，用于汇集视频、图像、报警、卡口信息、位置信息、事件等大数据，为数据的综合利用提供支撑。

1.3 交通大数据平台功能

1.3.1 快速检索

针对过车记录表及违法记录表有针对车牌的精确查询及模糊查询需求，如下：

1、过车记录精确查询

车牌结合过车时间(开始时间+截止时间)、根据选择卡口、车道、方向、车辆标识、颜色深浅、车辆类型、车速、车长、号牌段、车身颜色、车牌颜色等其它筛选条件随意组合在海量过车记录数据中对车牌做精确查询并且要求在秒级内返回查询结果。

2、过车记录模糊查询

车牌结合过车时间(开始时间+截止时间)、根据选择卡口、车道、方向、车辆标识、颜色深浅、车辆类型、车速、车长、号牌段、车身颜色、车牌颜色等其它筛选条件随意组合在海量过车记录数据中对车牌的前缀、中间、后缀做模糊查询并且要求在秒级内返回查询结果。

3、违法记录精确查询

车牌结合过车时间、车辆类型、车辆颜色、车牌类型、车牌颜色、违法行为、处理状态等其它筛选条件在海量违法过车记录数据中做精确查询并且要求在秒级内返回查询结果。

4、违法记录模糊查询