数据中台规划-系列2

 2024-01-24 05:01:16  阅读 0

第五章 数据中台规划及实施方案 5.1 总体架构

轨道交通线网数据中心由数据中台和业务中台两部分组成。 它对接入的交通、客流、能源消耗、大众交通、互联网、城市规划等数据进行整合和挖掘,形成智慧档案。 通过业务系统输出智能信息,支持政府、投资公司、线网指挥中心、建设公司、运营公司、指挥中心等单位的工作以及旅客出行服务。 它是轨道交通的“智慧大脑”。 数据中心主要由六大中心、三大保障体系和统一门户组成; 六大中心包括:数据存储中心、数据计算中心、数据决策中心、数据共享中心、数据测试中心、数据实验中心; 三大中心保障体系包括:标准规范体系、运维管理体系、安全保障体系。

数据存储中心:提供数据访问、数据处理、数据存储和数据治理,是数据中心的核心;

数据计算中心:基于数据存储中心的数据,提供数据挖掘、人工智能、图分析、数据可视化、指标计算与管理、标签工厂与管理能力。 它对数据进行深度分析和挖掘,形成支持业务的智能文件。 为业务需求提供高效、精准的支持。

数据决策中心:根据数据计算中心提供的分析计算结果,通过数据服务和应用,为轨道交通提供智慧运营、智慧服务、智慧指挥、智慧运维、数据运营支撑。

数据共享中心:完善轨道交通数据共享能力,方便轨道交通领域内外各政府部门和企业单位对轨道交通数据信息的需求,基于云技术向符合审核要求、有资质的用户提供数据。数据权限。 共享交换服务和数据产品服务。

数据测试中心:建立与生产数据平台并行的测试中心。 建立与生产数据平台并行的测试中心,依托数据、人工智能等,实现规划、运营、建设的多系统测试、验证、评估,成为支撑数据创新的应用系统孵化器。

数据测试中心:依托独立的测试资源和环境,结合生产系统的真实数据,对新的算法模型、数据服务、数据产品等信息中心输出上线前进行测试、验证和评估,确保能够获得分析应用程序。 系统上线前可进行完整的模拟测试。

保障体系:构建数据标准规范体系、运维保障体系、安全保障体系,提高系统开发质量,保障系统有序运行。

统一门户:构建统一的用户和权限管理系统,同时整合6个中心。

5.2 数据存储中心

数据存储中心提供数据访问、数据处理、数据存储、数据访问和数据治理,是数据中心的核心。

5.2.1 数据访问层

数据接入实现业务系统数据以及管理线路上各类专业设备传感数据等外部数据的采集和接入。

根据数据来源,数据访问分为三种处理方式:

设备感知数据:通过边缘计算和实时接入两个模块,实现各种专业设备感知数据的接入、协议转换和分析,为业务中心和数据中心提供数据。 同时,根据数据的技术特点,将接收到的数据存储在统一存储和计算的时序数据库或对象存储中。 业务中台根据数据的业务分类驱动线上业务交易,如门票销售、进出等; 数据中台根据数据的业务分类,驱动设备的实时统计分析和实时监控预警。

业务系统数据通过批量采集、实时采集、文件访问、接口调用四种方式采集和加载。

外部数据包括第三方数据和网站数据,其访问方式包括文件访问、接口调用和爬虫等。

5.2.2 数据处理层

5.2.2.1 批号处理

批量数据处理对各业务系统采集的碎片数据进行清洗、整合和标准化,将数据从落地区处理到基础数据区,满足横向、跨专业、跨领域的数据共享、分析、挖掘和整合的需求。垂直水平。 。 主要功能:

(一)标准化加工

基于基本区域编号规则进行标准化,构建全网统一的数据视图;

(2)融合

建立参与者、路网、设备、产品、驾驶、OD、财务、赛事之间的关系,满足横向、跨专业、纵向层面的数据共享、分析、挖掘、整合需求。

(3)数据清洗

数据清洗一般针对特定的应用场景,因此很难总结出统一的方法和步骤。 但可以根据不同的数据给出相应的数据清洗方法。 随着数据的不断增加,相应的清洗规则也会不断增加。

5.2.2.2 实时数据处理

通过流式计算,从消息队列中获取设备状态、能耗、闸口流量、售票、顾客、路网环境等数据,实现设备健康状态的实时监测和控制,实时监控客流、能耗、突发事件等业务场景。 预警为设备管理、应急管理、旅客服务和指挥调度提供支撑,提高业务响应能力。

5.2.2.3 一站式开发平台

(一)平台概述

一站式开发管理平台帮助完成多数据集成、信息研究、建立统一数据口径、在线模型开发,支持可视化和脚本数据开发,提供灵活、易用、高效的可视化探索分析能力,根据业务特点快速打造贴纸。 适合您自身业务的开发平台。

一站式开发平台包括:数据集成、数据研究、在线数据模型开发、数据开发、任务管理、发布等全栈管理。

一站式开发平台最大的特点是可以根据各单位的业务需求,快速、灵活、可视化、人性化地搭建数据开发平台。 能够多人同时在线并行开发,可以大大降低开发成本,而且利用互联网交互,让操作更加流畅、便捷。

(2) 功能说明

数据开发项目管理提供线级项目管理功能,主要包括项目分类、项目启动点(版本)、项目信息管理、项目成员管理等。

数据研究是一站式开发的第一步,发挥着重要作用。 数据研究主要用于了解数据平台中的数据库表数据结构。 其建立结果将决定数据模型、脚本开发等关系。数据研究主要包括两部分:源表分析和源字段分析。

数据模型管理()可以轻松实现数据标准,实现数据库变更、业务模型和数据模型的统一管理; 实现逻辑模型与多数据库、多版本物理模型的转换; 实现分库、分发等数据库操作; 可实现多人操作,同时在线开放,保证模型信息统一; 实现版本管理,可以比较数据模型的版本; 实现操作日志的管理; 支持模型克隆、设置等操作; 支持模型问答功能等,从而实现建立统一标准、便捷易用的数据模型,全面协助单位完成数据治理,从而全面提升数据综合能力。

数据开发:该功能用于开发脚本的管理和脚本的维护。 数据开发模块支持在线脚本编写、运行、语法检查、格式化、模板引用、关联任务、数据加载等功能。

5.2.3 数据存储能力

5.2.3.1 概述

统一存储计算能力根据数据存储标准和业务需求,提供全生态的数据存储计算能力,包括OLTP、OLAP、NoSQL、非结构化存储等。 实现各类业务数据的分布式、分层存储,并提供内存计算、流计算、批量计算等存储计算,满足业务系统安全可靠的数据访问和计算需求。

5.2.3.2 数据平台软件

数据平台建设将建设数据基础平台、数据开发分析平台、制定开发规范、构建数据平台安全体系、建立数据平台运维体系,为数据资源建设打下坚实的基础。中心和应用平台。

随着数据聚合和开放工作的进展,需要对接海量数据源,完成从数据聚合到数据能力的整个流程。 同时,还需要为数据分析和数据挖掘提供必要的生产环境。

5.2.3.3 数据库软件

(1)交易数据库

事务数据库用于在线事务处理,用于事务性交易系统和管理系统,要求高可靠性和高事务吞吐能力。

1.2.4 数据资源中心

数据资源中心基于资源后台源数据,根据业务模型的特点和差异进行数据转换和拼接,并根据管理领域构建概念模型、逻辑模型和物理模型,提供多源异构数据处理和融合服务,实现跨专业数据共享服务的统一建设,支撑跨部门、跨层级的数据共享应用,逐步积累和形成全面统一的数据采集和共享服务能力,推动数据驱动业务创新和数据价值玩。

数据资源中心是数据标准化、资产化的载体,也为数据服务提供支撑。 为了快速响应应用服务需求,轨道交通业务数据按照功能分区进行结构化、标准化、资产化、智能化存储,分为4个一级分区和12个二级分区:

(1) 着陆区

数据进入数据中心入口,实现上游系统的集成,存储各源系统的原始数据。 根据具体功能,设置了三个二级数据区:缓冲区、数据湖和悬念数据区。

(2)初加工区

数据中心初始处理与计算中心主要负责线网、流量、OD、设备、分拣、客流、事件等数据的清洗、标准化、整合和汇总,包含两个二级分区:基本区和共同处理。

(三)公共汇总区

它充当基础区域和数据集之间的桥梁。 从业务角度,公共汇总区提取数据应用数据平台的共性数据访问和统计需求,从而构建面向支撑应用、提供共享数据访问服务的公共数据,实现多次一次性处理。 使用; 按业务组织数据:按照业务分析主题组织数据,按照一定粒度对数据进行整合和反规范化,存储某些关键时间点的历史快照数据。 参考行业最佳实践设计公共汇总区数据模型:

(四)深加工区

存储面向解决特定业务问题的数据。

(5)实时数据区

利用流处理技术从消息队列中获取数据,并根据需要进行实时解析、计算和分析。

(六)数据探索领域

为业务人员进行数据探索提供数据。 数据可以从数据平台的各个数据区提取,分析师也可以从外部添加自己的数据。 这个数据区主要有两个目的:一是敏感数据脱敏,保证数据安全;二是敏感数据脱敏,保证数据安全。 二是将数据分析师使用的系统资源与生产系统的资源隔离,保证生产系统的平稳运行。

5.2.5 数据治理

数据治理提供数据标准、质量、元数据、生命周期、主数据和安全性的管理。 数据管理的目标是:一方面,通过数据治理实现数据管控,保证数据的规范性、准确性、完整性、一致性和安全性。 另一方面,通过数据治理进行数据规划,为构建线网层面统一的数据采集、数据管理、数据统计分析和可视化平台奠定基础。

数据管理是管理、维护和开发内部和外部数据以及相应的组织、系统、流程和技术的活动的组合。 数据治理的主要对象是数据,包括内部数据和外部数据,也包括结构化数据和非结构化数据。 它是对数据全生命周期的管理,涵盖数据从定义、生成、存储到传输和使用的过程。

5.2.5.1 数据标准

为了协助数据标准的推广和实施,数据标准管理工具为相关业务分析师提供标准之间关系的分析和浏览。 数据标准管理实现数据标准体系和单项数据标准的维护、查询、审核、发布、修订、比较、历史版本跟踪等功能,实现标准之间、标准与元数据之间的映射。

5.2.5.2 元数据管理

元数据管理为数据管理系统的建立提供可靠、便捷的工具支持。 元数据是数据中心的核心组成部分,贯穿于数据中心创建、维护、管理和使用的各个方面。 元数据管理帮助数据中心统一数据口径、指示数据位置、分析数据关系、管理模型变更。 是数据中心数据建设和数据资产高效管理的有力保障。 同时,需要构建完整的元数据驱动的数据管理和数据服务体系。 一方面,元数据实现了数据生产和服务全链路信息的集中管理和展示。 另一方面,数据操作控制和质量管理需要基于元数据。 数据就是标准,数据服务目录的内容也取自元数据系统。

5.2.5.3 数据质量管理

数据是数据中心的重要资源,数据质量管理是数据资源开发的基础。 建立全面、综合、全局视角的数据质量管理体系,可以保证共享开放、研究分析、应用服务数据的高质量。 ,实现数据资产价值最大化。

数据质量定义为数据的“适用性”,即数据适合使用的程度。 数据质量的衡量就是利用数据的一组固有特征来衡量数据满足要求的程度,即数据的质量。 数据质量已从单一的精度测量发展成为包含丰富内涵、多维度因素的综合概念。

数据质量管理将从组织管理、流程、技术等多个角度、多个层面进行。

在组织管理层面,建立数据集中管理的控制角色,组织各类专业人员,从总体规划、标准规范、制度层面构建完整的数据管理体系,确定与数据相关的相关岗位的职责和配合方式质量问题,确保数据质量问题。 能够得到及时、有效的解决;

jquery对象转数组_jquery转int_jquery数据类型转换

在流程层面,建立有效的数据质量监控机制、问题评估和处理流程,明确相关职责,实现全生命周期数据质量管理。 重点关注新数据源的定义和整合方法,提供全面、及时的数据质量报告,防控错误范围扩大。 同时,要不断加强数据质量监控技术与管理方法的配合,提高数据中心数据源和数据输出的数据质量;

在技​​术层面,建立适应线网数据资源中心和数据共享交换平台需求的数据质量管理模块,落实质量管理的业务和技术规则,实现数据输入、处理的全过程控制、并输出,并保证数据质量工作在系统层面的落地。 主要面向数据质量管理、数据质量实施、数据质量维护人员,提供审计规则配置、审计任务管理、问题处理、质量分析等一体化管理能力。 实现数据质量全流程监控。 在每个数据质量检查点,可以灵活配置数据质量检查规则,并提供常见问题的处理方法。

5.2.5.4 主数据管理

主数据管理要做的就是集中清洗和丰富设备、业务、流程、生产、管理等信息的数据,并以服务的形式分发统一、完整、准确、权威的主数据。 行业内需要使用这些数据的运营应用和分析应用,包括各种业务系统、业务流程和决策支持系统。

主数据管理系统主要实现主数据模型管理、主数据编码管理、主数据管理流程、主数据日常维护、历史数据清理管理以及与设备、业务、流程、生产、管理相关的主数据交换服务。 主数据统计分析功能等七大功能。

(1)主数据数据集模型管理

主要实现数据模型加载、数据模型定义、数据模型版本管理等功能; 数据模型加载功能包括批量加载和手动录入; 数据模型定义功能包括数据模型属性的定义,还支持可扩展的属性定义; 数据模型 版本管理实现模型的版本管理和更新。

(2)主数据编码管理

主要实现主数据的基本编码管理、多编码管理等功能; 基础编码管理支持固定码、序列码、日期码等管理方式; 多编码管理实现基于多业务视图管理的多编码器模式。

(3)主数据数据管理流程

主要实现可灵活定制的主数据管理流程,支持多场景流程; 可支持多人协同申请流程、审核流程、多人协同变更流程。

(4)主数据的日常维护

主要实现主数据的数据添加流程维护、数据变更流程等功能; 增资流程实现增资申请、增资检查、增资审批的全流程管理; 数据变更过程实现主数据信息的变更。 申请、审批、发布的全流程管理及相应的版本管理。

(5)历史数据清理管理

主要实现各业务系统现有主数据的统一清理和管理。 需要支持针对不同类型的数据采用不同的数据清洗方式,通过历史数据清洗管理实现各业务系统主数据的统一治理和管理。

(6)主数据数据交换服务

主要实现分发规则的灵活定义,可以根据定制的分发配置规则自动将主数据分发到源或目标系统。 通过主数据数据交换服务,可以实现主数据的统一分发和共享管理。

(7)主数据统计分析

主要实现主数据的流程管理和监控、主数据类别统计分析、主数据应用情况分析等功能,包括代码申请审批统计、分布统计、代码申请合格率等统计分析功能。

5.2.5.5 数据生命周期管理

支持成熟的自动化数据生命周期管理、监控和控制,全面掌握数据在存储介质网络内流动的完整流程,最大限度降低数据存储和使用成本和风险。 可实现数据存储的精细化管理; 实现数据温度分析; 根据数据使用频率设置数据存储和周期; 准备休眠和归档数据的唤醒功能; 根据数据生命周期的阶段,为数据分配不同的存储。 、保留和管理策略。

5.2.6 数据访问

数据接入逻辑上将多种技术的统一存储计算平台视为一个整体,为业务中台、数据中台、应用前端和一站式运营服务平台提供统一的数据接入服务,提供安全、标准化的数据接入监控。 和控制实现数据访问权限的统一配置,包括访客身份认证与鉴权、数据安全脱敏、热点数据限流和数据访问审计等实现能力。

5.3 数据计算中心

数据计算中心基于数据存储中心的数据,提供自助分析、人工智能、图分析、数据可视化、指标计算与管理、标签工厂与管理等能力。 针对不同需求,对数据进行深度分析和挖掘,形成支持业务的智能文件。 为业务需求提供高效、精准的支持。

5.3.1 人工智能

5.3.1.1 通用算法框架

通用算法框架主要包括主流深度学习算法、通用机器学习算法以及满足业务挖掘分析能力需求的各类算法开发框架。 丰富的算法和框架的集成可以提高模型工程师的生产力,让模型工程师无需关心底层细节即可快速完成模型开发、调优和部署。 同时,更多算法库支持热插拔,可按需提供。

5.3.1.2 数据挖掘功能

挖掘分析可分为四种应用形式,即统计分析、预测建模、预测建模和优化模拟。 是数据分析服务的重要组成部分,是描述性分析的深入探索。

统计分析:在根据部分样本数据来估计总体情况时,可以利用大量的统计分析和检验算法来分析数据的分布规模,包括方差、协方差、偏度、峰度等,并通过各种用于直观显示的图形;

预测建模:对于轨道交通运营关键指标和领导关心的宏观指标,可以建立基于时间序列模型的预测分析,根据指标的历史变化特征预测未来的发展趋势并输出指标。 波动上下限和置信水平;

预测建模:针对一些具有全球影响力的关键指标,收集并整合相关数据,利用预测建模算法构建关键指标与其他相关因素之间的关系,并将这种关系用数据函数展示出来,形成预测模型,帮助业务人员建立深入了解关键指标背后的影响因素。

优化模拟:轨道交通运营是一项系统工程,与人口分布、公共交通、产业布局、天气、临时活动等多种因素复杂交织,牵一发而动全身。 通过预测建模找到的业务优化方案,或者有重大影响的轨道交通运营管理政策,必须通过优化仿真服务进行验证和分析,才能最终实施,以确保线路规划和调度运营的有效性。

5.3.2 数据多维分析

5.3.2.1 概述

数据多维分析系统以分布式OLAP分析引擎为核心框架,基于数据中台。 它实现了传统数据仓库的商业智能能力,提供交互式高维分析能力,提供基于普通PC硬件的大规模分析。 数据集快速查询(支持从TB到PB的数据量)。

jquery对象转数组_jquery转int_jquery数据类型转换

系统主要功能及特点

提供通用的ANSI SQL查询接口,支持大量的ANSI SQL查询功能。

为数据平台提供交互式查询功能,实现亚秒级快速查询能力。

支持构建MOLAP CUBE。 通过预定义的CUBE模型,实现海量数据的高维模型分析。

实现百亿级数据规模的低延迟OLAP查询。

提供通用的数据服务接口,支持与BI工具(如)、SQL工具无缝连接。

5.3.2.2 功能架构

REST服务器是一组用于应用开发的接口服务程序,为用户提供提交查询请求、获取结果、触发CUBE构建任务、获取元数据等服务。

查询引擎获取并解析用户查询请求,检测相应的目标数据集是否已经建立,并与其他服务组件交互以将相应的结果返回给用户。

作业引擎对高维模型分析系统中的所有任务进行管理和协调,保证每项任务都能有效执行。

元数据管理引擎用于管理系统中存储的所有元数据,包括CUBE定义、星型模型定义、作业信息、作业输出信息、维度信息等。

CUBE构建引擎是高维模型分析系统的基础引擎。 通过读取和计算源数据,实现CUBE的预计算和创建。

5.3.2.3 多维分析

支持通过图形界面建立和配置OLAP Cube,提供类似ROLAP的能力。 CUBE结合分布式存储和分布式内存计算,针对结构化数据和消息队列数据(Kafka)创建,统一通过SQL进行访问。 提供海量数据交互分析能力,可秒级分析数十亿条记录。 支持使用分布式内存计算引擎Spark进行CUBE的快速构建和定期更新。

用户可以通过SCS接口创建CUBE。 选择相应的维度,使用SUM、COUNT、COUNT、MIN、MAX等方法对测量值进行预计算。

您可以通过该接口根据不同类型的字段为CUBE创建维度,并定义CUBE的更新规则。

5.3.2.4 自动生成查询代码

基于图形多维模型的构建,系统可以自动生成相应的Hive SQL代码。 用户可以进一步分析或修改这些SQL代码。

5.3.2.5 Cube查询

通过WEB界面的查询模块,用户可以进行自定义的SQL查询,并保存SQL查询脚本以供重复使用。 查询时会自动调用已经创建的CUBE(立方体),从而实现大规模数据的快速查询。

同时支持对查询结果进行下钻分析,并以多种图形方式展示查询结果。

5.3.3 数据可视化

数据可视化需要提供多种报表设计工具。 用户可以轻松设计各种类型的报告,例如Excel表,Word文档,图表图,大屏幕等,并以丰富而灵活的可视化方式呈现数据。

5.3.4标签管理

肖像,也称为标签,是基于真实数据的真实虚拟代表和管理对象原型。 标签通常是人为地指定的高度精制特征标识符,例如客户在会员标签中的居住地,旅行模式,消费偏好等。 最后,通过一起查看所有用户的标签,可以概述用户的三维“肖像”。 它为生产,管理和决策提供数据支持。

5.3.5指标管理

数据指标是数据处理的过程。 根据设计的处理程序进行了输入不同的数据原材料,各种计算公式,模型算法以及逐步和迭代处理操作,最后形成了满足业务需求的数据产品。

指标管理构建包括创建指标,标准,存储,分类,管理和其他指标生命周期管理。 根据在用户应用程序方案需求的指导下,根据微观感知,交易处理,过程监视和其他过程中生成的基本数据处理指标。 铁路运输数据平台涵盖了广泛的领域,并具有复杂的分层关系。 为了对铁路运输进行全景监控,有必要构建一组合适的多维和多级指示系统来支持它。 面对如此复杂的指示系统,有必要构建一个独立的系统,以确保指标系统可以支持多个应用程序和多个用户的使用。

指标系统的构建主要包括:基本指标的构建,衍生指标的构建,指标计划的构建,数据源的构建以及指标配置的构建。

数据门户通过集成数据指标系统服务向用户显示数据指标构建结果; 结合数据服务平台,它为用户提供指标数据访问接口,并为用户提供更强大的基本服务来构建数据平台。

5.3.6自助数据分析

数据自服务分析基于数据平台的数据资源中心中的数据。 一方面,它可以轻松,快速地满足一般企业用户的需求,例如数据查询和常见信息自定义。 另一方面,就检索而言,它使用了数据平台的内置数据分析算法。 和功能,在进行深入的数据挖掘之前,针对各个业务部门的中段用户或数据分析团队,以满足其数据分析需求。

5.3.6.1功能体系结构

从功能上讲,数据自助服务分析包括五个主要功能,数据搜索,数据查看,探索性数据服务,自助服务数据服务和计算规则计算。

5.3.6.2数据搜索

基于数据中心提供的元数据管理系统,提供了元数据搜索,以允许业务人员轻松理解平台中的数据分布。 元数据是有关数据的数据,包括有关物理数据,技术和业务流程,数据规则和约束,数据结构,安全性等的信息。数据中心的核心是数据。 数据的组织方式和数据流过程需要由完整的元数据系统描述。

通过数据中提供的元数据管理系统提供的业务元数据搜索功能,业务分析师可以快速了解数据中的业务数据,并为后续数据分析提供基本支持。

5.3.6.3数据查看

结合元数据搜索,提供了数据查看功能; 有三种主要情况:

标签: 数据 模型 应用

如本站内容信息有侵犯到您的权益请联系我们删除,谢谢!!


Copyright © 2020 All Rights Reserved 京ICP5741267-1号 统计代码