数据治理综合管理平台是遵循J2EE的技术路线,采用Java 编程语言和服务器端 Java 技术进行开发,底层数据仓库基于MPP架构的分布式数据库GreenPlum进行搭建。
平台主要功能包括标准管理、数据连接、数据采集、数据清洗、质量分析、资源目录、数据共享、工作流管理、系统管理、消息中心、全局检索、个人中心等功能模块,同时支持通过可视化建模监控整个平台的运行状态。
产品架构图:
系统特色功能
数据标准建设(元数据管理)

统一的标准和规范能很好地解决通用性和扩展性。在数据标准上,先基于国家规范标准,再基于校标标准,通过对源数据进行抽取、转换、比对,将数据加载、整合到目标库,实现数据编码管理、数据字典管理。

标准文档管理

通过对元数据的标准文档进行统一管理,提供了统一的元数据文档编写标准。支持文档分类,文档搜索,文档上传,打包下载等功能。解决了元数据标准不统一,为挖掘元数据价值提供帮助。

业务系统标准管理

提供标准数据仓库的主数据管理和代码标准管理服务,通过统一管理数据字典,实现重要元数据的统一展示和维护。可以实现对不同主题域进行划分,并统计各主题域数据表个数和字段数,支持文件一键批量导入和导出。

执行标准管理

提供各源业务系统的主数据管理和代码标准管理服务,通过统一管理数据字典,实现学校多个业务系统重要元数据的统一展示和维护。

标准数仓建设

数据仓库(Data Warehouse)是一个面向主题的、集成的、相对稳定的、反映历史变化的数据集合存储系统。它是包含多种数据的高度建模的存储库,将不同来源的结构化数据聚合起来,用于业务智能领域的比较和分析。

数据整合和清洗

借助数据治理综合管理系统(DGP)和数据集成工具kettle,实现可视化的数据清洗和作业调度。

数据连接

通过支持多种数据库连接,使所有数据库连接统一管理,支持mysql、oracle、sqlserver等常用数据库连接。支持批量导入和删除数据连接,查找连接筛选等常用操作。实现了将不同的数据源纳入系统进行统一管理。解决了数据治理的多源管理问题。

数据抽取

以需求为驱动,以数据多样性的全域思想为指导,通过数据连接和数据抽取工具,使多终端、多形态的数据源数据抽取到统一数据库,并支持全量和增量抽取。支持批量执行、批量删除、查看日志等常用操作。实现了数据在物理层面的存储统一。

数据清洗

以满足行业要求的统一数据标准,通过数据表与数据表、数据表与代码表之间进行数据映射、缺失数据的补充、重复数据的剔除、错误数据的修改等系统功能,来提高数据的完整性、可读性、可用性。实现了数据在逻辑层面的业务统一。

作业流配置

通过运用kettle的不同组件进行连接形成不同的作业流,用于处理数据的抽取、转换、映射、清洗、插入等数据操作。使不同来源系统的数据经过作业流处理,形成标准有效的数据,输出到指定数据库中。解决了跨系统跨库数据整合和清洗的问题。

作业的定时调度与监控

引用国内顶尖的开源大数据调度工具TaskCTL对kettle作业任务进行定时调度和监控。支持各种任务流配置,以完成复杂的任务调度需求。支持异常报警,通过邮箱或短信的方式通知任务管理人员。实现了作业调度的可视化管理。

数据质量检测与检测

展示数据质检任务的执行情况,并提供实时的数据质量排名和数据质量改善排名的可视化展示。解决了数据质量的监测问题。提供质检规则的管理功能,可通过设置不同的规则类型,如准确性、完备性、一致性等和正则表达式/脚本进行组合,实现质检规则的制定。

数据资产开放共享

定位于业务系统数据资源“纵向贯通”、“横向互联”的共享通道,使其成为业务、部门的数据工厂,主要从安全管控、服务治理、服务消费、服务开发效率等系列问题入手,提供统一平台对多源、多类型数据进行统一的服务化管控,帮助职能部门更加有效、可靠地使用数据。
基于标准数仓提供统一的数据服务能力,是高校数据资源对外开放的共享通道。平台提供实时接口服务、批量作业服务、文件传输服务,从数据定义、服务开发、服务消费、运行管控四方面着手,实现数据资源的闭环管理。

产品优势
  • 数据标准快捷建立

    数据治理综合管理平台基于国家标准、教育部标准、行业标准形成预置结息标准,能帮助学校快速建成一套符合自身实际的校级数据标准。

  • 数据集成高效解决

    数据治理综合管理平台采用B/S架构的操作界面,支持用户直接通过浏览器进行零代码点选操作,降低学校数据集成的难度、提升数据集成的效率、节约数据中心建设的持续运维成本。

  • 数据交换稳健畅通

    解决权内异构数据源集成,实现应用系统数据源一体化,解决内部信息孤岛,并按照统一规划,统一标准实现跨部门的数据互联互通和服务共享。

  • 工作流化智能治理:

    (1)完全B/S架构,只需要在界面上点选任务进行配置即可稳定运转。
    (2)固化流程,无需培训即可理解便用方法,并且规范了工作遮的设置,减少出错感率,保障数据治理工作的高效稳定持续运行。
    (3)全面监控,提升执行力。可以全面把握各工作的执行情况,了解和分析任务的状态,从而全面掌握数据治理的效率。
    (4)工作流调度支持基于小时、天、周、月以及任露时间间隔的调度,满足数据集成各种实时性场景要求。

×

联系我们

姓名
电子邮箱
手机号码
短信验证码
备注信息