银行的数据治理方案

2018年5月21日,银保监会正式出台

《银行业金融机构数据治理指引》

  • 数据采集层

数据采集层主要是将研究院数据从源业务系统加载到数据仓库(ODS)中,作为数据仓库的基础数据,数据采集层不对数据进行任何加工,直接获取源系统未经加工的数据,以便一次抽取,多次使用。

  • 存储计算层
    • 主数据区:

ODS作为研究院结构化数据的主数据区,大数据平台作为外部结构化数据的主数据区,这两部分数据包括了所有的基础明细数据、历史数据以及监管部门的风险、征信数据,其它区域的结构化数据都是由主数据区数据加工而来。

主数据区主要有两种模型:近源模型层和整合模型层。这两个区的数据都通过历史拉链或历史流水的方式保留历史数据,这两个区的数据按数据标准进行字段属性如代码值、长度、精度的标准化,这两个区的数据主要在模型设计方面有所不同:

  • 近源模型区:表结构设计和源系统一样,在源系统表基础上增加标准化字段以及历史数据保存算法的数据日期字段,近源模型层的特点是保留源系统表所有信息,在建模和运行效率上比较高,但数据整合性不高。
  • 整合模型区:整合模型区按主题进行数据整合、表设计以三范式为主,数据冗余少,只要实体之间关系和属性不变,那整合模型也可以保持基本不变。模型稳定的一个好处就是可以屏蔽源系统变化,避免下游应用系统重复改造。
    • 指标数据汇总区:

由于主数据区的数据并不合适直接提供给数据系统分析使用,因此指标汇总区是整合各数据应用的加工需求,按事实表(宽表)和维度表进行模型设计,对主数据区数据进行关联、公共指标加工,提供给多个数据应用、报表使用,那指标汇总区可按协议(账户)、产品、客户、科目、机构等逐层汇总,指标汇总区可以消除各系统对于同一个指标分别加工导致的口径差异。

  • 集市区(仓内)

集市主要指和数据仓库在同一个物理平台中的集市,可以直接访问主数据区,指标汇总区数据、减少数据批量转移的成本,利用ODS数据仓库分析性能快速进行数据加工,数据集市的划分可按业务部门或下游系统关联度进行集市划分,目前研究院ODS数据库上有风险数据集市、监管数据集市。监管数据集市通过自主研发主要面向给人行、银监进行监管报送报表的加工,涉及多个业务管理部门;风险数据集市主要面向风险管理部提供风险指标数据加工。

  • 集市区(仓外):

仓外数据集市和仓内数据集市区别只是和数据仓库不在同一物理平台,但同样面向特定的数据应用进行加工分析;研究院目前正在仓外搭建全面风险数据集市及信用卡业务数据分析集市,分别面向不同的业务条线/场景,提供指标分析、加工处理。

针对数据集市将根据不同的场景选择仓外或仓内。

  • 批量数据接口区:

批量数据接口区即ODS给各下游数据应用系统、仓外集市提供的数据接口加工区,按双方约定的数据格式提供给数据应用系统,批量数据接口区按接口协议做简单关联,不做复杂加工,目前主要是以ODS共享库作为批量数据接口区。

  • 非结构化数据存储计算区:

非结构化数据存储主要以内容管理平台、生物识别平台、影像平台为基础平台,对非结构化数据进行存储计算,按一定的数据类型、来源、用途进行区域划分,方便实时查看和分析。

2021年我部对内容管理平台进行优化改造,作为影像文件归档存储平台使用,并作为大数据平台后期非结构化数据分析数据源;将影像平台作为业务系统实施对接系统使用。

目前研究院在数据中台建设方面主要完成了以下内容:

数据采集既面向各源系统,同时面向后续的数据清洗加工,为数据统一接入提供离线数据和(准)实时数据,一般采用的技术ETL和FLINK,。ETL数据采集研究院已经完成40多套系统数据的接入,Flink数据采集目前研究院只完成了146号文项目中风险检测类指标的数据采集。

数据加工调度负责将贴源数据进行清洗加工,形成可以直接面向应用的数据结构。此项工作分别由ODS计算存储层和大数据计算存储层进行完成,对于准实时数据加工及实时外部数据加工由外部服务平台和大数据平台共同实现。

数据共享目前研究院数据共享有两种方式:共享库和外部服务平台,共享库主要针对T+1数据,外部服务平台则面向实时数据服务,还无法达到开放型数据服务的能力。