战略联盟

战略联盟


云原生计算基金会 (CNCF)托管全球技术基础设施的关键组件。CNCF 汇集了世界顶级的开发者、最终用户和供应商,并举办了最大的开源开发者大会。


CXL 联盟是一个开放的行业标准组织,旨在开发技术规范,以促进新兴使用模型的突破性性能,同时支持数据中心加速器和其他高速增强的开放生态系统。Compute Express Link™ (CXL™) 是行业支持的高速缓存一致性互连,适用于处理器、内存扩展和加速器。


Linux 基金会是致力于促进 Linux 发展的非营利性联盟。Linux 基金会成立于 2000 年,赞助 Linux 创造者 Linus Torvalds 的工作,并得到来自世界各地的领先技术公司和开发人员的支持。Linux 基金会通过整合其成员和开源开发社区的资源来促进、保护和推进 Linux,以确保 Linux 保持自由和技术先进。


NVM Express是一个开放的标准和信息集合,可充分展示非易失性存储器在从移动设备到数据中心的所有类型计算环境中的优势。最初的 NVM Express 工作组于 2014 年合并为 NVM Express,是负责开发 NVM Express 规范的联盟。该组织目前拥有100多家成员公司。


OpenInfra 基金会是一个开源基金会,支持一个由 100,000 人组成的全球社区来构建和运营开放基础设施软件。


OpenPOWER 基金会是一个开放的技术会员组织,旨在推广 OpenPOWER——业界最开放和高性能的处理器架构和生态系统。


Programming Protocol-independent Packet Processors (P4)是一种开源的、特定于域的编程语言,用于网络设备,指定数据平面设备(交换机、路由器、NIC、过滤器等)如何处理数据包。P4 生态系统包括范围广泛的产品、项目和服务。


PCI-SIG 或外围组件互连特别兴趣小组是一个电子行业联盟,负责指定外围组件互连、PCI-X 和 PCI Express 计算机总线。


存储网络行业协会 (SNIA)是一个非营利性组织,由几乎涵盖整个存储行业的 300 多家公司和个人组成。SNIA 成员的共同目标是推动存储网络作为完整且值得信赖的解决方案的采用。为此,SNIA 致力于提供标准、教育和服务,将开放式存储网络解决方案推向更广阔的市场。

被低估了的数字化方法论 | IBM车库方法

我在三年前的文章中就提到过IBM的数字化创新方法论“IBM车库方法”( Garage Methodology),三年过去了,在国内数字化转型领域里,这套方法论明显没有被广泛传播,我觉得它作为企业开展数字化创新,创造数字化产品的体系性、实操性的方法,在中国数字化转型界被严重低估了。

有些朋友没有理解为什么叫“车库”方法——美国人几乎家家户户都有车库,有人喜欢在车库里鼓捣各种修理工具,很多创新发明都是车库里搞出来的,例如惠普、苹果等硅谷公司都是在车库里创业的,所以“车库”就是技术创新的代名词。

就像ERP时代,SAP ERP实施产生了“ASAP方法论”,几乎确立了大型企业软件的实施方法论标准。IBM 车库方法论是一套从数字化驱动的组织文化总体转型,到基于云的数字化产品创造的端到端方法,其特点是:

  • 基于用户体验,是企业级的设计思维方法
  • 揭示了如何紧密衔接分布式或集中式的数字化产品团队
  • 利用DEVOPS工具/技术以及云平台进行持续交付
  • 赋能站点可靠性工程(SRE)
  • 快速迭代,交付业务价值
  • 提升数字化人才和组织文化
  • 企业级(而非小组级或产品级)的数字化创新

“数字化转型”这个名词提出这么多年来,我较少看见全球技术公司提出这样体系完整、同时又完全对用户开放的方法论体系——有些国际云大厂虽然也有类似方法论,但是体系性和用户开放性都还不够,有些技术咨询公司的数字化产品方法论显得过于技术。

国内的几家云大厂更是缺乏这样完整的方法论体系,也没有把自己的云服务以及DEVOPS工具和方法论体系进行包装。中国的数字化转型口号喊得响,各种大而化之、商业化的概念包装多,而在数字化实操的方法论总结上,对于创新流程、技术工具、组织变革以及工作方式上的关注都是不够的!不得不承认,在IT产业中,中国的信息技术应用的方法论建设和国外同行相比,还有很大差距!

数字化创新之核心是创造“数字化产品”,和传统开发信息系统相比,无论是产品开发组织的工作形式、开发过程、所使用的技术工具(关键技术包括:云计算、混合云、人工智能、容器、容器管理平台、DevOps工具等),还是企业开发数字化产品的组织变革(设计师、架构师、工程师、数据科学家、业务战略师、产品经理等多专业协作,multidisciplinary expertise)、组织文化(关键组织文化特质包括敏捷组织、创新文化等)都有显著不同。

IBM车库方法是设计思维、敏捷开发以及Devops技术的整合,它包含了数字化产品开发流程、相关最佳实践:

  • 发现(discover):挖掘商业机会,确定产品开发方向
  • 展示(envision):最小可用产品(MVP)设计
  • 开发(develop)技术开发的架构、代码、测试、部署
  • 智慧(reason):大数据和人工智能应用
  • 运营(operate):高可用的数字化产品运营
  • 学习(learn):用户体验反馈和产品持续改进
  • 文化(culture):敏捷文化和敏捷组织运行

这套方法还推荐了一系列IBM自有以及第三方的数字化工具来支持这些流程和实践。以上述“文化”为例,推荐了敏捷组织常用的数字化工具:代码管理Github、协作工具Slack、白板工具Mural、看板工具Trello、存储平台Box以及电话会平台Webex等:

虽然这套方法论是IBM发明的,但是可以作为普适的数字化创新方法。推荐的工具可以使用用户自己习惯使用的工具来替代,例如:

车库方法推荐工具替代工具示例
代码管理GithubGitlab
协作工具Slack飞书, Discord
白板工具MuralMiro
电话会Webex腾讯会议, Zoom
看板工具TrelloCanny
存储Box Dropbox

IBM 车库方法论是2016年左右跟IBM云业务(IBM Cloud)同步产生的,然而IBM的公有云业务落地中国却是命运多桀,这也许是这套方法论没能在中国得以普及的重要原因。让人觉得遗憾的是,这套方法论尽管在美国已经推出了好几年了,但是IBM中文官网上仍然没有方法论文档完整的中译版本,而且中文网站上对“车库创新”的中文解释和原意也有很大偏差。

由于这套方法论的通用性,我非常希望看到中国云厂商也能够包装出类似的方法论体系,来指导中国的数字化创新。

最后特别说明,本文非IBM车库方法论的官方解释,仅为作者个人研究心得;原文请访问网站:https://www.ibm.com/garage/method

银行的数据治理方案

2018年5月21日,银保监会正式出台

《银行业金融机构数据治理指引》

  • 数据采集层

数据采集层主要是将研究院数据从源业务系统加载到数据仓库(ODS)中,作为数据仓库的基础数据,数据采集层不对数据进行任何加工,直接获取源系统未经加工的数据,以便一次抽取,多次使用。

  • 存储计算层
    • 主数据区:

ODS作为研究院结构化数据的主数据区,大数据平台作为外部结构化数据的主数据区,这两部分数据包括了所有的基础明细数据、历史数据以及监管部门的风险、征信数据,其它区域的结构化数据都是由主数据区数据加工而来。

主数据区主要有两种模型:近源模型层和整合模型层。这两个区的数据都通过历史拉链或历史流水的方式保留历史数据,这两个区的数据按数据标准进行字段属性如代码值、长度、精度的标准化,这两个区的数据主要在模型设计方面有所不同:

  • 近源模型区:表结构设计和源系统一样,在源系统表基础上增加标准化字段以及历史数据保存算法的数据日期字段,近源模型层的特点是保留源系统表所有信息,在建模和运行效率上比较高,但数据整合性不高。
  • 整合模型区:整合模型区按主题进行数据整合、表设计以三范式为主,数据冗余少,只要实体之间关系和属性不变,那整合模型也可以保持基本不变。模型稳定的一个好处就是可以屏蔽源系统变化,避免下游应用系统重复改造。
    • 指标数据汇总区:

由于主数据区的数据并不合适直接提供给数据系统分析使用,因此指标汇总区是整合各数据应用的加工需求,按事实表(宽表)和维度表进行模型设计,对主数据区数据进行关联、公共指标加工,提供给多个数据应用、报表使用,那指标汇总区可按协议(账户)、产品、客户、科目、机构等逐层汇总,指标汇总区可以消除各系统对于同一个指标分别加工导致的口径差异。

  • 集市区(仓内)

集市主要指和数据仓库在同一个物理平台中的集市,可以直接访问主数据区,指标汇总区数据、减少数据批量转移的成本,利用ODS数据仓库分析性能快速进行数据加工,数据集市的划分可按业务部门或下游系统关联度进行集市划分,目前研究院ODS数据库上有风险数据集市、监管数据集市。监管数据集市通过自主研发主要面向给人行、银监进行监管报送报表的加工,涉及多个业务管理部门;风险数据集市主要面向风险管理部提供风险指标数据加工。

  • 集市区(仓外):

仓外数据集市和仓内数据集市区别只是和数据仓库不在同一物理平台,但同样面向特定的数据应用进行加工分析;研究院目前正在仓外搭建全面风险数据集市及信用卡业务数据分析集市,分别面向不同的业务条线/场景,提供指标分析、加工处理。

针对数据集市将根据不同的场景选择仓外或仓内。

  • 批量数据接口区:

批量数据接口区即ODS给各下游数据应用系统、仓外集市提供的数据接口加工区,按双方约定的数据格式提供给数据应用系统,批量数据接口区按接口协议做简单关联,不做复杂加工,目前主要是以ODS共享库作为批量数据接口区。

  • 非结构化数据存储计算区:

非结构化数据存储主要以内容管理平台、生物识别平台、影像平台为基础平台,对非结构化数据进行存储计算,按一定的数据类型、来源、用途进行区域划分,方便实时查看和分析。

2021年我部对内容管理平台进行优化改造,作为影像文件归档存储平台使用,并作为大数据平台后期非结构化数据分析数据源;将影像平台作为业务系统实施对接系统使用。

目前研究院在数据中台建设方面主要完成了以下内容:

数据采集既面向各源系统,同时面向后续的数据清洗加工,为数据统一接入提供离线数据和(准)实时数据,一般采用的技术ETL和FLINK,。ETL数据采集研究院已经完成40多套系统数据的接入,Flink数据采集目前研究院只完成了146号文项目中风险检测类指标的数据采集。

数据加工调度负责将贴源数据进行清洗加工,形成可以直接面向应用的数据结构。此项工作分别由ODS计算存储层和大数据计算存储层进行完成,对于准实时数据加工及实时外部数据加工由外部服务平台和大数据平台共同实现。

数据共享目前研究院数据共享有两种方式:共享库和外部服务平台,共享库主要针对T+1数据,外部服务平台则面向实时数据服务,还无法达到开放型数据服务的能力。