大型医院数据容灾备份平台方案

数据治理, 方案

1、医疗行业业务系统特点与存在的痛点:

随着医疗行业信息化的进程的加深,对医疗数据进行高效地存储和管理,以便提供安全有效地数据与信息的快速访问和利用成为医疗行业数据存储的主要发展趋势,在医院众多的信息化系统中,HIS作为最重要的医院信息系统,贯穿了业务流程的各个环节,起着核心支撑作用,包含财务、人事、住院、门诊、挂号、医技、收费、分诊、药品管理等多个子系统,是医疗服务和医院管理的核心。

现在医院对信息系统的依赖性越来越大,除了HIS系统,医院其他关键业务还包括PACS、EMR、LIS和CIS等应用系统。这些业务系统包含了大量的医疗影像信息、病人电子病历信息、临床信息和检验信息等。但随着医院的不断发展,庞大的数据量和后台服务器的软硬件保护成为医院信息化建设面临的一大难题。任何的系统停机或数据丢失轻则降低患者的满意度,重则损害医院信誉。如何避免数据丢失,当遇到数据灾难时如何快速地恢复数据,保障医院业务开展的连续性,已成为影响医院业务发展的关键因素。经过多次对医院的相关技术人员的访谈,总结出以下急需解决的问题:

1、HIS、PACS、EMR、LIS和CIS等应用系统虽然实现了本地的数据级备份通过备份软件定期把数据备份到磁盘阵列或是带库上,但无法应对设备的硬件故障,生产机房火灾、漏水等突发情况,存在数据安全的隐患,需要建立同城容灾中心保障数据安全提升业务连续性。

2、建设同城容灾中心后有条件需要建设异地容灾中心,可以避免水灾、地震等其它的大范围的自然灾害,使得数据和应用的安全等级得到进一步的提升。

3、现有的备份系统没有建立相应的运维方案和管理制度,没有相应的备份恢复演练计划,备份后的数据是否可用无法得到保障。

2、医疗业务系统容灾备份需求分析

在确定医院关于业务系统容灾备份需求之前先明确几个后文会经常用到的关键词:容灾备份系统,也称灾难备份系统,就是通过建立和维护与原系统完全相同或相似的一个或多个冗余系统,利用地理上分散性或数据系统的冗余性来保证数据抵御灾难的能力。它保证数据完整性和安全性,并且,当面临大范围的突发性灾难,如地震、火灾、水灾时,能迅速恢复应用系统的数据和服务。

RTO恢复时间目标(recovery time objective):指灾难发生后,信息系统或业务功能从停顿到必须恢复的时间要求。

RPO恢复点目标(recovery point objective):指灾难发生后,系统和数据必须恢复到的时间点要求。

随着医院各个信息系统的建设,相关的数据量不断增加,当遇到灾难时使用传统的备份、恢复会导致耗时过长,严重影响业务的开展,已经不能满足医院的需求。医院HIS核心系统有超过一次非计划停机,其中服务器硬件故障是核心系统非计划停机主要原因,非计划停机排在前三位的是服务器硬件故障、网络故障和数据库故障。

 

硬件故障、软件故障、人为错误,自然灾害等很多主观和客观的原因都会影响到医院业务系统数据的安全,为了保障数据的安全和业务的连续性,经过多次对医院的相关技术人员、操作人员和管理人员的访谈,结合医院业务系统存在的痛点与业务系统的关键程度形成的医院容灾备份需求如下:医院的HIS信息管理系统实现应用级备份,其他关键业务系统PACS、EMR、LIS和CIS等系统实现数据级备份。

3、医疗行业容灾备份系统架构设计

根据医院当前业务系统的特点和实际的灾备建设需求,实现业务系统容灾备份架构设计主要包括以下几个方面的内容:

1、重要信息系统灾难恢复指南

根据上级主管部门的相关文件要求,医院业务系统的容灾备份按照五级标准进行建设,容灾备份恢复能力达到五级标准指国务院信息化工作办公室发布的《重要信息系统灾难恢复指南》中的第五级,该标准要求如下:

2、容灾备份系统设计标准

医院业务系统容灾备份系统建设需要遵循以下标准:

1. 《中华人民共和国网络安全法》

2. 《重要信息系统灾难恢复规划指南》国信办

3. 《信息系统灾难恢复规范》(GB/T 20988-2007)

4.  信息技术设备的安全(GB4943-2011)

5.  电子计算机机房设计规范(2018)

6.  遵循电子与电气工程师协会制定的计算机和电子工业参考标准

7.  遵循国际参考标准化组织制定的各种国际技术参考标准

3、容灾备份系统设计方案

医院建设容灾备份系统方案时,依据技术先进性、可扩充性、高可靠性、高可用性、成熟性、可管理性等原则进行建设。

按照容灾系统对应用系统的保护程度可以分为数据级容灾和应用级容灾,  数据级容灾系统只保证数据的完整性、可靠性和安全性,但提供实时服务的请求在灾难中会中断。应用级容灾系统能够提供不间断的应用服务,让服务请求能够透明(在灾难发生时毫无觉察)地继续运行,保证数据中心提供的服务完整、可靠、安全。因此对服务中断不太敏感的部分可以选择数据级容灾,以便节省成本,在数据级容灾的基础上构建应用级容灾系统,保证实时服务不间断运行,为用户提供更好的服务。下表是几种灾备技术的对比:

4、医疗行业容灾备份系统实施经验

医院采用存储同步镜像的方式实现同城应用级容灾,如果生产中心存储发生意外故障,灾备中心存储上的应用与数据是否能够正常启动,数据是否一致是摆在施工人员面前的一个问题同时也是检验项目是否成功的一个依据。

5、医疗行业容灾备份系统日常运维方案

为确保容灾系统稳定、可靠的运行,达到项目建设预期的效果,需要建立容灾备份系统配套的运维管理制度。具体如下:

(1)    建立运维管理的组织架构,统一负责实施、运营维护、应急响应和恢复的管理和决策工作。

(2)    制定一套完整的容灾日常运维管理制度,进行人员岗位设置和职责划分,制订变更管理、问题管理、事件管理、供应商管理、介质管理、灾难恢复中心资源管理等管理制度规范;制订系统日常巡检、系统与维护、系统紧急上下电等技术规范模板。

(3)    建立一个完整、易用、明确、有效、兼容的灾难恢复预案。

a.完整性:灾难恢复预案(以下称预案)应包含灾难恢复的整个过程,以及灾难恢复所需的尽可能全面的数据和资料;

b.易用性:预案应运用易于理解语言和图表,并适合在紧急情况下使用;

c.明确性:预案应采用清晰的结构,对资源进行清楚的描述,工作内容和步骤应具体,每项工作应有明确的责任人;

d.有效性:预案应尽可能满足灾难发生时进行恢复的实际需要,并保持与实际系统和人员组织的同步更新;

e.兼容性:灾难恢复预案应与其它应急预案体系有机结合。

制定信息系统灾难恢复过程中所需的任务、行动、数据和资源文件, 以备不时之需,一旦系统出现重大故障即可采用应急预案恢复系统,确保容灾系统能够发挥作用。建立一个完整的灾难恢复预案是一个周而复始、持续改进的过程。

(4)    为使相关人员了解信息系统灾难恢复的目标和流程、熟悉灾难恢复的操作规程,应组织灾难恢复预案的教育、培训和演练,不定期的做好容灾应急演练。只有通过反复的容灾切换演练,才能发现并处理灾难恢复预案中潜在的问题,以保证灾难来临时,系统能顺利切换至容灾系统,保证业务的连续性。

6、医疗行业容灾备份系统实现难点与处理方案

7、总结

医院的同城灾备中心建成后可以应对设备的硬件故障(包括逻辑故障和物理故障),生产机房火灾、漏水等突发情况,不会造成数据的损失,业务数据能够定时备份,可以在灾难来临时从备份点恢复,故障发生时容灾系统能够接管应用对外提供服务。医院建设同城灾备中心后实现了以下方面的业务提升:

1) 由于生产中心及同城灾备中心数据的一致性,因此灾备中心在平时可将这些数据用于业务系统或应用的测试、开发及培训等,即实现了数据资源的有效利用同时可以保障数据安全提升业务连续性。

2) 同城灾备中心建成后服务器和存储等资源的处理能力再利用,数据处理系统可供测试机和开发机使用,运行数据仓库和数据挖掘等应用系统。

3) 对于医院的非关键业务可以部署在同城灾备中心,这样可以节约生产中心紧张的机房资源和电力资源,同时充分的利用灾备中心的资源,避免资源的闲置。

4) 建立了灾备系统相应的运维方案,故障处理办法和备份恢复演练计划,备份后的数据可用性得到保障,提高了医院的应急响应能力和抗风险的能力。

医院同城灾备中心项目虽然已经建设完成了,但是后续的相关制度和运维工作一定要跟上,并且一年至少进行一到两次容灾切换演练,以保障同城灾备中心的硬件设备和应用数据是可用的能用的,并且工作人员熟悉演练的流程,这样才能真正的做到了“有备无患”。