手册下载
H3C CAS云计算管理平台备份容灾方案最佳实践-5W100-整本手册.pdf (10.85 MB)
H3C CAS云计算管理平台
备份容灾方案最佳实践
资料版本:5W100-20221220
Copyright © 2022 新华三技术有限公司 版权所有,保留一切权利。
非经本公司书面许可,任何单位和个人不得擅自摘抄、复制本文档内容的部分或全部,并不得以任何形式传播。
除新华三技术有限公司的商标外,本手册中出现的其它公司的商标、产品标识及商品名称,由各自权利人拥有。
本文档中的信息可能变动,恕不另行通知。
随着信息时代的发展,无论是企业,还是学校、医院等单位,越来越多的关键业务系统上线,对信息系统的依赖程度越来越高。这种情况下,对业务的可靠性保障,就变得非常重要。为了在自然灾害或其他意外,如大规模断电、出口故障等机房级故障发生时,保证业务数据的完整性,及业务的连续性,就需要搭建备份容灾系统,来对整个站点进行容灾保障。
· 备份是一种稳定的灾备方案。虚拟机执行备份后,生成的虚拟机备份文件是一个独立的文件,不会因为虚拟机镜像文件的损坏或误删除而丢失。当服务器、存储等物理设备故障,或者软件BUG、病毒,或者误操作、非正常关机等人为操作导致虚拟机数据丢失时,可以使用虚拟机的备份文件来恢复虚拟机。
· 容灾又称为灾难恢复(Disaster Recovery),指将信息系统从灾难(火灾、洪水、地震、或人为破坏等)造成的故障或瘫痪状态,恢复到可正常运行的状态,并将其支撑的业务功能,从不正常状态,恢复到可接受状态。容灾系统(Disaster Recovery System)的建设,一般在相隔较远的异地,建立两套或多套功能相同的业务系统,这些系统间,可进行状态监控及业务切换,当一处系统因人为或自然原因,造成严重故障或瘫痪,支持的业务功能不能正常运行时,整个业务系统可以切换到另一处,使得业务功能可以继续正常工作。
容灾系统的建设目标,是保证灾难发生时,业务不中断,数据不丢失。针对这两个目标,衡量容灾系统的关键指标有RPO和RTO两种。
· RPO:RPO(Recovery Point Objective,恢复点目标),又称为业务系统所能容忍的最大数据丢失量目标,是指当灾难发生后,用户要求把数据恢复到灾难发生前的某个时间点。RPO是衡量企业在灾难发生后会丢失多少数据的指标,衡量容灾系统的数据冗余备份能力。RPO一般由采用的数据复制方式决定。同步复制方式可以做到RPO为0,异步复制方式的RPO取决于复制的周期。
图1-1 RPO
· RTO:RTO(Recovery Time Objective,恢复时间目标),又称为用户能容忍的恢复时间目标,是指信息系统从灾难状态,恢复到可运行状态所需的时间,用来衡量容灾系统的业务恢复能力。RTO水平一般由容灾业务恢复流程决定,自动化程度越高,RTO越小。
图1-2 RTO
根据对系统的保护程度,可以将容灾系统分为三级:数据级、应用级、业务级。
· 数据级容灾:通过建立异地容灾中心,做数据的远程备份。在灾难发生之后,确保原有的数据不会丢失或遭到破坏。在数据级容灾方式下,所建立的异地容灾中心可以简单地理解为一个远程的数据备份中心。
· 应用级容灾:在数据级容灾基础上,在备份站点同样构建一套相同的应用系统,这样可以保证关键应用在允许的时间范围内恢复运行,尽可能减少灾难带来的损失,让用户基本感受不到灾难的发生,这样就使系统所提供的服务是完整的、可靠的和安全的。
· 业务级容灾:是全业务的灾备,除了必要的IT相关技术,还要求具备全部的基础设施。其大部分内容是非IT系统(如电话、办公地点等),当大灾难发生后,原有的办公场所都会受到破坏,除了数据和应用的恢复,更需要一个备份的工作场所能够正常的开展业务。
图1-3 容灾系统分类
CAS的备份、容灾、双活三层防护能力全面覆盖国家标准《信息安全技术信息系统灾难恢复规范》定义的6个灾难恢复能力等级,保障客户数据安全和业务连续性。
CAS备份容灾方案共分为内置备份、外部备份、存储复制容灾、磁盘备份容灾、同城双活5种,各备份容灾方案的灾难恢复能力如下。
表1-1 容灾方案及恢复能力
类型类别 |
方案 |
灾备等级 |
RTO |
RPO |
CAS备份方案 |
· CAS内置备份 · 第三方备份 |
第1级 |
>2天 |
1天至7天 |
第2级 |
1天至7天 |
数小时至36小时 |
||
第3级 |
<=12小时 |
<=2小时 |
||
CAS容灾方案 |
存储复制容灾 |
第4级 |
<=4小时 |
<=30分钟 |
磁盘备份容灾 |
第5级 |
<=30分钟 |
≈0 |
|
CAS同城双活方案 |
第6级 |
≈0 |
0 |
容灾方案及适用场景如下:
· 存储复制容灾方案:存储复制容灾是一种同构容灾方案,以虚拟机为粒度实现主备容灾,支持主备一键切换,计划故障恢复、容灾演练、故障恢复和反向恢复等操作。适用于主备均为CAS管理平台的应用级容灾,可保障数据中心故障后的数据和业务持续稳定运行。
· 磁盘备份容灾方案:磁盘备份容灾是一种不限制保护站点的异构容灾方案,支持主备一键切换,计划故障恢复、容灾演练、故障恢复和反向恢复等操作。适用于主站点(保护站点)为非H3C设备的应用级容灾,可保障数据中心故障后的数据和业务持续稳定运行。
· 同城双活方案:同城双活是一种用于同城双数据中心的同构容灾方案,通过将一个集群拉远部署于两个数据中心中,主备管理节点分别在两个中心,通过仲裁节点进行切换,实现同城容灾。适用于如同园区不同数据中心,或近距离的两个数据中心等场景下的容灾,需保证两个数据中心之间距离较近,网络延时较低。
CAS CVM自带有虚拟机备份功能,功能介绍及操作方法请参考本章节。此外,CAS还可以对接爱数、精容数安等第三方备份工具,备份CAS CVM中的虚拟机,具体操作方法请参考相应第三方的配置文档。
根据执行备份时间的不同,可分为:
· 周期性备份:通过备份策略的配置可以实现虚拟机的周期性备份。
· 立即备份:手工实现实时备份虚拟机。
根据备份文件存放位置的不同,可分为:
· 本地备份:备份文件存放于主机本地中。
· 远端备份:备份文件存放于远端服务器的目录中。
根据备份数据范围的不同,可分为:
· 整机备份:备份整个虚拟机,包括所有磁盘数据和虚拟机配置文件。通过备份文件,可以还原整个虚拟机。
· 磁盘备份:仅备份虚拟机的磁盘数据,不包括虚拟机配置文件。通过备份文件,只能还原虚拟机的磁盘数据。
根据备份方式的不同,可分为:
· 全量备份:对某一时间点之前的所有数据和应用进行完整拷贝。
· 增量备份:在一次全量备份或增量备份后,每次只备份与前一次备份相比被修改的数据。
· 差异备份:基于全量备份,每次只备份全量备份后所有更改的数据。
CBT备份:利用CBT(Changed Block Tracking)技术进行备份
· 利用CBT(Changed Block Tracking)技术,快速获取增量数据信息,无需像原有备份那样逐块比较磁盘或磁盘快照,从而提高增量备份效率。
· CBT备份是E0525版本开始提供的一种技术。通过为每块虚拟磁盘创建一个bitmap来记录虚拟磁盘的增量数据信息。由于bitmap保存在内存中且数据量较小,因此在做增量备份时,系统能够快速地解析bitmap来获取增量数据信息,然后根据这些信息对增量数据进行备份。
全量备份(Full Backup)、增量备份(Incremental Backup )和差异备份(Differential Backup)是数据备份领域中常用的三种备份方法。
· 全量备份也称作完全备份或全备份,是对某一个时间点上的所有数据和应用的一个完整拷贝。全量备份能够提供最好的数据保护,但是,由于全量备份的数据量往往非常大,耗时非常长,对磁盘空间的要求也比较高。
· 增量备份仅仅备份自上一次备份之后发生变化的数据,也就是说,在一次全量备份或增量备份之后,以后每次备份只备份与前一次相比被修改的数据。例如,第一次增量备份的对象是进行全量备份后修改的文件;第二次增量备份的对象是进行第一次增量备份后被修改的文件,依此类推。增量备份最显著的优点就是没有重复的备份数据,因此,备份的数据量不大,备份所需的时间很短。但是,增量备份的数据恢复是比较复杂的,必须具有上一次全量备份和所有增量备份数据,一旦丢失或损坏其中一个,就会造成恢复失败,并且在恢复的时候,必须沿着从全量备份到依次增量备份的时间顺序逐个反推恢复,因此极大地延长了恢复时间。
· 差异备份与增量备份类似,都是基于全量备份开始备份,不同的是,增量备份只包含自上次备份之后更改的数据,而差异备份是包含自全量备份后所有更改的数据。与增量备份相比,差异备份的优点是恢复时间短,缺点是存在重复数据,随着时间的推移,备份文件大小持续增长。
图2-1 增量备份与差异备份的区别
全量备份采用快照技术实现,因此,全量备份执行过程中可以实现在线不暂停虚拟机。具体方法是:首先在虚拟机内部创建一个快照,然后在临时磁盘空间中,将快照转换为一个镜像文件,这个镜像文件也可以选择为压缩,以便节省目的存储位置的空间要求,最后,将虚拟机镜像文件、虚拟机配置文件、MD5文件等全部通过网络拷贝到目的备份存储目录中。
图2-2 虚拟机全量备份内部工作流程
增量备份依赖于全量备份,所以,在第一次执行增量备份的时候,实际上是一次全量备份。全量备份的工作原理与流程如上一节所述,不同之处在于增量备份需要识别前后两次备份的文件变化情况,所以,在执行增量备份的全量备份时,需要计算出镜像文件磁盘簇(Cluster)的MD5校验和,根据第二次增量备份与第一次全量备份的MD5校验和值对比,判断哪些磁盘簇是在两次备份期间被修改的,这些被修改的磁盘簇就是增量文件。当第三次增量备份时,对比第三次快照的镜像文件的MD5校验和与第二次增量备份文件的MD5校验和,不同的部分对应的磁盘簇就是第三次的增量文件。依次类推。
图2-3 虚拟机增量备份内部工作流程
与增量备份一样,差异备份也依赖于全量备份,所以,在第一次执行差异备份的时候,实际上是一次全量备份。与增量备份不同的是,差异备份识别的不是前后两次备份的文件变化情况,而是当前快照的镜像文件与全量备份时的文件差异,因此,在执行差异备份的时候,需要计算出镜像文件磁盘簇(Cluster)的MD5校验和与第一次差异备份(全量)磁盘簇的MD5校验和,MD5校验和不同的磁盘簇就是差异文件。当第三次差异备份时,对比的仍然是第三次快照的镜像文件的MD5校验和与第一次差异备份(全量)文件的MD5校验和,不同的部分对应的磁盘簇就是第三次的差异文件。依次类推。
图2-4 虚拟机差异备份内部工作流程
在进行全量备份和增量备份时,可利用CBT(Changed Block Tracking)技术进行备份。CBT是基于虚拟机快照的技术,它将虚拟机在快照后变化的数据块记录到CBT文件中。虚拟机启动CBT备份时,系统在宿主机上创建内存区,用以对虚拟机的每一个数据块变更进行记录,每个数据块采用1bit进行数据变更记录,0表示该数据块数据未发生变更,1表示该数据块发生了变更。进行数据备份时,根据内存位图,只复制变化数据块即可。
CBT备份的优点如下。
· 备份时只需要备份变化数据块,备份效率高。
· 恢复时只需要恢复变化数据块,恢复效率高。
· 利用内存位图代替之前的md5sum计算,释放CPU计算能力。
临时磁盘空间用于保存备份期间产生的临时文件,例如,虚拟机快照生成的磁盘镜像文件、MD5文件等。如果在备份时,选择了对镜像文件进行压缩,则还需要保存压缩后的镜像文件。
临时磁盘空间可以是服务器本地磁盘,也可以是共享存储。请根据需要备份的虚拟机数量和镜像大小规划好临时磁盘空间位置与大小。
不妨假设需要备份的虚拟机镜像文件总容量为N TB,则临时磁盘空间大小规划建议不小于2*N TB。
· 虚拟机磁盘空间大小:虚拟机磁盘空间占用越大,备份需要消耗的时间越长。
· 备份的目的地选择:当备份目的存储位置为本地磁盘,则本地磁盘的读写效率越高,备份效率也越高;当备份目的存储位置为到远端FTP服务器或SCP服务器,则网络带宽与远端存储的读写效率越高,备份效率越高。
· 备份期间的CVK主机资源:当CVK虚拟化主机计算资源越充裕,备份消耗的时间越短。
· 是否选择压缩:选择不压缩镜像文件时,备份的效率更高,但需要的目的存储空间更大。
CAS支持管理网络、业务网络、存储网络、备份网络、迁移网络等类型的虚拟交换机。
默认创建的虚拟交换机“switch0”用于管理网络,如果没有单独设置备份网络和迁移网络,那么虚拟机的备份数据和迁移数据默认都通过管理网络传输。推荐参考如下步骤设置专用的备份网络,以提高备份效率。
(1) 在集群[cluster]页面,选择[虚拟交换机]页签,单击<增加虚拟交换机>按钮,进入增加虚拟交换机页面。
图2-5 增加虚拟交换机页面
(2) 配置基本信息。在“名称”栏输入规划的存储虚拟交换机名称“stor”,“网络类型”选择备份网络,“转发模式”栏选择“VEB”时,“VLAN ID”栏根据实际规划配置,单击<下一步>按钮。
图2-6 基本信息配置
备份网络:此类型的虚拟交换机用于传输虚拟机备份到远端服务器时的备份数据,且不允许虚拟机连接使用。一个主机上只允许存在一个此类型虚拟交换机或此类型的子网。
(3) 配置虚拟交换机的相关参数,单击<确定>按钮完成操作。
图2-7 虚拟交换机参数配置
(4) 配置主机网络。勾选需要使用该虚拟交换机的主机。
图2-8 配置主机网络
(1) 选择顶部“云资源”页签,单击左侧导航树[计算/主机池/主机/<虚拟机>]或者[计算/主机池/集群/主机/<虚拟机>]菜单项,进入虚拟机概要信息页面。
图2-9 虚拟机概要信息页面
(2) 在虚拟机概要信息页面中单击<更多操作>按钮,选择[立即备份]菜单项,弹出立即备份对话框。
图2-10 立即备份对话框
· 备份虚拟机时,将不会备份虚拟机的权限信息、启动优先级和自动迁移配置信息。
· 对于磁盘类型为高速(raw)文件或块设备的虚拟机,不支持在线备份(即虚拟机处于运行状态时的备份)、增量备份和差异备份。
· 虚拟机备份操作会占用主机的系统资源,因此请避免在业务高峰期执行虚拟机备份操作,建议在业务低峰期执行虚拟机备份操作。
· 使用CBT备份时,请参照如下注意事项:CBT备份仅支持全量备份和增量备份;虚拟机磁盘需要为智能格式,所有磁盘均为一级镜像;CBT备份不支持对快照进行备份,当对含有快照信息的虚拟机进行CBT备份时,通过备份文件还原虚拟机后,虚拟机的快照信息将会丢失;在执行CBT备份过程中不允许改变虚拟机的状态,否则会导致备份失败。
(3) 设置备份策略。备份参数有如下两种设置方式,本文以方式二为例进行配置。
· 方式一:在立即备份对话框中,手动设置备份参数。
· 方式二:导入备份策略。单击<导入备份策略>按钮,选择备份策略。在导入备份策略之前,需要先增加备份策略。
a. 选择顶部“云资源”页签,单击左侧导航树[计算/概览]菜单项,进入云资源概要信息页面。
图2-11 云资源概要信息页面
b. 单击<备份策略>按钮,进入备份策略配置页面。
图2-12 备份策略配置页面
c. 单击<增加>按钮,弹出增加备份策略对话框。
图2-13 增加备份策略
d. 设置参数,单击<下一步>按钮。
图2-14 增加备份策略
e. 根据备份数据范围的不同,备份类型分为整机备份和磁盘备份,默认为进行整机备份。
· 频率:有每天、每月还是每周的选项。如图2-15所示,是在每月执行。
· 日期:备份操作是在设定好的某个日期执行,如图2-15所示的1号。
· 开始时间:备份操作开始的时间是在几时几分执行的,如图2-15所示,在7:00执行。
· 截止时间:备份操作会在生效时间段内执行。截止时间小于开始时间时,截止时间为第二天的时间。
· 保留个数:不填表示不限制。
· 磁盘读速度限制:备份时读磁盘限制的最大速率,0或不填表示不限制。
· 磁盘写速度限制:备份时写磁盘限制的最大速率,0或不填表示不限制。
· 临时目录:不建议在“/”目录下。
f. 单击<确定>按钮,备份策略创建成功。
图2-16 备份策略创建成功
(4) 在完成备份策略的创建后,即可导入备份策略。选择备份策略后,单击<确认>按钮。
图2-17 备份策略
(5) 输入备份名称,选择备份模式,此处以差异备份为例。选择“差异备份”,单击<完成>按钮。
图2-18 备份策略设置
(6) 在任务栏可查看虚拟机的备份进度。
图2-19 虚拟机差异备份完成
虚拟机的恢复分为两种:立即回复和导入恢复,立即恢复是有虚拟机的情况下进行恢复,导入恢复是对于已经删除的虚拟机通过导入虚拟机的方式进行恢复。
· 立即恢复:
¡ 还原虚拟机:本地虚拟机处于关闭状态的时候,这时候可以通过立即恢复的方式来进行恢复虚拟机。
¡ 使用备份文件新建虚拟机:使用虚拟机备份文件,在不影响原虚拟机的情况下另外新建一台虚拟机。
· 导入备份恢复:本地虚拟机如果已经被删除或原有的虚拟机文件已经不存在了,这是可以通过导入虚拟机备份文件的方式,来进行恢复虚拟机。导入备份文件的方式包括主机本地目录、FTP方式、SSH/SCP方式,默认为主机本地目录。
¡ 主机本地目录:表示以主机本地文件的方式导入虚拟机备份文件。
¡ FTP方式:表示以FTP方式从远端服务器上导入虚拟机备份文件。
¡ SSH/SCP方式:表示以SSH/SCP方式从远端服务器上导入虚拟机备份文件。
(1) 选择顶部“云资源”页签,单击左侧导航树[计算/主机池/主机/<虚拟机>]或者[计算/主机池/集群/主机/<虚拟机>]菜单项,进入虚拟机概要信息页面。
图2-20 虚拟机概要信息页面
(2) 选择“备份管理”页签,进入虚拟机备份管理页面。
图2-21 虚拟机备份管理页面
· 待还原的虚拟机需要处于关闭状态,并且不能被移至虚拟机回收站。
· 虚拟机还原所需时间与虚拟机备份文件大小有关。虚拟机备份文件越大,还原所需时间就越长。
· 通过远端服务器的备份文件还原绑定了CPU的虚拟机,且主机的CPU核数小于虚拟机绑定的CPU核数时,虚拟机CPU绑定信息将会丢失。
· 还原虚拟机时,会自动卸载光驱,并删除软驱设备。
· 虚拟机还原完成后,需检查虚拟机的网络策略模板、虚拟防火墙、防病毒配置、PCI设备、TPM设备、直通网络、NUMA节点、VNC代理是否符合要求。
(3) 在备份文件列表中选择待还原的备份文件,单击<还原>按钮,在弹出的对话框中输入临时目录,单击<确定>按钮可完成操作。
· 虚拟机还原所需时间与虚拟机备份文件大小有关。虚拟机备份文件越大,还原所需时间就越长。
· 通过远端服务器的备份文件还原绑定了CPU的虚拟机,且主机的CPU核数小于虚拟机绑定的CPU核数时,虚拟机CPU绑定信息将会丢失。
(1) 选择顶部“云资源”页签,单击左侧导航树[计算/主机池/主机/<虚拟机>]或者[计算/主机池/集群/主机/<虚拟机>]菜单项,进入虚拟机概要信息页面。
图2-23 虚拟机概要信息页面
(2) 选择“备份管理”页签,进入虚拟机备份管理页面。
图2-24 虚拟机备份管理页面
虚拟机新建完成后,需检查虚拟机的网络策略模板、虚拟防火墙、防病毒配置、PCI设备、TPM设备、直通网络、NUMA节点、VNC代理是否符合要求。
(3) 在备份文件列表中选择待还原的备份文件,单击<更多/还原为新虚拟机>按钮,弹出还原为新虚拟机对话框。
(4) 数据源设置。选择新建虚拟机的目的主机,设置临时目录以及新虚拟机的显示名称,单击<下一步>按钮。
图2-25 数据源设置
(5) 数据文件设置。数据新虚拟机的镜像文件名称,选择存储池。单击<完成>按钮,开始创建新虚拟机。
图2-26 数据文件设置
如果被备份的虚拟机未被删除,可以在虚拟机的备份管理页面进行还原或使用备份文件新建虚拟机;如果虚拟机已被删除,则可以使用虚拟机的备份文件,向主机导入虚拟机。
(1) 选择顶部“云资源”页签,单击左侧导航树[计算/主机池/<主机名>]或者[计算/主机池/集群/<主机名>]菜单项,进入主机概要信息页面。
图2-27 主机概要信息页面
(2) 单击<导入虚拟机>按钮,弹出导入虚拟机页面。
图2-28 导入虚拟机页面
对于主机中关闭状态的虚拟机,向主机导入虚拟机备份文件会覆盖原有虚拟机,并删除快照,还原虚拟机到备份时刻的状态。虚拟机正常情况下不允许使用此功能,否则会导致虚拟机数据丢失。
(3) 数据源参数有两种设置方式:本文以方式一为例进行配置。设置完成后单击<下一步>按钮。
· 方式一:引用管理系统的全局备份策略配置数据源参数,单击<参数引用>按钮,选择备份策略。
· 方式二:手工配置数据源参数。
图2-29 选择引用的备份策略
图2-30 设置数据源
(4) 选择需要导入的虚拟机,单击<下一步>按钮。
图2-31 选择导入的虚拟机
(5) 选择需要导入虚拟机的备份时间,单击<下一步>按钮。
图2-32 选择虚拟机备份时间
(6) 数据文件设置。数据新虚拟机的镜像文件名称,选择存储池。单击<完成>按钮,开始导入虚拟机。
图2-33 数据文件设置
对数据的保护是容灾的基础,一般通过备份来保护数据。备份是指为防止系统 操作失误或故障导致的数据丢失,而将全部或部分数据集合从应用主机的硬盘或阵列复制到其他存储介质的过程。下面介绍与CAS CVM容灾管理功能相关的存储远程复制技术。
存储阵列的复制技术一般分为同步复制和异步复制两种。
同步复制能够保证具有复制关系的数据卷之间数据的一致性。同步复制的原理是,每个I/O写操作,都会等具有复制关系的主卷和远程卷都返回写完成才释放。因此同步复制方式有最高级别的数据完整性,但是性能会因为在阵列之间传送数据延迟而降低,而且同步复制方式复制阵列之间的距离要满足RTT(Round-Trip Time往返时延)的要求。一般应用于较短距离间(10KM~100KM同城),且对数据一致性要求极高,对数据丢失几乎不可容忍的场景,如银行系统等。
图3-1 同步远程复制
异步复制方式一般都是周期性进行的,不能保证具有复制关系的数据卷之间的数据一致。异步复制的原理是本地主卷完成写操作后,给此数据卷创建一个快照,然后将快照复制到远程卷。异步复制方法提供了比较高的应用性能,但如果灾难发生,在远程卷上还未更新的数据就会有丢失风险,即时间窗口。
异步复制对带宽和距离要求相对较低,适用于业务系统性能要求较高,写压力小,对阵列IOPS和时延要求不是太高,如数据库、文件系统等场景。
图3-2 异步远程复制
存储复制容灾是通过存储阵列的远程复制功能,在生产站点和恢复站点之间进行异步远程数据复制,当生产站点出现故障时,将业务切换到容灾站点,保护业务在短时间内的正常切换。
下面将从适用的场景、实现机制等方面,介绍存储复制容灾,并介绍其配置流程。
· 适用于同构云容灾场景,指生产站点与灾备站点是相同版本的CAS CVM管理平台,要保护的生产机为CVM上的虚拟机。
· 适用于数据中心级的容灾。
· RPO≈分钟级
· RTO≈分钟级
RPO、RTO指标与实际环境及实际业务相关,具体需要根据局点的实际情况进行计算。
· CAS版本:E0536及以后版本。需具备企业增强版License和相应数量的SRM组件License。
SRM组件License需要配置在保护站点(即生产端)。
· 存储要求:
¡ 支持SRA的存储类型:宏杉存储、HPE 3PAR存储、HPE Primera存储(E0709及以后)、ONEStor存储(E0709及以后)、Nimble存储(E0710P01及以后)。
¡ 3PAR版本:最低版本为#default:3.2.2.709,支持远程复制(remote copy)和双活(需Peer Persistence License支持),主备存储服务器版本一致。
¡ HP存储阵列:需支持远端复制功能。
在存储阵列层,通过存储远程复制,完成对业务虚拟机数据的备份。业务层通过配置保护组,将保护站点受保护的虚拟机配置同步到灾备站点。灾难发生时,利用备份的存储数据及同步的配置,在灾备站点拉起虚拟机,将业务切换到灾备站点。
存储复制容灾,依赖于存储阵列的复制功能,因此要求保护站点和恢复站点的存储复制技术一致,且存储阵列上必须有存储复制功能和快照功能的授权。
图3-3 存储复制容灾实现机制
· 利用存储阵列复制技术,在存储阵列层完成受保护虚拟机数据的复制,减少容灾业务对生产服务器的性能影响。存储阵列支持同步/异步复制模式,可根据客户RPO、RTO需求及场景,选择不同的复制模式。
· 一键式快速恢复业务:通过CAS CVM管理平台,事先将故障恢复的流程进行演练,可以做到一键式的故障恢复切换,降低故障恢复的RTO。
· 便捷的管理维护:一站式管理本地站点和远端站点,在某个CAS CVM管理台进行容灾相关的配置,配置信息会同步到具有容灾关系的CAS CVM管理台,不需要在多个管理台之间来回切换即可完成配置。
· 针对不同存储阵列的卷实现一对多的异地容灾,一个保护站点可以在多个恢复站点进行故障恢复。
· 故障演练:在不影响现有业务正常运行的情况下,可以多次进行无中断的故障演练测试,确保实现可预测的恢复过程及恢复目标。
· 存储阵列不局限于存储厂家,只需要保护站点和恢复站点的两台存储之间可以实现数据的复制功能和快照功能即可。对于不支持SRA的存储阵列,在进行故障切换的过程中需要在存储服务器上进行相关的配置操作。
· 可以进行反向恢复将业务自动恢复到原来受保护的站点。
存储复制容灾配置分为容灾准备、配置容灾任务、容灾切换功能三大步骤,其配置流程如下图所示。
图3-4 存储复制容灾配置流程
需要先在存储侧配置好存储复制环境以及卷映射,进行存储的远程复制。然后在CAS侧,将存储挂载给主机使用。
站点包括本地站点和远端站点。站点的配置可以在保护端或灾备端,任意一端配置。对于存储阵列支持SRA适配器的场景,在增加站点的同时,需要增加存储适配器,以此来获取站点所使用的存储阵列信息。
保护组是一组需要受保护的虚拟机或裸金属服务器的集合。保护组创建好后,系统自动进行一次虚拟机配置同步。在同构场景下,还可以在容灾切换前进行手动同步。
将属于同一个存储池(对应存储阵列中的一个或多个LUN)的虚拟机划分到一个保护组中,统一制定保护策略对虚拟机进行保护。通过存储阵列的复制功能,将本地存储阵列中LUN的数据复制到远端的LUN中,从而保护在该LUN中放置的虚拟机数据。
创建存储复制容灾类型的保护组时,需要指定保护站点和恢复站点、保护站点和恢复站点之间的资源映射关系。资源映射关系是用于将保护站点受保护的虚拟机使用的资源和恢复站点的资源建立对应关系,虚拟机在恢复站点恢复时,自动进行资源配置同步。可以建立的资源映射关系包括虚拟交换机映射、网络策略模板映射和存储(两个存储池所使用的存储LUN具有复制关系)映射。
恢复计划就是针对不同保护组而设置的不同恢复策略,恢复计划执行后,在灾备端,根据恢复策略,自动创建容灾机,接替生产端业务。
容灾演练由开始演练和结束演练两个阶段组成。演练过程主要检查恢复计划实施的有效性,为提高灾难恢复能力进行预演,因此演练需要模拟保护站点故障发生后,在恢复站点能够恢复业务的全流程。演练测试过程不会影响生产业务。当演练过程完毕后,通过结束演练来完成测试后的环境清理工作,结束演练成功后,恢复计划的状态会成为就绪状态。
演练测试通过挂载恢复站点的LUN,并将其作为恢复站点的数据存储来实现。
图3-5 存储复制容灾演练
计划恢复一般是在对保护站点进行维护的情况下,人为地将保护站点的虚拟机业务停止后,根据恢复计划将这些虚拟机业务在恢复站点恢复起来。
启动计划恢复后,保护站点的虚拟机将被关闭。计划恢复会触发一次数据的复制,当受保护的数据完全复制到恢复站点后,再依次恢复虚拟机业务。
图3-6 计划恢复
故障恢复用于真实场景中保护站点发生故障,虚拟机业务不能工作的情况下,根据恢复计划在恢复站点恢复虚拟机业务。在这种情况下,受保护虚拟机是由于发生故障而异常中断的。
· 对于异步复制的存储阵列,恢复站点存储的数据就是前一个复制周期完成后的数据信息,因此在恢复站点进行虚拟机业务恢复操作时,RPO不为0。
· 对于同步复制的存储阵列,恢复站点存储的数据与保护站点的数据保持一致,因此在恢复站点进行虚拟机业务恢复操作时,RPO可以为0。
图3-7 故障恢复
反向恢复是在保护站点发生故障时将虚拟机业务切换到恢复站点后,待故障的保护站点恢复正常工作的情况下,将运行在恢复站点的受保护虚拟机又恢复到保护站点。直接执行反向恢复功能,数据的反向恢复及虚拟机业务的切换自动完成。
图3-8 反向恢复
当成功执行过计划恢复或者故障恢复后,可以在恢复站点执行保护反转,将保护组的保护站点与恢复站点进行互换,同时原保护站点中受保护的虚拟机自动转换为灾备机,原恢复站点中的灾备机自动转换为普通虚拟机。
基于存储复制的容灾可以针对两种场景:
· 存储阵列支持SRA(Storage Replication Adapter,存储复制适配器)接口的场景。
· 存储阵列不支持SRA(Storage Replication Adapter,存储复制适配器)接口的场景。
本例主要介绍基于支持SRA的3PAR和Nimble存储阵列的容灾。不支持SRA存储阵列容灾的用方法和操作步骤请参见3.4 附录:存储阵列不支持SRA功能的配置步骤示例。
SRA是存储系统中与SRM通信的桥梁。它为SRM提供的功能包括存储系统发现、复制LUN卷、故障切换演练、灾难恢复等。当SRM进行计划演练、计划恢复、故障恢复时,SRA可以为SRM提供相应资源,配合SRM自动完成虚拟化环境自动化容灾流程。
为了能够实现基于存储复制的异地容灾,在部署的过程中需要注意:
· 保护站点和恢复站点的存储阵列具有复制和快照功能许可,可以实现数据的复制功能。
· 需要受保护虚拟机的磁盘镜像配置在复制关系的共享存储上。
· CAS CVM管理平台对SRM特性注册授权许可。如果是E0536版之前版本升级的企业版,需要重新注册企业增强版License。
· 容灾环境配置完毕后,必须先完成一次数据的同步,同步完毕后再进行恢复计划的相关操作。
· 对于支持SRA功能的存储阵列,SRM容灾流程可以做到虚拟机恢复过程的全部自动化;对于不支持SRA功能的存储阵列,SRM流程需要事先通过手工方式准备好存储环境,然后再进行虚拟机恢复过程。
· 如果要将软件从E0708之前版本升级到E0708及以后版本,需要在升级前将保护组及恢复计划删除,软件升级后,再重新添加保护组,配置容灾。
· 保护站点CVM和3PAR存储阵列管理网不可达情况下故障恢复,故障恢复成功,但在保护站点CVM和存储阵列管理网恢复时虚拟机和存储卷均是活动状态,为避免主备中心虚拟机IP冲突、数据异常等,在保护站点恢复后,请手动关闭保护站点虚拟机和存储。
· 使用ONEStor存储时请保证环境上的所有存储复制对都是正常状态,有异常请及时修复,否则可能会造成CAS侧执行同步存储复制关系和恢复计划操作失败。
保护站点和恢复站点为同版本CVM管理平台,通过站点间的存储阵列复制技术,在存储层完成容灾数据的复制,实现异地备份机恢复功能。
图3-9 组网示例
本例主要介绍3PAR和Nimble存储阵列的容灾。
· 若使用3PAR存储,请执行1. 准备存储环境(3PAR)。
· 若使用Nimble存储,请执行2. 准备存储环境(Nimble)。
· 在3PAR上创建remote copy组时,保证组内有映射关系的LUN的wwn一致。
· 使用3PAR/Primera存储,创建remote copy组时,要保证使用RCFC协议,而不是RCIP协议。
· 在给CVK增加3PAR上的LUN作为共享文件系统或者块设备时,请保证该LUN未加入remote copy组,或者即使加入了remote copy组,该LUN所在remote copy组的角色是Primary。
· 当存储厂商类型为3PAR时,请保证在CAS上同步存储复制关系前所有CAS使用的remote copy组的角色不要出现Primary-Rev、Secondary-Rev。
· 使用容灾功能时,若在同步完存储复制关系后需要再次添加新的存储复制关系供CVM使用,则在存储服务器上配置完毕后需要再次同步存储复制关系,并且同步前保证所有的恢复计划已经处于初始化状态,以避免已经存储在的存储复制关系在同步前后不一致。
· 使用容灾功能时,当存储厂商为3PAR时,请勿在存储服务器上对加入了保护组的remote copy组执行switchover、restore、start、stop等会影响remote copy组的状态及角色的操作,以避免相关的恢复或演练执行失败。
· 使用存储复制容灾功能时,当存储厂商为3PAR时,创建remote copy组时,需要保证使用的是RCFC协议,而不是RCIP协议。(目前3PAR只对接了FC没有对接iSCSI的,RCFC协议就是对应的FC,RCIP对应的是iSCSI)
· 使用3PAR或Primera的双活实现SRA容灾功能时,请关闭“双活自动恢复和多路径管理”功能。
(1) 搭建3PAR存储复制环境(同步/异步),3PAR存储搭建双活过程,及RCFC配置过程,请参见《3PAR存储服务器安装及双活环境搭建操作指导书》。
(2) 登录HP 3PAR StoreServ Management Console,进入HP 3PAR StoreServ首页。
在系统管理页面,可查看到下图2013Store_1、2013Store_2两个双活存储。其中2013Store_1为主存储,2013Store_2为备存储。
(3) 单击顶部块角色下的“虚拟卷“页签,进入虚拟卷管理页面。
(4) 单击<创建虚拟卷>按钮,弹出创建虚拟卷对话框,在主存储系统2013Store_1上创建虚拟卷。
(5) 单击顶部复制栏目下面的“Remote Copy组”页签,进入Remote Copy组管理页面,创建Remote Copy组。
(6) 在Remote Copy组管理页面,单击<创建组>按钮,弹出创建组对话框,创建Remote Copy组。远程虚拟卷可自动创建也可手动创建,手动创建时须在“卷对”的配置部分手动为源卷添加目标卷。
(7) 单击<创建>按钮,完成Remote Copy对的创建。可在目标Remote Copy组管理页面的“卷对”页签下查看自动创建的目标卷。
(8) 将源虚拟卷映射给目标CVK主机。选择顶部块角色下的“主机”页签,进入主机管理页面,创建源虚拟卷所映射的主机。
此处只需将源虚拟卷映射给目标主机即可,创建存储复制容灾时,在恢复站点会自动挂载目标卷作为容灾恢复机的存储池。
(9) 单击<创建主机>按钮,弹出创建主机对话框,创建源虚拟卷所映射的主机。“路径”配置部分需选择“添加FC”,添加所映射CVK主机的HBA卡标识符。之后单击<创建>按钮,完成源卷的映射主机的创建。
(10) 将源卷导出给刚才添加的映射主机。在虚拟卷管理页面,选中之前在主存储系统上创建的源卷,单击右上角的<操作>按钮,选中弹出的“导出”选项,弹出导出虚拟卷对话框。
(11) 在弹出的导出虚拟卷页面中,单击<添加>按钮,添加导出的目标主机。
(12) 之后单击<导出>按钮,将虚拟卷导出到目标主机。在目标主机的概述页面,可查看到刚才导出的虚拟卷。
(13) 登陆CVM云计算管理平台,在映射目标CVK主机的硬件管理页面,选中目标存储适配器,即可查看在3PAR界面上创建的存储卷,此时显示为“未挂载”状态,主机可使用此卷创建存储池,在其中创建存储卷作为SRM保护组虚拟机的硬盘使用。
· Nimble存储是以group为单位进行的容灾切换操作,同一volume collection内的存储卷建议只映射给一个环境。
· 若volume collection内有一个卷加入了保护组,建议volume collection内其他卷也都加入保护组。
· Nimble当前不支持混合协议,请使用iSCSI或FC。不能用iSCSI and FC,ISCSI和FC协议间切换需经过ISCSI&FC过渡。
· Nimble会新建initiator group,在相关计划执行完毕后也不会进行清理,因此会出现很多以时间戳为结尾的无用initiator group,属于正常现象。
· Nimble上指定的LUN号必须小于256,否则CVK不能发现该LUN。
· 双活和SRA是两个互斥配置,如果两台Nimble做了双活,则不能再做SRA。
(1) 搭建HPE Nimble Storage存储复制环境。详细操作请参见《Nimble存储官方操作指导》。
(2) 在浏览器地址栏分别输入主备存储服务器管理网IP,输入用户名、密码进行登录。
图3-10 登录Nimble存储
图3-11 登录成功
(3) 登录成功后,查看当前存储阵列使用的协议。
a. 选择[Administration>NETWORK]菜单项。
b. 单击<Configure Active Settings>链接。
c. 查看当前使用的协议。
a. 选择[Manage>DATA PROTECTION]菜单项。
b. 选择REPLICATION
PARTNERS,单击图标。
c. 选择“On-premises Replication Partner”,单击<NEXT>按钮。
d. 配置基本信息。配置完成后,单击<NEXT>按钮。
- PARTNER NAME,填写备存储名称。
- HOSTNAME/IP ADDRESS,填写备存储管理IP地址或者主机名。
- SHARED SECRET,自定义创建一个共享密码。
- CONFIRM SECRET,与SHARED SECRET一致。
- REPLICATION NETWORK,设置存储复制网络,可以复用管理网络,或者使用单独规划的网络。
- INBOUND LOCATION,存储池使用默认default存储池。若有Cloud Volume的配置就勾选“Use the same pool…group”。
e. 如果需要限制带宽,单击<ADD POLICY>按钮,输入QOS POLICY描述,填写带宽限制,选择带宽限制时间和日期区间。
f. 单击<CREATE>开始添加。
g. 添加完成后,STATUS为“Unreachable”。
(5) 在备存储添加主存储。
a. 参照步骤(4)在备存储上添加Replication Partners。
此时需要填写主存储的相关参数:
- PARTNER NAME,填写主存储名称。
- HOSTNAME/IP ADDRESS,填写主存储管理IP地址或者主机名。
- SHARED SECRET,与步骤(4)设置的密码保持一致。
- CONFIRM SECRET,与步骤(4)设置的密码保持一致。
- REPLICATION NETWORK,与步骤(4)设置的网络保持一致。
- INBOUND LOCATION,存储池使用默认default存储池。若有Cloud Volume的配置就勾选“Use the same pool…group”。
b. 创建完成后,主备Replication Partners状态仍然是“Unreachable”。在主备两边都单击<TEST>按钮后,状态显示为“Alive”。
a. 选择[Manage>DATA STORAGE]菜单项,单击图标,创建存储卷。
b. 在创建存储卷页面配置存储卷参数。
- CREATE VOLUME,输入卷名。
- LOCATION、PERFORMANCE POLICY、DATA PROTECTION、ACCESS等请根据实际情况进行选择,若没有创建自定义策略,则建议选择默认default策略。
c. 参数配置完成后,单击<CREATE>按钮,完成创建。
(7) 在主存储创建Volume Collections。
a. 选择[Manage>DATA PROTECTION]菜单项,单击图标。
b. 输入保护组NAME,按业务需求选择合适的Schedules,单击<NEXT>按钮。
c. 选择(6)创建好的存储卷,单击<ADD>按钮。
使用同一volume collection的LUN需要映射给同一CVM上的CVK;若两个LUN分别映射给不同CVM上的CVK,则这两个LUN不能使用相同的volume collection,否则两个CVM环境会互相影响。
例如:LUN1映射给CVM1上的CVK,LUN2映射给CVM2上的CVK,则LUN1和LUN2不能使用相同的volume collection。
d. 单击<CREATE>按钮,完成创建。
(8) 在主存储创建Initiator Groups。
请将一个CVM集群内所有CVK添加到同一个INITIATOR GROUPS,不要一个CVK一个INITIATOR GROUPS。这样可以保证在将存储卷映射给CVK主机时,LUN号在这些CVK内都保持一致。
a. 选择[Manage>DATA ACCESS]菜单项,单击图标。
b. 输入NAME。
c. 单击ADD按钮,添加CAS主站点CVK的名称、IQN、IP ADDRESS信息。
d. 单击CREATE完成创建。
(9) 在主存储将存储卷映射给主机。
a. 选择[Manage>DATA STORAGE]菜单项,选择创建好的存储卷TEST,单击存储卷名称。
b. 单击<CONFIGURE ACCESS>按钮。
c. 单击<ADD>按钮。
d. APPLY TO选择Volume$Snapshot,ACCESS选择(8)创建的INITIATOR GROUPS,LUN建议使用默认LUN号,不用手动指定LUN号。
e. 单击<ADD>按钮,完成操作。
· 3PAR/Primera SRM支持FC共享文件系统和FC网络存储。
· Nimble当前不支持混合协议,请使用iSCSI或FC。
配置CAS环境,将3.3.3 1. 章节准备的存储数据卷作为共享文件系统或者块设备挂载到CAS环境中。主CVM添加主存储上的存储卷,并作为集群下的FC共享文件系统挂载给主机使用。备CVM端的共享文件系统随着保护组的创建而自动添加,无需手动挂载。
(1) 在CAS CVM管理台,单击顶部“云资源“页签,选择左侧计算资源池下的目的主机池,进入主机池概要页面。选择“共享文件系统”页签,单击<增加共享文件系统>按钮,弹出增加共享文件系统对话框。将3.3.3 1. 或3.3.3 2. 章节中配置好的存储LUN添加为共享文件系统(如果作为网络存储则挂载到主机上)。
图3-12 增加共享文件系统-基本信息
图3-13 增加共享文件系统-LUN信息
(2) 单击顶部“云资源“页签,在左侧计算资源池下选择目的集群,进入集群概要页面。选择“存储”页签,单击<增加>按钮,弹出增加共享存储对话框。将配置好的共享文件系统添加到主机上。
图3-14 增加共享存储
(3) 在左侧计算资源池中选择目的主机,进入主机概要页面。单击<增加虚拟机>按钮,弹出增加虚拟机对话框。在主机上创建虚拟机,并且使用(2)添加的存储池作为虚拟机的存储磁盘。
图3-15 增加虚拟机-基本信息
图3-16 增加虚拟机-硬件信息
· 共享文件系统只能使用一个数据卷(LUN)。
· 数据存储挂载到CAS环境中后,在执行恢复之前请确保存储至少同步过两次(两次同步才能生成一个public类型的时间点,用于故障演练操作),否则数据可能因为未完全同步而造成丢失的情况。
站点的配置可以在保护端或灾备端任意一端进行配置。
(1) 添加本地站点。在保护站点,单击顶部“云业务”页签,选择左侧[容灾管理/站点管理]菜单项,进入站点管理页面。单击<增加>按钮,弹出增加站点对话框,添加站点信息。第一个增加的站点为本地站点(即生产端),IP地址为当前CVM管理平台的IP地址。单击<下一步>按钮。
图3-17 增加站点
(2) 增加存储阵列管理器(前提:使用的存储阵列支持SRA)并输入存储阵列管理器的相关信息,单击<确定>按钮。
图3-18 增加存储阵列管理器
(3) 本地站点添加后,在存储阵列管理器配置列表的操作列,单击“修改”选项,选择弹出的“连通测试”来检查存储的连通性,存储连通测试成功后,本地站点添加完成。
图3-19 连通性测试
(4) 本地站点添加完成后,后续增加的站点都为远端站点,重复(1)~(3)的步骤,完成远端站点的添加。本地和远端站点都添加完成后,容灾站点配置完成。
图3-20 站点增加完成
(5) 站点增加完成后,单击<同步设备复制关系>按钮同步存储复制关系。
站点和存储阵列管理器增加完成后,必须执行此步骤。
图3-21 同步设备复制关系
(6) 同步完成后单击操作列的“更多”选项,选择弹出的“查看设备复制关系”查看存储复制关系。
图3-22 查看设备复制关系
(1) 单击顶部“云业务”页签,选择左侧[站点容灾/保护组管理]菜单项,进入保护组管理页面。单击<增加>按钮,弹出增加保护组对话框。容灾类型选择<存储复制容灾>,配置保护组的相关信息,选择保护站点和恢复站点,并从对应的站点中选择源主机池和目的主机池。单击<下一步>按钮。
· 自动保护虚拟机:自动保护符合条件的虚拟机。若该参数设置为“是”,则符合条件(虚拟机使用的存储、虚拟交换机、网络策略模板都为映射关系配置中的资源,并且名称和恢复站点中的虚拟机没有重复、未使用主机的软驱等本地设备)的虚拟机将自动加入到保护组中,后续添加的虚拟机如果满足条件也会自动加入。
· 对于保护组内的虚拟机,其备份文件和快照不受保护,即虚拟机恢复到备份站点后,其备份文件和快照将丢失。
图3-23 创建保护组基本信息
(2) 配置资源映射关系。分别单击<增加存储映射关系>,<增加虚拟交换机映射关系>,<增加网络策略模板映射关系>配置保护组的存储、虚拟交换机、网络策略模板映射关系。存储选择配置好的存储阵列。虚拟交换机,可以使用管理网或业务网虚拟交换机,本例使用管理网。网络策略模板,使用Default即可。单击<完成>。
对于存储资源的映射,需要选择存储池的类型(包括共享文件系统和块设备)及存储类型(支持SRA和不支持SRA)。对于不支持SRA的存储阵列,只支持共享文件系统存储池。
映射关系中的虚拟交换机、网络策略模板可以自行定义,不一定要按照示例中使用默认的虚拟交换机和网络策略模板。
图3-24 配置存储映射-选择存储
图3-25 配置存储映射-选择设备
图3-26 增加虚拟交换机映射关系
(3) 保护组资源映射配置完成,单击<完成>按钮。
图3-27 保护组资源映射配置完成
(4) 为保护组添加虚拟机。在保护组管理页面,单击目标保护组,进入保护组基本信息页面。单击<添加虚拟机>按钮,弹出虚拟机列表对话框,勾选目标虚拟机加入保护组并单击<确定>按钮(备注:如果勾选了自动保护符合条件的虚拟机,那么符合条件的虚拟机会显示在保护组的虚拟机列表中)。
· 保护组内的虚拟机所在集群必须开启HA功能。
· 恢复计划创建完成后,若需要为CAS侧保护组添加虚拟机时(包括自动添加和手动添加),需要确保添加虚拟机的保护组对应的恢复计划处于“就绪”或“初始化”状态。即要求恢复计划完成一次成功的“计划恢复-反向恢复”、“故障恢复-反向恢复”或“开始演练-结束演练”操作,或为该保护组新建恢复计划。
图3-28 添加虚拟机
(1) 单击顶部“云业务”页签,选择左侧导航树中[站点容灾/恢复计划管理]菜单项,进入恢复计划管理页面。单击<增加恢复计划>按钮,弹出增加恢复计划对话框。配置恢复计划的相关信息,并选择保护组和恢复集群信息。
· 保护组:选择一个加入恢复计划的保护组,新建的恢复计划将用来恢复该保护组的虚拟机。一个保护组只能用于一个恢复计划中。
· 恢复集群:选择一个恢复站点的集群,恢复时,保护组内的虚拟机将恢复到该集群的主机上。
图3-29 创建恢复计划
(2) 恢复创建完成。恢复计划初次创建完的状态显示为“初始化”。
图3-30 保护组创建完成
容灾任务配置完成后,可根据场景,执行容灾任务,进行容灾切换。如定期进行容灾演练,以确保容灾任务配置正常;进行计划恢复,以维护保护站点;保护站点发生故障时,进行故障切换;保护站点恢复后,进行反向恢复;还可执行保护反转,在计划恢复或故障恢复之后,将保护站点与恢复站点互换。
· 请确保恢复计划执行过程中具有存储映射关系的存储挂载状态正常,并且恢复集群的资源能够满足需要恢复虚拟机的资源需求,以免出现资源不够导致虚拟机无法部署启动的情况。
· 请确保恢复计划执行过程中保护站点和恢复站点都正常,并且站点之间网络连接正常,具有映射关系的存储挂载的主机状态正常。
恢复计划演练是一种检验配置的非破坏性测试,测试过程不会影响生产业务。恢复计划演练分为开始演练和结束演练两步,开始演练后,恢复计划将把虚拟机恢复到恢复站点。
演练测试通过挂载恢复站点存储卷的快照,并将其作为恢复站点的数据存储来实现,因此。当演练过程完毕后,通过结束演练来完成测试后的环境清理工作,结束演练成功后,恢复计划的状态会成为就绪状态。
· 确认配置没有问题后,请及时结束演练,恢复计划将变为就绪状态,可以进行计划恢复和故障恢复操作。
· 针对基于SRA存储的容灾,容灾演练时,通过对存储卷创建快照,并挂给主机这种方式进行演练,所以限制容灾保护组存储映射不能超过128个。
(1) 单击顶部“云业务”页签,选择左侧导航树中[站点容灾/恢复计划管理]菜单项,选择对应的恢复计划,进入该恢复计划的概要信息页面。单击<开始演练>按钮。
图3-31 开始演练
执行方式有两种,如果存储已经同步,可以选择跳过存储同步,直接执行计划演练,从而节省演练的时间;也可直接执行计划演练,其中包含了对存储进行同步的过程。
(2) 弹出操作确认对话框,提示尽量保持恢复集群下主机电源、网络等状态的稳定,以免导致计划执行失败。
图3-32 操作确认
(3) 选择“恢复任务”页签,可以查看当前执行的任务状态。
图3-33 恢复任务执行状态
(4) 单击恢复任务列表中执行日期,可查看详细执行过程。
图3-34 查看恢复详情
(5) 验证演练结果。切换到恢复站点,查看保护组中的虚拟机,已经根据保护组配置资源映射,被恢复到恢复站点中。
图3-35 查看恢复结果
(1) 演练成功后,在恢复计划管理页面,可单击<结束演练>按钮结束该恢复计划的演练,清理容灾数据,并使恢复计划处于就绪状态。
图3-36 结束演练
(2) 选择“恢复任务”页签,可以查看当前执行的任务状态。单击恢复任务列表中执行日期对应的链接,查看详细执行过程。
图3-37 查任务状态
(3) 单击恢复任务列表中的执行日期,可查看详细执行过程。
图3-38 查看演练结束详情
(4) 验证结束演练结果。切换到恢复站点,容灾演练创建的虚拟机已经被关闭,成为空虚拟机,相应的存储池也已经备清理。
图3-39 验证结束演练结果
(5) 结束演练后,查看恢复计划,已经恢复到“就绪”状态。
图3-40 查看恢复计划状态
计划恢复将会关闭保护组内的虚拟机,并暂停存储池。计划恢复的执行方式分为执行计划和直接恢复虚拟机两种。执行计划将按照恢复步骤执行。直接恢复虚拟机将跳过前面所有步骤,直接进行恢复虚拟机操作,这种情况主要用于恢复虚拟机之前的过程已经准备就绪,可以直接恢复虚拟机,节省恢复的时间。
(1) 单击顶部“云业务”页签,选择左侧导航树中[站点容灾/恢复计划管理]菜单项,进入恢复计划管理页面。选择目标恢复计划,进入该恢复计划的概要信息页面。单击<计划恢复>按钮,执行计划恢复操作。
图3-41 计划恢复
(2) 选择“恢复任务”页签,可以查看当前执行的任务状态。
图3-42 查看计划恢复任务状态
(3) 也可单击恢复任务列表中的执行日期,查看详细执行过程。
图3-43 查看计划恢复详情
故障恢复的执行方式分为执行计划和直接恢复虚拟机两种。执行计划将按照恢复步骤执行;直接恢复虚拟机将跳过前面所有步骤,直接进行恢复虚拟机操作,这种情况主要用于恢复虚拟机之前的过程已经准备就绪,可直接恢复虚拟机,节省恢复的时间。
(1) 单击顶部“云业务”页签,选择左侧导航树中[站点容灾/恢复计划管理]菜单项,进入恢复计划管理页面。单击目标恢复计划,进入该恢复计划的概要信息页面。单击<故障恢复>按钮,执行故障恢复操作。
图3-44 故障恢复
(2) 选择“恢复任务”页签,可以查看当前执行的任务状态。
(3) 单击恢复任务列表中执行日期对应的链接,查看详细执行过程。
图3-45 查看反向恢复详情
当执行了计划恢复或者故障恢复后,受保护的虚拟机会在恢复站点启动运行。当原来的受保护站点具备了业务运行的状态后,可以通过反向恢复的方式将受保护的虚拟机恢复到最初的保护站点。
反向恢复执行时,请确认保护站点和恢复站点都正常,且站点之间网络连接正常,映射关系中存储挂载的主机状态正常。
· 若保护站点上有CVK主机管理网异常、存储网正常:请在该CVK主机管理网恢复正常或将CVK关机后,再执行反向恢复操作。
· 若恢复站点上恢复的虚拟机机所在CVK主机故障:请先手动删除恢复站点上的异常CVK主机,再执行反向恢复操作;待反向恢复成功后,删除恢复计划、删除保护组内的虚拟机再重新添加虚拟机。故障CVK恢复正常后,需手动清除主机上已经存在的虚拟机和存储池。
(1) 单击顶部“云业务”页签,选择左侧导航树[站点容灾/恢复计划管理]菜单项,选择目标恢复计划,进入该恢复计划的概要信息页面。单击<反向恢复>按钮,执行反向恢复操作。
(2) 选择“恢复任务”页签,可以查看当前执行的任务状态。单击恢复任务列表中的执行日期,可查看详细执行过程。
图3-46 查看反向恢复状态
图3-47 查看反向恢复详细信息
保护反转只针对存储复制保护组,当成功执行过计划恢复或者故障恢复后,可以在恢复站点执行保护反转操作,将保护组的保护站点与恢复站点进行互换。此时保护站点中的普通虚拟机会转换成灾备机,而恢复站点中的容灾恢复机将转换成普通虚拟机。
(1) 单击顶部“云业务”页签,选择左侧[站点容灾/恢复计划管理]菜单项,进入恢复计划管理页面。选中目标恢复计划,进入恢复计划概要页面,单击<保护反转>按钮,执行保护反转操作。
(2) 弹出选择集群对话框,选择部署灾备机的目的集群。
图3-48 选择集群
(3) 单击“恢复任务”页签,可查看保护反转执行状态。
图3-49 查看保护反转计划执行状态
(4) 单击恢复任务列表中的执行日期,可查看详细执行过程。
图3-50 查看详细任务进程
(5) 查看保护组的概要信息,发现原先的保护站点已经变为了恢复站点,原先的恢复站点变为了保护站点。
图3-51 保护组信息
以配置HP存储阵列为例,准备好两台存储阵列,在SRM的站点部署HP存储阵列,并且存储阵列之间可以进行数据卷的复制功能(存储阵列需要具备复制功能和快照功能授权)。
配置步骤如下:
(1) 登录HP存储阵列管理台。
图3-52 存储阵列
(2) 右键单击导航树中[卷和快照],选择[新建卷]菜单项,配置新建卷参数。配置卷相关的信息后,将新建的卷分配给需要使用该卷的主机。
图3-53 新建卷
(3) 右键单击(2)中创建的卷lun_srm,选择[新建对卷的远程快照计划]菜单项,设置该卷的远程复制相关信息。
图3-54 选择新建对卷的远程快照计划
(4) 打开“新建对卷进行远程快照计划”对话框,设置开始时间、重复周期、快照保留方案等信息,“远程卷的名称”需要选择恢复站点存储存储阵列的卷,如果对端存储还没有可用的卷匹配,可单击<新建远程卷>按钮进行新建。
图3-55 新建对卷进行远程快照计划
(5) 完成数据同步后,右键单击恢复站点存储阵列的远程卷,选择[编辑卷]菜单项,编辑远程卷lun_srm_hp4530。在高级选项中将卷的类型由远程改为主卷,并将该卷分配给恢复站点(需要使用该卷的主机)。
图3-56 编辑卷
恢复站点存储阵列上的远程卷在正常使用时始终保持远程状态,这样保护站点存储阵列的主卷才会按照快照计划设置的策略,将数据同步存储到恢复站点存储阵列的远程卷。
配置CAS环境,将3.4.1 章节准备的存储数据卷作为共享文件系统或者块设备挂载到CAS环境中。
(1) 在CAS CVM管理台部署主机池、集群、添加CVK主机等相关资源。
(2) 单击顶部“云资源”页签,选择左侧计算资源池中的目标主机池,进入主机池概要页面。选择“共享文件系统”页签,单击<增加共享文件系统>按钮,弹出增加共享文件系统对话框。将3.4.1 章节中配置好的存储LUN添加为共享文件系统(如果作为网络存储则挂载到主机上)。
图3-57 增加共享文件系统-基本信息
图3-58 增加共享文件系统-LUN信息
(3) 单击顶部“云资源”页签,选择左侧计算资源池下的目标集群,进入集群概要页面。选择“存储”页签,单击<增加>按钮,弹出增加共享存储对话框。将配置好的共享文件系统添加到集群的CVK主机上。
图3-59 增加共享存储
(4) 单击顶部“云资源”页签,选择左侧计算资源池中的目标主机,进入主机概要页面。单击<增加虚拟机>按钮,弹出增加虚拟机对话框。在主机上创建虚拟机,并使用(3)中已配置好具有复制关系的数据卷(LUN)作为虚拟机的数据存储。
图3-60 增加虚拟机-基本信息
图3-61 增加虚拟机-硬件信息
(1) 在CAS CVM管理平台部署主机池、集群、添加CVK主机等相关资源。
(2) 单击顶部“云资源”页签,选择左侧计算资源池中的目标主机池,进入主机池概要页面。选择“共享文件系统”页签,单击<增加共享文件系统>按钮,弹出增加共享文件系统对话框。将在3.4.1 章节中配置好的存储LUN添加为共享文件系统。
· 此时恢复站点的卷类型已经是主卷模式。
· 只需要在主机池添加共享文件系统即可,不需要到主机节点添加共享存储。
图3-62 增加共享文件系统-基本信息
图3-63 增加共享文件系统-LUN信息
(3) 登录存储阵列的管理台,将恢复站点的远程卷(lun_srm_hp4530)类型由“主卷”修改为“远程卷”,实现从主卷到远程卷的复制功能和快照功能。
恢复站点使用的存储卷,将卷的类型由主卷修改为远程卷,是为了让主站点使用的存储卷(主卷)同步到恢复站点的存储卷(远程卷)。当恢复站点存储卷是远程状态时,快照计划才能正常运行。
图3-64 更改恢复站点的远程卷(lun_srm_hp4530)类型
· 共享文件系统只能使用一个数据卷(LUN)。
· 存储卷挂载到CAS环境中后,在执行恢复之前请确保主站点存储卷(主卷)的数据已经同步到恢复站点的存储卷(远程卷)。
不支持SRA功能的存储阵列的存储复制容灾配置过程与支持SRA功能的存储阵列的存储复制容灾配置过程基本一样,不同的地方如下:
· 配置容灾站点时不需要添加“存储阵列管理器”。
· 配置容灾保护组的存储资源映射时,存储类型选择“非SRA存储”。
(1) 登录CAS CVM管理平台,单击顶部“云业务”页签,选择左侧[站点容灾/站点管理]菜单项,单击<增加站点>按钮,弹出增加站点对话框。缺省第一个增加的站点为本地站点类型,在IP地址信息中输入当前CAS CVM管理平台的IP地址。单击<下一步>按钮,存储阵列的厂商信息选择“无”,单击<确定>按钮完成操作。
图3-65 增加站点-站点信息
(2) 重复(1),增加远端站点。
图3-66 增加远端站点
图3-67 站点增加完成
(1) 单击顶部“云业务”页签,选择左侧导航树中[站点容灾/保护组管理]菜单项,进入保护组管理页面。单击<增加>按钮,弹出增加保护组对话框。配置保护组的相关信息,从配置的站点列表中选择保护站点和恢复站点,并从对应的站点中选择源主机池和目的主机池。
图3-68 增加保护组-基本信息
· 自动保护虚拟机:自动保护符合条件的虚拟机。若该参数设置为“是”,则符合条件(虚拟机使用的存储、虚拟交换机、网络策略模板都为映射关系配置中的资源,并且名称和恢复站点中的虚拟机没有重复、未使用主机的软驱等本地设备)的虚拟机将自动加入到保护组中,后续添加的虚拟机如果满足条件也会自动加入。
· 对于保护组内的虚拟机,其备份文件和快照不受保护,即虚拟机恢复到备份站点后,其备份文件和快照将丢失。
(2) 单击<下一步>按钮,配置资源映射关系。分别单击<增加存储映射关系>,<增加虚拟交换机映射关系>,<增加网络策略模板映射关系>按钮配置保护组的存储、虚拟交换机、网络策略模板映射关系。对于存储资源的映射,需要选择存储池的类型(包括共享文件系统和块设备)及存储类型(支持SRA和不支持SRA)。对于不支持SRA的存储阵列,只支持共享文件系统存储池。
图3-69 增加存储映射关系-选择存储
图3-70 增加虚拟交换机映射关系
图3-71 增加网络策略模板映射关系
图3-72 增加保护组-映射关系
· 映射关系中虚拟交换机和网络策略模板可以自行定义。示例中为系统默认的虚拟交换机和网络策略模板。
· 增加存储映射关系时,存储类型选择“非SRA存储”。
(3) 在保护组管理页面中选择(1)增加的保护组,单击<添加虚拟机>按钮,弹出选择虚拟机对话框。在满足条件的虚拟机列中,选择要保护的虚拟机添加到保护组。
图3-73 为保护组添加虚拟机
单击顶部“云业务”页签,选择左侧导航树中[站点容灾/恢复计划管理]菜单项,单击<增加恢复计划>按钮,弹出增加恢复计划对话框。配置恢复计划的相关信息,并选择保护组和恢复集群信息,恢复计划初次创建完毕后的状态显示为“初始化”。
增加恢复计划
保护组:选择一个保护组,新建的恢复计划将用来恢复该保护组的虚拟机。
恢复集群:选择一个恢复站点的集群,恢复时,保护组内的虚拟机将恢复到该集群中的主机上。
图3-74 恢复计划概要信息
恢复计划演练是一种检验配置能否达到预期的恢复目的的非破坏性测试,演练分为开始演练和结束演练两步,开始演练结束后,进行演练的恢复计划会按照预先的配置把受保护虚拟机恢复到指定的恢复站点。
开始演练过程成功后,请及时结束演练,恢复计划将变为就绪状态,同时需要在存储管理台上配置回滚远程卷。
(1) 执行“开始演练”之前,请先同步一次存储阵列的数据。登录存储管理台,选择主卷(lun_srm),单击右键后选择“新建远程快照”,同步数据到远程卷(lun_srm_4530)。
图3-75 新建远程快照
(2) 数据同步过程完成后,对远程卷(lun_srm_4530)进行编辑,将远程卷的类型由远程修改为主卷。
图3-76 编辑卷
(3) 登录CAS CVM管理台,单击顶部“云业务”页签,选择左侧导航树中[站点容灾/恢复计划管理]菜单项,进入恢复计划管理页面。单击目标恢复计划,进入该恢复计划的概要信息页面。单击<开始演练>按钮开始演练,针对所选的恢复计划执行开始演练。
图3-77 开始演练
执行方式有两种:如果存储已经同步,可以选择跳过存储同步,直接执行计划演练,从而节省演练的时间;也可直接执行计划演练,其中包含了对存储进行同步的过程。
(4) 选择“恢复任务”页签,可以查看当前执行的任务状态。单击恢复任务列表中的执行日期,查看详细执行过程。
图3-78 查看开始演练执行结果
图3-79 查看开始演练详细信息
(5) 演练成功后,可以进行结束演练。单击<结束演练>按钮结束该恢复计划的演练,使恢复计划处于就绪状态。
(6) 选择“恢复任务”页签,可以查看当前执行的任务状态。单击恢复任务列表中的执行日期,查看详细执行过程。
图3-80 查看结束演练执行结果
图3-81 查看结束演练详细信息
结束演练完成后,恢复计划的状态更改为就绪,后续可以进行计划恢复和故障恢复等操作。
(7) 登录存储阵列的管理台,在远程卷lun_srm_hp4530的快照列表中选择最新的一个快照,右击选择Roll Back卷,使得当前的卷为最新的数据状态。
图3-82 选择Roll Back卷
(8) roll back完成后,修改远程卷lun_srm_hp4530,将卷的类型由“主卷”改为“远程”。
图3-83 编辑卷
计划恢复的执行方式分为执行计划恢复和直接恢复虚拟机两种,执行计划将按照恢复步骤依次执行;直接恢复虚拟机将跳过前面所有步骤,直接进行恢复虚拟机操作,常用于恢复虚拟机过程失败,或者已经通过手动操作准备好环境,则可选择直接恢复虚拟机。
计划恢复执行时,请确保存储映射关系中存储挂载的主机状态正常,并且恢复集群中的主机资源能够满足需要恢复虚拟机的资源需求。
(1) 手动同步数据,登录存储阵列管理台,选择主卷(lun_srm),右键单击选择[创建远程快照]菜单项,创建远程快照到远程卷lun_srm_hp4530。
图3-84 新建远程快照
(2) 登录CAS CVM管理台,关闭需要进行计划恢复的虚拟机,然后登录存储管理台,对主卷(lun_srm)创建远程快照到远程卷(lun_srm_hp4530)实现对数据再次同步,保证数据不丢失。
(3) 同步数据过程完毕后,将远程卷(lun_srm_hp4530)的类型由“远程”修改为“主卷”。
图3-85 编辑卷
(4) 登录CAS CVM管理台,单击顶部“云业务”页签,选择左侧导航树中[站点容灾/恢复计划管理]菜单项,进入恢复计划管理页面。单击目标恢复计划,进入该恢复计划的概要信息页面。单击<计划恢复>按钮,执行计划恢复操作。
图3-86 计划恢复
图3-87 确认计划恢复
(5) 选择“恢复任务”页签,可以查看当前执行的任务状态。单击恢复任务列表中的执行日期,查看详细执行过程。
图3-88 查看计划恢复执行结果
图3-89 查看计划恢复详细信息
故障恢复的执行方式分为执行计划和直接恢复虚拟机两种,执行故障恢复将按照恢复步骤执行;直接恢复虚拟机将跳过前面所有步骤,直接进行恢复虚拟机操作,常用于恢复虚拟机过程失败或已手动准备好环境,则可以选择直接恢复虚拟机。
· 故障恢复执行前,如果主站点存储还能正常使用,建议先手动同步一次存储。
· 故障恢复执行时,请确保存储映射关系中存储挂载的主机状态正常,并且恢复集群中主机资源能够满足需要恢复虚拟机的资源需求。
(1) 登录存储管理台,将远程卷(lun_srm_hp4530)的类型由“远程”改为“主卷”。
图3-90 编辑卷
(2) 登录CAS CVM管理台,单击顶部“云业务”页签,选择左侧导航树中[站点容灾/恢复计划管理]菜单项,进入恢复计划管理页面。单击目标恢复计划,进入该恢复计划的概要信息页面。单击<故障恢复>按钮,执行故障恢复操作。
图3-91 确认故障恢复
(3) 选择“恢复任务”页签,可以查看当前执行的任务状态。单击恢复任务列表中的执行日期,查看详细执行过程。
图3-92 查看故障恢复执行结果
图3-93 查看故障恢复详细信息
当执行了计划恢复或者故障恢复后,受保护的虚拟机会在恢复站点启动运行,当原来的受保护站点具备了业务运行的状态后,可以通过反向恢复的方式将受保护的虚拟机恢复到最初的保护站点。
请确保反向恢复执行过程中保护站点和恢复站点都正常,并且站点之间网络连接正常,映射关系中存储挂载的主机状态正常。
(1) 登录存储管理台,将原来的主卷(lun_srm)类型由“主卷”修改为“远程”。
图3-94 编辑卷
(2) 上述卷的类型更改后,则具有远程复制关系的卷(lun_srm_hp4530)成为主卷,卷(lun_srm)成为远程卷,然后通过创建卷(lun_srm_hp4530)的远程快照到卷(lun_srm)来完成数据的反向同步。
图3-95 新建远程快照
(3) 同步数据过程完毕后,登录恢复站点CAS CVM管理台,关闭需要反向恢复的虚拟机,然后再登录存储管理台,通过对卷(lun_srm_hp4530)创建远程快照到卷(lun_srm)来实现再次同步数据。
(4) 同步数据过程完毕后,将卷(lun_srm)的类型由“远程”改为“主卷”。
图3-96 编辑卷
(5) 登录CAS CVM管理平台,单击顶部“云业务”页签,选择左侧导航树中[站点容灾/恢复计划管理]菜单项,进入恢复计划管理页面。单击目标恢复计划,进入该恢复计划的概要信息页面。单击<反向恢复>按钮,执行反向恢复操作。
(6) 选择“恢复任务”页签,可以查看当前执行的任务状态。单击恢复任务列表中的执行日期,查看详细执行过程。
图3-97 查看反向恢复执行结果
图3-98 查看反向恢复详细信息
(7) 反向恢复成功后,登录存储管理台,将卷(lun_srm_hp4530)的类型由“主卷”改为“远程”。
CDP(Continuous Data Protect 持续数据保护)技术,即在不影响主要数据运行前提下,通过捕获或跟踪数据的变化,并将其独立存放在生产数据之外,以确保数据可以恢复到过去的任意时间点的方法。理论上,任意一次的文件数据变化都会被自动记录,因此称为持续数据保护。
CDP技术能确定RPO指标,恢复到指定的任意时间点,以满足不同场景下的需求。SNIA(全球网络存储工业协会)在2011年的一份技术文档中,指出了CDP的三大标准:
· 可以捕获源数据任意的数据变化。
· 至少可以备份到另外一个地方(异地容灾)。
· 可以恢复到任意时间点。
从技术实现上,很多CDP方案需要安装代理软件,获取IO的变化。
基于磁盘备份的容灾,基于CDP操作系统数据复制技术实现容灾。通过安装在生产端主机中的Agent服务来获取源端主机的信息,捕获数据块的变化,并将增量数据传输给存储节点,备份到H3C CAS CVM容灾端的存储中。
基于多级快照链机制和实时同步机制,支持秒级数据同步,满足高性能RPO数据恢复需求。支持对异构平台(异构虚拟化、云平台、裸金属服务器等)的容灾,可以同时对多个异构平台的业务在一个灾备站点进行容灾。
磁盘备份容灾系统由三大对象组成:保护站点、恢复站点和保护对象。
· 保护对象:在磁盘备份容灾系统中受保护的虚拟机或裸金属服务器。
· 保护站点:也叫生产站点,指保护对象所在的CVM管理平台或其他异构云平台。
· 恢复站点:也叫灾备站点,保护对象发生容灾切换时被恢复到的CVM管理平台。
适用场景:基于磁盘备份的容灾适合混合架构、异构云、同构云、裸金属、虚拟机容灾。还可用于生产机的关键业务的容灾。
· 同构场景:指生产站点与灾备站点是相同版本的CAS CVM管理平台,要保护的生产机为CVM上的虚拟机。
· 异构场景:指保护对象为他其他异构云平台的虚拟机、CAS CVM低版本平台的虚拟机,或裸金属服务器,恢复站点为本CAS CVM管理平台。
· 混合架构:指保护对象既有虚拟机又有裸金属服务器,恢复站点为CAS CVM管理平台。
灾备等级:
RPO≈分钟级
RTO≈分钟级
RPO、RTO指标与实际环境及实际业务相关,具体需要根据局点的实际情况进行计算。
· 存储:无限制
· 生产端:支持X86架构云平台,或物理机。
· 灾备端:支持CAS E0536及以后版本。需要具备企业增强版License和相应数量的H3C CAS容灾功能License。
· 操作系统:Windows Server版,Linux系统,具体参见《H3C CAS服务器虚拟化产品 软硬件兼容性列表》。
灾备端需要单独的磁盘备份容灾License授权,授权方式请参考《H3C CAS云计算管理平台License支持情况说明》。
将安装了容灾客户端的虚拟机(VM)或裸金属服务器(BM)作为保护对象,以操作系统为单位,将远端CVM站点作为恢复站点,基于容灾客户端软件的磁盘实时复制功能,将生产机的数据复制到灾备端CVM管理平台,并在灾备端的存储节点上创建虚拟机,来运行业务,实现业务的灾备。
如果在安装的时候没有配置网络参数,会导致CAS侧无法识别到安装了Agent的虚拟机,若要使用磁盘备份容灾功能,需要安装过程中配置好管理网IP。
图4-1 磁盘备份容灾实现机制
磁盘备份容灾配置分为容灾准备、配置容灾任务、容灾切换三大步骤。磁盘备份容灾配置流程如图所示。
图4-2 磁盘备份容灾配置流程
在生产端,为受保护的虚拟机或裸金属服务器安装客户端,以便获取生产端数据变化并备份到灾备端。在灾备端设置容灾存储节点、容灾存储介质,用于存放容灾备份数据,设置容灾备份网络,用于传输容灾业务的备份数据。
· 增加站点:站点包括本地站点和远端站点。站点的配置可以在保护端或灾备端任意一端配置。对于磁盘备份容灾的异构场景,无需增加远端站点。
· 增加保护组:保护组是一组需要受保护的虚拟机或裸金属服务器的集合。磁盘备份类型的保护组创建好后,系统自动进行一次虚拟机配置同步。对于同构场景,还可以在容灾切换前进行手动同步。
将安装了容灾客户端的虚拟机或生产机加入到一个保护组,通过制定合适的容灾策略,对虚拟机/生产机的数据自动进行持续同步,达到对虚拟机/生产机的保护目的。根据所保护的虚拟机/生产机的业务运行方式,分为普通业务、双机业务和集群业务。普通业务里的虚拟机/生产机单独运行,互不制约;双机和集群业务里的虚拟机/生产机需要有共享存储存放需要共同访问的数据。磁盘备份保护组支持同构及异构平台的容灾任务。
¡ 同构场景:指保护站点与恢复站点是相同版本的CAS CVM管理平台,要保护的生产机为CVM上的虚拟机。同构场景下,创建保护组时,需指定保护站点与恢复站点,以保护站点内安装了容灾客户端的虚拟机作为备选的保护对象,选择合适的容灾策略后,配置站点间网络资源映射关系。
¡ 异构场景:指保护对象为其他异构云平台的虚拟机、CAS CVM低版本平台的虚拟机,或裸金属服务器,恢复站点为本CAS CVM平台。异构场景下,创建保护组时,不配置保护站点,以安装了容灾客户端的虚拟机或生产机作为备选的保护对象,以本地站点为恢复站点,选择合适的容灾策略后,再配置恢复站点的生产机网络资源。
· 增加恢复计划:恢复计划就是针对不同保护组而设置的不同恢复策略,恢复计划执行后,在灾备端,根据恢复策略,自动创建容灾机,接替生产端业务。
· 容灾演练:容灾演练由开始演练和结束演练两个阶段组成。演练过程主要检查恢复计划实施的有效性,为提高灾难恢复能力进行预演,因此演练需要模拟保护站点故障发生后,在恢复站点能够恢复业务的全流程。演练测试过程不会影响生产业务。当演练过程完毕后,通过结束演练来完成测试后的环境清理工作,结束演练成功后,恢复计划的状态会成为就绪状态。
磁盘备份容灾演练测试通过挂载恢复站点存储卷的快照,并将其作为恢复站点的数据存储来实现。
图4-3 容灾演练
· 计划恢复:计划恢复一般是在对保护站点进行维护的情况下,人为地将保护站点的虚拟机业务停止后,根据恢复计划将这些虚拟机业务在恢复站点恢复起来。
启动计划恢复后,保护站点的虚拟机将被关闭(异构场景下不会自动关闭,如需关闭,需人为操作)。计划恢复会触发一次数据的复制,当受保护的数据完全复制到恢复站点后,再依次恢复虚拟机业务。
图4-4 计划恢复
· 故障恢复:故障恢复用于真实场景中保护站点发生故障,虚拟机业务不能工作的情况下,根据恢复计划在恢复站点恢复虚拟机业务。在这种情况下,受保护虚拟机是由于发生故障而异常中断的。
对于磁盘备份容灾,恢复站点存储的数据为前一个复制周期完成后的数据,因此在恢复站点恢复业务时,RPO不为0。
图4-5 故障恢复
· 反向恢复:反向恢复是在保护站点发生故障时将虚拟机业务切换到恢复站点后,待故障的保护站点恢复正常工作的情况下,将运行在恢复站点的受保护虚拟机又恢复到保护站点。对于磁盘备份容灾,需在生产环境运行PE反向恢复工具将容灾数据恢复到生产环境,具体操作参见4.2.5 5. 。
图4-6 反向恢复
· 清理备份数据:针对磁盘备份容灾,当执行过计划恢复或故障恢复后,可通过在生产环境运行PE反向恢复工具将容灾数据恢复到生产环境,恢复后执行清理备份数据,在恢复站点删除容灾机及临时数据。
磁盘备份容灾将安装了容灾客户端的虚拟机或裸金属服务器作为保护对象,将本地CVM站点作为恢复站点,基于容灾客户端软件的磁盘实时复制功能,实现对生产端的虚拟机/裸金属数据的应急保护。基于多级快照链机制和实时同步机制,实现数据备份,支持秒级数据同步,满足高性能RPO数据恢复需求。
· 同构场景:指保护站点和恢复站点为相同版本的CAS CVM管理平台,保护对象为保护站点的虚拟机。
· 异构场景:指保护对象为异构云平台的虚拟机、裸金属服务器,或低版本CVM管理平台的虚拟机。
本例以同构场景为例,生产端和灾备端都为CAS CVM管理平台,保护对象为生产端的虚拟机。
图4-7 组网图
(1) 进入恢复站点CVM(即容灾端),点击<顶部>云业务页签,选择左侧 [站点容灾/客户端下载]菜单项,进入客户端下载界面。
图4-8 下载客户端
(2) 客户端代理的备份服务器IP地址默认为CVM管理网IP地址。
· 针对同构场景,被保护的虚拟机安装的客户端,要从恢复站点下载,这样虚拟机安装客户端后,才会自动根据服务器IP,连接到备份服务器。
· 可以设置一个备用的备份服务器IP,当首选IP出现异常时,系统自动切换到备选IP来与恢复站点的CVM进行通信。该功能只有在磁盘备份容灾License激活后才能使用。
(3) 选择所需的客户端,点击对应操作系统的下载链接进行下载。该操作有两种可用方式。
¡ 选择对应的客户端安装包下载。下载的安装包为zip压缩包,名字通常以Clone_Client开头(如Clone_Client_Redhat5x86_64.zip)。解压缩后使用FTP工具将已经解压缩的客户端安装包传输到被保护的生产机。
¡ 选择匹配的应急客户端安装包。点击图标复制下载链接,远程登录界面(提前连接生产机)下载客户端安装包。
建议安装客户端前关闭源设备防火墙及相关安全策略。如源设备为云平台虚拟机,请确认安全组策略是否已开放迁移工具端口。
(1) 进入生产机设备控制台。
图4-9 进入控制台
(2) 双击客户端安装程序Clone_Client_Win.exe,弹出选择安装语言窗口,如下图所示。选择安装时要使用的语言,点击<确定>按钮。
图4-10 选择安装语言
(3) 同意许可协议,选择安装路径,开始安装。当弹出如下图所示的窗口时,选择安装CDP驱动程序。
图4-11 安装CDP驱动
(4) 安装完成。
安装完成之后如果提示需要重启电脑,此时请重启计算机,重启会导致业务中断,请合理安排重启时间。
图4-12 安装完成
(1) 首先在生产机上执行uname –a命令查看当前Linux内核版本(便于后续选择相应驱动)。
图4-13 查看内核版本
(2) 下载客户端安装包并上传到生产机,使用unzip命令解压安装文件。进入解压后的安装文件目录,执行ls命令可以看到容灾客户端的安装包文件。
图4-14 解压安装包
(3) 进入安装文件目录,执行./install.sh命令开始安装客户端。安装途中会提示选择驱动,选择与Linux内核版本一致的驱动(本实例选择编号为3的驱动)。
图4-15 开始安装
(4) 等待安装完成,安装成功会显示Diagnosis tool finish all jobs successfully . All informations are recorded at /usr/local/saltfish/bin/diagnosis.info.
图4-16 安装完成
容灾存储节点,指在容灾业务中,在业务保护、数据传输过程中,提供数据的分发处理功能的主机,可以提供更多的存储空间和存储能力。只有设置为容灾存储节点的主机,才能作为容灾目的主机使用。生产端被保护的虚拟机或裸金属服务器,只能在容灾存储节点进行恢复。
(1) 进入灾备端CVM管理平台。
(2) 单击顶部“云资源”页签,选择作为容灾存储节点的主机cvk60。
(3) 单击右上角的<更多操作>按钮,选择弹出的[设为容灾存储节点]菜单项,将cvk60设置为容灾存储节点。
图4-17 设置容灾存储节点
容灾存储介质,指在容灾存储节点内,存放容灾备份数据的存储池。只有作为容灾存储介质的存储池,才能作为磁盘备份容灾业务的目的存储池。
(1) 单击顶部“云资源”页签,选择容灾存储节点主机cvk60,单击“存储”页签,进入主机存储池列表。
(2) 选择作为容灾存储介质的存储池,单击操作列下的<更多>按钮,选择弹出的[设为容灾存储介质]菜单项。
图4-18 设置容灾存储介质
容灾数据备份可以通过专门设置的容灾备份网络或管理网络vswitch0传输,当数据传输量较大时,为了避免影响业务,可以为容灾业务设立专门的容灾备份网络,只有网络类型为“备份网络”的虚拟交换机,才可以作为容灾备份网络。如果不设置容灾备份网络,则备份数据默认选择管理网络vswtich0进行传输。
(1) 单击顶部“云资源”页签,选择容灾存储节点主机cvk60,单击“虚拟交换机”页签,进入主机虚拟交换机列表页面。
(2) 选择作为容灾备份网络的虚拟交换机,单击操作列下的<更多>按钮,选择弹出的[设为容灾备份网络]菜单项。
图4-19 设置容灾备份网络
同构场景需要指定保护站点和恢复站点,异构场景不需要配置保护站点。
(1) 在保护站点,单击顶部“云业务”页签,选择左侧导航树[站点容灾/站点管理]菜单项,进入站点管理页面,单击<增加>按钮,添加本地站点。
图4-20 增加站点
(2) 首次添加的站点为本地站点,配置站点信息和存储阵列信息,配置完成之后,单击<确定>按钮,完成本地站点的添加。
图4-21 站点信息配置
图4-22 存储阵列配置
磁盘备份容灾本地站点和恢复站点均无需配置存储阵列信息,厂商类型选择无。
(3) 查看站点管理页面,本地站点已添加完成。
图4-23 本地站点添加完成
(1) 本地站点添加完成之后,在站点管理页面点击<增加>按钮,添加远端站点。
图4-24 增加远端站点
(2) 配置远端站点的的站点信息和存储阵列信息,配置完成之后,单击<确定>按钮,完成远端站点的添加。
图4-25 站点信息配置
图4-26 存储阵列配置
磁盘备份容灾本地站点和恢复站点均无需配置存储阵列信息,厂商类型选择无。
(3) 查看站点管理页面,本地站点和远端站点都已添加完成。
图4-27 本地站点和远端站点创建完成
(1) 单击顶部“云业务”页签,选择左侧导航树[站点容灾/保护组管理]菜单项,进入保护组管理页面。单击<增加>按钮,配置保护组的基本信息,容灾类型选择“磁盘备份容灾”,配置各项参数,单击<下一步:映射关系>按钮。
图4-28 配置保护组基本信息
(2) 需根据实际业务情况配置容灾策略。容灾策略包含同步策略及快照策略,容灾策略中的各项参数解释请参考联机帮助。
· 请根据实际业务数据量配置合适的同步时间间隔(0表示不自动同步),避免因没有配置自动同步导致灾难发生时数据丢失量过大。
· 如需使用CDP颗粒存储恢复功能,需开启“颗粒存储”功能。
图4-29 配置容灾策略
(3) 配置资源映射关系,来配置保护组的虚拟交换机、网络策略模板映射关系。虚拟交换机使用容灾备份网络或vswitch0(管理网),本章节使用管理网。网络策略模板,使用Default即可。单击<完成>按钮。
异构场景,通过指定容灾网络及网络策略模板,来配置网络映射。
图4-30 配置保护组资源映射
(4) 为保护组增加虚拟机。点击创建的保护组名称,进入保护组基本信息页面。单击<添加虚拟机>按钮,弹出“虚拟机列表”窗口。列表中显示所有安装了容灾客户端,且正确配置了网络的虚拟机,选中需要保护的虚拟机增加到保护组中,单击<确定>按钮。
为保护组添加虚拟机时,如果灾备端存在与受保护虚拟机同名的虚拟机(不区分大小写),会导致保护组无法识别安装了Agent客户端的虚拟机,此时请修改虚拟机显示名称。
图4-31 保护组基本信息页面
图4-32 添加受保护的虚拟机
(5) 保护组配置完成。完成保护组配置后,可以通过颗粒存储,将任意时刻的CDP快照恢复为完整的虚拟机,具体操作方法请参考4. 。
图4-33 保护组配置完成
(1) 单击顶部“云业务”页签,选择左侧[站点容灾/恢复计划管理]菜单项,进入恢复计划管理页面,单击<增加恢复计划>按钮,配置恢复计划相关参数。
可以为一个保护组配置多个恢复计划,按不同的恢复计划,恢复不同的虚拟机。
图4-34 恢复计划管理页面
图4-35 增加恢复计划
(2) 恢复计划创建完成。恢复计划初次创建之后状态显示为“初始化”。
图4-36 恢复计划创建完成。
· E0750及之后版本支持存储颗粒恢复功能。
· 保护组所使用的容灾策略启用了颗粒存储后,才支持通过快照恢复虚拟机。
· 虚拟机磁盘备份详细信息页面中的快照点,标注的是此快照开始执行的时间,快照创建时长与容灾策略中设置的“快照时间间隔”相同。因此,在创建虚拟机时,选择时间的范围是当前快照点右侧快照点(当前快照结束)和右侧第二个快照点(当前快照增量备份)之间的时间,例如“快照时间间隔”为1小时,当前快照点显示为9:00,此快照结束的时间是9:59:59,则可恢复的时间范围为10:00-11:00(如增量备份时间不足一小时,则为10:00-当前增量时间)。
· 选择创建虚拟机的主机时,只能选择挂载了当前保护组目的存储池的主机,未挂载该存储池的主机无法选择。
· 选择创建虚拟机的存储池时,只能选择所选主机挂载的FC/ISCSI共享文件存储,不支持RBD和块存储。
(1) 选择顶端“云业务”页签,单击左侧导航树中[站点容灾/保护组管理]菜单项,进入保护组管理页面。
图4-37 保护组管理列表
(2) 选择目标保护组,进入保护组基本信息概要页面,列表中显示受保护的虚拟机。
图4-38 保护组基本信息概要
(3) 单击受保护的虚拟机(生产机),进入生产机详细信息页面,单击图标可展开快照列表,单击
图标,弹出<CDP导入>按钮。
图4-39 生产机详细信息
(4) 单击<CDP导入>按钮,弹出CDP导入对话框,配置虚拟机显示名称、选择快照时间、目的主机和目的存储池。单击<确定>按钮,开始创建虚拟机。
图4-40 CDP导入配置信息
(1) 单击顶部“云业务”页签,选择左侧[站点容灾/恢复计划管理]菜单项,进入恢复计划管理页面。单击对应的恢复计划,进入恢复计划概要页面。
图4-41 恢复计划管理页面
图4-42 恢复计划概要页面
(2) 单击<开始演练>按钮执行开始演练任务。
图4-43 开始演练
(3) 弹出操作确认对话框,提示生产环境和演练环境需要网络隔离,为不影响生产环境,需要返回保护组映射管理处,修改恢复端的虚拟交换机或网络策略模板,然后再单击<确定>按钮,开始演练。
图4-44 网络隔离确认
(4) 等待演练任务执行完成,在恢复计划概要页面可以看到恢复计划状态为“演练中”,受保护的虚拟机的状态为“已恢复”。
图4-45 演练任务执行完成
(5) 在“恢复任务”页签下,可以查看执行的演练任务状态。点击对应的执行日期链接,可以查看演练步骤的执行情况。
图4-46 演练任务执行状态
图4-47 演练步骤执行步骤
(6) 演练过程中,查看本地站点被保护的虚拟机,仍然处于运行状态,业务并未受影响。
图4-48 本地站点虚拟机运行状态
(7) 验证演练结果。切换到恢复站点,查看保护组中的虚拟机,已经根据保护组配置资源映射,恢复到容灾站点中。
容灾机将在符合条件主机中(在目的存储池上的主机),选择最优的主机上创建。
图4-49 查看演练结果
(1) 演练成功后,在恢复计划概要页面,单击<结束演练>按钮结束该恢复计划的演练,并使恢复计划处于就绪状态。
图4-50 结束演练
(2) 弹出操作确认对话框,提示需要保持恢复集群下主机在计划执行过程中电源、网络等状态的稳定,点击<确认>按钮,开始结束演练。
图4-51 查任务状态
(3) 验证结束演练结果。切换到恢复站点,容灾演练创建的虚拟机,已经被删掉,数据存储池也已经被清理。
(4) 结束演练任务完成后,在恢复计划概要页面,恢复计划状态显示为“就绪”,受保护的虚拟机的恢复状态为“未恢复”。
演练结束后,需要把保护组映射关系中的网络策略模板,修改回正常的网络配置,避免故障或计划恢复后网络不通。
图4-52 结束演练任务完成
(1) 单击顶部“云业务”页签,选择左侧[站点容灾/恢复计划管理]菜单项,进入恢复计划管理页面。单击对应的恢复计划,进入恢复计划概要页面。单击<计划恢复>按钮,执行计划恢复任务。
如果是异构场景,会提示计划恢复前先关闭生产机,以免造成数据错误。
图4-53 计划恢复
(2) 弹出操作确认对话框,提示计划恢复前需要关闭生产机,以免造成数据错误。单击<确定>按钮,开始计划恢复。
图4-54 计划恢复操作确认
(3) 等待计划恢复任务执行完成,查看恢复计划概要页面,此时恢复计划状态为“计划恢复成功”,受保护的虚拟机恢复状态为“已恢复”。在“恢复任务”页签下,可以看到计划恢复任务执行成功。
图4-55 计划恢复执行完成
图4-56 计划恢复执行状态
(4) 切换到恢复站点,可以看到在生产站点关闭的虚拟机已经在恢复站点恢复,并处于运行状态。
图4-57 计划恢复结果
(1) 单击顶部“云业务”页签,选择左侧[站点容灾/恢复计划管理]菜单项,进入恢复计划管理页面。单击对应的恢复计划,进入恢复计划概要页面。在恢复计划概要页面,单击右上角的<故障恢复>按钮,执行故障恢复任务。
图4-58 执行故障恢复
(2) 弹出操作确认对话框,点击<确定>按钮,开始执行故障恢复。
图4-59 故障恢复操作确认
(3) 在恢复计划概要页面,可以看到恢复计划状态为“故障恢复执行中”,受保护的虚拟机恢复状态为“已恢复”。点击恢复计划页面下的故障恢复时间链接,可以查看故障恢复步骤执行状态。
图4-60 查看故障恢复详情
图4-61 故障恢复执行步骤
(4) 切换到恢复站点,查看保护组中的虚拟机,已经根据保护组配置资源映射,在恢复站点恢复,且运行。
图4-62 查看故障恢复结果
(1) 单击顶部“云业务”页签,选择左侧[站点容灾/恢复计划管理]菜单项,进入恢复计划管理页面。单击对应的恢复计划,进入恢复计划概要页面。单击<清理备份数据>按钮,执行清理备份数据任务。
图4-63 清理备份数据
(2) 弹出操作确认对话框,提示删除备份数据前进行PE镜像恢复,以免数据丢失。点击<确定>按钮。
图4-64 清理备份数据操作确认
(3) 之后出现删除确认对话框,提示是否确认需要删除恢复计划中容灾机的数据,输入“DELETE”,开始清理备份数据。
图4-65 删除确认
(4) 清理备份数据完成,查看恢复计划概要页面,恢复计划状态为“清理备份数据就绪”,受保护的虚拟机的恢复状态为“未恢复”。
图4-66 清理备份数据完成
(5) 查看恢复任务页面,可以看到清理备份数据任务执行成功,选择对应的执行时间链接,可以查看对应的恢复步骤执行情况。
图4-67 清理备份数据执行结果
图4-68 清理备份数据执行步骤
当保护站点恢复正常后,需要将业务切换回保护站点。CAS提供完善的反向恢复流程,保障业务、数据在生产端和灾备端间同步,完成业务反向切换。
计划恢复或故障恢复后,容灾机和生产机的MAC地址是一致的,在进行反向恢复,将业务恢复到生产端的原虚拟机上(非新建虚拟机)时,为避免网络冲突导致无法恢复,容灾机和生产机不能在同一物理交换机下,如在同一物理交换机下,需要在修改容灾机MAC地址,避免网络问题导致无法连接Server端,无法反向恢复。
提供Windows和Centos两种PE镜像,根据生产端的系统选择对应的PE镜像。
CAS-SRM-Recovery-centos_xxx.iso
CAS-SRM-Recovery-win10_xxx.iso
(1) 单击顶部“云资源”页签,选中左侧资源池中创建虚拟机所在的主机,进入主机的概要信息页面,单击<增加虚拟机>按钮,创建新的虚拟机,用于反向恢复。
图4-69 新建虚拟机
(1) 挂载PE镜像,并重启虚拟机,引导进入容灾应急工具。
图4-70 挂载PE镜像
(2) 进入虚拟机控制台。
图4-71 PE引导进入容灾应急工具
(3) 在容灾应急工具下方,单击<网络配置>按钮,为虚拟机配置网络。配置完成后,单击<应用>按钮。
图4-72 配置网络
(1) 输入登录容灾端CVM地址,单击右侧<登录>按钮,登录容灾站点。
图4-73 登录容灾端
(2) 选择待反向恢复的保护组并双击,更新设备列表。保护组中的虚拟机出现在设备列表内。
图4-74 选择保护组
(3) 选择待反向恢复的虚拟机,单击<下一步>。进入应急恢复页签。
图4-75 选择反向恢复的虚拟机
(4) 选择快照接管演练点,选择恢复模式。单击<恢复>,开始反向恢复。
PE恢复有三种模式:
· 普通模式:一次性恢复快照点以及在恢复完成前接管演练点写入的数据(接管前的数据)。
· 无缝模式:先恢复该快照点及快照点之前的所有数据,再恢复虚拟机中新生产的数据(接管前和接管后的数据)。
· 只恢复临时数据:只恢复容灾机中新生成的数据(接管后的数据)。
图4-76 配置恢复策略
(5) 根据恢复策略,进行数据恢复的过程。
图4-77 反向恢复过程
(6) 恢复成功后,单击<确定>按钮,关闭容灾应急工具,并重启虚拟机。
图4-78 反向恢复成功
(7) 虚拟机启动后,查看虚拟机恢复成功。
图4-79 虚拟机启动成功
同城双活延展集群容灾是指在同城中两个距离相对较远的机房建立站点,两站点间建立存储双活,结合H3C CAS的集群HA功能和虚拟机/主机亲和性功能实现两个站点间的双活容灾,两个站点同时作为生产站点提供业务,实现机房故障时业务的自动灾难恢复。
同城双活延展集群容灾方案适用于对RPO、RTO要求较高的场景。以下场景适合同城双活延展集群容灾方案:
· 两个站点之间距离较近,两个站点间有高带宽、低时延的网络链路条件。
¡ 两站点之间距离<100公里。
¡ 双生产中心间管理网络时延RTT≤20ms。
¡ 双生产中心间存储网络时延RTT≤5ms。
¡ 虚拟化跨中心访问存储网络时延≤1ms。
¡ 共享文件系统心跳网络时延≤1ms。
· 站点故障时,需要快速自动恢复业务。
· 两个站点同时对外服务,且互为主备站点进行容灾保护。
为了减少时延和保障性能,建议主机和存储之间网络采用光纤连接,主机配置FC HBA卡,使用FC存储交换机。
生产站点正在运行的虚拟机或者主机发生异常时,虚拟机优先通过集群HA功能在生产中心其他可用主机上恢复;当生产中心其他主机无可用资源时,虚拟机将在灾备站点延展集群的可用主机中恢复。故障发生时,虚拟机数据零丢失,虚拟机短时间内不可用,待HA切换完成后,虚拟机恢复正常。
· 迁移至灾备中心的虚拟机会跨站点访问存储。存储访问性能降低。
· 生产中心恢复后,虚拟机回迁至生产中心,提升存储访问性能。
生产站点所有主机发生故障时,灾备中心中的CAS CVM备节点自动切换为主节点,然后通过延展集群HA功能将虚拟机跨站点迁移至灾备中心。故障发生时,虚拟机数据零丢失,虚拟机短时间内不可用,待HA切换完成后,虚拟机恢复正常。此时生产站点虚拟机跨站点访问存储。存储访问性能较低,建议将灾备站点存储升级为主节点使用。
生产中心恢复,虚拟机回迁至生产站点后,建议将生产站点存储升级为主节点使用。提升生产中心虚拟机访问存储性能。
生产站点存储故障时,灾备中心存储自动切换为主节点,承载虚拟机业务。此时虚拟机不会发生迁移,虚拟机业务无中断。此时生产中心虚拟机跨站点访问存储,存储性能会降低。
生产中心存储故障恢复后,建议尽快将生产站点存储升级为主节点使用。提升存储性能。
如生产中心存储故障长时间无法恢复,建议将生产中心中关键虚拟机或全部虚拟机,迁移至灾备中心,提升存储访问性能。
生产站点主机、存储全部发生故障时,灾备中心中的CAS CVM备节点自动切换为主节点,存储自动升级为主节点。然后通过集群HA功能将虚拟机跨站点迁移至灾备中心。故障发生时,虚拟机数据零丢失,虚拟机短时间内不可用,待HA切换完成后,虚拟机恢复正常。
仲裁中心故障时,不会影响生产中心及灾备中心的正常工作,但是会影响CAS双机切换及存储双活的故障切换。如果生产中心中CAS CVM或者存储发生进一步故障时,将会引发CAS平台无法正常工作或存储无法工作。
· RTO:分钟级,具体时间需要根据现场规模及配置等实际情况进行测算。
· RPO:0。
表5-1 实施原则
对象 |
部署原则 |
CVM |
· CVM建议部署在物理服务器上,可以与CVK节点复用 · CVM主备节点必须分别部署在生产站点和容灾站点。 |
延展集群 |
· 将跨站点的多台主机统一管理在同一个集群中,并打通两个站点间大二层网络。 · 如需要生产中心中延展集群内所有的虚拟机进行容灾,请在灾备中心延展集群内1:1预留计算资源。 |
存储 |
部署在生产站点和容灾站点的存储型号、配置需要保持一致,否则会影响存储访问性能。 |
仲裁服务器 |
· 存储仲裁服务器部署在第三地。 · CVM仲裁节点建议部署在第三地。 |
弱亲和性绑定 |
在生产站点延展集群中,需要对虚拟机建立虚拟机组,将主机建立主机组,并在虚拟机组与主机组之间进行“应在”的弱亲和性绑定。 |
生产中心、灾备中心按照《3PAR存储服务器安装及双活配置指导》搭建存储双活。
生产中心、灾备中心按照《H3C CAS安装部署指导》安装CAS软件。
生产中心、灾备中心安装《H3C CAS CVM双机热备配置指导》搭建CAS CVM双机热备。
系统中已创建集群,并将两个中心的多个主机添加到集群中。
(1) 选择顶部“云资源”页签,单击左侧导航树[计算/主机池/<集群>]菜单项,进入集群概要信息页面。
(2) 单击<更多操作>按钮,选择[延展配置]菜单项,进入修改延展配置页面。
(3) 根据需要开启/关闭延展配置。若开启延展配置,需要配置集群本地区域和集群远端区域的主机列表。
(4) 单击<确定>按钮完成操作。
配置完成后,系统将自动为这两个中心的主机自动进行亲和性配置:自动为集群本地区域和集群远端区域中的主机和虚拟机建立主机组、虚拟机组、虚拟机/主机规则。