|
供稿人:王军
方案简介

基于主机平台的两地三中心灾备解决方案(Metro/z/OS Global Mirror),顾名思义是指,在同城距离内的两个中心间采用PPRC(Metro Mirror)实现数据镜像,同时在生产中心与远程异地第三中心间采用XRC(z/OS Global Mirror)实现异地灾备。这一方案兼具高可用性和灾难备份的能力。
这一方案针对主机平台,相对于MGM(Metro/Global Mirror)解决方案,具有软硬件紧密结合、两地间距离无理论上限、支持不同磁盘系统供应商的产品等特点。
本文将以两套配置方案为主,通过对比不同场景的测试数据, 分析Metro/z/OS Global Mirror方案中磁盘系统响应时间和磁盘IO的状况,特别是考察在特定场景下,XRC和PPRC协同工作时对磁盘IO性能的影响;并分享在Metro/z/OS Global Mirror方案设计、规划和实施中的一些经验。
配置实例
 以下三套配置方案的区别主要在于磁盘系统的类型不同,带来的差异主要是IO响应时间上的差异。其中配置三仅用作为观察XRC状况的对比,并不作为建议配置。
1) 硬件环境 主机系统
- 两台z990主机:2084-B16,共约10000 MIPS。
- 两台9037 Timer。
- 两个sysplex:
- PLEXP1有四个成员系统和两个Coupling Facility,用于生产系统和PPRC控制系统。
- PLEXT有两个成员系统和两个Coupling Facility,用于SDM系统。
磁盘系统
- 两台ESS800:
- 一台有1TB存储空间, 8个CU, 每个CU有27个3390-3和6个3390-9的卷,有16GB Cache和1GB NVS。
- 一台有1TB存储空间,5个CU,每个CU有48个3390-3和10个3390-9的卷,有16GB Cache和1GB NVS。
- 微码:2.4.04.0045
- 两台DS8000:
- 一台有1TB存储空间,8个CU(跨6个Rack),每个CU有27个3390-3和6个3390-9的卷,用于生产系统;有64GB Cache和2GB NVS。
- 一台有约1TB存储空间,8个CU(跨4个Rack),每个CU有27个3390-3和5个3390-9的卷,有64GB Cache和2GB NVS。
- 微码:5.1.00.0284
2) 软件环境 生产系统和PPRC控制系统:
- z/OS V1.5;
- DB2 for z/OS V7.1;
- CICS TS for z/OS V2.3;
- NetView for z/OS V5.1;
- SA for z/OS V2.2;
- GDPS/PPRC V3.2。
SDM系统:
- z/OS V1.6;
- NetView for z/OS V5.1;
- SA for z/OS V2.3;
- GDPS/XRC V3.3;
- XRC Performance Monitor V1.1。
3) 配置一拓扑图

| |
| |
4) 配置二拓扑图

*注:配置三中的远程异地磁盘系统优于生产系统的磁盘系统,该配置仅作为观察XRC的对比参考。
工具说明
1) 压力模拟工具
DB2 Reorg批量
- DB2的表空间数据集分布在16个3390-3的卷上, DB2 active log数据 集分布在8个 3390-9的卷上;
- 每次执行作业对4个表空间同时进行Reorg; 每个表都根据不同的键值进行2次Reorg;
- 每个表空间包含5M个记录,因此总记录数是20M; 平均记录长度是512字节,其中最后一个字段为可变长字符VARCHAR类型。
- 对于批量作业主要考量处理时间(Batch Duration)和IO响应时间(IO Response Time)。
DAST Tool
- 一个驱动I/O的批量工具,用于辅助模拟IO压力;
- 调用汇编来对磁盘进行底层的I/O操作;
- 将该工具参数设置为“一读加一写”模式执行两遍,对跨8个CU的16个3390-3卷进行I/O操作,每次I/O操作的时间间隔是2毫秒。
CICS Access VSAM
- 模拟CICS访问VSAM文件的联机交易;
- 总共80个作业运行在同一Sysplex中的两个成员系统上, 每个成员系统有两个AOR和两个TOR; 每个作业模拟十万个顺序交易, 总共模拟八百万个交易;
- 每个交易对VSAM文件有3个I/O操作, 两次读和一次写;
- 总共持续约100分钟, 每秒交易量达1000笔/秒。
- 对于该应用主要考量每秒交易处理量(Transaction Rate)和交易响应时间(Transaction Response Time)。
2) 数据收集工具
RMF 和RMF Magic
- 每分钟采样SMF 类型70-79和42的数据,抽取每5分钟的均值生成RMF报告。
- RMF Magic是数据分析工具, 属于IntelliMagic公司的版权软件产品;根据RMF数据产生相应的DSS, Cache, Storage Group和Device的统计数据并可以导入到Excel表或HTML中。
XRC Performance Monitor
- XPM监控XRC的活动情况, 以确定XRC的瓶颈/问题;
- 通过ISPF屏幕监控SDM内部操作的情况, 其历史数据可以被下载到本地PC导入Excel,然后加以分析;
- 并且通过XPMEXCT和XRCHKVOL 观察发生超过Delay阀值的情况和发生Pacing卷的情况。
JOB log
DS8000 性能数据收集工具PDCU(Performance Data Collection Utility)
- 收集DS8000的性能数据并产生Excel的报告以便加以分析。
ESS Expert
- 是一个用于收集ESS800性能数据的版权软件, 对存储的性能进行监控和管理。
3) 测试内容
基准设定
- 在XRC Only的场景下每秒大约2500个写IO
同时对四个表空间进行DB2 Reorg批量处理。
- 在XRC Only的场景下每秒大约5000个写IO
同时对四个表空间进行DB2 Reorg批量处理;
- 并且运行DAST工具对16个3390-3卷上的数据集以“一读加一写”的模式执行两遍,每个IO操作间停顿两毫秒。
- CICS访问VSAM文件的应用用于观察在随机IO操作时系统的表现。
场景设定
基于两套配置、三类Workload、四个测试场景,总共有24个测试场景。
- 两套配置
- 三类Workload
CICS模拟在线交易workload,每秒WIO达3000;
DB2 Reorg批量作业,对4个表空间进行操作,每秒WIO达2500;
DAST以“一读加一写”的模式和DB2 Reorg作业同时运行,每秒WIO达5000。
- 四个测试场景
BASE:没有远程拷贝服务
XRC Only:只有XRC关系
PPRC Only:只有PPRC关系
XRC+PPRC:同时有XRC和PPRC关系
数据分析
1) 观察指标
- 对于DB2 Reorg批量作业主要考量处理时间(Batch Duration)和IO响应时间(IO Response Time)。
- 对于CICS应用主要考量每秒交易处理量(Transaction Rate)和交易响应时间(Transaction Response Time)。
- 关注点是,在XRC与PPRC共存时影响性能的关键因素。场景中暂不考虑DS8300比之于ESS800的性能提高带来的对XRC带宽增大的需求。
- 在本次测试中未模拟网络环境。
2) 数据分析
以下对不同配置下、四种磁盘镜像关系时、运用三类压力测试工具的24个场景的测试数据,做比较和分析。
- 从系统RMF报告中收集到以下数据。
CICS Access VSAM

对于CICS 模拟交易程序,两套配置下增加了PPRC后都有类似的影响,但由于其该模拟程序本身的随机性,不做量化的比较。
DB2 Reorg

比较配置一中XRC Only和XRC+PPRC场景发现,Batch完成时间增长19%,同时生产系统的WIO下降13%;PPRC延缓了主磁盘的IO操作,同时也部分减轻了XRC的负荷。
比较配置二中XRC Only和XRC+PPRC场景发现,Batch完成时间增长3%,同时生产系统的WIO增长了70%。
DB2 Reorg +DAST

表明:在已有XRC的情况下,增加PPRC,对于指标影响不大,这一点与已有资料的观点一致;除了CICS模拟程序本身的随机性因素外,配置二的性能指标整体优于配置一。这与测试前的预期相一致。
- 磁盘系统收集的数据
CICS Access VSAM
>

DB2 Reorg

DB2 Reorg +DAST

表明:观察到不同压力环境下的FW Bypass(NVS full)值,该值一旦超过3-10%,将造成磁盘的响应时间Response Time恶化。从以下的图表中可以发现A磁盘(Primary)的该值整体低于1%,而C磁盘(XRC Secondary)的该值整体高于3%。其影响从磁盘响应时间的数据上可以得到验证。
比较两套配置下,从SDM系统上观察到的平均滞后时间(Average Delay)和平均遗留时间(Average Exposure)可以发现,除了在配置一中仅有XRC关系时DB2+DAST压力过载引起XRC系统性能恶化外,其它数据中配置二比之配置一要差。
表明:在已存在XRC的基础上建立PPRC关系后,SDM的写操作压力有所减弱,有PPRC的情况下XRC的压力过高的情况会有所改善;
从平均遗留时间远低于平均滞后时间这点可以看出,配置的整体瓶颈在于XRC从磁盘的更新操作,这与NVS的数值也可以相互印证;
从XRC的角度来考察,配置二PPRC关系中磁盘系统性能都优于XRC的从磁盘,整体的均衡性反而不如配置一。

经验小结
- 对比不同配置的测试数据,PPRC在Primary磁盘使用DS8000的情况下,Secondary 磁盘使用DS8000与ESS800的时候,整个磁盘系统的性能差异明显。通过在不同压力下,对比配置一和配置二中PPRC的工作情况,观察到:

对于DB和DB2与DAST组合两类压力,观察IO平均响应时间和批量作业完成时间,在配置二时的数值明显优于配置一。
表明:作为PPRC同步拷贝关系中从磁盘的性能,对生产系统的性能会有显著影响。
- 通过在不同压力下,对比配置一、配置二和配置三中仅有XRC关系时的工作情况,观察到:

对于DB和DB2与DAST组合两类压力,观察批量作业完成时间,在配置三时的数值优于配置一和配置二。也就是说,XRC从磁盘配置是DS8000的情况要优于XRC从磁盘是两台ESS800或者是一台ESS800的情况。
表明:作为XRC从磁盘的性能,在XRC极其繁忙时,对生产系统的性能会有影响。
- 通过在配置一中对比XRC日志数据集跨8个CU分布和跨16个CU分布的情况,观察到:

对于DB2和DB2与DAST组合两类压力,观察平均IO响应时间和批量作业完成时间,可以看到跨16个CU分布时的响应时间短于前者。
表明:XRC日志数据集配置的建议,应尽可能将日志数据集分散到多个CU上;同时,虽然XRC是异步拷贝的解决方案,但无论采用Device Blocking还是Write Pacing策略,一旦XRC极其繁忙,可能会对生产系统的表现有影响。
对于CICS这类压力,观察交易响应时间,可以看到跨16个CU分布时的响应时间明显短于前者;对于CICS压力,观察每秒交易量,可以看到跨16个CU分布时的每秒交易量明显多于前者。
表明:这也验证了XRC日志数据集配置的建议,应尽可能将日志数据集分散到多个CU上。
- 通过在配置一中对比XRC采用Device Blocking策略、Write Pacing策略同时日志数 据集跨8个CU分布和Write Pacing策略同时日志数据集跨16个CU分布的情况,观 察到:

对于DB2这类压力,观察批量完成时间,当XRC从磁盘性能较差时,可以看到Device Blocking策略对生产系统的影响最大,次之是Write Pacing策略同时日志数据集跨8个CU分布的情况,相比起来最好的是Write Pacing策略同时日志数据集跨16个CU分布的情况;
表明:XRC日志数据集配置的建议,应尽可能将日志数据集分散到多个CU上;XRC新版本3.3中的Write Pacing策略比之于Device Blocking,在XRC充分繁忙时,对生产系统的影响明显减小了。
- 通过在配置三中对比XRC采用Copy工作方式和Migration工作方式的情况,观察到:

对于DB2这类压力,观察IO平均响应时间和批量作业完成时间,XRC的Migration工作方式比之Copy工作方式的响应时间明显缩短了。
表明:XRC不同工作方式,在XRC极其繁忙的情况下,Migration方式对生产系统的影响更小,由于它不写XRC日志数据集,不会发生对日志数据集的写等待。
- 生产系统同时启用PPRC和XRC不会造成性能显著恶化。因此在讨论同城数据镜像和远程异地灾备的时候,可以分开讨论各自对生产环境的影响,简化分析模型。
- 在资源充分的情况下应进一步完善配置,特别是对XRC配置的sizing是很重要的,只有均衡的配置才能实现理想的性能,不仅配置中的磁盘系统性能应匹配,CU数目也应对等,生产系统的忙卷要跨CU和Reader分布。
- 从存储服务器端收集的数据NVS Full都超过阀值的现象表明XRC Secondary端的磁盘在性能上无法跟上主磁盘(DS8000)的I/O要求。同时应避免XRC压力近乎饱和的情况发生。
- 基于生产数据备份和数据共享的考虑在三中心分别可以考虑建立FlashCopy备份,同时需要扩大磁盘系统容量。
- 在实际生产环境中需要考虑的影响XRC和PPRC服务指标的因素,例如:
- 跨Sysplex的共享磁盘的操作;
- PPRC+XRC方案和PPRC+Global Mirror方案的比较;
- 软硬件升级对GDPS/PPRC和GDPS/XRC操作的影响;
- 在新的GDPS版本中增强了对PPRC和XRC的支持,用增量拷贝代替了初始拷贝。