HP 磁盘阵列柜 DS2405
HP DS2405 盘柜更换硬盘操作手册 (2011-12-20 22:24) 1 目的 为了保障系统安全稳定的运行,HP DS2405 盘柜的报错盘的拓扑结构和主机的磁盘划分和业务情况,对此次磁盘故障进行更换方案的准备,包括磁盘报错的分析,磁盘更换前的数据备份工作,备件准备,人员和时间安排,可能面临的风险以及遇到意外情况下的回退方案等,特撰写此操作手册。 2 了解运行环境,定位错误硬盘 系统运行环境:HP rp4440 主机,操作系统版本为B11.11,主机名:s21 和s22,分别直连两台共享盘柜DS2405,DS2405 分别配备十四块36G15K 硬盘。 (1)其中盘柜的的十四块磁盘通过LVM管理软件统一管理,具体配置如下: 系统使用的pv 信息如下 /dev/vg00 /dev/dsk/c2t1d0 /dev/dsk/c3t0d0 /dev/vgdata /dev/dsk/c5t8d0 /dev/dsk/c5t9d0 /dev/dsk/c5t10d0 /dev/dsk/c5t11d0 /dev/dsk/c5t12d0 /dev/dsk/c5t13d0 /dev/dsk/c5t14d0 /dev/dsk/c6t8d0 /dev/dsk/c6t9d0 /dev/dsk/c6t10d0 /dev/dsk/c6t11d0 /dev/dsk/c6t12d0 /dev/dsk/c6t13d0 /dev/dsk/c6t14d0 /dev/vgdp /dev/dsk/c5t1d0 /dev/dsk/c5t2d0 /dev/dsk/c5t3d0 /dev/dsk/c5t4d0 /dev/dsk/c5t5d0 /dev/dsk/c5t6d0 /dev/dsk/c5t7d0 /dev/dsk/c6t1d0 /dev/dsk/c6t2d0 /dev/dsk/c6t3d0 /dev/dsk/c6t4d0 /dev/dsk/c6t5d0 /dev/dsk/c6t6d0 /dev/dsk/c6t7d0 /dev/vglock B]j^ /dev/dsk/c5t0d0 /dev/dsk/c6t0d0 其中Vgdata 中使用的pv 信息如下: --- Physical volume groups --- PVG Name pvg0 PV Name /dev/dsk/c5t8d0 PV Name /dev/dsk/c5t9d0 PV Name /dev/dsk/c5t10d0 PV Name /dev/dsk/c5t11d0 PV Name /dev/dsk/c5t12d0 PV Name /dev/dsk/c5t13d0 PV Name /dev/dsk/c5t14d0 PVG Name pvg1 PV Name /dev/dsk/c6t8d0 PV Name /dev/dsk/c6t9d0 PV Name /dev/dsk/c6t10d0 PV Name /dev/dsk/c6t11d0 PV Name /dev/dsk/c6t12d0 PV Name /dev/dsk/c6t13d0 PV Name /dev/dsk/c6t14d0 Vgdata 共使用十四块磁盘,其中c5t8d0 至c5t14d0 在PVG0 中,对应 ds2405-1 的后半部分磁盘,而 c6t8d0 至c6t14d0 在PVG1 中,对应ds2405-2 的后半部分,PVG0 和PVG1 做PVG 条带化后镜像,报错的硬盘为c6t8d0 在PVG0 中,目前故障硬盘在系统的状态为claimed,还没有完全坏掉,通过lvdisplay 查看可以看到有stale 状态的坏块,需及时对此盘进行更换。 目前系统运行在有风险的环境中,测试对此硬盘读写,写入数据失败,需要及时进行处理从而使系统重新在良好环境中运行。 (2)根据报错信息定位故障硬盘: 使用root 权限登陆服务器,查看syslog 和event.log 发现有磁盘的严重报错,其中syslog 中报有EMS检测到的硬件告警信息,event.log 有Disk at hardware path 0/6/1/0/4/0.8.0.255.0.8.0 : Device connectivity or hardware failure,而 0/6/1/0/4/0.8.0.255.0.8.0 对应的磁盘为c6t8d0。 3 更换前的准备工作 (1)数据备份 配置信息备份:vgdisplay –v;lvlnboot –v;ioscan –fn;bdf;cat /etc/lvmpvg;cat /etc/lvmtab 由于vgdata 是通过lvm来管理,已经做了镜像,目前坏盘对业务无影响,可在线换盘然后进行数据同步。 (2)操作时间,人员安排及备件准备 申请下更换硬盘的具体时间后,工程师会在约定的时间带备件到现场,对备件PN 进行检查后准备下一步的确认工作。 (3)操作前确认 检查和确认故障硬盘的位置,确认没有其他硬件报错,cat /opt/resmon/log/event.log。 确认没有NFS 使用此主机, more /etc/exports。 (4)VA 上面使用使用的磁盘每个最小分区为520byte,多余的8byte 用来保存raid 校验等信息 DS2405 上面使用的磁盘的每个最小分区为512byte,当VA上面的一个坏时,我们可以使用相同型号的DS2405 上面的盘进行更换,此时新盘插入到VA 上面后,会自动被格式化为520 的,不需要认为干预改为520 的 当DS2405 上面的一个坏时,我们用相同型号的VA 上面的盘进行更换时,需要首先使用JBODfmt 命令将此硬盘格式化为512 的,然后才能被系统使用,否则机器检测到盘但是无法使用。在给DS2405 更换盘时,不要使用520 的磁盘,否则,如果现场没有安装command view SDM(经过测试,不同系统需要不同版本的软件,现场能找到合适此系统版本的软件的可能行一般不大),会发生系统无法使用新更换的磁盘。 使用swlist |grep CMDVIEWSDM 检查是否装有CMDVIEWSDM软件。 4 更换方法和步骤 (1)在sdp21 主机上确认lv 信息:检查vgdata 中使用到的所有lv 的状态。 (2)在sdp21 主机上再次确认故障盘的位置及属性: dd if=/dev/rdsk/c6t9d0 of=/dev/null bs=10240k dd if=/dev/rdsk/c6t7d0 of=/dev/null bs=10240k diskinfo /dev/rdsk/c6t7d0 diskinfo /dev/rdsk/c6t9d0 检查目前磁盘的块大小。 (3)在ds2405 第9 槽位更换硬盘:拔出故障盘(需等待10 秒左右),可用fcmsutil /dev/td0 devstat all | grep Loop 进行确认,然后插入新盘。 (4)在s21 和s22 主机上识别新盘、验证新盘的正确性 ioscan –fnCdisk 如果失败,在s21 和s22 主机上分别执行如下操作: 确认c6t8d0 对应的光纤链路为/dev/fcd1 Dmesg 确认/dev/fcd1 对应的node id,然后执行 fcmsutil /dev/fcd1 replace_dsk dmesg(node id) ioscan 检查是否正常识别出磁盘,如果失败继续定位原因,已经在测试环境测试通过。 (5)确认磁盘的可用性,检查新加磁盘的块大小。 diskinfo /dev/rdsk/c6t8d0 vendor: HP 36.4G product id: ST336753FC type: direct access size: 70000000 Kbytes bytes per sector: 520 如果为520,则需要在s21 和s22 上执行操作,系统必须装有CMDVIEWSDM 软件后新盘执行格式化,块大小会变为512。 在s21 和s22 上执行:Armdiscover 扫描系统认到的磁盘 :/# JBODdsp -i sdp21 Product ID: HP 36.4G-ST336605FC Device Type: Disk Alias: Unique ID: 20000004cf7279e7 Serial Number: 3FP152EZ Management Path: n4000:/dev/dsk/c7t0d0 Product ID: HP 73.4G-ST373453FC Device Type: Disk Alias: Unique ID: 20000011c639fff6 Serial Number: 3HW2JJ12 Management Path: n4000:/dev/dsk/c7t8d0 Product ID: HP-A5236A Device Type: Enclosure Controller Alias: fc10 Unique ID: HPA5236AUSSA10028830-----------------获得此号码。 Serial Number: USSA10028830 Management Path: n4000:/dev/rscsi/c7t10d0 然后使用命令 #JBODdsp HPA5236AUSSA10028830 可以查询到磁盘node id #JBODdsp HPA5236AUSSA10028830 Vendor: HP Product ID: A5236A Product Firmware: HP06 Serial Number: USSA10028830 Midplane S/N: Node Unique ID: 50060b00000940df------------------获得此号。 Port Unique ID: HPA5236AUSSA10028830 Status: Critical 最后使用命令#JBODfmt -f 50060b00000940df 对磁盘进行块大小的重新格式化(-f 默认为512byte)。 系统会提示你format is started,接下来就是等待(近20 分钟),硬盘灯成绿色闪烁,闪烁完毕。 Diskinfo 进行确认。 (5)在s21 上对vgdata 配置信息恢复:vgcfgrestore -n vgvgdata /dev/rdsk/c6t8d0 vgchange -a y /dev/vgdata (6)lvdisplay 查看是否已经开始同步,如果没有自动同步则:vgsync /dev/vgdata。 (7)验证 lvdisplay –v lvname 查看使用c6t8d0 的所有lv 的同步状态,直至所有的lv 都同步完。 查看event.log 和syslog.log 确认没有硬盘新的报错,查看bdf,ioscan 确认运行正常。 5 风险及解决方案 因为目前磁盘做有镜像,一块盘故障不会影响系统正常运行和启动,但考虑到设备老化等原因,也不排除其他的意外出现。此次硬盘更换操作存在的风险如下: 更换过程中设备无法识别新换上的硬盘。 更换的过程中更换新硬盘后无法正常完成数据同步。 更换的过程中有其他硬件故障引起设备宕机,数据丢失等。 更换之后系统无法正常运行,文件系统损坏等。 针对以上的风险,可以有以下的解决方案: 如果设备无法识别新换上的硬盘,则检查新硬盘状态,检查SCSI 线连接等,一旦发现硬件有问题立即申请新备件。 如果更换新硬盘后无法正常完成数据同步,则需要检查和硬盘连接同一总线的其他外设SCIS 设备,一旦发现有冲突,可暂时对其他总线设备拔除后再同步。 如果有其他硬件故障引起设备宕机,数据丢失等情况,则及时定位故障部件申请备件,如果是硬盘损坏引起数据丢失,则首先申请新的硬盘备件进行更换,更换完之后通过备份磁带对操作系统数据进行恢复。 如果更换之后系统无法正常运行,文件系统损坏,首先查明原因,如果是操作系统软件原因则根据系统报错进行分析解决,如果一时定位不出原因则可通过系统重启后进单用户模式对系统进行相应的文件系统修复,如果仍然无法修复则从操作系统备份磁带进行恢复。 6 回退方案 现场操作前准备操作系统备份的磁带及系统光盘,一旦有段时间内无法解决的问题可通过磁带恢复或者光盘启动后修复。 |