NetApp ONTAP 9 故障磁盘更换操作指南
以前写过一篇7-mode的磁盘更换文档,好几个朋友反馈说命令都没有,都不对。主要原因是客户现在的环境都是ontap 9的cluster-mode环境了,所以很多命令都不一样了。为此,这里专门就ontap 9的cluster-mode写一篇磁盘更换操作指南,供朋友们参考。
首先确认ONTAP的版本,ssh或者串口登录到其中一个控制器上,老的系统叫做filer,现在都叫做node了,也有人叫做控制器controller,都差不多。
确认版本的命令: version -v
不管任何版本,这个命令都管用。从大的方面来看,我总结的有分为三类:
- 传统的7-mode,这个就是很早的双节点,就是双控机器的,到8.3版本以后就没有了。
- 第二类是c-mode的8版本,主要是刚有cluster版本的时候,就是8.2和8.3的C-mode
- 第三类就是ontap 9版本了,都是cluster mode了。
这三类的命令是有显著不同的。这篇文章主要介绍第三类,ontap 9版本的磁盘更换操作指南。这个文档如果还不够,欢迎添加vx:StorageExpert进一步沟通交流。
- 检查故障磁盘
登录集群:
ssh或者串口,我喜欢用ssh,先登录到sp或者bmc,然后在system console 到ontap。当然也可以直接ssh到cluster的mgmt 的ip地址或者node的ip地址。串口也可以,但串口有个不好的地方就是如果输出大量的log,会比较慢,而且有字数的宽度限制,命令长了就折行了,看起来不舒服,容易出错。ssh就不存在这个问题。
查看磁盘状态,确认哪些磁盘为故障(failed):
storage disk show -broken
确认要更换的磁盘槽位号和位置(可结合 sysconfig -a 查看本地节点硬件槽位):
system node run -node <node-name> -command sysconfig -a
- 检查磁盘自动分配设置(autoassign)
检查当前所有节点的自动分配设置:
storage disk option show
输出示例:
- 处理 AutoAssign 为 false 的情况
如果 Auto Assign 为 false,则新增磁盘不会自动分配给任何节点,需要手动处理磁盘归属(ownership):
查看未分配所有权的磁盘:
storage disk show -container-type unassigned
手动分配磁盘所有权:
如果你知道目标节点和磁盘 ID,使用以下命令:
storage disk assign -disk <disk-id> -owner <node-name>
例如:
storage disk assign -disk 0c.01.2 -owner node1
也可以一口气分配所有未分配磁盘:
storage disk assign -all -owner <node-name>
如果希望开启自动分配:
storage disk option modify -node <node-name> -autoassign true
- 更换物理磁盘
确认磁盘确实需要更换:
storage disk show -broken
如果系统支持灯光指示(Locate),可激活磁盘灯方便查找:
storage disk set-led -disk <disk-id> -state on
实际物理更换故障磁盘。
新磁盘插入后,检查其是否出现在系统中(且为未分配状态):
storage disk show -container-type unassigned
- 为新磁盘分配所有权(如果需要)
如果 autoassign 为 false,则重复3的步骤进行手动分配。
- 确认磁盘加入 aggregate 或 spare
查看 aggregate 的状态:
storage aggregate show
查看 spare 磁盘列表:
storage disk show -container-type spare
新磁盘如果分配成功,且未被用于 aggregate rebuild,会自动成为 spare。
如果磁盘是spare,还需要查看磁盘是否做了zero,就是零化,在ontap 9.5版本以后zero会非常快,之前的版本zero是比较慢的。一定要把磁盘给zero了。这样如果有故障盘,就直接顶上了,否则磁盘要先做zero,再顶盘,这样就要花费更多时间,容易造成double fault。
写在最后,
- 为防止磁盘被错误分配,生产环境中很多将 autoassign 设置为 false,手动指定所有权。
- NetApp的备用磁盘要求是没有owner的,很多第三方的磁盘如果没有remove ownership,这种磁盘是无法更换上去的。也无法在生产系统中remove ownership。
- 对于备件磁盘,最好要求供应商要完成zeroing,不要到现场再做zero。
- 如果更换磁盘后 aggregate 自动启动重建(reconstructing),可通过以下命令查看:
storage aggregate show-status -aggregate <aggr-name>
另外如果是双活架构(如 MetroCluster),或者是 ADP(Advanced Drive Partitioning),处理方法会略有不同,等有机会再晚上补充。