RAID5構成でHDDx(1本)が故障またはエラー警告した際のHDD交換作業手順を簡単に説明した資料(特にWebBIOSでの作業)がなかなか見つからないので、自分がヒィヒィ言いながら調べた交換手順を備忘録として残しておきます。

プロのサーバーエンジニアはもっと良い方法を知っているかも知れません。

 

この作業手順では、対象としているサーバーの物理的な構造上、ホットスワップでの交換が出来ないので途中で電源を落として筐体を開けてHDD交換します。
ホットスワップでのHDD交換手順が知りたい人は他の情報源を探してください。ココを見ても時間の無駄です。

 

OS(Linux)での作業はCUIでの作業です("MegaCLI"がインストールされている事が前提)、GUIで作業をしたい人は他の情報源を探してください。ココを見ても時間の無駄です。

※ 環境
 サーバー:NEC Express5800 110Ge
 RAIDボード:LSI MegaRAID SAS 9260-4i
 OS:Ubuntu Server 20.04LTS
HDD(SATA)4本によるRAID5構成

※ イタリック体での表記が叩くコマンド。基本的にrootユーザーで行う。(sudoでも可?)

1) 仮想ドライブ状態の確認
/opt/MegaRAID/MegaCli/MegaCli64 -LDInfo -Lall -aALL

 

2) ドライブ状態の確認

"Firmware state"の値が"Failed"になっているドライブの"Enclosure Device ID"と"Slot Number"の値、"Inquiry Data"(HDDのS/Nと型式)の値をメモっておく。
/opt/MegaRAID/MegaCli/MegaCli64 -PDList -a0


3) エラードライブをオフラインにする
"PhysDrv"オプションの引数には上記でメモっておいた"Enclosure Device ID"と"Slot Number"の値を使う。
/opt/MegaRAID/MegaCli/MegaCli64 -PDOffline -PhysDrv[252:2] -a0


4) エラードライブに"missing mark"付ける
/opt/MegaRAID/MegaCli/MegaCli64 -PDMarkMissing -PhysDrv[252:2] -a0


5) "missing mark"の付いたディスクを確認する
/opt/MegaRAID/MegaCli/MegaCli64 -PDGetMissing -aALL


6) エラードライブを抜く前の処理
/opt/MegaRAID/MegaCli/MegaCli64 -PDPrpRmv -PhysDrv[252:2] -a0


7) サーバーのシャットダウンとHDD交換
shutdown -h now

電源が落ちたら事故防止のためコンセントを抜き、筐体を開いてHDD籠を取り出す。
(2)でメモっておいた型番、S/Nを間違いのないように確認し、HDDを新しいものと交換する。
また、交換時にHDDの接続の順番を変えてはいけない。RAIDが崩壊するので。

8) RAIDボードの"WebBIOS"で再構築処理
MegaRAIDの"WebBIOS"はUSBマウスに対応していないので、HDD交換後の電源投入前に"PS/2マウス"を接続しておく。キーボードはUSBでもok。
電源投入し、サーバーのNECロゴが消えた後、下図のような画面になる。見逃したら面倒臭いのでまばたき禁止。
[CTRL]+[H]を押して"WebBIOS"画面に入る。


再構築したいアレイが接続されているRAIDボードを選んで"Start"をクリックする。


ツリーの"Unconfugured Drives"の中から、新しく挿したHDDをクリックする。


"DriveGroup"から新HDDを参加させる仮想ディスクを選んで"Make Dedecated HSP"をチェックする。
"GO"ボタン押下すると再構築が開始される。


再構築が始まると、下図のような画面になり進捗状況が確認できる。

進捗状況が100%になるまで、ひたすら待つだけ。
"HOME"ボタンを押下してトップ画面に戻る事が出来る。(上下どちらのホームボタンも同じ)
※ 3TB(東芝 DT01ACA300)のHDDで再構築完了まで約6時間弱!!


トップ画面での様子。
ドライブをクリックすると、上図の詳細画面に遷移する事が出来る。


再構築完了。
仮想ドライブのステータスが正常を示す"Optimal"となる。はず。
ドライブのステータスが正常を示す"Online"となる。はず。
以上でRAIDの再構築作業は終了なので、"Exit"をクリックしてWebBIOSを終了する。


WebBIOS終了の確認画面になるので"Yes"をクリックする。


サーバーの再起動を指示する画面になるので、[CTRL]+[ALT]+[DEL]キー押下などで再起動させる。
NECロゴからサーバーが再起動して通常の流れでOSが起動する。


9) OSでのステータス確認
WebBIOSでも正常値になったのが確認できたはずだが、念のためOS上でもステータスを確認する。
/usr/sbin/megacli -CfgDsply -aALL
"State"の値が"Optimal"となっているはず。

以上。

※ WebBIOSの画面画像は下記資料より引用しています。
 NEC「NE3303-168 RAIDコントローラ ユーザーズガイド」