Monthly Archives: 12月 2012

ZFS scrubを過信してはいけません。

Pocket

ZFS運用を始めてはや数か月。なんの問題もなく使っておりますが、

 「scrubって定期的にやるといいらしいよ」

 「なんかね、fsckみたいなこと、やってくれるらしいよ」

などという話を聞いた。

全くそんなことやってないので、慌てて調べてみた。

結論として、やっといた方がいいけど、なんか「fsckみたいな」と表現するのはおかしいよな、との理解に至った次第。

ZFSのおさらい

ZFSのキモのひとつは、セルフヒーリングにある。

格納されているデータに対して、強力なチェックサムを持っていて、不整合があっても勝手に修復する。

勝手に、というのはどういうことかというと、不整合を見つけ「次第」、つまりアクセスしたファイルに不整合があったらその場で修復してしまう、というところ。

だから、http://docs.oracle.com/cd/E19253-01/819-6260/gbbxi/index.html のとおり

データの不一致が ZFS 構成内のディスク上で発生するとすれば、それはハードウェア障害が発生した場合か、ZFS ソフトウェアにバグが存在する場合だけ

なので、ZFSソフトウェアバグはさておき、論理的なデータ不一致の発生リスクについてはとくに手だて不要というわけだ。

ハードウェア障害ならもうそこは物理的なディスクの冗長でなんとかせい、ということになる。

言い換えると、ZFS上のファイルにアクセスできない場合には、もうこれは尋常ではない障害が起こっているということであり、あなたはヘビーな状況下にいるということである。(その場合はこちら。)

http://docs.oracle.com/cd/E19253-01/819-6260/gbctt/index.html

じゃあscrubってなによ

そういった仕組みを踏まえてscrubというツール。

これは、上述の「不整合があったら修復する」というのを全データに対して行うだけ。

…ということは。

scrubをすれば全データのチェックはする。するけれども、そもそもscrubしてようがしてまいが、そんなことはお構いなしに、個々のファイルにアクセスしたらそのときに不整合チェックはされる。

カブってるじゃないか。

むしろscrub頻繁にやったらディスクに無用な負荷かけないか?

となるとscrubのメリットは何か。

http://docs.oracle.com/cd/E19253-01/819-6260/gbbyd/index.html

ZFS では、すべての不一致を定期的にチェックする機構が用意されています。この 機能は「スクラブ」と呼ばれ、メモリーやほかのシステム内で、ハードウェアまたはソフトウェア障害が発生する前にエラーを検出および回避する手段として一 般的に使用されます。

定期的にスクラブを実行すると、システム上のすべてのディスクへの継続的な入出力が保証されます。

スクラブを行なっているときまたは必要なファイルにアクセスしているときにエラーが発生した場合には、そのエラーが内部でログに記録されるので、そのプールで認識されているすべてのエラーの概要をすぐに確認できます。

とのこと。

「scrubすれば不整合があっても修復される」というのは、まあ間違ってはいないけど、むしろscrubの主目的はそこよりも、障害の予兆をつかむことにあると理解している。

たとえば。

scrubの定期的な実行をしないとする。

するとデータ不整合チェックは、個々のファイルアクセス契機で行われる。

不整合があればその都度、解消されるだろうし、解消されない場合には、ヘビーな状況だとして障害復旧を行うだろう。

しかし、滅多にアクセスしないファイルで致命的な、おそらく物理的な障害が発生し、影響が徐々に広がっていくような場合、このスタイルでは検知が遅れる可能性がある。

それを防ぐには、定期的にscrubで全ファイルをチェックし、「そのプールで認識されているすべてのエラーの概要」も定期的にチェックすればよい。

結果、「ハードウェアまたはソフトウェア障害が発生する前にエラーを検出および回避」できる可能性が高くなる、と。

scrubの使い方

というわけで使ってみた。まあコマンド例はいくらでもあるから淡々と。

このpoolに対して実行。

(すぐプロンプトが返ってくる)

えっ66時間かかるの?

(いまだに冗長化してないのが恥ずかしい。今回scrub調べてほんとに危ないのでディスク買わねばと思った)

OKOK。

なお、エラーが発生すれば、このstatusのほかに、syslogに表示されるし、たとえばFreeBSDならroot宛のメールにZFS poolsの状態も記載される。こんな感じに;

Checking status of zfs pools:

all pools are healthy

vaultに対するログにもきっちりと(こういうとこZFSって素敵だ)

なお、scrubの停止は-sコマンドで。

No tags for this post.