調査 ハードディスクが故障する元凶は熱ではなかった

2月に開催されたカンファレンス「Usenix FAST 16」で、「Environmental Conditions and Disk Reliability in Free-cooled Datacenters」（フリークーリング方式を採用したデータセンターにおける環境条件とディスクの信頼性）と題した論文が最優秀論文賞を受賞した。執筆したのは、ラトガース大学のIoannis Manousakis氏とThu D. Nguyen氏、GoDaddyのSriram Sankar氏、MicrosoftのGregg McKnight氏およびRicardo Bianchini氏からなる研究グループ。この研究は、フリークーリング環境において室温や温度変化の大きさ、相対湿度などの条件がハードウェアに与える影響について調査したもので、導き出された結論は次の3つだ。

ディスクの故障に最も大きな影響を与える要因は、室温の高さや温度変化の大きさではなく相対湿度である。

相対湿度が高いと、主にコントローラやアダプタの異常によりディスクの故障が発生する。

フリークーリングを使用した場合、故障率は上昇するが、ソフトウェアによるエラー対応によって費用を大きく節約できる。

背景

データセンターはエネルギーを大量に消費する。ウェブスケールのデータセンターは30メガワット以上の電力を消費する場合もあり、米国全体では発電量の2％を消費していると推計されている。

さらに、停電時にも運用を継続するための水冷式冷却装置や非常電源にも高いコストがかかっている。クラウドサービスの利用が増加するにつれて、超大規模なデータセンターの運用コストが増大していることから、フリークーリング方式や高い温度での運用などの実験が進められている。

しかし、これらの技術を最大限に活用するには、それらの運用条件が機器に与える影響をよく理解する必要がある。これは、電気代が安くなっても、ハードウェアの故障でコストが上昇して相殺されてしまっては意味がないためだ。

研究概要

同グループは世界中にある9カ所のMicrosoftのデータセンターを対象に、1.5年から4年の間、100万台以上のドライブを調べた。また、室温と相対湿度を含む環境データと、その分散を収集した。

さらに収集したデータを調べ、結果を分析するモデルを作成するとともに、消費エネルギー、環境、信頼性、コストの間のトレードオフを定量化した。そして最後に、データセンターの設計に関する提案を示している。

主な結論は次の通りだ。

コンポーネントの故障のうち、平均89％をディスクが占めている。2番目の原因はDIMMであり、10％を占める（データセンターにあるコンポーネントのうち、最も多いのがディスクである）。

信頼性に関わる要因のうち、最も大きいのは室温ではなく相対湿度であり、これはデータセンターが業界の標準的な条件の範囲内で稼働している場合でも変わらない。

相対温度が高い環境で最も多い故障原因は、ディスクコントローラーおよび接続のエラーである。

高湿度環境では、サーバの背面にディスクを配置するサーバの設計が最も信頼性が高い。

フリークーリング方式では故障率が高くなるが、ソフトウェアによる緩和策を利用することで多くの経費を節約できる。

室温の高さは故障の要因にならないわけではないが、他の要因と比較すると影響はかなり低い。

この最後の結論は、クラウドが現在のアレイ製品よりも優れている理由になっている。地球温暖化的にも、費用的にも優れていると言える。