2016年02月29日 15時00分 ハードウェア

Googleのデータセンターで使うSSDを調査して分かったSSDの信頼性を推測するのに大切な要素とは？



SSDの大容量化・低価格化が進むにつれて、データセンターでもHDDに変わってSSDが導入される例が増えています。Googleのデータセンターで運用されている大量のSSDのデータを分析した研究から、SSDの信頼性を推測する要素や、安価なコンシューマー向けSSDと高価なエンタープライズ向けとの間に違いはあるのか、SSDはHDDに比べて安全なのかなどが明らかになっています。



Flash Reliability in Production: The Expected and the Unexpected.pdf

(PDFファイル)http://0b4af6cdc2f0c5998459-c0245c5c937c5dedcca3f1764ecc9b2f.r43.cf2.rackcdn.com/23105-fast16-papers-schroeder.pdf



High-end SLC SSDs No More Reliable than MLC SSDs: Google Study | techPowerUp

https://www.techpowerup.com/220432/high-end-slc-ssds-no-more-reliable-than-mlc-ssds-google-study.html



SSD reliability in the real world: Google's experience | ZDNet

http://www.zdnet.com/article/ssd-reliability-in-the-real-world-googles-experience/



トロント大学のビアンカ・シュローダー教授は、Googleのデータセンターで使われるSSDを6年以上、のべ数百万日分にわたって調査したデータを分析して、SSDの信頼性を決める要素について考察しました。この、調査では、セルに1bitを書き込むため高い信頼性があるとされ主にエンタープライズ向けで高価なSLC、セルに2bit以上を書き込むため書き込み回数が劣るものの安価なMLC、MLCの安価でも書き換え回数を伸ばしたenterprise MLC(eMLC)という3種類のSSDが対象になっています。





今回の研究では、SSDの信頼性を決める重要な要素は「Raw Bit Error Rate (RBER)」であることが分かったとのこと。RBERは読み込み時に生じたデータエラー数を読み込んだ総ビット数で割った値で、一般的にSSDのエラー発生率の指標として使われる「Uncorrectable Bit Error Rate(UBER)」がECC(エラー訂正機能)によるデータエラー修復後のエラー発生率を示すのに対して、RBERはエラー修復前の値を示します。シュローダー教授によると、UBERはSSDの信頼性を測る指標としては機能しないとのことで、RBERの方がSSDの信頼性と高い関係性があったとしています。



また、RBERの値とUBERの値には相関関係がないことが分かっており、さらにRBERの増加傾向は予想されていたSSDの消耗具合に比べるとはるかに小さいことも分かったとのこと。そして、SSDの信頼性に大きな影響を与えるのは使用量よりもむしろ使用年数であると結論づけています。





さらに、SLCとMLCによる信頼性の違いはほとんどないことが分かり、安価なSATAインターフェースのコンシューマー向けHDDと高価なSAS接続のエンタープライズ向けHDDで信頼性に大きな違いがないのと同じ構図であること判明。なお、一般的にMLCではセルの書き換え上限は3000回とされていますが、調査されたGoogleのデータセンター内のMLCタイプのSSDはいずれも書き込み上限に達していないことも明らかになっています。



今回の研究によって、SSDの信頼性を測る指標としてRBERが大切であることとともに、予想していた以上に高い信頼性をSSDが持つことが分かりました。ただし、調査したSSDの各モデルは30％から80％の割合で使用開始から4年以内に不良ブロックが発生し、2％から7％の割合でチップの不具合が生じることが分かったとのこと。そして、この不良ブロックの発生率は使用に応じて悪化することも分かっています。





また、UBERの値はHDDに比べて高いため、エラー修復できないことによるデータ喪失のリスクを考えれば、HDD以上にSSDではバックアップの重要性が高いという結論になりそうです。

