コロンビア大学の研究チームは2日(米国時間)、DNAを用いた高い信頼性と記録密度をあわせ持つストレージ技術についての論文を発表した。実際にDNAを用いた実験を行なって合計2.15MBほどのデータを正確に記録し、従来より記録密度を高めつつ、一切のエラーなく読み出すことができたというもの。

発表された手法は、DNAを用いた理論上の記録密度の86%にも及ぶ高効率を実現しつつ、塩基配列の操作中に生じうる欠失に対応した冗長性が特徴。DNAを構成する単位であるヌクレオチド(デオキシリボースに塩基が結合したもの)1つあたり、平均すると1.98bit記録可能であり、このままスケールを拡大すると、理論上の記録密度は1gあたり214PB(214,000TB)にも達する。また、DNAの超コンパクトで、非常に保存期間が長いという特性がストレージデバイスに好適だという。

発表論文の著者であるYaniv Erlich氏の研究チームは、バイナリファイルを加工してDNA塩基配列に変換するための新手法を考案。「DNA Fountain」と名付けられたこの手法は、まずバイナリファイルを4bitごとのセグメントに分割する。その上で、乱数発生器によりランダムに選び出されたセグメント同士の真理値を加え、それに乱数発生器の状態を記録した「seed」と呼ばれる領域を付加し、「droplet」と呼ばれる記録の基本単位を得るというものだ。

さらに、得られたdropletは｛00,01,10,00}を{A,C,G,T}と2値情報を塩基に変換されるが、その過程でホモポリマー(AAAAAA…のように同一配列が続くもの)の排除や、冗長性に関わるGC含量の確認が行なわれ、必要に応じて再生成することで信頼性が高められる。

こうして決定された配列を用い、オリゴヌクレオチド(比較的短いDNA鎖)を生成するのだが、今回の実験では約2.15MBのテキストやPDFファイルなどを含んだgzipアーカイブを塩基配列に変換、実際に72,000単位のオリゴヌクレオチドに記録した。

情報のデコードはDNAシーケンサを用いて配列を読み出し、プログラムで処理することで行なわれる。このプログラムは、dropletに対して付加されたseed領域の情報を用い、より良いdropletの候補を選び出し、組み合わせることで完全なデータを目指すものだ。冗長領域として、保存するファイルに比較して7%相当ほど多くのオリゴヌクレオチドを生成している。そのため、全てのオリゴヌクレオチドをデコードせずに完全なデータが得ることができるが、これは同時に高速化にも貢献している。

この冗長化により、今回の実験では72,000単位のオリゴヌクレオチドを得たが、デコードに必要なオリゴヌクレオチドは69,870単位に過ぎなかった。また、3,200万の配列を読み出したが、75万までダウンサンプリングした場合でも正確デコードが可能であったという。

研究チームは、多重コピーに対する耐性も確認しており、PCR法を用いたDNA増幅を10回繰り返しても正確にデータをデコードすることが可能。また、多重コピーされたサンプルをダウンサンプリングした場合も完全なデータを得た。また、10倍希釈を繰り返し、3回の希釈まで正確にデータを保持することが確認されたが、これが1gあたり215PBの記録密度の根拠となっている。

なお、発表論文によると、DNAの合成に1MBあたり3,500ドル(約40万円)ほども掛かるということで、実用化に向けた最大の壁だとされる。

これは純度の良いオリゴヌクレオチドが簡単に得られないことに起因したもので、合成手法の改善か、純度の低いオリゴヌクレオチドを早く、大量に得られるような手法が開発されれば、DNAは経済的な長期保存可能/高レイテンシなストレージデバイスとなり得ると締めくくられている。