クレジットカードを利用した時間と大まかな場所に関するデータが たった4つ揃うだけで、個人の身元をほぼ特定できることが示された。匿名化されたビッグデータの管理方法について、今後、議論は必至だ。

Thinkstock

例えばレシートが４枚あれば、匿名化されたデータの中からその所有者を90％の確率で特定できる。クレジットカードの取引データから氏名と住所を削除するだけでは、真の匿名化とはいえないのだ。

個人の身元は、どのようなデータから特定され得るのだろうか？ 個人情報を取り扱い、その漏洩を防止すべき立場にある人々は、長年、この問題に頭を悩ませてきた。彼らは個人を特定しにくいように処理したデータを利用しているが、そうした工夫が役に立たないこともあるからだ。過去には、カーネギー・メロン大学（米国ペンシルベニア州ピッツバーグ）コンピューター科学部の大学院生が、匿名化された保険記録から当時のマサチューセッツ州知事William Weldの既往歴を暴き出すという出来事もあった（参考文献1）。

こうした状況を考えると、今回、マサチューセッツ工科大学（MIT；米国ケンブリッジ）のコンピューター・セキュリティー研究者Yves-Alexandre de Montjoyeらが膨大な「匿名化」されたクレジットカードデータから個人を特定したといっても、さもありなんといったところかもしれない。

Science 2015年1月30日号で発表された論文（参考文献2）によると、de Montjoyeらは、あるOECD（経済協力開発機構）加盟国で、3カ月間にクレジットカードに加盟する1万の店舗のいずれかで買い物をした110万人のカード利用者について取引情報のメタデータ（情報源情報）の分析を行い、匿名化によりクレジットカード利用者の個人情報をどの程度保護できるかを調べた。カードの所有者に直接結びつく氏名や住所などの情報はデータから削除されていたが、彼らは、たった4件のクレジットカード利用日時と場所の情報さえあれば、90%の個人を特定することができ、それまでのカード利用履歴と紐付けできることを示した。

データの匿名性を高める方法として、購買日や場所、金額を曖昧にするというものがある。そこで、購買日を一定の「期間」に、金額を「価格帯」に、場所を１軒の店から「数ブロックの範囲内」などのようにデータの精度を落として分析を行ったが、やはり個人の特定は可能であった。また、最も特定が容易なのは「女性」と「裕福な消費者」だった。こうした人々の購買習慣にはそれぞれ独自の特徴が見られるため、取引パターンが比較的明瞭になり、追跡しやすいのだろう。

MITのデータセキュリティー研究者で、この論文の共著者であるAlex Pentlandは、ある種の属性を持つメタデータ（例えば、地理的位置情報が付加されているもの）は匿名化が特に困難になると考えている。de Montjoyeは2013年に、携帯電話で通話を行った場所に関するメタデータ（通話を中継した基地局がカバーするエリア）を利用して、それまで特定不能だと考えられていた通話者の特定に成功している （参考文献3）。

追跡される行動

これまでの研究から、購買や携帯電話での通話以外の行動パターンに関するメタデータにも、個人を特定できるだけの一意性があることが示されている。例えば2006年には、New York Timesが、インターネットサービス会社AOL社（米国ニューヨーク）から入手したウェブ検索データから匿名化されたユーザーを突き止めた。同じく2006年に、オンライン映画配信会社ネットフリックス社（Netflix；米国カリフォルニア州ロスガトス）が利用者の嗜好を推測するアルゴリズムの開発コンテスト開催に際し、匿名化した利用者の検索データを参加者に提供したところ、ある研究チームは利用者の氏名を特定しただけでなく、その人物がどのような政治的見解を持っているかまで予想してみせた（参考文献4）。

こうした状況を鑑み、メタデータの有用性を損なうことなく、完全に匿名化することは不可能だと結論付ける人も出てきた。その１人、デジタル政策研究グループ世界プライバシーフォーラム（World Privacy Forum；米国カリフォルニア州サンディエゴ）の常務取締役Pam Dixonは「今後、さらに多くの情報が入手可能になり、人々のユニークな行動にタグ付けされることで、データやメタデータの匿名化はますます困難になるでしょう」と言う。

匿名化が困難であるならば、メタデータの公開に関するプライバシー保護法を厳格化することで、悪用目的での個人消費者の特定リスクを低減することは可能だ。しかし、プライバシーの保護とその厳格化の基準にはOECD諸国間でばらつきがある。米国でも、消費者データが流出した場合の報告義務に関する連邦法は制定されていない。

規制を現状に即したものにする試みには、ある程度の進展が見られる。上述のネットフリックスが開催したコンテストにおいて、提供データの匿名化が不十分であったためプライバシーを侵害されたとする利用者が起こした訴訟を契機に、米連邦政府の消費者保護機関である連邦取引委員会（FTC）は、小売業者のデータ保護に関する新たな基準を定めた。2015年1月下旬には、米国下院のエネルギー・商業委員会の商業・製造・貿易小委員会が、データ漏洩に関する連邦法の制定に関する論議を行った。データ管理者、消費者、そして犯罪者が、その行方を注視している。

Nature ダイジェスト Vol. 12 No. 4 | doi : 10.1038/ndigest.2015.150406

原文：Nature (2015-01-29) | doi: 10.1038/nature.2015.16817 | People identified through credit-card use alone

Boer Deng

参考文献

1. Sweeney, L. Simple Demographics Often Identify People Uniquely Data Privacy Working Paper 3 (Carnegie Mellon Univ., 2000)

2. de Montjoye, Y.A., Radaelli, L., Singh, V. K. & Pentland, A. Science 347, 536?539 (2015).

3. de Montjoye, Y.A., Hidalgo, C. A., Verleysen, M. & Blondel, V. D. Sci. Rep. 3, 1376 (2013).

4. Narayanan, A. & Shmatikov, V. Preprint at http://arxiv.org/abs/cs/0610105 (2006).

【関連記事】

ゲーム理論がポーカーを「解いた」

Nature ダイジェスト Vol. 12 No. 3 | doi : 10.1038/ndigest.2015.150304

知覚情報をもとに自ら学習する人工知能

Nature ダイジェスト Vol. 12 No. 5 | doi : 10.1038/ndigest.2015.150529