米Yahooは14日、同社の各サービスで収集した、大規模な機械学習用データセットを研究者向けに公開した。Yahoo Labsの非商用目的のデータ共有プログラム「Webscope」にて入手できる。

データセットは、匿名化された2000万人分のインタラクションデータで、2015年2月から5月までの間に収集された13.5TBの非圧縮データを提供する。これには、米Yahooのホームページや、「Yahoo News」「Yahoo Sports」「Yahoo Finance」「Yahoo Movies」「Yahoo Real Estate」などのニュースフィードに関するインタラクションデータも含まれる。

データには、年齢層、性別、一般的な地理データなど、人口統計学的な情報が加えられており、データセットのアイテムには、記事のタイトルや概要、関連する記事のキーフレーズ、ローカルのタイムスタンプなども提供される。また、ユーザーがニュースフィードにアクセスする際に使用したデバイス情報も一部含まれる。

Yahooでは、データセットの提供を通して、大規模な機械学習の分野において、産業と学術研究を同じレベルまで引き上げる狙いがある。今回の取り組みにより、研究者やデータサイエンティストのほか、機械学習の愛好家なども、現実世界のデータセットを用いたモデルの検証に利用できるとしている。