ヤフー株式会社は5日、16万曲分の歌詞データをもとに国内アーティストの類似性を可視化した「アーティストクラスタリングチャート」を公開した。なお、ヤフーは熊本地震発生直後に検索されたキーワードをインフォグラフィックで表示するサイトも8月に公開している。

アーティストクラスタリングチャートは、歌詞の類似性の高さに沿ってアーティスト名を並べ、類似する特徴語などを表記した図表。「GYAO!歌詞」で提供している16万曲の歌詞データを解析し、各アーティストの歌詞に含まれる特徴的な単語を抽出。約500アーティスト間の類似性・関連性をマッピングしている。例えば、「TOKIO」と「Mr.Children」、「徳永英明」と「クリス・ハート」、「モーニング娘。」と「Berryz工房」などに類似性が見られるという。

ここでは、「形態素解析」という日本語処理手法を用いて歌詞の解析を行っている。例えば、「明日は日曜日です」という歌詞があった場合、「明日/は/日曜日/です」という形態素に分解。さらに「明日（名詞）/は（助詞）/日曜日（名詞）/です（助動詞）」のように、各形態素の品詞も判別する。

各アーティストの歌詞ワードから特徴を見出すには、歌詞ワードの特徴を統計的に解明する必要がある。そこで、アーティストが持つ歌詞ワードごとに「特徴度」を求め、値が高かった上位歌詞ワードを各アーティストの「特徴語」とする。

これにより、「アーティストAの歌詞の中ではよく使われ（要素1）、他のアーティストの歌詞には現れにくい（要素2）歌詞ワード」ほど高い値となり、特徴語として抽出できる。なお、アーティストの保有曲数が少ないと精度が下がるため、GYAO!の歌詞サービスに登録されている曲数が多い順に上位500アーティストに絞って分析を行っている。

例えば、登録曲数が382曲と最も多かった「TUBE」を例に、特徴度のスコア上位20件の特徴語を並べてみると、「夏」が最も特徴度スコアの高い単語となった。

このデータでは歌詞の中で一人称（自分）、二人称（相手）の呼び方も分かる。中でも、「僕」と「君」の組み合わせが最も多く、自分を「私」、相手を「あんた」と呼ぶ組み合わせは、「やしきたかじん」のみという結果になった。

また、一人称、二人称以外も含めた各アーティストの「特徴語」を使って、歌詞ワードが似ているアーティストを分類することも可能。分析手順は以下の通り。

1.約500アーティストそれぞれが持つ特徴語のスコア上位150ワードを抽出

2.全アーティストをすべてペアにして、全組み合わせの特徴度の一致スコアを算出

3.最もスコアが高くなったアーティストのペアから順に組み合わせを生成

4.ペアの組み合わせがなくなるまで処理を行う

5.4の結果を「D3js」というデータビジュアライズライブラリを用いて可視化

1～4の処理を行うことで、特徴語が似たアーティストの組み合わせデータを生成できる。さらに、D3jsを使用してデータを可視化することができる（スマートフォンからの閲覧では簡易版で表示。フル機能はPC環境からのみ利用可能）。

今後は、年代別での歌詞ワード傾向や歌詞の持つ感情の評価分析なども検討しているという。