2016年03月22日 09時00分 ソフトウェア

Twitterのツイートを機械学習で分析すると「酔っ払い」かどうか特定可能

By Sprogz



お酒を飲んでいい気分になった状態でツイートをすると、つい話さない方が良いことを世界中に発信してしまう可能性があり、酔っ払って誰かに変なメールを送ってしまうより影響力は甚大です。そんな「酔っ払いツイート」を自動的に発見するアルゴリズムがアメリカの科学者によって開発されました。



Inferring Fine-grained Details on User Activities and Home Location from Social Media: Detecting Drinking-While-Tweeting Patterns in Communities

(PDFファイル)http://arxiv.org/pdf/1603.03181v1.pdf



Machine learning algorithm can identify drunken tweeting | Ars Technica UK

http://arstechnica.co.uk/science/2016/03/drunk-tweeting-computer-algorithm/



ロチェスター大学コンピュータサイエンス学部のナビル・ホセイン氏らの研究チームは、Twitterから得られる情報をもとに一定の地域内のアルコール消費量を追跡するため、Twitterと機械学習を組み合わせるというアイデアに着手しました。研究チームは2014年7月から2015年7月の間にニューヨーク州内の位置情報が付けられたツイートを収集し、「ビール樽」「酔っぱらった」などのお酒に関連するキーワードを含むツイートをふるい分けたところ、1万1000件のお酒に関するツイートが集まりました。





さらに人的労力を提供するクラウドソーシングツール「Amazon Mechanical Turk」で、1万1000件のツイートを3つの質問にかけることで、酔っ払った状態で投稿されたツイートを抽出しました。3つの質問は以下のような内容です。



Q1：このツイートはアルコール飲料に関して何か言及していますか？

Q2：もしそうなら、それをツイートした人自身はアルコール飲料を飲んでいますか？

Q3：もしそうなら、そのツイートが投稿された時点でアルコール飲料を飲んでいた可能性が高いですか？



ホセイン氏はこれらの結果を元にサポートベクターマシンと呼ばれる手法でツイートを分類するアルゴリズムを作成。学習の結果、アルゴリズムはAmazon Mechanical Turkの結果と82％から92％一致する挙動が行えるようになり、機械学習により人が判断するように「酔っ払いツイート」を見分けるツールが完成したわけです。





その後、研究チームは次のステップとして酔っ払ったTwitterユーザーが家や別の場所など、どこで酔っ払ってツイートしてしまうのか特定するというステップに移行。位置情報データに加えて、例えば家にいる時に使われそうな「お風呂」「ソファ」「テレビ」など、居場所を特定できる単語をアルゴリズムに組み込み、数千のツイートをフィルタリングしました。



そのツイートを再びAmazon Mechanical Turkにかけてアルゴリズムの分類結果を再チェックしたり、1日の最後にツイートした位置情報などの別の判断要素を組み込んだりと、アルゴリズムの精度を強化しました。完成したアルゴリズムはユーザーの居場所が自宅かそうでないかを80％の精度で特定することができるようになったとのこと。



こうして完成したアルゴリズムの分析でわかったのは、住んでいる場所によってアルコールが消費される場所に異なる傾向があるということで、ニューヨーク市内に住む人は、郊外の人と異なり、自宅・または自宅から近い場所でお酒を飲む傾向にあること。これは市内には1ブロックごとにクラブやバーがあるためと考えられています。



By Leo Hidalgo



研究チームは今後もソーシャルメディアにおけるアルコール消費に関する総合的な研究を行っていく予定で、例えば「Twitter上のやり取りや人間関係がどのように飲酒量に影響を与えるか」ということがわかるようになるとのことです。

