老舗Q＆Aサービス「Yahoo!知恵袋」は、長い間あるものに悩まされてきた。規約違反ではないため削除できないが、見る人を不快にさせる内容の“グレーな投稿”である。これまで社内でパトロールを行うなど対応してきたが、同サービスの投稿は約6億件にものぼり、全てのグレーな投稿を見つけ出すことは難しかった。スーパーコンピュータ「kukai」（クウカイ）が導入されるまでは。

グレーな投稿に利用者からは「厳しい意見」

グレーな投稿には、中身がなく質問への回答になっていないものや、アダルトカテゴリーではないのに年齢制限が必要そうなものなどがある。ユーザー投稿型サービスだからこそ起こる問題だが「利用者から厳しい意見をいただくことも多い。どこかで線引きをする必要があった」とヤフーの丹羽達洋さんは話す。

そこで考えたのが、グレーな投稿を検出し、トップページなど人目につきやすい場所では非表示にするという対応だった。

グレーな投稿、どうやって見つける？

しかし、質問と回答を合わせて約6億件にもなる投稿を、人が全てチェックすることは難しい。ヤフーは専用のシステムを構築し、投稿内容から「白」か「グレー」か「黒」かを自動判定することにした。

まず行ったのは投稿内容の解析だ。自然言語処理では一般的に、文を形態素（意味を持つ最小単位）に分けて解析する。だが「グレーな投稿の中には日本語の体をなしていないものもある。形態素解析ではうまくいかなかった」（ヤフーの清水徹さん）という。そこで別のアプローチを採用した。ディープラーニング（深層学習）の活用だ。

「文を文字単位に分解して扱う深層学習的な処理を導入し、文の全体や文脈を踏まえて（内容を）判断する、パワフルなモデルを作った」と清水さんは話す。

ヤフーの清水徹さん（データ＆サイエンスソリューション統括本部 事業開発本部 技術戦略室）

合わせて、Twitter上のツイートと、それに対する返事（リプライ）をペアにしたデータ数千万件を使った学習モデルも作成。Yahoo!知恵袋の投稿内容を解析するモデルと組み合わせ、「ある発言に対して、適切な返事を見つけられるよう学習させていった」（清水さん）という。

投稿の判別にも機械学習を活用した。まず「どんな投稿を白、グレー、黒とするか」の基準を社内向けガイドラインで設定。各基準に当てはまる「正解データ」を作成して機械学習を行い、実際にYahoo!知恵袋に投稿された質問や回答が「どの程度グレーか」を予測できるようにし、文意を解析するモデルと組み合わせた。

だが、判定のためのモデルができてからも一筋縄ではいかなかった。蓄積された約6億件の投稿をまとめて処理するには、既存のサーバを使った環境では約9カ月かかるという試算が出たのだ。そこで清水さんは考えた。「kukaiの出番だ」と。

1|2 次のページへ