Twitter ベイジアンフィルタプロキシ

Twitter で following が増えてくるにつれて、タイムラインに目を通すのが大変になってきた(という程きちんと見ている訳ではないが)。 さっとタイムラインをなめて面白そうな情報をピックアップしたい時は、「おはよう」とか「風呂入った」とか「トイレ」とかは除外して読みたい(そういう書き込み自体は嫌いじゃないのだが、人生はあまりにも短い)。

Twit や P3:PeraPeraPrv では NG ワード指定ができて、それらを含むステータスは表示しないようにできるのだが、Twitter の書き込みは揺らぎが激しすぎて指定しきれないという弱点がる。

ということでベイジアンフィルタでフィルタリングしてみることにした。

自前で Twitter クライアントを作る気はないので、proxy の形でさっと実装してみた。

#!/usr/bin/perl use strict; use warnings; use HTTP::Proxy; use HTTP::Proxy::BodyFilter::complete; my $proxy = HTTP::Proxy->new(port => 8088); $proxy->push_filter(response => HTTP::Proxy::BodyFilter::complete->new, mime => 'application/xml'); $proxy->push_filter(response => Bsfilter->new, mime => 'application/xml'); $proxy->start; { package Bsfilter; use File::Temp qw/tempfile/; use XML::XPath; use base qw(HTTP::Proxy::BodyFilter); sub filter { my ($self, $dataref, $message, $protocol, $buffer) = @_; return unless defined($$dataref) && $$dataref ne ''; eval { my $xml = XML::XPath->new(xml => $$dataref); my @nodes = $xml->findnodes('/statuses/status/text/text()'); return unless @nodes; for my $node (@nodes) { my $text = $node->getNodeValue; if (is_NG($text)) { $node->setNodeValue("[NG] $text"); } } $$dataref = qq(<?xml version="1.0" encoding="UTF-8"?>

); $$dataref .= $xml->get_context->toString; utf8::encode($$dataref); }; if ($@) { warn $@; } } sub will_modify { 1 } sub is_NG { my ($text) = @_; my ($fh, $filename) = tempfile(); utf8::encode($text); print $fh $text; close($fh); my $result = system( "bsfilter --homedir ~/.twitter-bsfilter --ignore-header --auto-update $filename" ); unlink($filename); return !$result; } }

HTTP proxy の作成

Perl で HTTP proxy を作ろうとして真っ先に思い浮かんだのは POE だけれど、ちょっとヘビーなので今回は HTTP::Proxy をチョイス。 もともとフィルタリング HTTP proxy を作ることを念頭に置いた Perl モジュールなので今回の目的にぴったり。

1つはまった点といえば、filter の呼び出しがレスポンス全てを取得してからではなく一部分ずつの呼び出しになるところ。その仕様に気がつくのにちょっと時間がかかってしまった。 例えば XML 形式のレスポンスをフィルタしようとしても、普通に HTTP::Proxy を使うと XML の一部ずつがフィルタに渡されるため、XML のパースがうまくいかない。

これについては HTTP::Proxy::BodyFilter::complete を使うことで、まとめてフィルタに渡せるようになった。

レスポンスの処理

Twitter のタイムライン取得については P3:PeraPeraPrv が XML 形式で取得しているので、そのタイプのレスポンスをフィルタするようにした。

XML::XPath でステータス部分を抜き出して NG 判定し、NG であれば先頭に [NG] を追加する。 これで Twitter クライアント側で [NG] を NG ワード指定すれば、表示されないようにすることができる。

bsfilter による NG 判定

NG 判定は普段メールの spam フィルタとして使っている bsfilter を使った。 単純に system 関数で呼び出して結果を取得するだけ。

今回は対象がメールではないので --ignore-header を指定。また自動的に学習するように --auto-update を指定。 それと普段メールのフィルタリングに使っているのとは bsfilter のデータベースを別にしたいので、--homedir も指定しておく。

NG と非 NG の学習。

NG ワードを twitter-NG.txt に、非 NG ワードを twitter-clean.txt に書いて以下のコマンドを実行。

bsfilter --add-clean --ignore-header --homedir ~/.twitter-bsfilter twitter-clean.txt bsfilter --add-spam --ignore-header --homedir ~/.twitter-bsfilter twitter-NG.txt bsfilter --update --homedir ~/.twitter-bsfilter

自分の環境 (Debian GNU/Linux sid)では、UTF-8 で書いておいて問題なかった。

フィルタリングしてみる

あとは先の proxy を起動し、P3:PeraPeraPrv でプロキシとして localhost:8088 を指定すれば OK。

タイムラインを取得するたびに bsfilter が動いて NG なステータスには [NG] が挿入される。

フィルタリングの精度

これについては、まだまだチューンの必要ありかな。

事前の学習データが少ない。

--auto-update していることもあり、最初に NG 判定が多いとそちら側に強化されすぎる。

毎回 bsfilter を呼んでいるため、同じステータスが何度も学習される。

まだ使える精度まで上がってないけれど、教師データを増やせばそれなりにいけるかもしれない。

proxy の枠組ができたので、(@～は抜いてから bsfilter に渡すとか、前後の文脈も含めるとか)いろいろ試して遊べそうではある。 別に bsfilter にこだわらず、正規表現による判定などをしてもよいし。

この辺り P3 は Java で書かれているので、プラグインを書いて拡張できるよう将来になると面白いなと思ってみたり。