2019年01月10日 10時00分 メモ

ウェブラジオのCMをスキップできる「Adblock Radio」はどのように設計されたのか

by Eric Nopanen



「Adblock Radio」は、ウェブサイト上の広告をブロックするウェブブラウザの拡張機能と同じように、ウェブラジオの番組内に挿入される広告(CM)をスキップできるサービスで、2015年末に誕生し、2019年時点で7カ国・60以上のラジオに対応しています。いったいこの「Adblock Radio」はどのようにデザインされたのかを、製作者のアレクサンドル・ストレリ氏が明らかにしています。



Adblock Radio

https://www.adblockradio.com/





GitHub - adblockradio/adblockradio: An adblocker for live radio streams and podcasts. Machine learning meets Shazam.

https://github.com/adblockradio/adblockradio



Designing an audio adblocker for radio and podcasts

https://www.adblockradio.com/blog/2018/11/15/designing-audio-ad-block-radio-podcast/





ストレリ氏が「Adblock Radio」を開始したのは、核融合プラズマ物理学の博士課程を終えて数カ月後の2015年末のこと。2016年に入ってサービスの人気が出てくると、フランスのラジオ局から弁護士を通して圧力を受けたこともあるそうです。



放送されているラジオ番組の中からCM部分を的確に見つけ出すためには、どこが本編でどこがCMかを検出し、区別する必要があります。





ストレリ氏がまず考えたのは「音量の違いで検出する」ということでした。クラシック音楽中心の番組ならCM部分の音が目立っているので有効したが、ポップスではCMとの音量の差が小さく、断念。



「CMが挿入される時間を指定してブロック」という方法は、CMの流れる時間が固定ではないため失敗。「ウェブラジオ番組のメタデータを利用する」という方法も識別には役立たず断念。とうとう人の手を借りて「CMの開始時・終了時に、リスナーにボタンを押してもらう」ところにたどり着きましたが、新規に追加された局では機能が正常に動作するために十分なリスナーが得られず、ブートストラップがうまくいかないのでユーザーが離脱してしまう恐れがありました。



なんとか自動的に処理できないかと頭をひねったストレリ氏は、続いて「音声認識と字句解析」に着手。しかし、ストレリ氏は音声処理については素人だったこともあり、うまくCMを認識するシステムを作ることはできませんでした。その後、MozillaDeep Speechなどのオープンソースツールが登場しているため、2019年レベルの技術であれば再検討の価値はあるとストレリ氏は述べています。



試行錯誤を経てたどり着いたのが「音響指紋による検出とCMのデータベース化」です。音響指紋とは、音声を一連の数字に変換することです。放送中の音源に出てきた音響指紋が、CMデータベースにあるサンプルと多くの場所で一致した場合、ちょうどCMを放送中であると判断できます。このとき、CMを聞き逃す誤検知はあるものの、番組本編部分をCMであると誤認識することはほぼなかったとのこと。放送中のCMが新たなものに更新されていくという問題については、ラジオ番組を録音して、毎日のように何度も流れる音をリストアップ。一般的なCMの長さである30秒前後のデータだけを抽出するようにしてクリアしました。



こうして誕生し、さらに改良が重ねられている「Adblock Radio」は、クラウドで実行するには法的・技術的に問題があるとのことですが、「ラジオプレイヤーとの統合を進めたい」というストレリ氏は「将来、オーディオ広告は思い出の中の存在になるでしょう」と語っています。

