2016年03月07日 06時00分 メモ

A/Bテストで陥りやすい落とし穴「ヒルクライミング」とは何か？

By P & K's Mommy



インターネットが可能にした評価手法の一つにA/Bテストがあります。内容を変化させた2パターンのページを切り替えて表示することで、ユーザーの反応を定量的に捉えられる有効な手法ですが、結果の精度が高い一方でA/Bテストにこだわり続けてしまうと、数値の上昇にばかりこだわりすぎる「ヒルクライミング」と呼ばれる状況に陥ってしまうという罠が存在しています。



ヒルクライミングにとらわれすぎると、短期的な成功にこだわりすぎて木を見て森を見ず的な状況に陥ってしまいがちなのですが、Twitterでデータ研究に携わるChris Saidさんはそのような失敗を避けるために注意すべき4つのポイントを挙げています。



Four pitfalls of hill climbing · The File Drawer

http://chris-said.io/2016/02/28/four-pitfalls-of-hill-climbing/



◆「局所的な最大値」(Local maxima)

成功と失敗が如実に表れるA/Bテストでは、短期的に現れる成功に心が躍ってしまい、本来得ることができたはずの「大きな成功」を見逃してしまうことがあります。それが例えば以下のような状況。本来なら、右の大きな山に登る(＝成功する)ことができたはずなのに、左の小さな山に登ってしまったがために「成功した」と勘違いしてしまうような場合です。





商品の「成功」にはさまざまなレベルが存在しているため、短期的な成功だけにとらわれずに、大きな目線で成功を判断することが重要です。



◆「後になって現れる最大値」(Emergent maxima)

ユーザーの反応が即座に現れるA/Bテストですが、これは必ずしも「成功と失敗がすぐに判断できる」ということではありません。サービスの成否を決める要素には、利用者の数にが増えるにつれて加速度的に成功していくネットワーク外部性が存在しており、成功が目に見えるまでには一定の時間が必要な場合もあるものです。たとえば、以下のように、最初は坂道を転がり落ちるような動きを見せたために「失敗」と感じてしまったものが……





時間がたつと急激に山が大きくなる「成功」へと転じることもあります。これは、ユーザーの数の増加によって「正のフィードバック」が起きるような場合や、加えられた変更に最初は戸惑ったユーザーが、次第に慣れてきてその有用性を認識するようになる場合があります





この状況は、Microsoft Office系ソフトの画面上部に表示される「リボン」が初めて登場した時は多くの人が「邪魔だ」とか「こんなの使わない」と感じたものの、今ではほとんど慣れてしまった状況が例として挙げられるかも。



◆「目新しさの効果」(Novelty effects)

上記の2つは成功を正しく見るためのポイントでしたが、後の2つは失敗を正しく判断するための視点です。商品やサービスによっては、以下のように最初は順調な滑り出しを見せるものの……





時間がたつと、ストンと人気が落ちてしまうものもあります。これは、加えられた変更が目新しくて人目を惹くものだったにもかかわらず、しばらく利用してみると関心が失われ、むしろネガティブな印象だけが残るような場合です。この場合もやはり、短期的な変化だけで判断してしまうと、本来は「失敗」と判断すべきものを「成功」と誤って評価してしまうことにつながります。





◆「独自性の欠如」(Loss of differentiation)

「目新しさの効果」と通じるところもあるポイントですが、他の競合相手との独自性を十分に持っていない場合も、短期的な成功に終わる場合があります。以下のグラフは自社(左)と競合相手(右)の変化を示したものですが、最初は自社のサービスがなだらかに成功する動きを見せるものの……





最終的にはストンと人気が落ち、さらには競合相手のグラフが少し持ち上がってしまうという状況に。これは、自社で投入したサービスが目新しかったものの、結局は競合相手のサービスと同じコピーだった場合に起こり得るケースです。これも、短期的な「ヒルクライム」だけでは真の成功を見誤ってしまうという好例と言えます。





上記のグラフは少し誇張されていることを念押ししつつ、Saidさんはこれらのポイントに気をつけた上で「失敗よりも成功しているケースをよく分析して長期間のテストを続けること」「成功というものは多元的であるため、ある視点で成功したとしても、さらに幅広く評価・テストすることが重要」などのポイントを挙げています。なお、ソース元のSaidさんのブログではグラフをアニメーション表示しているので、4つのポイントのイメージがつかみやすくなっています。

