東京で働くグロースハッカーのブログ

東京で働く、グロースハッカーによるマーケティングに関する話がメインのブログ。

A/Bテスト(多変量テスト)のススメ

A/Bテストとは何か

A/Bテストの目的は, 2つの選択肢のうち, どちらがより良い結果をもたらす選択肢であるかを見極めるための方法です. またA/Bテストにおいて選択肢は2つですが, この選択肢を3つ以上にした場合, 多変量テスト と呼ばれています. この記事では, A/Bテストも多変量テストもどちらもA/Bテストと呼ぶことにします.

A/Bテストの使いどころ

では, A/Bテストを実際にどういった場面で使うことができるのか?について説明します. 大雑把に言えば, どんなところでも使うことができる となります. が, これだけではこの記事の意味がないので具体例をいくつか挙げていきます.

  • ランディングページの構成
  • ランディングページ/Webページのファーストビュー
  • メールマガジンのタイトル(件名)
  • メールマガジンの送信者名
  • メールマガジンの本文の訴求ポイント
  • バナー広告のクリエイティブ
  • テレアポでの最初のトーク
  • 入力フォームの項目
  • ダイレクトメールの送信先(宛先の書き方)
  • ナビゲーション

などいろいろな項目において, A/Bテストを実施することができます. またパターンの作り方として, フォントやボタンのサイズやフォントの種類, ボタンや文字の色, Webページのタイトル, 使うキーワードの表現などでパターンを作り出すことができ, そのパターンは全て試すことができないくらいの量になります.

実際に, バナー広告のクリエイティブで素材を固定にしたとしても, 色を4パターン, 使うキャッチコピー(広告文)を4パターン, キャッチコピー(広告文)の文字サイズを3パターン, キャッチコピー(広告文)のフォントを2パターン作ったとすると, 最終的には全パターンを網羅するには96パターン(=443*2)という数になります. バナー広告1つで100パターン近くのクリエイティブができてしまうので, テストの実施方法そのものをきちんと考えないと, そこからより最適なパターンを探すのは困難を極めます.

A/Bテストの方法

大雑把には下記の流れでA/Bテストを実施することになるかと思います.

  1. 実施する対象を決める(Webページなのかバナーなのかメールマガジンなのかなど),
  2. 複数パターンのクリエイティブを作成する,
  3. 良い悪いを判断する指標を確定させる,
  4. ターゲットの1つ1つに対してどちらのパターンを実施するかを決め, その実施結果の指標データを保持する,
  5. 効果測定を行いどちらのパターンが良かったのかとその理由を分析する.

上記は基本的な流れであり, ツールの使用有無に関わらず必要となる手順となります. 最近はA/Bテストを行うための便利なツールも多数存在するので, 会社の方針などに従い, 便利なツールについてはどんどん使っていくべきだと思います. しかし, 実施する対象やクリエイティブの内容によってはツールがそのまま適用できないパターンもあります.

実際, Webページ系のA/Bテストであれば, Google アナリティクスOptimizely , Test&Target , DLPO などがありますが, ダイレクトメールやメールマガジン, テレアポなどWeb以外のコンテキストで利用できるA/Bテストツールはまだ出てきていないのではないかと思います.

ツールが使えない場合にA/Bテストの実施そのものを諦めるのではなく, 実施するコンテキストに合わせて最低限必要とされるツールを自作してA/Bテストを実施することがグロースハッカーには求められているでしょう. そのために必要なことはA/Bテストのステップの1つ1つで成し遂げるべき内容について理解しておくことです.

統計的観点から見たA/Bテスト

A/Bテストを実際に実施してみた結果, 下記のようなデータが出てきたとします(指標はクリックされたかどうか, とする)

パターン 実施数 クリック数 クリック率
A 600 58 9.67%
B 700 84 12.00%
A+B 1,300 142 10.92%

さて, クリック率はパターンBのほうがいいようです. しかし, 気になるポイントの1つは, この結果は偶然じゃないのか かと思います.

ではその疑問, 偶然なのかどうか調べてみましょう, ということで出てくるのが, 統計学です. 統計学の分野の1つに「有意差検定」というものがあります. 簡単に言うと, 上記のような結果が得られたときに, 差があると言えるかどうか や, その判断をどのくらい信頼してよいか を統計的に判断する手法です. 有意差検定には, 対象となるデータの確率分布によっていろいろな手法が適用できるのですが, A/Bテストの場合は, χ二乗検定やフィッシャーの正確確率検定などが有効です. 統計家やデータ・サイエンティストは各種検定の計算方法や適用できる場面など理論部分を追うことも必要かもしれませんが, グロースハッカーとしてはそのあたりの理論部分は必要最低限で, 聞かれたときに根拠となる計算のイメージを説明できる, 程度に留めておけばいいでしょう.

結果の解釈としては「検定の結果, 信頼度95%で有意差がある」となった場合, 「パターンAとパターンBは同等だとみなしたら、5%以下の確率でしか起きないことが起きてしまってるんだよね。これってもうパターンAとパターンBに明確な違いがあるって言ったほうが自然じゃない?」 ということです.

検定ツール

A/Bテストの信頼度を判定してくれるツールはWeb上で利用できるものが多数存在するので, それらのうちの自分の使いやすいものを選べばいいかと思います. 多くの場合, 入力が2パターンそれぞれの インプレッション数 (=テスト実施数)と, コンバージョン数 (=指標が一定レベルを超えた数)を, 出力がそれら2パターンのコンバージョン率に差があると言えるかどうか, となっています. また出力には, 有意水準と呼ばれる信頼度が合わせて付いてきます.

ではツールの紹介です.

ほかにもいろいろなツールがありますので, 上記3つで満足いかない場合は自分で調べてみましょう.

また, Webツール以外にも, Excelやプログラム言語RやPythonなどでも簡単に求めることもできますし, 自分で手計算を行ったり自分の好きなプログラミング言語で書くこともできますので, 興味のある方は調べてみましょう(キーワード: [A/Bテスト 検定], [A/Bテスト 有意差判定], etc)

グロースハッカーから見たA/Bテスト

A/Bテストの導入による成果

国内外のグロースハッカーは既に大量のA/Bテストを実施しています. 例えばコンバージョン率が4.00%だったものをA/Bテストの結果コンバージョン率が6.00%にまで成長できたとします. 差はたったの2%ですが, これには1.5倍の違いがあります. つまりコンバージョン率を6.00%に成長させることで, 今まで1000の成果を挙げるために費やしたコストと同じコストで今後は1500の成果を挙げることができるようになるのです. では, 1.5倍の改善を行う, というのは現実的なことなのか?という疑問を持つ方もいらっしゃると思いますが, 今までこういったA/Bテストを実施せずに直観などで物事を決めていたのであれば, 1.5倍くらいの成長率はすぐに実現できると思います. 場合によっては1.5倍どころではなく, 2倍や3倍といった成長率も可能になります. グロースハッカーとは, 少ない予算で企業の成長を支える人です. そんなグロースハッカーにとって, A/Bテストは1つの武器になるでしょう.

効果的なセグメンテーションにより成長率をさらに高める

次に単純なA/Bテストであれば, グロースハッカーでなくても普通のWeb担当者であっても, 実際にある程度やってしまえばできそうなものです. ではグロースハッカーは更なる価値を生まなければなりません. ではどこにその価値を生むべきか. その解の1つは, より成長率を増やすことができるセグメンテーションを発見することかもしれません.

テストを行った結果が,

パターン 実施数 成果獲得数 成果獲得率
A 60,000 5,800 9.67%
B 70,000 840 1.20%
A+B 130,000 6,640 5.11%

のようになったとします. もう完全にパターンAの勝利ですね. では, 次からはパターンBは使用せずにパターンAを使いましょう, となるのが普通ですが, ここでさらに1つ深堀したデータ分析をしてみてもいいかもしれません. 例えば, それぞれのパターンを実施した相手の性別でセグメンテーションをしてみた結果, 下記のようになったとします.

パターン 性別 実施数 成果獲得数 成果獲得率
A 男性 30,000 5,500 18.33%
A 女性 30,000 300 1.00%
B 男性 36,000 300 0.83%
B 女性 34,000 640 1.88%
A+B 130,000 6,640 5.11%

どうでしょうか?上記の例はかなり意図的に性別によって偏らせたものですが, もし性別でセグメンテーションしたときに上記のような結果が分かったとしたら, 「パターンBは用いない」という結論を出してしまうと勿体ないですね. これらのA/Bテストの結果をもとに効果の高い施策を30万人(男性15万人, 女性15万人)に対して実施する, となったときを考えてみましょう. 性別によるセグメンテーションを行わなければパターンAのみを30万人に対して実施して, 29000回の成果を得ることになります. 次に性別によるセグメンテーションを行った結果をもとにすると男性15万人はパターンAに, 女性15万人はパターンBで実施することで, 30324回の成果を得ることができます. この発見だけで1324回の成果を増やすことに成功しています. もしくは実施する施策を変えて男性15万人にパターンAを配信するのみで残りの女性15万人には何も行わないことで, 施策コストを半分に削減し, さらに成果は10%減程度に押さえることができ, 費用対効果の高い施策を実施することが可能になります.

これは意図的に作ったデータなので大きな差が現れましたが, 実際のデータでは適切なセグメンテーションを行わないと差が現れないことが多いかと思います. ここが データ駆動型の施策を進めるグロースハッカー の出番でしょう. また, データ駆動型アプローチとは何かあとからデータを拡張できる形になっているか は, このように後からいろいろな軸でセグメンテーションするために必要なことだったのです.