コンバージョン率(CVR)を高めるための方法として、様々なパターンをテストし有効なクリエイティブを見つけるABテストがあります。 読者の中にはABテストの経験がある方も多いと思いますが、その結果の解釈に迷ってしまったことが一度はあるのではないでしょうか? 例えば、下表の場合、一見改善パターンのほうがCVRが高く勝ちパターンに見えます。 ところが、コンバージョン数(CV)、インプレッション数(IMP)が少なく、この結果が信頼できるものであるかが疑問に感じられますよね。
同じCVRでも、下表の場合はCVやIMPが多く、先ほどの結果よりは信頼できそうです。
ではこの結果であれば、自信をもって有意差があると断言できるでしょうか? この質問に答えるためには、統計学の「検定」という方法を用いてABテストの結果を検証する必要があります。 この工程が抜けていると、なんとなく有意差がありそうだという感覚に基づいて、一見勝ちに見える(けどそうでは無い)パターンを実装してしまって、思うようにCVRが上がっていかないということが起こりえます。 この記事では、ABテストの結果を検証するために必要な「検定」について解説します。 また、エクセルで検定を行う方法も記載し、そのファイルもお配りしますので、これらを活用しWebサイトの改善に役立てていただければ幸いです。
検定の必要性:CVRにはばらつきが生じる
あるページでCVRをテストした結果、CVRが10%だったとします。 同じテストを何度も行った結果、毎回判を押したように10%という結果が得られるでしょうか。 一般的にはそうはならず、2回目では9%だったり、3回目は12%だったりとばらつきが生じます。 何度もCVRを測定し、最も発生しそうな値(平均値と呼ぶことにします)が10%であるときの様子が下図です。 CVRに限らず、自然界や社会で得られるデータの多くは、このように、平均値を中心に左右対称になだらかに発生率が低下していくグラフとなります。 これを正規分布と言います。 CVRの分布もこの正規分布になるとして、これ以降の説明を進めていきます。 (サンプル数が多い場合、分布は正規分に近似できるため、正規分布を仮定しても問題はないでしょう)
検定とは
CVRにはばらつきがあるため、ABテストを行った結果、その結果が偶然なのかそうではないのかを調べる必要があります。 これを検定と言います。 もう少し正確に言うと、「観測されたデータ(標本)に基づき、母集団に対しての仮説が正しいかどうかを統計学的に検証する事」です。 (検定は仮説検定とも言いますが、ここでは単に検定と表記します) 上の定義について、もう少し詳しく解説します。 ABテストで真の勝ちパターンを見つけたければ、サイトを訪れるすべてのユーザーを対象にテストパターンを配信しデータを取ればよいことになります。 しかし現実的にはそれは難しいため、ある一定数のユーザーに対してABテストを行いデータを取ります。 このABテストの対象となるユーザーのことを標本と言います。 また、サイト訪問者全体を母集団と言い、標本はその一部のユーザーを指します。 ABテストでは、標本を対象としたABテストの結果、オリジナルパターンと改善パターンのCVRの差異において、偶然性が高いのか低いのかを検証する必要があります。 その偶然性があるかどうかを判定するために、有意水準(後述)という値を用います。 有意水準によって、オリジナルパターンと改善パターンにおけるCVRの差の偶然性が低ければ、ABテスト結果の信頼性は高いと判断します。 このように、ABテストにおける検定とは、標本(ABテスト)から得られたデータが偶然かどうかを有意水準(5%)を用いて判定することを言います。
ABテストの検定に必要な考え方や知識
①コンバージョン(CV)やコンバージョンレート(CVR)
CVは、サイト訪問者の中で、何らかの申し込みや購入などをアクションを行った数を指します。 また、CVRはサイト訪問者に対するCVの割合のことです。 サイトに100人訪れて、そのうち10人がCVした場合、CVRは10%となります。 また上記のように、CVRを計算する際は、基本的にユニークユーザー(UU)を使います。 CVR(%)=CV/UU ユーザーごとに1回CVしてもらうタイプのサイトの場合、この式を用いて計算します。 多くのサイトがこのようなサイトに該当するため、上記の式を用いて計算すれば問題ありません。 PVを分母にしてしまうと、やたらPV数が多いユーザーがいる場合、分母が大きくなり見かけ上CVRが小さくなるという問題が発生するため、基本的にはUUを使いましょう。
②CVRは正規分布に従うとする
まず、分布とは、先ほど紹介した正規分布のように、データがどのように散らばるかを示すものです。 一般的に、自然界やビジネスで扱う分布は正規分布となるため、この記事でもABテストのデータは正規分布に従うものとして説明します。 (少々雑に聞こえるかもしれませんが、CVRの分布を正規分と仮定しても問題ありません。この話も別の機会に記事化します)
③有意水準を5%と決める
有意水準とは、ある事象における偶然性の高低(十分偶然に起こりえるのか、めったに起こらないのか)を判断するための基準となる確率です。 一般的に有意水準は偶然に起こる確率が5%以下かどうかで判断します。 偶然に起こる確率が5%以下であれば、偶然に起こる確率が低いということになり、ABテストによって得られたCVRの差は偶然でないと言えます。 ちなみに、なぜ5%以下かというと、これは統計学の慣例としてこの5%を基準とすることが多いため、この記事でも有意水準として5%を用いることにします。 余談ですが、医療分野などの人命にかかわる重要なデータ分析においては、有意水準として1%を用いる場合もあります。
一般的な検定の流れと考え方
ABテストでよく用いられる検定(カイ二乗検定)に入る前に、そもそも検定とはどういうものかを説明します。 これを知っておくことで、カイ二乗検定をりかいしやすくなります。 検定の流れは下記の3ステップから成ります。 ①帰無仮説と対立仮説を設定する ②帰無仮説を前提とした正規分布を作成し、帰無仮説の棄却域を決める ③標本平均が棄却域に入るかどうかを調べ、帰無仮説が棄却できるか調べる 簡単に言うと、自分が主張したい仮説(対立仮説)とは異なる仮説(帰無仮説)が稀にしか起こらない(帰無仮説の棄却)から対立仮説のほうが正しいよね、という流れで自分の主張が正しいということを示すことが検定です。 それぞれのステップごとに見ていきましょう。
①帰無仮説と対立仮説を設定する
帰無仮説とは、自分が主張したい仮説ではない仮説のことです。 対立仮説が、自分が主張したい仮説です。 ABテストの検定の場合、帰無仮説は「オリジナルと改善パターンのCVRに差が無い」となります。 対立仮説は、「オリジナルより改善パターンのCVRのほうが高い」となります。 後に続くステップで、この帰無仮説が稀にしか起きない(5%以下)ということを示すことで、オリジナルより改善パターンのほうがCVRが高いだろうということが言えるようになります。
②帰無仮説を前提とした正規分布を作成し、帰無仮説の棄却域を決める
図のように、平均値を10%とするCVRの分布がわかっているとします。 正規分布なので、平均値10%を中心として左右対称の分布になっています。 図の赤線部分が有意水準5%の領域です。 この領域は、分布全体の5%(=面積が5%)に該当します。 標本から得られたデータの平均値(標本平均)がこの5%内に入っていれば、5%以下でしか起きない帰無仮説での主張とは異なることが標本平均では起きている、ということが言えます、 つまり、かなり稀な現象が起きている、ということです。 その場合、前提とした帰無仮説が間違いであるとして棄却し、対立仮説が正しいだろうということが言えます。 この有意水準によって定められた領域を棄却域と言います。
③標本平均が棄却域に入るかどうかを調べ、帰無仮説が棄却できるか調べる
棄却域を決めたあとは標本平均を計算し、その値が棄却域に入るかどうかを調べ、帰無仮説が棄却できるかどうかを調べるだけです。 なお、ここでは煩雑さを避けるのと、ABテストでは後述のカイ二乗検定を用いることが多いので、ここでは標本平均の計算方法は記載しません(後日別記事として公開します)。 標本平均が棄却域に入っていれば、無事に帰無仮説を棄却でき、対立仮説が正しいだろうと言えるのですが、棄却域外であれば対立仮説が正しいとは言えないので注意してください。 なお、図のように、グラフの片側だけを棄却域と定める検定を片側検定と言います。(図は右側が棄却域になっていますが、減ってることを主張したい場合は左側片側検定を行うことになります) また、両側を2.5%とずつ棄却域に設定する検定を両側検定と言います。 ABテストでは、オリジナルより改善パターンのCVRが高いことを言いたいので、右側のみの片側検定を行うイメージを持っておきましょう。
ABテストでよく用いられるカイ二乗検定で有意差判定を行う
ここに来るまでの間に、検定に対する基礎知識やイメージを持っていただけたかと思います。 ここではいよいよカイ二乗検定を紹介し、計算方法も示します。 また、簡単に計算できるようにエクセルシートも用意しましたので、ご活用ください。 なお、この説明ではABテストの話を前提として説明していきます。 まず、カイ二乗検定とは、オリジナルパターンのコンバージョンレートCVR_Aと改善パターンのコンバージョンレートCVR_Bの分布に差があるかどうかを調べることです。 具体例を用いながら説明します。 ABテストの結果、この表のように結果が得られたとします。 CVR_A≒22% CVR_B≒27% となっており、CVR_Bのほうが良さそうですが、これをカイ二乗検定で統計的に優位差があるかどうかを検定します。 カイ二乗検定でも、まずは帰無仮説と対立仮説を立てます。 帰無仮説:CVR_A、CVR_Bに差はない 対立仮説:CVR_A < CVR_B まず、帰無仮説より、得られたデータに差が無いという立場で考えます。 その場合、CVRが両パターンで同じになると考えると、各パターンで期待できるCV数は オリジナルパターンのCV数は375×800÷1550=193.5 改善パターンのCV数は375×750÷1550=181.5 となります。 この帰無仮説を前提とした各パターンで期待できるCV数を期待度数と言います。 これらの値は実測値と異なっており、この差が偶然なのか否かを調べます。 カイニ乗検定を行うために、カイニ乗値を計算します。式は以下の通りです。 Σ((期待度数-CVR_n)^2/期待度数) (n=A,B) この値を、各パターンのCV数、CVしなかった数について、合計4回計算し全て足します。 これを計算すると、カイ二乗値は4.85となります。 これを有意水準と比較できるように変換します。 変換は、カイ二乗分布表を用います。 縦軸に自由度という項目がありますが、ABテストの場合は自由度=1のところを見ます。 なお、自由度は、(自由度)=(行数-1)(列数-1)で求められます。
自由度1のうち、求めたカイ二乗値4.85が入る区間は3.84~5.02ですが、便宜上3.84~6.63の区間に入っていると言い直します。 この区間の上部に0.05、0.01と書いてある数値がp値と呼ばれるもので、有意水準に該当します。 今回のケースでは、カイ二乗値が5%~1%の間にあるため、5%未満の確率で起こる稀な事象が発生したと考えることができます。 その原因はそもそも帰無仮説が誤りなのではないかと考え、帰無仮説を棄却することができます。 よって、今回のABテストではオリジナルパターンと改善パターンには有意差があるだろうと判定することができます。
エクセルでカイ二乗検定を行おう!(エクセル配布)
上記までの内容で、ABテストの検定を無事に行えるまでになったかと思います。 しかし、いちいちご自身で計算するのは面倒ですし、エクセルでの式の作り方がわからないという方もいらっしゃると思います。 そこで、一瞬でカイニ乗値を計算し、帰無仮説が棄却できるか否かを判定できるエクセルシートを作成しました。 使い方は簡単で、シート内の水色の4つのセルに数値を入力するだけです。 簡単なのでぜひ使ってみてください! ダウンロードはこちら
まとめ
計算やグラフが出てきたり、少し大変だったかもしれません。 しかし、この内容をマスターすれば、ABテストの検定に必要なすべての知識を習得できます。 このエクセルシートを活用しながら何度も計算し検定を行うことで、すぐに検定を行えるようになります。 「これって有意差あるの?」と聞かれても問題なく答えられるようになるでしょう。 これからのABテスト業務にぜひご活用ください。