# 相関だけ見てませんか？一歩先に進むための統計入門

公開日: 2026-04-30 / 執筆者: 箕輪　旭 / カテゴリ: 実行力, データサイエンス

新しい施策を打って、CVRが上がりました。これは効果が出たと言えるでしょうか。

「施策を実施したグループのCVRが、実施しなかったグループより3%高い」というデータを見て、「効果あり」と判断する場面はよくあります。しかし、その判断を本当に信じていいのか、データから確かめる方法をご存知でしょうか。本記事では、データから施策の効果を判断するための統計の基本を、実務の流れに沿って整理します。データに基づく意思決定が重要になっている今、すべてのビジネスパーソンに押さえておいてほしい考え方です。

## 「相関がある」だけでは判断できない

施策の効果を見るとき、最初によく使われるのが相関です。たとえば、メルマガの送信回数とCVRの相関を調べて、「メルマガには効果がある」と評価する。一見すると合理的ですが、ここには2つの落とし穴があります。

1つ目は、**相関関係と因果関係は違う**ということです。施策を実施したグループのCVRが高かったとしても、それが本当に施策の効果なのかはわかりません。たとえば、もともと意欲の高い顧客に優先的に施策を届けていた場合、CVRが高いのは「施策のおかげ」ではなく「もともと買う気があった人だから」かもしれません。

2つ目は、サンプル数が少ないと、**偶然の偏りが相関のように見えてしまう**ということです。10人ずつのテストでCVRに10%の差があっても、それが本当に意味のある差なのか、たまたまなのかは判別できません。

この2つの問題に対処するために、統計学では「検定」という考え方を使います。検定というのは、**観測された差が「偶然じゃないか」を確かめる**ことです。

## p値：効果がなくてもこの差が出てしまう確率

検定の中心的な道具がp値です。p値を一言で言うと、「**施策に本当は効果がなかったとしても、観測された差が偶然出てしまう確率**」です。p値が小さいほど、「効果がなかったらこんな結果は出ない」と言えます。一般的には**p値が0.05（5%）未満であれば、「統計的に有意な差がある」**と判定します。

ではp値はどうやって計算するのでしょうか。評価したいデータの形に応じて、主に2つのやり方があります。カイ二乗検定とt検定です。それぞれ詳しく見ていきましょう。

### カイ二乗検定：比率を比べたいときに使う

CVRや離脱率のような「比率」を比べたいときは、カイ二乗検定を使ってp値を計算します。

具体例で見てみましょう。旧ページに100人を案内して10人がコンバージョン（CVR10%）、新ページに100人を案内して13人がコンバージョン（CVR13%）したとします。新ページのほうが良さそうに見えますが、もしかしたら偶然かもしれません。ここで計算するのが、「**新ページに本当は効果がなかったとしても、3%の差が偶然出てしまう確率**」、これがp値です。

このように計算します。もし新ページに効果がないとしたら、新旧どちらも本当のCVRは同じはず。だとすると、旧ページで100人ずつのテストを2回やったとき、2回の間にCVRが3%以上ズレる確率を計算すれば、偶然3%の差が出てしまう確率を計算したことになります。ちなみに今回の例では、その確率は約50%になります。これがp値です。

p値が約50%なので、「新ページのほうが良いとは断言できない」というのが統計的な結論になります。CVRが3%も違うのに意外に思うかもしれませんが、サンプル数が100人ずつだと、この程度の差は偶然でも頻繁に出てしまうということです。ABテストでよく出てくる「比率」には、CVR以外にも、クリック率、開封率、回答率、リテンション率などがあります。これらはすべてカイ二乗検定の対象です。

### t検定：平均値を比べたいときに使う

滞在時間、点数など、平均値を比べたいときは、t検定を使ってp値を計算します。

こちらも具体例で見てみましょう。研修を受けた20人の業務遂行時間が平均40分、受けなかった20人が平均50分だったとします。研修によって10分短縮されたように見えますが、やはり偶然かもしれません。ここで計算するのが、「**研修に本当は効果がなかったとしても、10分の差が偶然出てしまう確率**」、これがp値になります。

計算方法はこうです。もし研修に効果がないとしたら、研修を受けた20人と受けなかった20人は同じ集団からのサンプルのはず。だとすると、同じ集団から20人ずつ2回サンプルを取ったとき、2回の平均が10分以上ズレる確率を計算します。

ここで重要になるのが、データのばらつきです。両グループとも全員が38〜42分や48〜52分のように狭い範囲に集まっていれば、10分の差は偶然では起きにくく、p値は小さくなります。逆に20〜70分のように広くばらついていれば、10分の差は偶然でも出やすく、p値は大きくなります。サンプル数が多いほど、小さな差でも検出できるようになるのはカイ二乗検定と同じです。

## 多重比較問題：検定を繰り返すと偶然が積み上がる

さて、ここまでの内容を理解すると、「カイ二乗検定またはt検定でp値を出して、0.05未満なら効果あり」という運用ができそうに思えます。しかし、もう一つ重要な注意点があります。それが**多重比較問題**です。

検定を何度も繰り返すと、偶然都合のいい結果が出てしまう確率が積み上がっていきます。1回の検定で「有意になる」確率が5%であれば、20回繰り返すと、少なくとも1回は偶然有意になる確率は約64%にもなります。たくさんの指標を繰り返し追いかけて「何か有意なもの」を探せば、ほぼ確実に何か見つかってしまうのです。

これは実務でよく起こる罠です。

-   ABテストでCVR、客単価、滞在時間、離脱率など複数指標を一度に検定する
-   全体だけでなく、年代別・性別・地域別などサブグループに分けて検定する
-   テスト期間中に毎日結果を確認し、有意になったタイミングで判定する

これらはすべて多重比較に該当します。検定の種類が同じでも違っても、検定の回数が増えれば対象になります。

## 多重比較問題への対処

要するに、何回も検定するときは、p<0.05(5%)よりもっと厳しい基準で判定しないといけません。**常に「5%」で評価するのではなく、状況に応じたしきい値を設定すべき**なのです。

代表的な対処法が、Holm-Bonferroni法です。p値を小さい順に並べて、段階的に厳しい基準で判定していく手法で、検定数がそこまで多くない実務の場面では定番として使えます。具体的な手順を、4つの指標を同時に検定したケースで見てみましょう。CVR、客単価、滞在時間、離脱率の4つを検定して、それぞれp値が出たとします。

まず、p値を小さい順に並べます。

| 
順位

 | 

指標

 | 

p値

 |
| --- | --- | --- |
| 

1

 | 

CVR

 | 

0.008

 |
| 

2

 | 

滞在時間

 | 

0.020

 |
| 

3

 | 

客単価

 | 

0.030

 |
| 

4

 | 

離脱率

 | 

0.040

 |

一見すべてのp値が0.05未満なので、どれも優位に見えます。しかし、検定を複数繰り返しているので、偶然このような結果になっているリスクを考えなければいけません。そこで、それぞれの指標に「5%」より厳しい条件を再計算します。具体的には、一般的な有意水準である0.05を「検定数 - 順位 + 1」で割ります。

| 
順位

 | 

指標

 | 

p値

 | 

計算式

 | 

調整した基準

 |
| --- | --- | --- | --- | --- |
| 

1

 | 

CVR

 | 

0.008

 | 

0.05 ÷ (4-1+1) = 0.05/4

 | 

0.0125

 |
| 

2

 | 

滞在時間

 | 

0.020

 | 

0.05 ÷ (4-2+1) = 0.05/3

 | 

0.0167

 |
| 

3

 | 

客単価

 | 

0.030

 | 

0.05 ÷ (4-3+1) = 0.05/2

 | 

0.025

 |
| 

4

 | 

離脱率

 | 

0.040

 | 

0.05 ÷ (4-4+1) = 0.05/1

 | 

0.05

 |

重要なのは、ある順位で基準を超えたら、それ以降の指標もすべて「有意ではない」と判定することです。今回の例では、滞在時間で止まったので、客単価と離脱率はもとのp値が0.05未満であっても、有意とはみなしません。つまり、補正なしならすべて有意になっていた4指標のうち、補正後はCVRだけが有意と判定されます。多重比較によって偶然有意になっていた指標が、ここで除外される仕組みです。

ただし、補正よりも先に意識したいのが、多重比較を発生させない運用ルールです。テスト開始前に判定する主要指標を1つに絞り、その指標が有意かどうかで施策の採否を判定する。その他の指標は参考情報として扱い、有意性検定の対象にしない。これだけで多重比較問題の多くは回避できます。

## 全体の流れを整理する

施策の効果をデータから判断するときの基本フローは、次の3ステップです。

1.  データを取る
2.  データの形に応じて、t検定かカイ二乗検定でp値を計算する
3.  多重比較問題に気をつける（主要指標を1つに絞る、または補正をかける）

シンプルですが、この3つを押さえれば、相関だけで施策を判断していた状態から大きく前進できます。

## おわりに

データから施策の効果を判断するためには、相関を見るだけでは不十分です。「偶然ではない」と言える根拠を、検定とp値で確かめる必要があります。さらに、複数の指標や時間軸で検定を繰り返す場合は、多重比較問題への配慮も欠かせません。

これらの考え方は、統計の専門家でなくても押さえておきたい基礎です。実務でデータに基づいた意思決定を行う場面が増えるほど、その重要性は高まっていきます。一つひとつの判定の根拠を丁寧に確かめる姿勢が、データドリブンな組織運営の土台になります。

---

出典: スタディメーター株式会社 — https://studymeter.jp/insights/8zz3tfa1m6

執筆者プロフィール: スタディメーター株式会社　代表取締役。オンライン学習サービス「Udemy」にて、非エンジニア向けの分かりやすく実践的なIT講座がベストセラーとなり、 これまでに25万人以上を指導。さらに活動の幅を広げるため、2020年にスタディメーター株式会社を創業。 「挑戦したくなる世界」の実現を目指して、新しい一歩を踏み出したい人のサポートに取り組んでいます。
