Translate

2020年3月21日土曜日

◆2群の平均値の差のt検定と統計的検定の考え方が簡単にわかるまとめ:ABテストにも役立つ統計的検定の考え方

ふだんの生活では、統計的検定などはめったに利用しないので、いざ、t検定を行う必要がある場合、帰無仮説、対立仮説、P値、有意水準、t分布などについて、その都度調べ直したりしていました。

以下では、「2群の平均値の差のt検定」を行う場合に理解しておきたいことを備忘録としてまとめました。

最低限、理解しておきたいことは、統計的仮説検定のロジック・考え方と検定統計量「t値」の求め方や「t分布」などだと思います。

計算自体は、統計ソフトで簡単に結果が出ます。

R言語では、下記の1行のコードでt検定ができます。

 t.test(GroupA,GroupB,var.equal=F,paired=F)

特に、わかりにくいのは、統計的仮説検定のロジック・考え方だと思います。「帰無仮説」と「対立仮説」の意味とかはわかりにくいです。

とにかく、「2群の平均値の差のt検定」を行う必要が出てきた時に、等分散の検定(F検定)、片側検定にするかどうかといったことも必要だったりしますが、少なくとも以下の内容は知っておきたいと思います。

【統計的仮説検定の考え方】

まず、「帰無仮説」と「対立仮説」を設定します。

2群の平均値の差の検定の場合、「帰無仮説」は、「2群の平均値には差がない」。「対立仮説」は「2群の平均値には差がある」ということになります。

「帰無仮説」が正しいとした場合に、「得られたデータの差」が起きる確率を求めます。

検定のロジックとしては、もし、得られたデータの差以上の差が生じる確率が非常に小さい(例えば0.05以下)場合には、「帰無仮説」を採用するよりも、「対立仮説」を採用した方がいいのではないかと考えます。

つまり、「めったに起きないはずの大きさの差が生じている」ので、「帰無仮説(差がない)」を採用するよりも、「対立仮説(差がある)」を前提として考えた方がよさそうである、と考えるわけです。

逆に、「得られたデータの差」が生じる確率が大きい場合には、「得られたデータの差」くらいの差はよくあることだ、と解釈できるので、あえて「差がある」とまでは言えないのではないか、と考えるわけです。

検定は、「差がある」のかどうかを保証しているわけではなく、確率的に「めったに起きないようような差」が生じているのかどうかを示しているだけです。

t検定の場合、この「得られたデータの差が生じる確率」を求める際に利用するのがt分布です。

ベイジアン統計の検定では、差がある「確率」がわかるので、ベイジアン統計の方が検定結果の解釈が単純明快だったりします。

【検定統計量t値とt分布】

では、具体的に「データの差以上の差が生じる確率」はどのように求めるのでしょうか。

t検定では、検定統計量である「t値」を計算し、そのt値が得られる確率をt分布から求めます。

t値を求める式の分子は、「平均値の差」です。したがって、平均値の差が大きいとt値も大きくなります。

一方、t値を求める式の分母は、分散をn数で割ったものです。したがって、分散が小さい(バラツキが小さい)とt値は大きくなります。また、n数が大きいとt値は大きくなります。

逆に、分散が大きい場合は、t値は小さくなります。また、n数が小さいとt値は小さくなります。

このように、比較するデータの差だけでなく、分散やn数の大きさもt値に反映されます。つまり、平均値の差が大きくても、n数が小さかったり、分散が大きいデータだったりすると、t値は小さくなります。

n数を大きくすれば、P値を小さくできる(有意な結果が得られる)というのは、以上のような計算式の仕組みによるものです。

自由度(m+n-2)からt分布が定まり、t分布にt値をあてはめて、P値を得ます。

P値が0.05や0.01の基準値(基準値は検定前に決めておく)よりも小さい場合には、帰無仮説を棄却して、「統計的な有意差がある」といった判断になります。




 
------------------------------------------------------------------------------
-------------------------------------------------------------------

--------------------------------------------------------------------

0 件のコメント:

コメントを投稿