以下では、「2群の平均値の差のt検定」を行う場合に理解しておきたいことを備忘録としてまとめました。
最低限、理解しておきたいことは、統計的仮説検定のロジック・考え方と検定統計量「t値」の求め方や「t分布」などだと思います。
計算自体は、統計ソフトで簡単に結果が出ます。
R言語では、下記の1行のコードでt検定ができます。
t.test(GroupA,GroupB,var.equal=F,paired=F)
特に、わかりにくいのは、統計的仮説検定のロジック・考え方だと思います。「帰無仮説」と「対立仮説」の意味とかはわかりにくいです。
とにかく、「2群の平均値の差のt検定」を行う必要が出てきた時に、等分散の検定(F検定)、片側検定にするかどうかといったことも必要だったりしますが、少なくとも以下の内容は知っておきたいと思います。
【統計的仮説検定の考え方】
まず、「帰無仮説」と「対立仮説」を設定します。2群の平均値の差の検定の場合、「帰無仮説」は、「2群の平均値には差がない」。「対立仮説」は「2群の平均値には差がある」ということになります。
「帰無仮説」が正しいとした場合に、「得られたデータの差」が起きる確率を求めます。
検定のロジックとしては、もし、得られたデータの差以上の差が生じる確率が非常に小さい(例えば0.05以下)場合には、「帰無仮説」を採用するよりも、「対立仮説」を採用した方がいいのではないかと考えます。
つまり、「めったに起きないはずの大きさの差が生じている」ので、「帰無仮説(差がない)」を採用するよりも、「対立仮説(差がある)」を前提として考えた方がよさそうである、と考えるわけです。
逆に、「得られたデータの差」が生じる確率が大きい場合には、「得られたデータの差」くらいの差はよくあることだ、と解釈できるので、あえて「差がある」とまでは言えないのではないか、と考えるわけです。
検定は、「差がある」のかどうかを保証しているわけではなく、確率的に「めったに起きないようような差」が生じているのかどうかを示しているだけです。
t検定の場合、この「得られたデータの差が生じる確率」を求める際に利用するのがt分布です。
ベイジアン統計の検定では、差がある「確率」がわかるので、ベイジアン統計の方が検定結果の解釈が単純明快だったりします。
【検定統計量t値とt分布】
では、具体的に「データの差以上の差が生じる確率」はどのように求めるのでしょうか。t検定では、検定統計量である「t値」を計算し、そのt値が得られる確率をt分布から求めます。
t値を求める式の分子は、「平均値の差」です。したがって、平均値の差が大きいとt値も大きくなります。
一方、t値を求める式の分母は、分散をn数で割ったものです。したがって、分散が小さい(バラツキが小さい)とt値は大きくなります。また、n数が大きいとt値は大きくなります。
逆に、分散が大きい場合は、t値は小さくなります。また、n数が小さいとt値は小さくなります。
このように、比較するデータの差だけでなく、分散やn数の大きさもt値に反映されます。つまり、平均値の差が大きくても、n数が小さかったり、分散が大きいデータだったりすると、t値は小さくなります。
n数を大きくすれば、P値を小さくできる(有意な結果が得られる)というのは、以上のような計算式の仕組みによるものです。
自由度(m+n-2)からt分布が定まり、t分布にt値をあてはめて、P値を得ます。
P値が0.05や0.01の基準値(基準値は検定前に決めておく)よりも小さい場合には、帰無仮説を棄却して、「統計的な有意差がある」といった判断になります。
------------------------------------------------------------------------------
--------------------------------------------------------------------
0 件のコメント:
コメントを投稿