Machine Morning

機械学習やWebについて学んだことを記録しています。

標準誤差とは

今回は標準誤差について取り上げる。標準偏差との違いがいまいちわからないという人もいると思うが、これらはまったくの別物であり、推定や検定を理解する上で非常に大切なものである。ただし、ここで扱う標準誤差とはSEM(standard error of the mean)、すなわち標本平均の標準偏差のことである。ある統計量を指して標準誤差ということもあるので一応断っておく。

以前標本平均の分散はなぜサンプルサイズnで割るのか - Machine Morningという記事で標本平均について確認した。今回はその標本平均の標準偏差(=標準誤差)の求め方を紹介する。といっても以前の記事で標本平均の分散まで求めているので、そこまで理解していれば標準誤差を求めるのは簡単である。

標準誤差とは、標本平均の標準偏差である。標本平均は、サンプリングを繰り返し行った標本の平均だ。一度のサンプリングで得た標本の平均ではなく、繰り返しサンプリングを行い、何度も得た標本の平均を求めたものの平均である。

標準誤差の求め方は、以前求めた標本平均の分散の平方根を取ったものである。

 SE=\sqrt {\dfrac {\sigma ^{2}}{n}}=\dfrac{\sigma}{\sqrt{n}}

標準誤差の \dfrac{\sigma}{\sqrt{n}}だけ見ると、なぜ標準偏差 \sigma {\sqrt{n}}で割っているのかと疑問に思うかもしれないが、標本平均の分散の平方根を取ったものと理解していれば納得できるはずである。

信頼区間の幅は標本の数が大きくなるに連れて幅が小さくなり、 \dfrac{1}{\sqrt{n}}のオーダーで0に収束する。

サンプルサイズが100あれば \dfrac{1}{\sqrt{100}}=\dfrac{1}{10}、100,000,000あれば \dfrac{1}{\sqrt{100,000,000}}=\dfrac{1}{10,000}で標準誤差は小さくなる。

標準偏差との違いは、標準偏差は単にデータのばらつきを示すものだが、標準誤差は母集団から得られた標本から推定した推定量のばらつきを示すものだ。したがって標準誤差は母集団の真のパラメータを推定する際に用いられるため、区間推定や検定をする際に重要なものである。