分散と言えば、「平均値からのずれの二乗の平均」だと思っていたけど、分散には二種類あるみたい。
今まで分散と読んでいたものは、厳密には「標本分散(the biased sample variance)」と呼ばれるものだったらしい。これは英語名が表しているように標本サンプルに偏った分散だ。
この標本分散とは別に、不偏分散(the unbiased sample variance)と呼ばれる分散が存在する。統計学の世界で不偏分散の方がよく利用されるらしい。
標本分散は平均値からのずれの二乗和をnで割るのに対して、不偏分散では(n-1)で割る。はて、これは何ぞや??ということで調べてみた。
統計学では、母集団の真の分散を直接計算することは難しいため(母集団大きすぎる場合)、いくつかのデータをサンプリングして分散を計算する。標本分散はこのサンプリングされたデータの分散であって母集団の真の分散とは異なる。
では、母集団の分散を求めるにはどうするかというと、いくつかの異なるサンプリングを行ってそれらの標本分散の平均値を求めるとよい。
標本をy_1, y_2, ..., y_nとすると、この標本に対する標本分散は、σy2 = 1/n * Σ (yi - E(y))2となる。σy2は標本の取り方に依存して変化するので、実際の母集団の分散に近い値をえるためにこの値の平均値を考える。
これを計算すると、
E(σy2) =(n-1)/n * σ2
となる[1]。ここで、σ2は母集団の分散。
上の式から分かるように、標本分散(の平均値)と母集団の分散は一致しない。これを補正するために用いられるのが、不偏分散である。
不偏分散は、標本分散をn/(n-1)倍して、
s2 = n / (n-1) * σy2 = 1/(n-1) * Σ (yi - E(y))2
と表される。なるほど。これが(n-1)で割る理由か。
[1] http://en.wikipedia.org/wiki/Variance#Sample_variance
0 件のコメント:
コメントを投稿