正規分布のパラメータnp, np(1-p)はそれぞれもとの二項分布の平均、分散である。
”nが十分に大きい”というのはアバウトな表現だが、一般にnp>5, n(1-p)>5を満たせば十分に大きいと考えてよい。
という話を実際にグラフに書いて確かめてみた。
from math import sqrt import numpy as np import matplotlib.pyplot as plt from scipy.stats import binom, norm p = 0.1 # plot binomial distribution ns = [10, 30, 50] colors = ['r', 'g', 'b'] for i in range(len(ns)): n = ns[i] c = colors[i] xs = np.arange(0, 20+1) ys = binom.pmf(xs, n, p) plt.plot(xs, ys, color=c, label="binom n={sample_n}".format(sample_n=n)) #plot normal distribution n = 50 xs = np.linspace(0.0, 20, 100) ys = norm.pdf(xs, loc=n*p, scale=sqrt(n*p*(1-p))) plt.plot(xs, ys, color='k', linestyle='--', label="approximate norm n=50") plt.legend() plt.show()
下が表示されたグラフ。
この場合、np>5, n(1-p)>5を満たすnは50。n=50になると分布の形がほぼ釣鐘型になっているのが分かる。また、黒の点線で表示した正規分布で近似できている。
0 件のコメント:
コメントを投稿