悩んだところ
- ピマ・インディアンデータのROCカーブの説明が間違ってるのでは?と思ったら、病気の人は陰性、健康な人は陽性というデータ定義だったらしい(つまり病気の検査をするときの一般的な陽性・陰性の定義と逆だった)。よく見ると注釈に書いていた。
- 共分散行列の固有ベクトル方向にデータを回転して、固有値でスケーリングする技は知っていたが、「白色化」という名前を初めて知った。
- 独立であることと、相関がないことは同値ではないらしい。独立なら相関はないが、相関がないからといって独立とは限らない。
- マハラノビス距離は知っていたが多次元正規分布の指数の部分に現れているのは気づかなかった。確かに指数の部分はxが現れる確率密度を表すものなのでマハラノビス距離が遠いものは現れにくいということに対応している。
- 最尤推定を使った正規表現のパラメータ推定は1回は自分でちゃんと計算しておいた方がよい。
- 正規分布を使った識別関数が、条件を加えることで、二次局面、線形、最近傍法と変化する話が面白かった。
- 2つのクラスの共分散行列は同じと仮定しないといけない場合、一般にはそうでないことが多い。そのような場合は、クラスをまとめたものを共通の共分散行列として使うといいらしい。
Pythonで白色化をしてみた。
import numpy as np import pandas from matplotlib import pyplot as plt mean = [0.0, 0.0] sigma = [[1, 2], [2, 5]] data = np.random.multivariate_normal(mean, sigma, 300) x, y = data.T plt.plot(x, y, 'o')
df = pandas.DataFrame(data) u = df.mean() sigma = df.cov() lam, S = np.linalg.eig(sigma) assert np.linalg.norm(np.dot(np.dot(S.T, sigma), S) - np.diag(lam)) < 1e-9 whitening = np.dot(np.diag(lam**(-1/2)), S.T) data_whitened = np.dot(whitening, (df - u).T).T x, y = data_whitened.T plt.plot(x, y, 'o') Out[88]:
理解度チェックリスト
- データの前処理についてそれぞれの手法を説明せよ。
- 標準化
- 無相関化
- 白色化
- パラメトリックモデルとノンパラメトリックモデルの違いは?
- 多次元正規分布に従うn個のデータを使って、分布のパラメータを最尤推定せよ。
0 件のコメント:
コメントを投稿