Search on the blog

2015年5月25日月曜日

PandasでCSVを読んでmatplotlibでプロット

 機械学習をするときに、抽出した特徴量の優劣を”見える化”できると便利だよねということでやってみた。

準備
CSVデータを用意する。中身は以下のようなかんじ。

x,label
.....
6.560467,1.000000
6.568159,-1.000000
6.569093,-1.000000
6.588300,-1.000000
6.618156,-1.000000
6.625502,1.000000
6.656761,-1.000000
6.670651,1.000000
6.679807,1.000000
.....

ソースコード
import pandas as pd
import matplotlib.pyplot as plt
 
data = pd.read_csv("/home/kenjih/tmp/train.csv")

print data
 
x1 = data[data['label'] == 1]['x']
x2 = data[data['label'] == -1]['x']
 
plt.hist(x1.as_matrix(), bins=30, histtype='stepfilled', normed=True, color='b', alpha=0.5, label='positive')
plt.hist(x2.as_matrix(), bins=30, histtype='stepfilled', normed=True, color='r', alpha=0.5, label='negative')

plt.xlabel("x")
plt.ylabel("probability")
plt.legend()
plt.show()

結果

0 件のコメント:

コメントを投稿