Search on the blog

2015年5月5日火曜日

特徴量の重要性

 2,3日前からKaggleのコンテストに参加している。
最近はMachine Learningのライブラリが充実しているので、各アルゴリズムの詳しい知識がなくても識別問題を解くことが出来る。こうなってくると、どのような特徴量を用いるかが重要なファクターになってくると思う。

 機械学習の専門家、Kaggleのトップランカーたちはどのように考えているのか調べてみた[1, 2]のでざっくりとまとめておく。
  • 応用的な機械学習とは、基本的に、素性エンジニアリングである。
  • 問題のドメインについて詳しくなければ、その分野の領域の論文に目を通して既知の重要な特徴量について知る必要がある。
  • 出来るだけたくさんの特徴量を生成して、それから、特徴選択・優先付アルゴリズムを用いて不要な特徴量は削除する。
  • 状況に応じてだが、通常は過少な特徴量よりも過多な特徴量の方がよい。多くのアルゴリズムは何が重要で何が不要かを判断してくれる。
  • データの下調べと素性エンジニアリングが最終的な結果に最も影響を与えるものだ。
やはり特徴量を考察するフェーズは重要だと認識されている。無意味な特徴量を挙げることに不安があったが、これを見る限りだと気にしなくてよさそうだ。

 これを受けて特徴量の考察にかける時間を意識的に増やそうと思う。きちんとスケジュールを立てて、最初の何週までは論文読み、次の何週までは特徴量の考察、...のように。

参考
[1] Feature engineering - Wikipedia, the free encyclopedia
[2] What do top Kaggle competitors focus on?

0 件のコメント:

コメントを投稿