Tech Tips
Page List
(移動先: ...)
Entries
Resume
Apps
Words
▼
2015年7月21日火曜日
scikit-learn(5) Gradient Boosting
›
以前から気になっていたGradient Boostingについて勉強した。 Kaggleのトップランカーたちを見ていると、SVM、Random Forest、Neural Network、Gradient Boostingの4つをstackingして使っていることが多い。S...
2015年7月19日日曜日
Normalized compression distanceとNormalized Google distance
›
文章間の類似度を測るおもしろい指標を発見したので、メモ。 Normalized compression distance 1つ目は Normalized compression distance(NCD) 。日本語でいうと正規化圧縮距離。 アイデアを簡単にいう...
2015年7月9日木曜日
文字間の距離をいろいろ試せるライブラリ
›
最近参加したKaggleのコンテストで TF-IDF の cosine similarity や BM25 というテキスト間の距離概念を知った。他にもテキスト間の距離が存在していて、Pythonの Distance というライブラリを使うと簡単に計算できる。 このライブラリ...
2015年7月8日水曜日
Pythonでレーベンシュタイン距離を計算
›
leven というライブラリを使うとレーベンシュタイン距離(編集距離)を簡単に計算出来る。 文章データのfeature engineeringをするときに使えそう。 from leven import levenshtein print levenshtein (...
2015年6月14日日曜日
Facebook Recruiting IV: Human or Robot?
›
Kaggleの”Facebook Recruiting IV: Human or Robot?”の参加記を書こうと思います。 problem オークションサイトの活動状況を見て、ユーザーが人間かボットかを判定する。 ユーザーが参加したオークション、入札時間、ユーザーが...
2015年6月13日土曜日
PyplotでGradient Descentを可視化
›
目的関数を三次元グラフにプロット 以下では、目的関数をz = 2x 2 + 5y 2 - 4xyとする. まず目的関数をグラフ表示してみる. from mpl_toolkits . mplot3d import axes3d import matplotl...
2015年6月7日日曜日
scikit-learnで線形回帰
›
単純な線形回帰 まず簡単な例から。 y = 3 x + 1 + err という特性を満たすデータからサンプリングを行い、xとyの関係を求める。 ただし、err ~ N(0, 0.1 2 )とする。 import numpy as np import matp...
‹
›
ホーム
ウェブ バージョンを表示