Search on the blog

2015年7月9日木曜日

Pythonでレーベンシュタイン距離を計算

  levenというライブラリを使うとレーベンシュタイン距離(編集距離)を簡単に計算出来る。
文章データのfeature engineeringをするときに使えそう。
from leven import levenshtein

print levenshtein("abcd", "acd")  # dist=1
print levenshtein("ab", "abcd")   # dist=2
print levenshtein("hoge", "hige") # dist=1
ちなみにレーベンシュタイン距離は動的計画法の有名問題の一つ。自分で解いたこと無い人は解いてみると面白いかもしれない。

0 件のコメント:

コメントを投稿