Tech Tips: LDAで日経225企業をクラスタリングする

　最近LDAという言葉をよく聞くので、LDAを使って何かをやってみることにした。
とりあえず使ってみることを重視するため、深い/細かい話には立ち入らない。

LDAとは？

Latent Dirichlet Allocationの略。
トピックモデルの一種。
ドキュメントは複数のトピックから成り立っていると仮定。
入力=ドキュメント集合、出力=各ドキュメントのトピック分布、各トピックの語句分布

やること

日経225の企業をwikipediaの文章を元にクラスタリングする。

事前準備として、225銘柄一覧に記載されている企業のwikiページのHTMLを取得しておく。HTMLはhtml/配下に企業名.htmlというファイル名で格納しておく。

$ ls html | head -n 10
ANAホールディングス.html
DOWAホールディングス.html
IHI.html
J.フロント リテイリング.html
JFEホールディングス.html
JXホールディングス.html
KDDI.html
MS&ADインシュアランスグループホールディングス.html
NTN.html
NTTデータ.html

前処理

html/配下に格納されたHTMLを前処理して、text/配下に格納する。

行った前処理は以下のとおり。

Javascript/CSSの記述削除
HTMLタグの除去
MeCabで分かち書き

# -*- coding: utf-8 -*-

import os
from bs4 import BeautifulSoup
import MeCab

for f_name in os.listdir('html'):
    f_path = 'html/' + f_name
    with open(f_path, 'r') as f:
        data = f.read()
        soup = BeautifulSoup(data, 'lxml')
        for script in soup.find_all('script'): script.decompose()
        for script in soup.find_all('style'): script.decompose()
        text = soup.getText()
        text = [line for line in text.splitlines() if line]
        text = '\n'.join(text)

        tagger = MeCab.Tagger('-Owakati')
        wakati_text = tagger.parse(text.encode('utf-8'))    

        t_path = 'text/{name}.txt'.format(name = os.path.splitext(f_name)[0])
        open(t_path, 'w').write(wakati_text)

LDAモデルの学習
前処理したテキストを使ってLDAモデルを学習する。

Dictionaryの作成（tokenのid化、document ごとのtokenの頻度計算など）
汎用的な語句（60%以上のドキュメントで使われる語句）の除去
bag of words形式の行列作成
LDAモデルの構築
ドキュメント-トピック配分の行列を作成し保存

import logging
import os
import pickle
import gensim

logging.basicConfig(format='%(asctime)s : %(levelname)s : %(message)s', level=logging.INFO)
TOPIC_NUM = 30

texts = [file('text/' + f_name, 'r').read().split() for f_name in os.listdir('text')]
dictionary = gensim.corpora.Dictionary(texts)
dictionary.filter_extremes(no_below=1, no_above=0.6, keep_n=None)
corpus = [dictionary.doc2bow(text) for text in texts]
lda = gensim.models.ldamodel.LdaModel(corpus, num_topics=TOPIC_NUM, id2word = dictionary, passes=20)

topics = []
for c in corpus:
    topic = [0] * TOPIC_NUM
    for (tpc, prob) in lda.get_document_topics(c):
        topic[tpc] = prob
    topics.append(topic)

pickle.dump(topics, open("topics.p", "w"))

クラスタリング
トピック配分を特徴量としてK−meansでクラスタリング。

特徴量のL2ノルム正規化
K-meansの学習
ドキュメントのクラスタリング

# -*- coding: utf-8 -*-

import pickle
import os
from sklearn.preprocessing import Normalizer
from sklearn.cluster import KMeans

N_CLUSTER = 20

xs = pickle.load(open('topics.p', 'r'))
ys = [os.path.splitext(f_name)[0] for f_name in os.listdir('text')]

xs = Normalizer().fit_transform(xs)
kmeans = KMeans(n_clusters=N_CLUSTER, init='k-means++', max_iter=100, n_init=1)
kmeans.fit(xs)
clusters = kmeans.predict(xs)

for i in range(N_CLUSTER):
    text = 'cluster {clr}:'.format(clr = i)
    companies = [y for k, y in enumerate(ys) if clusters[k] == i]
    print text + " ".join(companies)

結果
それっぽく分かれているところを色つけしてみた。

cluster 0: SUMCO りそなホールディングスオークマクラレコニカミノルタサッポロホールディングストクヤマユニチカ三井化学三井造船三井金属鉱業三菱マテリアル双日商船三井大林組宇部興産帝人日新製鋼日本製紙日本製鋼所日東電工日立造船昭和電工東レ東宝 => 三井グループ

cluster 1: JXホールディングス MS&ADインシュアランスグループホールディングスアステラス製薬アドバンテスト三井住友トラスト・ホールディングス信越化学工業国際石油開発帝石大和証券グループ本社太平洋セメント損保ジャパン日本興亜ホールディングス日本水産日産化学工業

cluster 2: KDDI NTTドコモアマダホールディングスディー・エヌ・エーデンソーブリヂストン京王電鉄宝ホールディングス富士通東海カーボン => 携帯電話関連

cluster 3: オリンパスキッコーマンセブン&アイ・ホールディングスマルハニチロ三井物産明治ホールディングス清水建設王子ホールディングス

cluster 4: IHI J.フロントリテイリングふくおかフィナンシャルグループニチレイ三菱UFJフィナンシャル・グループ三菱商事三越伊勢丹ホールディングス千代田化工建設第一生命保険

cluster 5: NTTデータ TDK いすゞ自動車アルプス電気クレディセゾンコナミホールディングスソフトバンクテルモトヨタ自動車トレンドマイクロマツダヤマトホールディングス三菱地所大平洋金属大成建設太陽誘電富士重工業小田急電鉄新日鐵住金日本碍子日本通運日野自動車昭和シェル石油東武鉄道東海旅客鉄道松井証券沖電気工業積水ハウス花王長谷工コーポレーション => 自動車関連、鉄道関連

cluster 6: ミネベア中外製薬味の素大日本住友製薬富士電機日本曹達日本精工日清製粉グループ本社横河電機武田薬品工業

cluster 7: ジェイテクトスカパーJSATホールディングス京成電鉄古河機械金属古河電気工業日本軽金属ホールディングス東日本旅客鉄道東洋製罐グループホールディングス西日本旅客鉄道

cluster 8: TOTO クボタヤマハユニーグループ・ホールディングス中部電力日清紡ホールディングス東京電力横浜ゴム関西電力

cluster 9: カシオ計算機キヤノンミツミ電機凸版印刷富士フイルムホールディングス川崎汽船日本化薬

cluster 10: SCREENホールディングスみずほフィナンシャルグループコムシスホールディングスヤフーリコー三井住友フィナンシャルグループ住友大阪セメント旭硝子東京海上ホールディングス野村ホールディングス電通 => 金融関連

cluster 11: シチズンホールディングスシャープパナソニック北越紀州製紙川崎重工業日立建機旭化成

cluster 12: 伊藤忠商事大阪ガス日本郵船日本電気東京ガス東急不動産ホールディングス

cluster 13: ANAホールディングス DOWAホールディングススズキファナック三菱ケミカルホールディングス住友金属鉱山東京ドーム

cluster 14: イオンジーエス・ユアサコーポレーションソニーソニーフィナンシャルホールディングスデンカニコンファーストリテイリング三井不動産丸井グループ東ソー東京建物東芝高島屋

cluster 15: 三菱重工業丸紅安川電機日本ハム日立製作所本田技研工業東京エレクトロン神戸製鋼所

cluster 16: JFEホールディングスアサヒグループホールディングスダイキン工業日本板硝子日本電信電話日産自動車東邦亜鉛豊田通商

cluster 17: T&Dホールディングスあおぞら銀行セコム千葉銀行新生銀行横浜銀行第一三共静岡銀行 => 銀行関連

cluster 18: エーザイキリンホールディングスフジクラ三菱倉庫三菱自動車工業住友不動産住友化学住友商事住友重機械工業住友電気工業協和発酵キリン大和ハウス工業大日本印刷小松製作所日本たばこ産業日本電気硝子明電舎東京急行電鉄東洋紡荏原製作所鹿島建設 => 住友グループ

cluster 19: NTN パイオニア三菱電機京セラ塩野義製薬日揮資生堂

改善点

他の情報源からもドキュメントを集める
汎用語句の閾値をチューニングする
トピックの数をチューニングする
クラスタの数をチューニングする

Tech Tips

Page List

Search on the blog

2015年12月28日月曜日

LDAで日経225企業をクラスタリングする

0 件のコメント:

コメントを投稿

Blogger Syntax Highliter