Tech Tips: サーバー奮闘記（17） Hadoopインストール

2011年11月21日月曜日

　Hadoop（最新安定ver 0.20.203）試してみました。Pseudo-Distributedモードでexampleをいくつか動かしてみました。ほとんど公式ホームページにあるとおりにやればOKですが、いくつかひっかかったところがあったので、メモしておきます。

[SSHのオプション]

SSHのポートをデフォルトの22以外にしている場合は設定ファイルにsshのオプションを設定。

（例：ポート1234の場合）

conf/hadoop-env.sh に以下追記。

export HADOOP_SSH_OPTS="-p 1234"

[Webインターフェース]

NameNode、JobTrackerのステータス確認用のwebインターフェース

http://localhost:50070/

http://localhost:50030/

があって、プラスα的な機能かなと勝手に思い込んでいたら、このページを開かないとhdfsがきちんと機能しないらしい。

[データ保存領域の設定]

Ubuntuだと再起動後に、dfsのテンポラリーディレクトリに保存したファイルが消えてしまいます。保存先をデフォルトのtmpから変更してあげればOKです。

conf/core-site.xmlに以下の設定を追記。

<property>
    <name>hadoop.tmp.dir</name>
    <value>/home/kenji/hadoop-data</value>
    <description>hadoopのデータ保存領域</description>
</property>

[example実行]

bin/hadoop jar hadoop-examples-0.20.203.0.jar xxxx

とする。xxxxは実行したいサンプル。

wordcountを実行したい場合は、

bin/hadoop jar hadoop-examples-0.20.203.0.jar wordcount input output

のようにする。

Tech Tips