Search on the blog

2011年11月21日月曜日

サーバー奮闘記(17) Hadoopインストール

"stone setting" by angela7dreams

 Hadoop(最新安定ver 0.20.203)試してみました。Pseudo-Distributedモードでexampleをいくつか動かしてみました。ほとんど公式ホームページにあるとおりにやればOKですが、いくつかひっかかったところがあったので、メモしておきます。

[SSHのオプション]
SSHのポートをデフォルトの22以外にしている場合は設定ファイルにsshのオプションを設定。

(例:ポート1234の場合)
conf/hadoop-env.sh に以下追記。
export HADOOP_SSH_OPTS="-p 1234"

[Webインターフェース]
NameNode、JobTrackerのステータス確認用のwebインターフェース

http://localhost:50070/
http://localhost:50030/

があって、プラスα的な機能かなと勝手に思い込んでいたら、このページを開かないとhdfsがきちんと機能しないらしい。

[データ保存領域の設定]
Ubuntuだと再起動後に、dfsのテンポラリーディレクトリに保存したファイルが消えてしまいます。保存先をデフォルトのtmpから変更してあげればOKです。
conf/core-site.xmlに以下の設定を追記。

<property>
<name>hadoop.tmp.dir</name>
<value>/home/kenji/hadoop-data</value>
<description>hadoopのデータ保存領域</description>
</property>

[example実行]
bin/hadoop jar hadoop-examples-0.20.203.0.jar xxxx
とする。xxxxは実行したいサンプル。
wordcountを実行したい場合は、
bin/hadoop jar hadoop-examples-0.20.203.0.jar wordcount input output
のようにする。

0 件のコメント:

コメントを投稿