這篇主要是我從"Hadoop技術手冊"的附錄A,如仃安裝Hadoop的筆記。
環境是使用ubuntu12.10安裝,不過其他版本安裝方式應該都一樣。
1. 基本安裝
首先,先確定系統上已經有安裝JDK,沒有的話,可以參考另一個筆記,"ubuntu安裝JDK"。
接著到hadoop的官網下載(http://hadoop.apache.org/),
我下載的是hadoop-2.3.0.tar.gz。
接著,
tar zxf hadoop-2.3.0.tar.gz 解壓縮到使用者家目錄下(本例為/home/cgm)。
這時在/home/cgm底下,應該會看到hadoop-2.3.0資料夾。
接下來開始設定一些環境變數。
1. JAVA_HOME
export JAVA_HOME=/usr/lib/jvm/java-8-oracle/ (因為我是安裝java8,視不同的版本會有不同路徑)
2. 設定hadoop執行檔路徑
export HADOOP_INSTALL=/home/cgm/hadoop-2.3.0
export PATH=$PATH:$HADOOP_INSTALL/bin:$HADOOP_INSTALL/sbin
(以上環境變數可以設定在~/.bashrc,讓設定不會因為重開就消失)
最後,測試設定是否正確,輸入 "hadoop version",設定都正確的話,應該會看到一些相關資訊。
2. 偽分散模式
因為測試上,有可能會需要模擬分散模式,所以可以在hadoop的設定上做些手腳,來開啟偽分散模式。
在hadoop-2.3.0/etc/hadoop可以看到三個xml檔,分別為"core-site.xml"、"hdfs-site.xml"及"mapred-site.xml(記得把-template拿掉)"
在core-site.xml中,
<configuration>
<property>
<name>fs.default.name</name>
</property>
</configuration>
在hdfs-site.xml中,
<configration>
<property>
<name>dfs.replication</name>
<value>1</value>
</property>
</configuration>
在mapred-site.xml
<configuration>
<property>
<name>mapred.job.tracker</name>
</property>
</configuration>
3. 設定SSH
sudo apt-get install ssh
ssh-keygen -t rsa -P ' ' -f ~/.ssh/id_rsa
cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys
測試一下 ssh localhost
4. 格式化HDFST檔案系統
hadoop namenode -format
5.開啟與關閉背景服務
start-dfs.sh
start-mapred.sh
stop-dfs.sh
stop-mapred.sh
留言列表