close

這篇主要是我從"Hadoop技術手冊"的附錄A,如仃安裝Hadoop的筆記。

環境是使用ubuntu12.10安裝,不過其他版本安裝方式應該都一樣。

1. 基本安裝

首先,先確定系統上已經有安裝JDK,沒有的話,可以參考另一個筆記,"ubuntu安裝JDK"。

接著到hadoop的官網下載(http://hadoop.apache.org/),

我下載的是hadoop-2.3.0.tar.gz。

接著,

tar zxf hadoop-2.3.0.tar.gz 解壓縮到使用者家目錄下(本例為/home/cgm)。

這時在/home/cgm底下,應該會看到hadoop-2.3.0資料夾。

接下來開始設定一些環境變數。

1. JAVA_HOME

export JAVA_HOME=/usr/lib/jvm/java-8-oracle/ (因為我是安裝java8,視不同的版本會有不同路徑)

2. 設定hadoop執行檔路徑

export HADOOP_INSTALL=/home/cgm/hadoop-2.3.0

export PATH=$PATH:$HADOOP_INSTALL/bin:$HADOOP_INSTALL/sbin

(以上環境變數可以設定在~/.bashrc,讓設定不會因為重開就消失)

最後,測試設定是否正確,輸入 "hadoop version",設定都正確的話,應該會看到一些相關資訊。

 

2. 偽分散模式

因為測試上,有可能會需要模擬分散模式,所以可以在hadoop的設定上做些手腳,來開啟偽分散模式。

在hadoop-2.3.0/etc/hadoop可以看到三個xml檔,分別為"core-site.xml"、"hdfs-site.xml"及"mapred-site.xml(記得把-template拿掉)"

在core-site.xml中,

<configuration>

    <property>

        <name>fs.default.name</name>

    </property>

</configuration>

 

在hdfs-site.xml中,

<configration>

    <property>

        <name>dfs.replication</name>

        <value>1</value>

    </property>

</configuration>

 

在mapred-site.xml

<configuration>

    <property>

        <name>mapred.job.tracker</name>

     </property>

</configuration>

 

3. 設定SSH

sudo apt-get install ssh

ssh-keygen -t rsa -P ' ' -f ~/.ssh/id_rsa

cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys

測試一下 ssh localhost

 

4. 格式化HDFST檔案系統

hadoop namenode -format

5.開啟與關閉背景服務

start-dfs.sh

start-mapred.sh

stop-dfs.sh

stop-mapred.sh

 

arrow
arrow
    全站熱搜
    創作者介紹
    創作者 cgm 的頭像
    cgm

    資料科學(Data Science)學習筆記

    cgm 發表在 痞客邦 留言(0) 人氣()