爪哇小子: 2015/05

2015年5月30日星期六

【筆記】在Ubuntu 14.04建立Hadoop多節點叢集-分散式架構(Multi-node cluster)

這裡使用的版本是2.6.0，之前有些設定如設定JAVA_HOME
或是ssh等，在Setting up a Single Node Cluster己經完成，若有撞牆的地方，可以回去參考一下。

在拜歐的cluster中，會有四台機器，分別為：

javakid01：做為master，會用它來跑NameNode和SecondaryNameNode
jkserver01：做為slaves，會用它來跑DataNode
jkserver02：做為slaves，會用它來跑DataNode
jkserver03：做為slaves，會用它來跑DataNode

若要改hostname，你可以這樣做：

sudo vi /etc/hostname

上列四台機器中，先確認已經安裝好Java和Hadoop。

先對javakid01(master)，進行設定，在/etc/hosts中加入：

10.211.55.10    javakid01
10.211.55.7     jkserver01
10.211.55.13    jkserver02
10.211.55.14    jkserver03

再來編輯$HADOOP_INSTALL/etc/hadoop/core-site.xml加入下列設定：


        
                fs.defaultFS
                hdfs://javakid01:9000

接著編輯$HADOOP_INSTALL/etc/hadoop/hdfs-site.xml加入下列設定：


        
                dfs.replication
                3
        
        
                dfs.namenode.name.dir
                file:/opt/data/hadoop/hadoop_data/hdfs/namenode

上面設定好後，使用下列指令建立上列設定的目錄，建立前請確定有足夠的權限：

mkdir -p opt/data/hadoop/hadoop_data/hdfs/namenode

接著編輯$HADOOP_INSTALL/etc/hadoop/mapred-site.xml加入下列設定：


        
                mapred.job.tracker
                javakid01:54311

接著編輯$HADOOP_INSTALL/etc/hadoop/yarn-site.xml加入下列設定：



        
                yarn.nodemanager.aux-services
                mapreduce_shuffle
        
        
                yarn.nodemanager.aux-services.mapreduce.shuffle.class
                org.apache.hadoop.mapred.ShuffleHandler
        
        
                yarn.resourcemanager.resource-tracker.address
                javakid01:8025
        
        
                yarn.resourcemanager.scheduler.address
                javakid01:8030
        
        
                yarn.resourcemanager.address
                javakid01:8050

最後，在$HADOOP_INSTALL/etc/hadoop/slaves中加入做為DataNode的hostname

jkserver01
jkserver02
jkserver03

下面要開始對做為slaves的機器進行設定，其中jkserver01、jkserver02與jkserver03的設定幾乎是相同的。

一樣先在/etc/hosts中加入：

10.211.55.10    javakid01
10.211.55.7     jkserver01
10.211.55.13    jkserver02
10.211.55.14    jkserver03

請注意！上列的IP會因機器不同而有差異，這裡設定是以我的機器為例。

再來編輯$HADOOP_INSTALL/etc/hadoop/core-site.xml加入下列設定：


        
                fs.defaultFS
                hdfs://javakid01:9000

接著編輯$HADOOP_INSTALL/etc/hadoop/hdfs-site.xml加入下列設定：


        
                dfs.replication
                3
        
        
                dfs.datanode.data.dir
                file:/opt/data/hadoop/hadoop_data/hdfs/datanode

上面設定好後，使用下列指令建立上列設定的目錄，建立前請確定有足夠的權限：

mkdir -p opt/data/hadoop/hadoop_data/hdfs/datanode

接著編輯$HADOOP_INSTALL/etc/hadoop/mapred-site.xml加入下列設定：


        
                mapred.job.tracker
                javakid01:54311

接著編輯$HADOOP_INSTALL/etc/hadoop/yarn-site.xml加入下列設定：



        
                yarn.nodemanager.aux-services
                mapreduce_shuffle
        
        
                yarn.nodemanager.aux-services.mapreduce.shuffle.class
                org.apache.hadoop.mapred.ShuffleHandler
        
        
                yarn.resourcemanager.resource-tracker.address
                javakid01:8025
        
        
                yarn.resourcemanager.scheduler.address
                javakid01:8030
        
        
                yarn.resourcemanager.address
                javakid01:8050

最後，也要將讓DataNode知道slaves的設定。在$HADOOP_INSTALL/etc/hadoop/slaves中加入做為DataNode的hostname

jkserver01
jkserver02
jkserver03

接下來，為了讓master不用密碼就可登入slaves的話，需要進行SSH連線的設定。

回到javakid01這台機器，在終端機下執行：

ssh-keygen -t rsa -P '' -f ~/.ssh/id_rsa
cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys

然後執行：

ssh-copy-id -i ~/.ssh/id_rsa.pub javakid@jkserver01

完成後，由javakid01登入jkserver01，第一次登入會需要在jkserver01上的使用者密碼：

ssh jkserver01

對jkserver02與jkserver03進行相同設定，在javakid01執行：

ssh-copy-id -i ~/.ssh/id_rsa.pub javakid@jkserver02

登入jkserver02：

ssh jkserver02

接著執行：

ssh-copy-id -i ~/.ssh/id_rsa.pub javakid@jkserver03

登入jkserver03：

ssh jkserver03

全部設定完成後，在javakid01執行下列指令對HDFS進行格式化：

hadoop namenode -format

接著啟動 HDFS Daemons：

$HADOOP_INSTALL/sbin/start-dfs.sh

成功啟動後，在javakid01執行jps指令：

jps

應該可以看到下列的結果：

27964 NameNode
28220 SecondaryNameNode
29695 Jps

再來若是到jkserver01、jkserver02或jkserver03任一台機器執行jps，應該可以看到下列結果：

2204 DataNode
2378 Jps

若在瀏覽器輸入http://javakid01:50070這個網址，應該在Datanodes這個頁籤看到三台機器的資訊：

2015年5月26日星期二

【筆記】Hadoop名詞解釋

名詞	意思	備註
metrics	HDFS與MapReduce daemon會收集一些與事件以及量測相關的資訊，這些總稱為metrics	例如，datanode會收集已寫入的byte數、已複製的block總數等metrics
data locality optimization	Hadoop在執行map task時，會盡全力將該task放到存放輸入該task資料的那台node去執行，以免使用到寶貴的頻寬進行資料的傳送
shuffle	A proccess by which the system performs the sort and transfers the map outputs to the reducers as inputs.
speculative execution	Hadoop doesn't try to diagnose and fix slow-running tasks; instead, it tries to detect when a task is running slower than expected and launches another equivalent task as a backup.

2015年5月5日星期二

【分享】解決Java連Mongo DB時，出現no such cmd: saslStart錯誤

今天在使用Java連 Mongo DB時發生了一個錯誤，訊息如下：

Exception in thread "main" com.mongodb.CommandFailureException: { "serverUsed" : "192.168.55.12:22004" , "ok" : 0.0 , "errmsg" : "no such cmd: saslStart"}

我使用的 Java MongoDB Driver是 2.12.3而連線的Mongo DB版本是2.4.3。

使用的程式碼如下：

MongoCredential credential = MongoCredential.createPlainCredential("foo", "testDB", "bar".toCharArray());
MongoClient mongoClient = new MongoClient(new ServerAddress("192.168.55.12", 22004), Arrays.asList(credential));
DB db = mongoClient.getDB("testDB");

後來發現在使用MongoCredential.createPlainCredential這個方法時，在Mongo DB的2.6版本是才支援的，詳細可以參考文件內說明。

Amazon Ads

2015年5月30日 星期六