第9章. Spark RDD介紹與範例指令

Spark 的核心是 RDD ( Resilient Distributed Dataset )彈性分散式資料集,是由 AMPLab 實驗室所提出的概念,屬於一種分散式的記憶體。 Spark 主要優勢是來自 RDD 本身的特性。 RDD 能與其他系統相容,可以匯入外部儲存系統的...
Read More

第4章 Hadoop 2.6 Single Node Cluster 安裝指令

Hadoop Single Node Cluster是只以一台機器,建立hadoop環境,您仍然可以使用hadoop命令,只是無法發揮使用多台機器的威力。 因為只有一台伺服器,所以所有功能都在一台伺服器中,安裝步驟如下: 1 安裝JDK 2 設定 SSH 無密碼登入 3 下...
Read More