Python+Spark 2.0+Hadoop機器學習與大數據分析實戰

機器學習正熱門
　　機器學習是近20多年興起的多領域學科，機器學習演算法可從大量數據中建立模型，並利用模型對未知數據進行預測。近年來各大公司google、 facebook、microsoft、IBM…等，全力投入機器學習研究與應用，以Google為例，Google早已將機器學習，運用在垃圾郵件判斷、自動回覆、照片分類與搜尋、翻譯、語音辨識等功能。在你在不知不覺中，機器學習已經讓日常生活更便利。

「大數據」與「機器學習」相輔相成
　　大數據的特性: 大量資料、多樣化、速度快。因此如何從大量資料中擷取出有用的資訊，是大數據的主要課題。機器學習需要大量資料進行訓練，並且訓練過程需大量運算。正好大數據的興起帶來大量資料，以及可儲存大量數據的分散式儲存技術，例如:Hadoop HDFS、NoSQL..。還有分散式運算可進行大量運算，例如Spark 基於記憶體內的分散式運算框架，可以大幅提升效能。

Python與Spark與Hadoop的完美結合
　　本書的主題是Python+Spark+Hadoop機器學習與大數據分析：使用Python開發Spark應用程式，具有多重好處，既可以享有 Python語言特性所帶來的好處：程式碼簡明、易學習、高生產力的特質。再加上Spark基於記憶體內的分散式運算框架，非常適合需多次重覆運算的機器學習演算法，可以大幅提升效能。Spark可輕易讀取Hadoop分散式儲存技術HDFS。Spark也可以在Hadoop 新MapReduce架構YARN執行。

Python與Spark機器學習與資料視覺化
　　Python資料分析的相關模組如NumPy、Matplotlib、Pandas、Scikit-learn，讓Python成為資料分析主要語言之一。使用Python開發 Spark機器學習應用時，你仍然可以繼續使用這些模組，這對於Python開發者帶來很大的方便，例如：你可以使用Spark ML Pipeline機器學習、訓練、預測。並且可以將Spark DataFrames轉換為Pandas DataFrame。轉換後你就可以運用Python豐富的資料視覺化套件，例如matplotlib、Bokeh…等，進行資料視覺化。

以上內容節錄自這本書，很適合Python程式設計師學習Spark機器學習與大數據架構，點選下列連結查看本書詳細介紹:
Python+Spark 2.0+Hadoop機器學習與大數據分析實戰
http://pythonsparkhadoop.blogspot.tw/2016/10/pythonspark-20hadoop.html

《購買本書限時特價專區》
博客來網路書店： http://www.books.com.tw/products/0010730134?loc=P_007_090

天瓏網路書店： https://www.tenlong.com.tw/items/9864341537?item_id=1023658

露天拍賣：http://goods.ruten.com.tw/item/show?21640846068139
蝦皮拍賣：https://goo.gl/IEx13P

About kevin

This is a short description in the author block about the author. You edit it by entering text in the "Biographical Info" field in the user admin panel.

Hadoop+Spark大數據巨量分析與機器學習整合開發實戰

Python+Spark 2.0+Hadoop機器學習與大數據分析實戰

About kevin

6 意見:

Python+Spark 2.0+Hadoop機器學習與大數據分析實戰

About kevin

RELATED POSTS

6 意見: