目前位置: 首頁 > 公開課程 > 資訊管理 > 企業e化 > 資策會「Big Data資料處理-Spark實作」

資策會「Big Data資料處理-Spark實作」

課程採體驗式教學方式的實作,理論與實務並重

  機器學習儼然成為現在及未來市場的顯學。機器學習需要仰賴大量資料來完成,然而要處理大資料量就面臨到「Big Data的儲存」和「Big Data的運算」兩大難題。 資策會特規劃了「Big Data資料處理-Spark實作」課程,本課程從Spark的手動安裝開始,讓學員建構出Spark的叢集環境,並體驗程式在叢集上運作的過程,及透過圖形介面監看多台叢集的運行。課程中將輔以Hadoop虛擬主機,讓學員實際體驗Spark整合Hadoop HDFS讀、寫的功能,幫助學員往後在使用或學習資料分析相關語言時,能與Spark順利接軌。

加入收藏
收件人email:
寄件人姓名:
寄件人email:
適合對象:高階主管 、中階主管 、專業人員 、技術人員 、一般職員 、二度就業者 、轉職者

課程緣起

近年來各大企業如Google、Apple、Facebook等,皆已將機器學習應用在日常生活中,舉凡:自動駕駛、人臉辨識、語音辨識、各種預測、投資分析、醫學、工業等應用,機器學習儼然成為現在及未來市場的顯學。機器學習需要仰賴大量資料來完成,然而要處理大資料量就面臨到「Big Data的儲存」「Big Data的運算」兩大難題。

在2014年的資料排序基準競賽(Sort Benchmark Competition) 中,Databricks公司使用Spark,在207台的叢集中,以23分鐘完成 100 TB 的資料排序,刷新了2013年由Yahoo創下的記錄(在2,100台的叢集中使用MapReduce,花費了72分鐘完成),這項成就也讓Spark一戰成名。

Spark是一個讓數據分析更加快速的叢集運算引擎,它使用了「記憶體內運算技術」(In-Memory Computing),能在資料尚未寫入硬碟時即在記憶體內分析運算。Spark並非用來取代Hadoop,而是改進了Hadoop內MapReduce運算引擎,它支援了Hadoop所支援的儲存系統,包括HDFS、S3等。但Spark本身沒有提供儲存的功能,因此在使用上常見利用Spark叢集的運算加上Hadoop HDFS分散的儲存來處理Big Data進行分析,就可算是完美的結合。

有鑑於此,資策會特規劃了「Big Data資料處理-Spark實作」課程,本課程從Spark的手動安裝開始,讓學員建構出Spark的叢集環境,並體驗程式在叢集上運作的過程,及透過圖形介面監看多台叢集的運行。課程中將輔以Hadoop虛擬主機,讓學員實際體驗Spark整合Hadoop HDFS讀、寫的功能,幫助學員往後在使用或學習資料分析相關語言時,能與Spark順利接軌。

課程效益

  • 本課程理論與實務並重,除了讓學員了解Spark的技術,並能自行建構及使用Spark叢集。
  • 獨家採用已建構好的多台Linux虛擬主機環境,讓學員實作Hadoop HDFS + Spark叢集架構,在Spark叢集上執行程式並透過圖形介面監看多台叢集的運行。
  • 本課程將會學習整合Spark與Hadoop HDFS讀、寫的功能,安裝Ipython Notebook執行在Spark叢集上,在Ipython Notebook互動模式中操作RDD、DataFrame、Spark SQL、Spark MLlib ALS推薦等範例,最後安裝SparkR,練習讓R執行在Spark的叢集上。
  • 課程採體驗式教學方式的實作,只要具些許Linux操作基礎,仍可經由指令、設定的剪貼從中驗證課程所學。

課程效益

  • 學員於學習後能具備獨立完成Spark的安裝、操作與叢集建置的能力,在Spark叢集上安裝、執行Ipython Notebook,操作PySpark與SparkR,整合Spark與Hadoop HDFS讀、寫的功能,練習RDD、DataFrame、Spark SQL、Spark MLlib ALS推薦等範例,並通過課後測驗。

適合對象

  • 對Big Data處理、分析、應用有興趣者
  • IT經理、專案經理、系統架構師或系統網路管理人員
  • 略具Linux使用基礎者為佳

課程內容

課程主題 課程內容
Big Data概述
  • Big Data簡介
  • Big Data平台的介紹與比較 - Hadoop與Spark
Hadoop HDFS與Spark安裝
  • 在3台linux上安裝Hadoop HDFS分散式儲存系統
  • HDFS指令操作
  • 在HDFS架構上手動安裝Spark Cluster(1台Master + 3台Worker)
Spark不同執行模式的操作與使用
  • Spark Local模式的操作
  • Spark Standalone Cluster模式的操作
  • 透過spark-shell、pyspark、spark-submit在Spark Cluster上執行scala、python或jar檔
  • IPython Notebook安裝與執行Python Spark(pyspark)程式
RDD的操作
  • RDD的轉換(transformation)與動作(action)
  • RDD key-value的基本操作
  • 在Spark Cluster上撰寫WordCount並執行
Spark SQL、MLlib ALS推薦演算法
  • RDD、DataFrame與Spark SQL的轉換與操作
  • Pandas DataFrame繪圖範例
  • 透過ALS訓練來建立模型並進行推薦範例
SparkR安裝
  • R、RStudio的安裝
  • SparkR範例練習(讓R執行在Spark Cluster上)


報名截止日:2019/05/31

開課日:2019/06/01結束日:2019/06/02定價: 請來電洽詢

時數:12 (小時) 時段:週六日 09:30 ~ 16:30

地點:高雄 | 資策會數位教育研究所高雄教室 | 高雄市前金區中正四路211號8F-1 [看地圖]

簡介

資策會數位教育研究所成立於1979年,全所員工上百人,為全國第一家通過ISO9000認
證之教育訓練機構,TTQS評核為「標竿訓練機構」,連續多年獲選為「MIS Best
Choice教育訓練機構」,為國內各產業培育資通訊技術、管理與應用之專業人才。此
... more

*填寫報名表能讓開課單位更有效的處理您的資料,並優先處理您的需求!


三聯式 二聯式


(重新產生)