Introduction to Big Data with Apache Spark

講者:范姜冠宇 / 亦思科技 / 技術長
時段:13:30~14:20
地點:4F – 國際會議廳
講題:Introduction to Big Data with Apache Spark
Hubert_Fan_Chiang

摘要:

Spark 是 UC Berkeley AMPLab 在 2009 年開發的專案,在 2010 年成為 Apache 專案。

所以在 Big Data 的 Eco-system 裡,說起來也不算是非常新的專案。但這兩年突然竄紅,主要是因為 Spark 在 Sort Benchmark Competition 中,以不到 30 分鐘就完成排序 100 TB 的資料,打破了由 Hadoop 保有 72 分鐘的世界記錄。

今天主要和大家分享 Spark 的基本概念,提供尚在觀望 Spark 的朋友,能有個明確參考,適合尚不了解 Spark 的朋友一起討論。

主要內容大約如下:
1. 甚麼是 Spark
2. Spark 架構
3. Spark 的核心 RDD
4. 經驗分享

講者簡介:

目前於亦思科技擔任技術長一職。於資料庫系統應用與資料分析系統開發有 10 多年經驗,產業方面特別熟悉科技業與半導體產業生產與資料分析等相關系統。 針對 Big Data 相關領域亦有多年經驗,熟悉 HBase。目前負責帶領亦思科技 R&D 部門,開發 HBase 相關產品 ”HareDB”。 2015 年積極投入 Spark,並赴美國 Databrick 原廠取經。
Tagged on: