Introduction to Big Data with Apache Spark
講者:范姜冠宇 / 亦思科技 / 技術長 時段:13:30~14:20 地點:4F – 國際會議廳 講題:Introduction to Big Data with Apache Spark |
摘要:
Spark 是 UC Berkeley AMPLab 在 2009 年開發的專案,在 2010 年成為 Apache 專案。 所以在 Big Data 的 Eco-system 裡,說起來也不算是非常新的專案。但這兩年突然竄紅,主要是因為 Spark 在 Sort Benchmark Competition 中,以不到 30 分鐘就完成排序 100 TB 的資料,打破了由 Hadoop 保有 72 分鐘的世界記錄。 今天主要和大家分享 Spark 的基本概念,提供尚在觀望 Spark 的朋友,能有個明確參考,適合尚不了解 Spark 的朋友一起討論。 主要內容大約如下: 1. 甚麼是 Spark 2. Spark 架構 3. Spark 的核心 RDD 4. 經驗分享
講者簡介:
目前於亦思科技擔任技術長一職。於資料庫系統應用與資料分析系統開發有 10 多年經驗,產業方面特別熟悉科技業與半導體產業生產與資料分析等相關系統。 針對 Big Data 相關領域亦有多年經驗,熟悉 HBase。目前負責帶領亦思科技 R&D 部門,開發 HBase 相關產品 ”HareDB”。 2015 年積極投入 Spark,並赴美國 Databrick 原廠取經。
- Big Data Security Analytics Trend & Applications
- The Data Scientist’s Toolbox