Introduction to Big Data with Apache Spark

By jazzwang 2015-07-11 Developer

講者：范姜冠宇 / 亦思科技 / 技術長
時段：13:30~14:20
地點：4F – 國際會議廳
講題：Introduction to Big Data with Apache Spark

摘要：

Spark 是 UC Berkeley AMPLab 在 2009 年開發的專案,在 2010 年成為 Apache 專案。

所以在 Big Data 的 Eco-system 裡,說起來也不算是非常新的專案。但這兩年突然竄紅,主要是因為 Spark 在 Sort Benchmark Competition 中,以不到 30 分鐘就完成排序 100 TB 的資料，打破了由 Hadoop 保有 72 分鐘的世界記錄。

今天主要和大家分享 Spark 的基本概念,提供尚在觀望 Spark 的朋友,能有個明確參考,適合尚不了解 Spark 的朋友一起討論。

主要內容大約如下:
1. 甚麼是 Spark
2. Spark 架構
3. Spark 的核心 RDD
4. 經驗分享

講者簡介：

目前於亦思科技擔任技術長一職。於資料庫系統應用與資料分析系統開發有 10 多年經驗，產業方面特別熟悉科技業與半導體產業生產與資料分析等相關系統。 針對 Big Data 相關領域亦有多年經驗，熟悉 HBase。目前負責帶領亦思科技 R&D 部門，開發 HBase 相關產品 ”HareDB”。 2015 年積極投入 Spark，並赴美國 Databrick 原廠取經。

Tagged on: Spark

HadoopCon 2015

7th Hadoop.TW annual conference

Introduction to Big Data with Apache Spark