Spark DataFrame and PipeLine
講者:林煒清 / Spark.TW 地點: 3F – 遠距會議室 講題:Spark DataFrame and PipeLine |
摘要:
DataFrame是Python處理資料的主要工具,PipeLine是Python機器學習的選項。Spark 將這兩種方法延伸到分散式的世界。在這個教學裡 ,我們將重點放在DataFrame、DataFrame的操作、與其他語言的比較,最後並介紹新加入Spark的PipeLine模組。
講者簡介:
Spark lover
- Working with structured data – Spark SQL
- Facing Enterprise-specific Challenges – Utility Programming in Hadoop