曙海教学优势
本课程,秉承二十一年积累的教学品质,以项目实现为导向,面向企事业项目实际需要,老师将会与您分享设计的全流程以及工具的综合使用经验、技巧。课程可定制,线上/线下/上门皆可,热线:4008699035。
曙海培训的课程培养了大批受企业欢迎的工程师。大批企业和曙海
建立了良好的合作关系,合作企业30万+。曙海培训的课程在业内有着响亮的知名度。
课程目标:
1)知道Spark能做什么,不能做什么。
2)hadoop和Spark的适用场景。
3)能过熟知Spark的原理、安装Spark集群。
4)能够独立使用Spark工具来分析海量数据。
5)会使用shark来分析数据。
6)会使用Spark Streaming来处理数据。
7)一个需求过来知道在Spark上面怎么实现。
培训内容:
· Scala语言介绍 · Scala语言安装 · Scala快速入门介绍 · 什么Spark · Spark的简介 · Spark的编译 · Spark的安装 Spark安装成功测试 |
· Spark原理 · Spark的RDD · 什么是RDD · RDD的种类 o Tranformation o Action · Spark的存储级别 · Cache介绍 · Spark的容错原理 · Lineage容错 · Checkpoint容错 · RDD的创建 · 案例 统计单词的个数 |
· Spark调度组件 · RDD graph · 作业与任务调度 · DAG Scheduler · Task Scheduler · Task细节 · Job的调度流程 · Broadcast variables介绍 · Spark的优化 · Spark的生态系统 o Shark o Streaming · Spark与hadoop的比较 Spark的使用场景介绍 |
· Spark实战一:求最大值 · Spark实战二:自定义RDD(define a new RDD) · Spark实战三:RDD创建的种类(Scala、HDFS、localdisk and inputformat) Spark实战四:基于Spark的日志分析 |