Cloudera授权Spark开发员培训

Cloudera授权Spark开发员培训

课程长度:3天 培训对象: 需要使用Apache Spark来开发功能强大的数据分析应用的程序开发人员和大数据工程师。 学员基础: 本课程使用Scala和Pytho

授课机构: 大数据时代培训中心

上课地点: 天河校区

开设班型:早班,晚班,周末班

费用:
获取报价
91人已关注关注
预约试听
在线咨询
Apache Hadoop管理员培训
Apache Hadoop管理员培训
剩余名额:2个开班提醒
Apache Hadoop开发者培训
Apache Hadoop开发者培训
剩余名额:2个开班提醒
Apache HBase专家培训
Apache HBase专家培训
剩余名额:2个开班提醒
Cloudera Hadoop数据分析员培训
Cloudera Hadoop数据分析员培训
剩余名额:2个开班提醒
课程介绍

课程长度:3天

培训对象:
需要使用Apache Spark来开发功能强大的数据分析应用的程序开发人员和大数据工程师。

学员基础:
本课程使用Scala和Python进行讲解。学员需至少掌握这两种编程语言的其中一种,具备面向对象的编程基础及经验。掌握基本的Linux技能,无需Hadoop方面的基础和经验。

培训内容:
?使用Spark的动机
?Spark基础
?Resilient Distributed Datasets (RDDs)
?HDFS
?在机群环境下运行Spark
?Spark并发处理
?Caching和Persistence
?编写Spark应用
?集成Spark、Hadoop到企业数据中心
?Spark Streaming
?常用Spark算法举例
?Spark性能

教学大纲:
?介绍
?传统大规模系统的问题
?Spark简介
?Spark Shell
?RDDs
?Spark函数式编程
?RDD操作
?键-值对型RDD
?MapReduce和键-值对型RDD操作
?HDFS体系结构
?如何使用HDFS
?Spark机群
?Spark机群Web UI
?RDD分区和HDFS数据本地化
?使用分区并行处理
?RDD Lineage
?Caching和Persistence
?编写Spark应用
?创建SparkContex
?配置Spark属性
?生成和运行Spark应用程序
?日志
?Spark和Hadoop生态系统
?Spark和MapReduce
?Spark流处理
?Streaming单词计数举例
?Streaming操作
?滑动窗口Streaming操作
?编写Spark流处理应用
?迭代算法
?图处理分析
?机器学习
?共享变量:Broadcast变量
?共享变量:Accumulators
?常见性能问题