教学优势
曙海教育的课程培养了大批受企业欢迎的工程师。大批企业和曙海
建立了良好的合作关系。曙海教育的课程在业内有着响亮的知名度。
本课程,秉承二十一年积累的教学品质,以项目实现为导向,老师将会与您分享设计的全流程以及工具的综合使用经验、技巧。
Big Data on AWS_v2.0培训课程
课程介绍
Big Data on AWS 课程将向您介绍基于云的大数据解决方案,例如 Amazon Elastic MapReduce (EMR)、Amazon Redshift、Amazon Kinesis 和其余 AWS 大数据平台。在 本课程中,我们将向您介绍如何使用 Amazon EMR 来利用诸如 Hive 和 Hue 等广泛 Hadoop 工具体系处理数据。讲授内容还包括如何创建大数据环境、使用 Amazon DynamoDB、Amazon Redshift 和Amazon Kinesis,利用最佳实践来设计大数据环境, 从而实现安全性和经济性。
学员基础
我们建议参加学习本课程的人员符合以下先决条件:
? 基本熟悉大数据技术,包括 Apache Hadoop、MapReduce、HDFS 和 SQL/NoSQL 查询
? 学员应完成 Big Data Technology Fundamentals 网络培训或具备同等经验
? 具有核心 AWS 服务和公有云实施工作经验
? 学员应完成 AWS Technical Essentials 课程或具备同等经验
? 了解数据仓库、关系数据库系统和数据库设计基础
课程目标
本课程中您将学习:
适用大数据体系内的 AWS 解决方案
在 Amazon EMR 环境中使用 Apache Hadoop
确定 Amazon EMR 集群的组件
启动并配置 Amazon EMR 集群
利用 Amazon EMR 的常用编程框架,包括 Hive、Pig 和 Streaming
利用 Hue 提高 Amazon EMR 的易用性
在 Amazon EMR 上搭配使用内存分析及 Spark 和 Spark SQL
选择适当的 AWS 数据存储选项
确定使用 Amazon Kinesis 以近乎实时的速度处理大数据的优势
定义数据仓库和列式数据库的概念
利用 Amazon Redshift 有效地存储和分析数据
了解和管理 Amazon EMR 及 Amazon Redshift 部署的成本和安全性
确定用于获取、传输和压缩数据的选项
使用可视化软件描述数据和查询
利用 AWS Data Pipeline 编排大数据工作流 目标人群
课程大纲
注意:课程大纲可能不尽相同,具体取决于授课的地区位置和 / 或语言。
本课程将在各天中讲解下列概念:
大数据概述
获取、传输和压缩
存储解决方案
在 DynamoDB 中存储和查询数据
大数据处理和 Amazon Kinesis
Apache Hadoop 及 Amazon EMR 简介
使用 Amazon Elastic MapReduce
Hadoop 编程框架
在 Amazon EMR 上利用 Hive 处理服务器日志
在 Amazon EMR 上利用 Hadoop 流处理化学数据
利用 Hue 简化您的 Amazon EMR 体验
在 Amazon EMR 上的 Hue 中运行 Pig 脚本
Amazon EMR 上的 Spark
利用 Amazon EMR 上的 Spark 和 Spark SQL 以互动方式创建和查询表
管理 Amazon EMR 成本
保护您的 Amazon EMR 部署
数据仓库和列式数据存储
Amazon Redshift 和大数据
优化您的 Amazon Redshift 环境
大数据设计模式 ? 大数据的可视化及编制
使用 Tibco Spotfire 可视化大数据