首页>全部课程>大数据处理与优化最佳实践
大数据处理与优化最佳实践
东方瑞通资深讲师
大数据处理与优化最佳实践
报名课程可获赠200.0元助学金,助学金说明 >>
直播面授
课程图标 课程代码 alx223
标题图标 课程介绍 标题图标
本次课程以实际的演练(环境部署,程序开发)为主,并分享大数据处理与实际大规模Hadoop应用的一线经验,实践与理论相结合,让学员能够对大数据处理技术及Hadoop生态系统有 一个清晰明了的认识,理解Hadoop整体系统各个产品适用的场景,掌握MapReduce与Hive的中高级应用开发技能,搭建稳定可靠的Hadoop集群,满足生产环境的标准。
标题图标 课程大纲 标题图标

这个部分主要讲解海量数据处理的架构设计,针对海量数据的问题设计海量数据的架构解决方案。

海量数据处理的系统场景

大数据时代的数据架构解决方案

海量数据处理的架构汇总

8种海量数据处理的架构设计比较

分布式系统架构的海量数据处理设计

海量数据处理设计

典型案例分析:结合一个500强实时数据系统的实例案例进行分析,详细分析海量数据处理的架构设计

  NoSQL综述解决的实际问题

  关系数据库暴露的问题

High performance并发要求

Huge Storage的存取

High Scalability的服务器分布要求

High Availability的服务器健壮要求

  关系型数据库失效的场景

  NoSQL与关系型数据库设计理念比较

  NoSQL设计模型分析

K-V模型的Column设计

Document模型的B Tree设计

Object模型的基于Object数据访问设计

  NoSQL实例分析

Apache Hbase架构解析

Facebook Cassandra架构解析

Google BigTable架构解析

  综合应用NoSQL的解决方案处理复杂环境数据高负载,高

典型案例分析:结合一个500强实时数据采集系统的实例案例进行分析,详细分析NoSQL的综合开源架构应用多种NoSQL的产品集合应用

  文件存储-HDFS 

  HDFS-工作原理

  数据计算MapReduce

  MapReduce工作原理

  海量实时读写-HBase

  大数据的SQL分析-Hive

  工作流调度-Ooize

  分布式协调系统—Zookeeper

  Hadoop版本介绍与选择

  Hadoop部署实践

  系统环境配置

  进程分布规划与启动

  Hadoop基本使用操作

  HDFS

  开发环境准备

  读文件

  写文件

  Hadoop集群架构搭建方法

  Hadoop集群架构性能管理

  Namenode单点问题改进

  HDFS,NameNode,DataNode的调优和节点扩展最佳实践

  主要调优工具和性能监控工具

  Hadoop集群对于硬件的要求和选型

  Hadoop集群中对硬件、操作系统的调优方法

  实际案例分析

  基于Hadoop的集群解决方案

  典型案例分析:结合一个大型商业系统的实例案例分析及演练Hadoop集群架构搭建过程

  MapReduce剖析

MapReduce的原理和运行过程

构建MapReduce的开发环境

MapReduce API开发

  AVRO IO框架:Writeable与Comparable

  流压缩

  SequenceFile与MapFile

  MapReduce案例实战

使用MapReduce的Java接口实现一个实时数据采集系统的大数据计算过程

MapReduce运行过程解析

MapReduce实现数据去重操作

MapReduce实现数据排序

MapReduce实现数据平均数据的计算

  典型案例分析:结合一个500强实时数据采集系统的实例案例进行分析,详细分析MapReduce的架构应用、性能调优及其使用场景与整体系统架构的结合

  为什么实用Hadoop/HBase

  Hadoop的架构体系与HBase的应用关系

  HBase的核心设计机制

  HBase的使用场景?什么情况下使用HBase,为什么使用HBase,HBase使用带来的实践价值

  关系型数据库与HBase

  HBase的Client端

  HBase架构分析

  基于HBase项目架构设计 

  HBase开发环境搭建

  HBase API开发

  入库和查询的设计与实现 

  髙实时性,大并发下HBase的数据处理解决方案

  案例演练HBase的主体特性

Features:Scalability实现

HBaseFeatures:Column-Oriented实现

High Performance Random R/W实现

HBase Features: Scan Search实现

HBase Features: High‐Availability实现

典型案例分析:结合一个500强实时数据采集系统的实例案例进行分析,详细分析HBase的开源架构应用及其使用场景与整体系统架构的结合

  Hive系统部署与搭建

  Hive工作机制

  基于Hive的大数据加载过程

  基于Hive的大型电信通话记录分析示例

  Hive程序编写性能建议

MapJoin

数据倾斜

Join顺序

UDF编写注意事项

快速获取结果TopN

  通过Explain观察Hive行为

  典型案例分析:结合一个500强实时数据采集系统的实例案例进行分析,详细分析Hive的架构应用、性能调优及其使用场景与整体系统架构的结合

  Zookeeper简介

  Zookeeper典型使用场景

  Zookeeper进行服务器集群管理

  Zookeeper API开发

  Zookeeper监控服务器状态

  Zookeeper同步服务器状态

  Zookeeper的应用案例

分布式锁

基于Zookeeper的leader选择算法

  Sqoop 系统部署与搭建

  Sqoop 工作机制

  使用 Sqoop 进行数据导入及分析

  Sqoop 序列化

  Sqoop 数据导入的深入学习

  控制 Sqoop 导入

  Sqoop 导入和一致性操作

  Sqoop 直接模式导入

  处理 Sqoop 导入的数据

  Sqoop 与Hive 的集成应用

典型案例分析:结合一个500 强实时数据采集系统的实例

案例进行分析,详细分析Sqoop的架构应用、性能调优及

其使用场景与整体系统架构的结合


  Spark系统部署与搭建

  Spark架构核心机制分析

  Spark的编程模型解析

  RDD的特点、操作、依赖关系

  缓存策略

  广播变量和累加器

典型案例分析:结合一个500 强实时数据采集系统的实例

案例进行分析,详细分析Spark的架构应用、编程模型


一个大型的实例大数据项目:

具备掌握Hadoop/HBase/Hive/Sqoop等大数据应用系统的完整 架构设计,具备项目的分析、开发、部署的全过程的能力,贯穿前面课程的主要内容,使大家熟悉一个完整大数据项目的分析、架构设计、开发、部署的全过程。