本课程通过一个互联网公司的真实案例,详细传授如何从无到有构建大数据平台,包含了大数据计算平台的基本组件,从底层存储,数据采集,调度系统,adhoc查询,展示系统,数据安全,ETL开发,批量以及实时数据等部分来阐述大数据平台的核心模块。 这是最具实践性的课程,本课程的内容可以直接应用到希望构建大数据平台的企业中,所教授的如上每一个知识点,都是实用的内容,大数据平台构建的困难在这里均能得到解答。同时本课程还会介绍业内常用的工具的使用,以及优缺点。让大家对大数据平台建设的过程有更深入的了解。 不玩虚的,只有干货,实实在在培养大数据平台架构师,就等你来! 课程大纲: 第一课: 数据平台整体介绍 (1) 数据平台整体介绍 (2) 各种异构数据清洗加载 (3) 任务调度系统设计 (4) 业务快速迭代过程中,数据模型如何构建 (5) 大数据平台基本组件以及技术选型 第二课:环境准备 (1) Hadoop安装配置管理 (2) spark安装配置管理 (3) sqoop,flume安装配置 (4) 数据压缩存储格式,几种数据存储格式对比 第三课: 数据同步收集(一) (1) 如何从rdbms同步数据到hdfs (2) 自己开发ETL 数据抽取工具 (2) sqoop的使用 (3) 后台日志,nginx日志等数据的清洗规范化,介绍 hadoop streaming,mapreduce, 使用spark/Scala模式匹配 等方式清洗日志 (4) 特殊格式日志如何清洗 第四课: 数据同步收集(二) (1) 异地跨网段数据同步清洗方案 (2) 超大数据量日志同步清洗,并保证数据的准确性 (3) 同步数据小文件过多如何处理 (4) 历史数据归档处理,冷热数据存储 第五课:数据同步收集(三) (1) 准小时级别数据更新处理 (2) 使用spark streaming,kafka 等实时处理后台,nginx 日志 (3) mySQL binlog实时日志处理 第六课:任务调度系统设计 (1) 定时任务设计以及处理 (2) 触发,依赖模式的任务调度系统设计 (3) 调度系统中如何做到ETL任务依赖关系自动解析 (4) 手把手教你实现一个任务调度系统 第七课:调度系统选择 (1) oozie,azkaban,airflow等调度系统介绍 (2) airbnb airflow基本架构设计 (3) Airflow 任务调度系统配置和使用 (4) Airflow 高级使用 (5) Airflow 二次开发,自定义某些功能模块 第八课: ETL任务系统设计 (1) 数据抽取,加载工具的实现 (2) ETL任务模板的实现 (3) ETL任务元数据设计 (4) 企业级数据仓库模型设计:维度建模,分层,宽表设计等 第九课:adhoc查询以及查询平台 (1) presto,impala,spark-sql 的使用 (2) hue搭建以及使用 (3) zeppelin搭建以及使用,zeppelin中调试spark,pyspark等 (5) 更快的查询,毫秒级的响应速度之elasticsearch 第十课:数据罗盘 (1) 数据罗盘常图表样式 (2) airbnb开发的Superset 安装以及使用 (3) Superset架构介绍以及使用案例 (4) Superset简单定制化开发 第十一课:数据安全 (1) 从hdfs层面来空值数据的访问权限 (2) 如何保障敏感表,敏感字段的安全性 (3) 应用层面,查询服务层来保障安全 第十二课:大数据平台监控 (1) etl任务监控,数据质量监控 (2) etl作业日志,yarn日志解析以及监控 (3) 数据量增长,数据量未来发展准确预估 (4) 借助对象存储,把冷热数据分离处理 授课时间: 课程预计2018年04月16日开课,预计课程持续时间为14周 授课对象: 对大数据开发感兴趣的同学,或者有意愿转为大数据开发的rd。 收获预期: 让学员对大数据平台的基本功能组件,数据处理等有一个全方位的了解,能够搭建大数据处理平台,还可以做下数据开发处理,设计ETL任务。 讲师介绍: 萧风 老师,某大型互联网公司技术专家,既混迹过创业型的互联网公司,也在BAT、TMD等互联网公司有过丰富的工作经验 讲师介绍: |