本课程是Spark Streaming的高级进阶课程,首先是深度剖析了Spark Streaming的源码,让同学们可以对Spark Streaming技术掌握的足够深入,理解的足够透彻。接着又基于Spark Streaming完成了多个企业级的项目实战,让大家可以在真正的项目中去掌握如何基于Spark Streaming来进行开发。 这些项目包含了:互联网公司用户流量实时大盘、广告系统实时数据平台、微博热点话题实时探测系统、微博社交关系实时挖掘平台、股票交易分析实时大盘、实时用户画像系统、实时个性化推荐系统。每个项目都包含了对应的技术架构、真实业务、高级算法,是不可多得的大数据实战课程。 课程大纲: 第一课:Spark Streamin深度源码剖析(上) (1)Spark Streaming整体架构剖析 (2)基于Receiver+Kafka接收数据的源码剖析 (3)基于DStream生成RDD的源码剖析 (4)基于JobGenerator生成Job的源码剖析 第二课:Spark Streaming深度源码剖析(下) (1)Spark Streaming Driver容错的源码剖析 (2)Spark Streaming Executor容错的源码剖析 (3)Spark Streaming State相关操作的源码剖析 (4)Spark Streaming Window相关操作的源码剖析 第三课:互联网公司用户流量实时大盘实战 (1)互联网用户流量分析业务介绍 (2)互联网用户流量分析架构设计:Spark Streaming+Kafka+HBase (3)完成互联网用户流量指标体系的开发 (4)实时计算作业上线运维:部署、代码升级以及监控 (5)对Spark Streaming作业进行初步的性能优化 (6)基于前端展示用户流量分析大盘 第四课:广告系统实时数据平台架构实战(上) (1)广告系统实时数据平台的业务介绍以及架构设计 (2)完成广告用户与客户价值的实时数据指标体系开发 (3)完成广告运营与营销活动的实时数据指标体系开发 (4)基于广告实时数据支持的点击率预测 (5)基于广告实时数据支持的精准广告营销 第五课:广告系统实时数据平台架构实战(下) (1)广告系统实时数据平台架构优化设计 (2)基于Spark Streaming checkpoint实现全流程的容错机制 (3)基于Spark Streaming实现全流程的exatcly once语义 (4)基于Kafka实现数据不丢失的技术方案 (5)基于前端页面展示广告数据分析 第六课:微博热点话题实时探测系统架构实战(上) (1)微博热点话题探测业务介绍 (2)微博热点话题探测系统架构设计 (3)基于Flume+Kafka完成实时微博数据的接入 (4)自己动手改进FP-Growth频繁集挖掘算法 (5)基于改进后的繁集挖掘算法完成热点话题的实时探测 第七课:微博热点话题实时探测系统架构实战(下) (1)基于Spark自己动手实现word2vec算法 (2)基于自己实现的Spark word2vec算法实现关联热点话题挖掘 (3)基于Spark Streaming完成实时计算作业开发 (4)基于前端页面展示微博热点话题 第八课:微博社交关系实时挖掘平台实战(上) (1)微博社交关系实时数据分析平台业务介绍以及架构设计 (2)Titan分布式图数据库介绍 (3)Cassandra分布式NoSQL数据库介绍 (4)Elasticsearch分布式搜索引擎介绍 (5)基于Spark Streaming+GraphX+Titan完成微博社交关系挖掘 第九课:微博社交关系实时挖掘平台实战(下) (1)基于Spark Streaming+文本挖掘完成微博用户的情感分析 (2)基于Spark Streaming完成微博用户群分析 (3)基于Spark Streaming完成用户城市地图分析 (4)基于Spark Streaming完成热门话题趋势分析 (5)基于前端页面展示微博社交数据 第十课:股票交易分析实时大盘系统实战 (1)股票分析业务介绍 (2)实时股票分析大盘系统架构设计 (3)Druid分布式OLAP引擎介绍 (4)结合Spark Streaming + Druid完成股票数据实时分析 (5)结合Spark Streaming完成实时热门股票排行 (6)结合Spark Streaming完成实时股票走势预测 (7)基于前端页面展示股票分析数据 第十一课:实时用户画像系统架构实战 (1)实时用户画像组成分析 (2)实时用户画像的标签数据字典 (3)实时用户画像的兴趣度模型 (4)基于Spark Streaming实现一套实时用户画像系统 (5)基于ElasticSearch对实时用户画像数据进行分析 第十二课:实时个性化推荐系统架构实战(上) (1)基于Flume+Kafka实现用户行为的实时采集与清洗 (2)基于实时用户画像构建数据仓库 (3)针对元数据库构建实时索引 (4)基于Spark Streaming完成第一个版实时个性化推荐系统 第十三课:实时个性化推荐系统架构实战(下) (1)基于频繁模式的选择性集成分类算法 (2)基于选择性集成分类算法和网页对用户进行分类以及兴趣组构建 (3)基于Spark Streaming+协同过滤算法实现的实时推荐系统 (4)基于相关性算法实现的实时个性化推荐冷启动优化方案 授课时间 本期课程将于03月10日开始。课程持续时间大约为15周。 授课对象 曾经学习过Spark相关技术课程,有Spark基础即可,其他技术不要求,课程中都会有详细讲解 收获预期 深入理解Spark Streaming源码,同时深入掌握如何基于Spark Streaming结合其他各种技术和算法实现有一定业务复杂度的系统架构设计与开发 授课讲师 刘老师 专注数据服务八年时间,曾服务于多家大型互联网公司,例如百度,阿里等,积累诸多一线实战经验,将在本次课程中全盘教授,旨在培训更多具有实践能力的数据分析精英。 新颖的课程收费形式:“逆向收费”约等于免费学习,仅收取100元固定收费+300元暂存学费,学习圆满则全额奖励返还给学员! 本门课程本来打算完全免费,某位大神曾经说过“成功就是正确的方向再加上适度的压力”。考虑到讲师本身要付出巨大的劳动,为了防止一些朋友在学习途中半途而废,浪费了讲师的付出,为此我们计划模仿某些健身课程,使用“逆向收费”的方法。 在报名时每位报名者收取400元,其中100元为固定 收费,另外300是暂存学费,即如果学员能完成全部课程要求,包括完成全部的书面和互动作业,则300元全款退回。如果学员未能坚持到完全所有的学习计划任务,则会被扣款。期望这种方式可以转化为大家强烈的学习愿望和驱动力! 课程授课方式: 1、 学习方式:老师发布教学资料、教材,幻灯片和视频,学员通过网络下载学习。同时通过论坛互动中老师对学员进行指导及学员之间相互交流。 2、 学习作业:老师每周布置书面及互动作业,学员需按时按质完成作业。 3、 老师辅导:根据作业批改中发现的问题,针对性给予辅导,帮助大家掌握知识。 4、 结业测验:通过测验,完成学业。 您是否对此课程还有疑问,那么请 点击进入 FAQ,您的问题将基本得到解答 全国统一咨询热线 4008-010-006 课程现开始接受报名,报名方式 网上报名 请点击:Spark Streaming企业级项目实战以及深度源码剖析 咨询Email :edu01@dataguru.cn,edu02@dataguru.cn 课程入门讨论咨询群:303917420(群内有培训公开课视频供大家免费观看) 咨询QQ: 2222010006 (上班时间在线) 技术热点、 行业资讯,培训课程信息,尽在炼数成金官方微信,低成本传递高端知识!技术成就梦想!欢迎关注! 打开微信,使用扫一扫功能,即刻关注炼数成金官方微信账户,不容错过的精彩,期待您的体验!!! |