第1章 初探大数据
1-1 导学 (12:29)
1-2 -如何学好大数据 (02:55)
1-3 -开发环境介绍 (06:11)
1-4 -OOTB镜像文件使用介绍 (10:18)
1-5 -大数据概述 (09:28)
1-6 -Hadoop概述 (15:26)
1-7 -HDFS概述及设计目标 (08:20)
1-8 -HDFS架构 (10:58)
1-9 -HDFS副本机制 (06:57)
1-10 -Hadoop下载及JDK安装 (11:47)
1-11 -机器参数设置 (05:59)
1-12 -HDFS核心配置文件内容配置 (07:29)
1-13 -HDFS格式化及启停 (07:53)
1-14 -HDFS shell常用操作 (08:54)
1-15 -HDFS优缺点 (02:23)
1-16 -MapReduce概述 (05:37)
1-17 -MapReduce编程模型及WordCount案例 (08:08)
1-18 -YARN产生背景 (05:29)
1-19 -YARN架构和执行流程 (15:29)
1-20 -YARN环境搭建及提交作业到YARN上运行 (14:02)
1-21 -Hive产生背景及Hive是什么 (11:00)
1-22 -为什么要使用Hive及Hive发展历程 (08:29)
1-23 -Hive体系架构及部署架构 (06:39)
1-24 -Hive环境搭建 (11:53)
1-25 -Hive基本使用 (13:16)
第2章 Spark及其生态圈概述
2-1 -课程目录 (02:13)
2-2 -Spark概述及特点 (10:03)
2-3 -Spark产生背景 (10:11)
2-4 -Spark发展历史 (02:13)
2-5 -Spark Survey (08:30)
2-6 -Spark对比Hadoop (15:47)
2-7 -Spark和Hadoop的协作性 (03:36)
第3章 实战环境搭建
3-1 -课程目录 (01:58)
3-2 -Spark源码编译 (23:46)
3-3 补录:Spark源码编译中的坑 (16:23)
3-4 Spark Local模式环境搭建 (06:53)
3-5 Spark Standalone模式环境搭建 (16:29)
3-6 Spark简单使用 (06:32)
第4章 Spark SQL概述
4-1 课程目录 (01:41)
4-2 -Spark SQL前世今生 (16:41)
4-3 -SQL on Hadoop常用框架介绍 (06:33)
4-4 -Spark SQL概述 (12:41)
4-5 -Spark SQL愿景 (01:58)
4-6 -Spark SQL架构 (03:32)
第5章 从Hive平滑过渡到Spark SQL
5-1 -课程目录 (02:02)
5-2 -A SQLContext的使用 (27:05)
5-3 -B HiveContext的使用 (07:49)
5-4 -C SparkSession的使用 (06:02)
5-5 spark-shell&spark-sql的使用 (20:51)
5-6 -thriftserver&beeline的使用 (12:59)
5-7 -jdbc方式编程访问 (06:33)
第6章 DataFrame&Dataset
6-1 -课程目录 (01:24)
6-2 -DataFrame产生背景 (04:50)
6-3 -DataFrame概述 (08:01)
6-4 -DataFrame和RDD的对比 (03:27)
6-5 -DataFrame基本API操作 (15:15)
6-6 -DataFrame与RDD互操作方式一 (12:15)
6-7 -DataFrame与RDD互操作方式二 (09:33)
6-8 -DataFrame API操作案例实战 (21:11)
6-9 -Dataset概述及使用 (10:20)
第7章 External Data Source
7-1 -课程目录 (00:56)
7-2 -产生背景 (05:48)
7-3 -概述 (03:08)
7-4 -目标 (04:48)
7-5 -操作Parquet文件数据 (12:41)
7-6 -操作Hive表数据 (06:52)
7-7 -操作MySQL表数据 (08:49)
7-8 -Hive和MySQL综合使用 (05:46)
第8章 SparkSQL愿景
8-1 -A SparkSQL愿景之一写更少的代码(代码量和可读性) (03:33)
8-2 -B SparkSQL愿景之一写更少的代码(统一访问操作接口) (07:45)
8-3 -C SparkSQL愿景之一写更少的代码(强有力的API支持) (03:51)
8-4 -D SparkSQL愿景之一些更少的代码(Schema推导) (10:30)
8-5 -E SparkSQL愿景之一写更少的代码(Schema Merge) (04:58)
8-6 -F SparkSQL愿景之一写更少的代码(Partition Discovery) (05:14)
8-7 -G SparkSQL愿景之一写更少的代码(执行速度更快) (03:47)
8-8 -SparkSQL愿景之二读取更少的数据 (11:02)
8-9 -SparkSQL愿景之三让查询优化器帮助我们优化执行效率 (09:24)
8-10 -SparkSQL愿景总结 (00:47)
第9章 慕课网日志实战
9-1 -课程目录 (03:17)
9-2 -用户行为日志概述 (15:15)
9-3 -离线数据处理架构 (12:16)
9-4 -项目需求 (04:43)
9-5 imooc网主站日志内容构成 (04:14)
9-6 数据清洗之第一步原始日志解析 (21:26)
9-7 -数据清洗之二次清洗概述 (03:54)
9-8 -数据清洗之日志解析 (23:08)
9-9 -数据清洗之ip地址解析 (13:35)
9-10 -数据清洗存储到目标地址 (06:04)
9-11 -需求一统计功能实现 (12:12)
9-12 -Scala操作MySQL工具类开发 (03:44)
9-13 -需求一统计结果写入到MySQL (15:08)
9-14 -需求二统计功能实现 (06:05)
9-15 -需求二统计结果写入到MySQL (07:43)
9-16 -需求三统计功能实现 (02:20)
9-17 -需求三统计结果写入到MySQL (04:40)
9-18 -代码重构之删除指定日期已有的数据 (06:59)
9-19 -功能实现之数据可视化展示概述 (11:02)
9-20 -ECharts饼图静态数据展示 (11:30)
9-21 -ECharts饼图动态展示之一查询MySQL中的数据 (21:20)
9-22 -ECharts饼图动态展示之二前端开发 (12:09)
9-23 -使用Zeppelin进行统计结果的展示 (10:57)
9-24 -Spark on YARN基础 (25:37)
9-25 -数据清洗作业运行到YARN上 (15:49)
9-26 -统计作业运行在YARN上 (07:15)
9-27 -性能优化之存储格式的选择 (03:33)
9-28 -性能调优之压缩格式的选择 (09:01)
9-29 -性能优化之代码优化 (06:53)
9-30 -性能调优之参数优化 (04:27)
第10章 Spark SQL扩展和总结
10-1 -课程目录 (04:09)
10-2 -Spark SQL使用场景 (07:59)
10-3 -Spark SQL加载数据 (22:12)
10-4 -DataFrame与SQL的对比 (04:22)
10-5 -Schema (03:35)
10-6 -SaveMode (09:27)
10-7 -处理复杂的JSON数据 (06:11)
10-8 -SQL的覆盖程度 (04:51)
10-9 -外部数据源 (05:01)
第11章 补充内容
11-1 -课程安排 (02:00)
11-2 -外部数据源接口 (07:34)
11-3 -JDBC外部数据源实现源码分析 (06:34)
11-4 -文本数据自定义外部数据源实现案例分享 (04:40)
第12章 (彩蛋番外篇)Spark升级及新特性
12-1 Spark版本升级 (07:08)
12-2 Spark SQL中Time Window的使用 (14:22)
12-3 Spark SQL中的Repartition和Coalesce的使用 (09:25)
12-4 Spark SQL中Catalog的用法 (04:27)
第13章 (讨论群内直播内容分享)透过SQL语法表象深入掌握底层执行过程
13-1 为什么要掌握SQL的执行流程 (07:06)
13-2 select执行流程 (09:34)
13-3 group by执行流程 (13:21)
13-4 join执行流程 (09:52)

声明:本站所有文章,如无特殊说明或标注,均为本站原创发布。任何个人或组织,在未征得本站同意时,禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益,可联系我们进行处理。