班级规模及环境--热线:4008699035 手机:15921673576( 微信同号) |
每个班级的人数限3到5人,互动授课, 保障效果,小班授课。 |
上间和地点 |
上部份地点:【上海】同济大学(沪西)/新城金郡商务楼(11号线白银路站)【深圳分部】:电影大厦(地铁一号线大剧院站)/深圳大学成教院【北京分部】:北京中山/福鑫大楼【南京分部】:金港大厦(和燕路)【武汉分部】:佳源大厦(高新二路)【成都分部】:领馆区1号(中和大道)【沈阳分部】:沈阳理工大学/六宅臻品【郑州分部】:郑州大学/锦华大厦【石家庄分部】:河北科技大学/瑞景大厦 近开间(周末班/连续班/晚班):2020年12月28日(请尽快联系提前报名) |
实验设备 |
◆小班教学,教学效果好 ☆注重质量☆边讲边练 ☆合格学员免费推荐工作 ★实验设备请点击这儿查看★ |
质量保障 |
1、培训过程中,如有部分内容理解不透或消化不好,可免费在以后培训班中重听; 2、课程完成后,授课老师留给学员手机和Email,保障培训效果,免费提供半年的技术支持。 3、培训合格学员可享受免费推荐就业机会。☆合格学员免费颁发相关工程师等资格证书,提升职业资质。专注高端技术培训15年,曙海学员的能力得到大家的认同,受到用人单位的广泛赞誉,曙海的证书受到广泛认可。 |
部份程大纲 |
|
互联网时代下,数据量的急剧增长,传统的数据仓库已经无法满足。Hive作为Hadoop生态圈中的数据仓库解决方案随着开源社区的快速发展而逐步成熟,慢慢的在某些场景下替代企业级数据仓库,成为各大互联网公司数据仓库建设的必选方案,可以这么说,Hive已经成为大数据数据仓库的事实标准。
第一部份 Hadoop与MapReduce
1) Hive在Hadoop Ecosystem中的地位
2) Hive的版本演进与目前现状
3) 部份程实践环境说明
4) 实操: Hive/Hadoop预备环境安装
第二部份 Hive的基本概念与QuickStart
1) Hive的安装部署
2) Hive的基本架构
3) 启动Hive
4) Hive命令行
5) HiveServer与JDBC/ODBC
6) 实操: Hive命令行和ThriftServer基本使用
第三部份 数据类型与文件格式
1) Hive支持的基本数据类型
2) Hive支持的集合数据类型
3) Hive支持的文件格式与优劣对比
第四部份 HiveQL:数据定义
1) Hive数据模型
2) Database
3) Table
4) Partition
5) 自定义存储格式
6) 自定义表属性
7) 常用创建/删除/修改表语法
8) 实操: HQL 创建/删除/修改操作练习
第五部份 HiveQL:数据操作
1) 加载数据(LoadData)
2) 从查询计算结果加载数据(Insert Table Select)
3) 动态分区(DynamicPartitioning)
4) CTAS(CreateTableAsSelect)
5) 导出数据
6) 实操: 练习以上数据加载计算和导出操作
第六部份 HiveQL:数据查询
1) 从简单的开始
2) Select … From
3) Where条件
4) Group By条件
5) Join
6) 排序(OrderBy/SortBy)
7) ClusterBy/DistributeBy
8) 抽样(Sampling)
9) Union
10) 实操: 练习以上各种查询语法
第七部份 Hive函数与自定义函数
1) 查看与调用函数
2) 常用标准函数(UDF)
3) UDAF
4) UDTF
5) UDF/UDAF/UDTF开发
6) 实操: 练习并完成UDF Java开发的作业
第八部份 Hive常用模式设计
1) 按天做Partition
2) 分桶(Bucket)
3) 压缩
4) 表Schema变更
5) 实操: 练习以上几种仓库设计模式
第九部份 Hive调优
1) Hive参数说明
2) Explain查看执行计划
3) 控制Map/Reduce数
4) 并行执行
5) 推测执行
6) Join优化
7) 数据倾斜问题
8) 动态分区优化
9) 实操: 练习并理解不同优化参数下的执行逻辑
第十部份 Hive新特性与其他
1) Hive on Tez
2) Hive on Spark
3) Hive与HBase集成
4) HCatalog
第十一部份 案例
1) 广告用户行为分析场景预备
2) 构建Hive表与数据处理
3) 常用分析案例
|