本帖最后由 智能读者 于 2014-5-6 12:52 编辑
分享一套关于Hive企业级架构优化、 Hive Sql优化、压缩和分布式缓存的视频教程,热门技术,当前网络比较少有的教程资料。 课程大纲 第一章:架构方面优化策略(5讲)
hadoop的主要性能瓶颈是IO负载,降IO负载是优化的重头戏。
本章大纲: 作业架构优化手段大探底 多个降IO负载的策略和场景... 分表、源表归纳 合理设计表分区、动态分区 压缩、分布式缓存 第二章:Hive Sql语法层面和Properties参数层面优化(4讲)
语法优化手段归纳 Map数和Reduce数的决定和控制及案例分析 数据倾斜的避免和解决办法 执行计划剖析,从执行计划上找倾斜根本 Properties参数 高效Join、MapJoin、SEMI JOIN 减少Job 合并MR Mapreduce中间参数 第三章:Impala熟悉和使用(1讲)
Impala是Cloudera 公司推出仿Hive的一个产品,目前已经有稳定的发行版本。 理论上性能比Hive好,但目前版本功能和扩展性上远不能替代Hive。 未来该产品或会有一定影响力。 特点:同Hive一样是类sql产品 公用Hive的元数据库
第一讲:Hive体系结构及Hive作业形式 第二讲:Hive优化策略大探底及架构优化案例一 第三讲:架构优化案例二之降IO负载策略I 第四讲:架构优化案例二之降IO负载策略II 第五讲:架构优化案例二之降IO负载策略III—压缩和分布式缓存 第六讲:Hive语法、参数层面优化一 第七讲:Hive语法、参数层面优化二 第八讲:Hive语法、参数层面优化三
二、课程环境: Cloudera Hadoop 4 (Hadoop 2.0) Hive-0.90
三、所需技术基础: Hadoop基础、Hive基础、linux基础,其他不限制(不分java和.Net方向,皆适合)。
下载地址:
|