关于Impala安装部署的一些说明。
安装方案
Impala作为Cloudera主导开发的一个开源SQL工具,在github上有Apache/impala,Cloudera/impala两个代码仓库。从提交的活跃度上看,Cloudera依然是Impala的主导者。
当前,Impala支持运行在有以下这几个系统上:
比较令人震惊的是:官方没有任何声明 Impala 能够运行在 Apache Hadoop 上,虽然谁都知道肯定没有问题。Cloudera 至今没有提供在 Apache Hadoop 版本的安装包,也就是说Impala on Apache Hadoop 官方无法保证兼容性完全没有问题。
目前,Impala有以下几种部署方案:
- 通过Cloudera Manager的Parcels包安装;
- 通过Cloudera 提供的RPM包安装;
- 通过代码编译安装;
通过上面三种方案,安装的Impala连接Hive、Hadoop、HBase的Client均是CDH版本。
Requirements
官网给出了Requirements,包括以下几点:
- Hive metastore service 依赖
- 指明依赖Oracle JDK,其他版本的JDK可能引发ISSUSE
- 2.2以上的版本需要运行在 SSSE3 指令集的CPU上
- 官方推荐单点Impalad内存128GB以上(呵呵)
- 官方不推荐使用root运行Impala,原因是会影响性能