关于Impala安装部署的一些说明。

安装方案

Impala作为Cloudera主导开发的一个开源SQL工具,在github上有Apache/impala,Cloudera/impala两个代码仓库。从提交的活跃度上看,Cloudera依然是Impala的主导者。

当前,Impala支持运行在有以下这几个系统上:

  1. CDH
  2. MapR
  3. AWS S3

比较令人震惊的是:官方没有任何声明 Impala 能够运行在 Apache Hadoop 上,虽然谁都知道肯定没有问题。Cloudera 至今没有提供在 Apache Hadoop 版本的安装包,也就是说Impala on Apache Hadoop 官方无法保证兼容性完全没有问题。

目前,Impala有以下几种部署方案:

  1. 通过Cloudera Manager的Parcels包安装;
  2. 通过Cloudera 提供的RPM包安装;
  3. 通过代码编译安装;

通过上面三种方案,安装的Impala连接Hive、Hadoop、HBase的Client均是CDH版本。

Requirements

官网给出了Requirements,包括以下几点:

  • Hive metastore service 依赖
  • 指明依赖Oracle JDK,其他版本的JDK可能引发ISSUSE
  • 2.2以上的版本需要运行在 SSSE3 指令集的CPU上
  • 官方推荐单点Impalad内存128GB以上(呵呵)
  • 官方不推荐使用root运行Impala,原因是会影响性能