大数据时代快速SQL引擎-Impala( 二 )_导读随着大数据时代的到来

----大数据时代快速SQL引擎-Impala//---- http://

导读	随着大数据时代的到来， Hadoop在过去几年以接近统治性的方式包揽的ETL和数据分析查询的工作，大家也无意间的想往大数据方向靠拢，即使每天数据也就几十、几百M也要放到Hadoop上作分析，只会适得其反，但是当面对真正的Big Data的时候， Hadoop就会暴露出它对于数据分析查询支持的弱点。

背景

甚至出现《MapReduce: 一个巨大的倒退》此类极端的吐槽，这也怪不得Hadoop ，毕竟它的设计就是为了批处理，使用用MR的编程模型来实现SQL查询，性能肯定不如意。所以通常我也只是把Hive当做能够提供将SQL语义转换成MR任务的工具，尤其在做ETL的时候。

在Dremel论文发表之后，开源社区涌现出了一批基于MPP架构的SQL-on-Hadoop(HDFS)查询引擎，典型代表有Apache Impala、Presto、Apache Drill、Apache HAWQ等，看上去这些查询引擎提供的功能和实现方式也都大同小异，本文将基于Impala的使用和实现介绍日益发展的基于HDFS的MPP数据查询引擎。