大数据时代快速SQL引擎-Impala( 二 )

----大数据时代快速SQL引擎-Impala//---- http://

大数据时代快速SQL引擎-Impala

导读随着大数据时代的到来 , Hadoop在过去几年以接近统治性的方式包揽的ETL和数据分析查询的工作 , 大家也无意间的想往大数据方向靠拢 , 即使每天数据也就几十、几百M也要放到Hadoop上作分析 , 只会适得其反 , 但是当面对真正的Big Data的时候 , Hadoop就会暴露出它对于数据分析查询支持的弱点 。

背景

甚至出现《MapReduce: 一个巨大的倒退》此类极端的吐槽 , 这也怪不得Hadoop , 毕竟它的设计就是为了批处理 , 使用用MR的编程模型来实现SQL查询 , 性能肯定不如意 。 所以通常我也只是把Hive当做能够提供将SQL语义转换成MR任务的工具 , 尤其在做ETL的时候 。

在Dremel论文发表之后 , 开源社区涌现出了一批基于MPP架构的SQL-on-Hadoop(HDFS)查询引擎 , 典型代表有Apache Impala、Presto、Apache Drill、Apache HAWQ等 , 看上去这些查询引擎提供的功能和实现方式也都大同小异 , 本文将基于Impala的使用和实现介绍日益发展的基于HDFS的MPP数据查询引擎 。

推荐阅读