presto、druid、sparkSQL、kylin的对比分析,如性能、架构等,有什么异同?

在实际应用中如何选型?
关注者
960
被浏览
191,635
登录后你可以
不限量看优质回答私信答主深度交流精彩内容一键收藏

谢谢邀请。你之列了这一领域的一部分,据我不完全收集,包括:

  • 商业系统
    • InfoBright
    • Greenplum(已开源)、HP Vertica、TeraData、Palo、ExaData、RedShift、BigQuery(Dremel)
  • 开源实现
    • Impala、Presto、Spark SQL、Drill、Hawq
    • Druid、Pinot
    • Kylin

其中你列的presto、druid、sparkSQL、kylin可以分为三类。其中presto和spark sql都是解决分布式查询问题,提供SQL查询能力,但数据加载不一定能保证实时。Druid是保证数据实时写入,但查询上不支持SQL,或者说目前只支持部分SQL,我个人觉得适合用于工业大数据,比如一堆传感器实时写数据的场景。Kylin是MOLAP,就是将数据先进行预聚合,然后把多维查询变成了key-value查询。

这里要看你实际要应用于什么场景了。