presto、druid、sparkSQL、kylin的对比分析,如性能、架构等,有什么异同?
在实际应用中如何选型?
关注者
960被浏览
191,635登录后你可以
不限量看优质回答私信答主深度交流精彩内容一键收藏
谢谢邀请。你之列了这一领域的一部分,据我不完全收集,包括:
- 商业系统
- InfoBright
- Greenplum(已开源)、HP Vertica、TeraData、Palo、ExaData、RedShift、BigQuery(Dremel)
- 开源实现
- Impala、Presto、Spark SQL、Drill、Hawq
- Druid、Pinot
- Kylin
其中你列的presto、druid、sparkSQL、kylin可以分为三类。其中presto和spark sql都是解决分布式查询问题,提供SQL查询能力,但数据加载不一定能保证实时。Druid是保证数据实时写入,但查询上不支持SQL,或者说目前只支持部分SQL,我个人觉得适合用于工业大数据,比如一堆传感器实时写数据的场景。Kylin是MOLAP,就是将数据先进行预聚合,然后把多维查询变成了key-value查询。
这里要看你实际要应用于什么场景了。