首页 >新闻 > 科技 > 内容

星爆数据通往云存储之路

科技 2020-01-22 10:57:51

随着云存储成为事实上的数据湖,回想起仅仅几年前,SQL-on-Hadoop还是一个激烈竞争的战场,有超过12个不同的开源和专有引擎参与其中,这几乎是很奇怪的。尘埃落定,Hadoop市场随着Cloudera和Hortonworks的合并而逐渐缩小,所有人的目光都集中在如何访问存储在云对象存储中的越来越多的数据。现在,每个云数据仓库平台都提供了将查询联合到云对象存储的方法。



但是,如果不想挂载Hadoop集群或设置数据仓库,该怎么办呢?几年前,AWS与Athena合作,后者直接查询S3。在引擎盖下,雅典娜使用了Presto。这是Facebook开发的基于hadoop的交互式SQL查询技术,它曾一度被认为是此类框架中唯一没有主要供应商支持的框架之一。那不是黑斑羚,黑斑羚后面有克劳迪拉;来自IBM的Db2产品BigSQL;从关键干;它也不是霍顿工厂(Hortonworks)升级版的Hive。翻译吗?如果你习惯了Presto,你就只能靠自己了。

收购了Hadapt的Teradata在将其剥离出去之前就已经开始填补这一真空了——公司现在更名为Starburst Data,想要在Teradata核心市场之外的中端市场自由发展。

另外:云成本控制成为企业的首要问题

反映了大数据世界仍然包括,但也比Hadoop更广泛的事实,你不会看到很多比较Hadoop框架上的SQL的基准测试。考虑到两者都是基于谷歌Dremel项目(现在作为云BigQuery数据仓库服务公开可用)开发的,Presto经常被比作Impala。有人声称Impala在个人查询方面仍然更快。但是,正如针对Apache Spark的测试所揭示的那样,Presto的强大之处在于它的高并发性,因为它的根是Facebook内部的大数据查询引擎,被成千上万的用户使用。

更重要的是,Hadoop仍然是大数据的重要组成部分,但与云存储的对抗也是如此。Apache Hadoop社区正在努力使云对象存储成为与HDFS一样的第一类公民,但是正如Mike Olson最近所评论的,Hadoop社区仍然在等待AWS s3兼容存储的最终答案。

在Teradata之后的生活中,Starburst数据将自己定位为联合查询提供者。是的,Teradata仍然会转售给它的客户群,但是更多的情况下,Starburst的数据会与Dremio这样资金雄厚的对手竞争。Starburst没有接受风险投资,而是一直在自我发展,而且在这么早的阶段就奇迹般地实现了盈利。与Dremio相比,Starburst在数据目录和Kubernetes支持方面做得更好,在安全性、可用性和性能方面做得更好。今天发布的最新版本增加了一个新的“任务控制”控制台,可以方便地将星爆连接到不同的数据源。


尽管Starburst将自己定位为与云和数据库无关(例如,它的连接器比Impala多得多),但它的最佳位置将是提供AWS Athena的第三方替代品。这样做的话,它可能会从Dremio那里得到一些启示,并将容器化和Kubernetes支持添加到它的路线图中。它还面临着来自AWS的竞争。尽管Starburst声称其性能优于Athena,但它的整个运行时(包括最近引入的查询优化器)都是开源的。亚马逊可以很容易地获得同样的技术,这意味着弥补性能差距可能只是时间问题。不管怎样,AWS的大客户之一已经将其许多数据平台迁移到Amazon栈,但在查询S3方面,它仍然是Starburst的坚定客户之一。

郑重声明:本文版权归原作者所有,转载文章仅为传播更多信息之目的,如作者信息标记有误,请第一时候联系我们修改或删除,多谢。