当前位置:搞趣网 >云数据仓库先驱Amazon Redshift:十年云上重塑之旅

云数据仓库先驱Amazon Redshift:十年云上重塑之旅

PB级云数据仓库服务Amazon Redshift发布近十年之际,Amazon Science采访了亚马逊云科技数据分析副总裁Rahul Pathak和亚马逊云科技高级首席工程师Ippokratis Pandis,他们分享了Amazon Redshift的起源、过去近十年的成长及其未来展望。

十年前,时任亚马逊云科技高级副总裁的Andy Jassy(现任Amazon CEO)在首届亚马逊云科技re:Invent大会上宣布推出Amazon Redshift预览。与昂贵、缺乏弹性并需要投入大量的运营人力和资金的传统本地数据仓库解决方案相比,Amazon Redshift有了质的飞跃。

亚马逊首席技术官Werner Vogels20121128日的博文里表示“我们很高兴推出了Amazon Redshift预览版,这是一个高性能、全托管的PB级云数仓服务。该服务的性能将显著提升客户数据分析效率。Amazon.com的数据仓库团队一直在试用Amazon Redshift,他们规模高达20亿行的数据集进行了一系列的典型查询,并将Amazon Redshift本地数据仓库进行比较结果显示Amazon Redshift速度提高了10-150倍!

这也是为何当时还是高级产品经理的Rahul Pathak以及整个Amazon Redshift团队,在该服务宣布推出之日充满信心。Rahul Pathak现任亚马逊云科技数据分析副总裁,他回忆:“我们没料到的是它会这么受客户欢迎。在提供预览版时,我们先让客户注册,了解他们的数据量和工作负载。约三天左右,我们就发现客户对Amazon Redshift的需求量比原先预计的整年需求量还多10于是,我们在re:Invent一结束就迅速增加硬件订单,以确保在2013年初Amazon Redshift正式可用时能有充足的数据中心硬件支持。还好提前提供了预览版,否则我们将应接不暇。

从那时起,Amazon Redshift团队一直加紧创新,满足客户不断增长的各种需求。如今,数以万计的客户每天使用Amazon Redshift处理EB级的数据,为高性能商业智能(BI)报告、仪表板应用程序、数据探索和实时分析等分析工作负载提供支持。

关于Redshift的起源

RahulAmazon Redshift推出的前几年,我们的很多客户就已经除了数据仓库之外的所有工作负载迁移到了云端。数据仓库常常客户在企业本地运行的最后一个应用而且他们仍面临如成本高昂、带有惩罚性质的许可费、扩展,并且无法分析所有数据等重重挑战客户的诉求之一便是希望在云中大规模地运行具备足够性价比的数据仓库来分析所有数据同时兼顾性能

随后,我们开始着手构建、运营一个代号Cookie Monster的全新项目。当时客户数据量正在爆炸增长,这些数据不仅来自关系型数据库,还包括各种各样的数据源。客户试用Redshift一个早期测试版发现结果返回速度快得惊人比他们之前使用的系统快了1020以至于他们还以为系统出现了问题。当然,我们也收到一些客户对某些早期功能不满意的反馈。我们及时与这些客户取得联系,了解他们面临的挑战、反馈,并在20132该服务正式上线之前进行了调整。

当我们推出Amazon Redshift并宣布定价为每年1000美元/TB时,人们简直不敢相信我们推出了一个性价比如此之高的服务。我们在几分钟内而不是几个月就能为客户提供一个数据仓库,这吸引了所有人的关注,被业界称为一个真正的游戏规则改变者。

Ippokratis:当时,我IBM研究院从事数据库技术工作,我们意识到,云服务的方式提供数据仓库将颠覆游戏规则。使用客户的本地系统通常需要几天或几周时间才能解决的问题,使用像Redshift这样的云数据仓库只需要几分钟,应用云服务明显加快了创新的速度

就传统的本地数据仓库而言通常需花费几个月甚至几年时间才能将新功能更新到最新的软件版本中;而在云端,新功能可以在几周内推出,客户无需改变应用程序中的任何一行代码。Amazon Redshift的发布是一个拐点,让我对云和云数据仓库产生了真正的兴趣,并选择加入了亚马逊云科技[Ippokratis201510作为首席工程师加入Amazon Redshift团队]

关于Amazon Redshift在过去的十年中的发展

Ippokratis为了满足客户的需求,Amazon Redshift已进入快速迭代过程。我们主要聚焦四个维度:1满足客户高效处理日益复杂的分析查询的需求;2)客户需要处理更多数据,需要从数据中获得洞察的用户数量也大幅增长3)客户需要更易于操作的系统;4)客户希望将Amazon Redshift与亚马逊云科技其他服务进行集成

Amazon Redshift从诞生之日起,我们就致力于让它能为客户提供卓越的的高性价比。团队从一开始,就专注于尽最大可能降低核心查询执行延迟,以便系统能够响应更多作业请求,客户能够运行更多工作负载,并支持日常分析。为此Amazon Redshift生成高度优化的C++代码,然后将其发送到并行数据库中的分发器,并执行这些高度优化的代码。这种方法让Amazon Redshift在查询执行方式上独树一帜,也使它一直成为服务的核心。

我们从来没有停止过创新,一直竭力为客户提更的性能。另一个让我感兴趣的点是,客户在传统商业智能中,通常需要长时间运行作业进行系统优化。但当我们从深入分析客户行为时,我们发现在每天运行的数十亿次查询中,90%的查询执行时间不到一秒。这一惊人发现打破了人们对数据仓库期望的传统认知同时也改变了我们着力优化的代码方向

Rahul正如Ippokratis提到的,客户需要处理更多的数据,并使用这些数据整个组织挖掘数据价值,这是我们重点关注的第二个方向。数据分析一直非常重要,但在八或十年前,不一定客户的关键任务应用。现在这种情况已经改变,企业核心业务流程依赖于Amazon Redshift的高可用性和性能。过去十年中,支持这一目标Amazon Redshift在架构上最大的变化是引入Redshift Managed Storage (RMS),将计算和存储分离,并聚焦各自领域大举创新。

RMS支持跨多个可用区,具有99.999999999%的耐久性和99.99%的可用性。RMS既管理用户数据,也管理交易元数据。

另一个重大趋势是客户希望在不同的数据集之间进行查询和整合。我们在2017年推出了Redshift Spectrum,让Amazon Redshift成为云中第一个支持查询Amazon S3数据的数据仓库。之后Amazon Redshift运行查询的能力也得到进一步证实该服务能够扫描Amazon S3以及集群中EB的数据进行查询这是另一个改变游戏规则的重要时刻。

像纳斯达克这样的客户已经广泛使用这种方式来查询本地磁盘上的数据,获得最高的性能,同时利用Amazon Redshift与数据湖的完美集成,实现整个历史数据的高性能查询。除了查询数据湖,Amazon Redshift还支持Amazon AuroraAmazon RDS等交易型数据存储的综合查询,这也是一大创新。客户真正意义上拥有一个高性能的分析系统,能够查询所有重要数据,无需像其他系统那样管理复杂的集成过程。

Ippokratis: 易用性是我们关注的第三个方向传统本地数据仓库需要企业IT部门配备专门的数据库管理员。过去十年,客户期望已经发生了变化。现在,如果把数据仓库作为一种服务来提供,系统必须能够自动调整、修复和优化。这已经成为我们关注的一个重要领域,通过将机器学习和自动化纳入系统,增强用性,减少管理员的工作量。

Rahul在易用性方面,我想到了三个创新。第一是并发扩展。与工作负载管理类似,客户以前必须手动调整并发或重置手动分割工作负载集群。现在,系统会自动部署新的资源,自动伸缩,客户无需采取任何行动。

第二是自动表优化功能。系统能够通过查看工作负载和数据布局,并自动建议数据应该如何在集群节点中排序和分布。这个优化是一个不断学习的过程,它能够持续根据工作负载的变化进行调整,这是一个非常厉害的功能。

客户总是在增加更多数据集更多用户,昨天的最优选到明天可能就不复存在了Amazon Redshift可以自动识别,并根据数据存储进行调优。关于如何分析数据在多节点并行处理系统中的最佳分布键,这是个非常有趣的话题,我们在几年前发布的一篇图优化论文中专门进行了分析我们对最佳分布键进行了自动优化,并加入了对数据压缩编码的处理。在一个分析系统中,如何压缩数据对结果有很大影响,因为扫描的数据越少,查询就越快。过去,客户必须自己决定选择什么样的压缩编码格式。现在,Amazon Redshift可以自动确定如何正确编码数据,为数据和工作负载提供尽可能的性能。

第三个创新去年re:Invent推出Amazon Redshift ServerlessRedshift Serverless可在几秒钟内自动设置和扩展资源,让客户无需管理数据仓库集群,即可以为PB级数据规模运行高性能分析工作负载,更轻松地从数据中快速获取洞察。通过Redshift Serverless客户只需要配置一个endpoint即可与他们的数据进行互动Redshift Serverless将自动扩展并自动管理系统,从根本上消除复杂性。

客户可以只关注他们的数据,设置限制参数来管理预算,我们可设定好的限制条件提供最佳性能。这是在易用性方面取得的另一个巨大进步,因为它无需客户进行任何操作。就目前客户对Redshift Serverless预览反馈来看,客户对该服务的表现非常满意我们也很高兴推出了Amazon Redshift Serverless正式可用版本。

Ippokratis: 第四个重点是与其他亚马逊云科技服务的集成。集成是客户的使用行为从传统BI向前进化的重要方向。如今,云数据仓库是一个中心枢纽,与广泛的亚马逊云科技服务紧密集成。首先,我们为客户提供了将数据仓库中的数据与数据湖连接起来的能力。之后客户表示需要访问Amazon AuroraAmazon RDS等运营数据库中的高速业务数据,于是,Amazon Redshift增加了OLTP交易数据库的访问支持。然后我们增加了对数据的支持,以及与Amazon SageMakerAmazon Lambda的集成,客户就可以在不移动数据的情况下运行机器学习训练和推理,并进行通用计算。很明显,我们已经传统BI系统转化深度集成的一组亚马逊云科技服务。

Rahul集成的另一个重要方面是与机器学习服务。通过Redshift ML数据分析师和数据库开发人员可以在Amazon Redshift中使用熟悉的 SQL 命令轻松创建、训练和应用机器学习模型。我们构建了SQL语言创建模型的能力,它将数据摄取到Amazon S3并调用Amazon SageMaker,使用自动机器学习建立最合适的模型,并基于数据提供预测

模型经高效编译返回数据仓库,让客户无需额外的计算和成本,即可运行高性能推理。这种集成优势在于Amazon SageMaker中的每一次创新也意味Redshift ML变得更好这是客户可以从我们的服务集成中受益的另一种方式

集成的另一个重要的方向Data Sharing。一旦使用 RA3 实例,将计算和存储层分离,就可以打开Data Sharing客户有能力与同一账户、其他账户、或者跨区域的集群共享数据这意味着可以将数据消费者和生产者分开,实现现代化的数据网格等等架构上的创新。客户可以在不复制数据的情况下分享数据,从而达成不同账户间的数据一致性。

例如,数据科学家组别的用户可以安全地在共享数据中工作,报表或营销组的用户也可以。我们还将Data SharingAmazon Data Exchange整合在一起,客户可以搜索并订阅最新的第三方数据集,并在Amazon Redshift中立即进行查询。从释放数据潜能的角度来看,这种整合再次改变了游戏规则,帮助第三方供应商数据变现为用户提供安全实时的数据访问和许可,方便在内部和跨组织进行高性能分析。Amazon Redshift是一个极其丰富的数据生态系统的一部分,这是一个巨大的优势能满足客户在公司的各个组织之间方便的提供/获取数据的需求

展望Redshift及云数据仓库的发展前景

Rahul未来,客户将产生越来越多的数据,他们希望更经济高效地分析这些数据。虽然数据量呈现指数级增长,但显然客户并不希望他们的成本以指数增长。这就要求我们继续创新,进一步提升性能以确保单位数据处理成本持续下降。

我们将继续在软件、硬件、芯片和机器学习应用等方面进行创新。在过去的10年中,我们已经兑现了这一承诺,今后亦将如此。 

我非常自豪于我们团队目前取得的诸多成就,同时,我也同样对我们正在执着努力的事业而热血沸腾。

客户总是希望拥有更好的可用性,希望他们的数据是安全的以及与更多数据源整合的可能性,我们也计划继续围绕这些方向优化服务体验。可以确定的是,我们有能力提供极具高性价比、深度集成和安全可靠的服务,帮助客户创造更多价值。

Ippokratis: 这是一段不可思议的旅程。我们一直在与客户一路前行,不断重构。这背后离不开亚马逊云科技领导团队的支持,但更重要的是团队中出色的工程师、经理和产品团队,他们让一切成为可能。

关于亚马逊云科技

超过15年以来,亚马逊云科技 Amazon Web Services)一直以技术创新、服务丰富、应用广泛而享誉业界。亚马逊云科技一直不断扩展其服务组合以支持几乎云上任意工作负载,目前提供超过200项全功能的服务,涵盖计算、存储、数据库、网络、数据分析、机器学习与人工智能、物联网、移动、安全、混合云、虚拟现实与增强现实、媒体,以及应用开发、部署与管理等方面;基础设施遍及27个地理区域的87个可用区,并已公布计划在澳大利亚、加拿大、印度、以色列、新西兰、西班牙、瑞士和泰国新建8个区域、24个可用区。全球数百万客户,包括发展迅速的初创公司、大型企业和领先的政府机构,都信赖亚马逊云科技,通过亚马逊云科技的服务支撑其基础设施,提高敏捷性,降低成本。要了解更多关于亚马逊云科技的信息,请访问:www.amazonaws.cn

垂询请联系:

朗明公关

王燕新 手机(微信同号) : 135 2243 8458wangy@mail.prbright.com

张静雅 手机(微信同号) : 132 6002 9281zhangj@mail.prbright.com

免责声明:本文图片引用自网络,如有侵权请联系我们予以删除

搞趣网发布此文仅为传递信息,不代表搞趣网认同其观点。