彩票走势图

Cloudera资讯|Azure上的CDW提供快速,经济高效且高度可扩展的分析

翻译|实施案例|编辑:况鱼杰|2020-08-12 15:25:47.160|阅读 198 次

概述:Cloudera Data Warehouse(CDW)是一种托管数据仓库,可在容器化体系结构上运行 Cloudera的强大引擎。本篇文章描述了Cloudera客户所面临的代表性示例,并说明了CDW如何解决这些问题。它还着眼于该解决方案中几种Azure服务(例如Azure Kubernetes服务和ADLS Gen2)所起的关键作用。

# 慧都年终大促·界面/图表报表/文档/IDE等千款热门软控件火热促销中 >>

相关链接:

Cloudera Data Warehouse(CDW)是一种托管数据仓库,可在容器化体系结构上运行 Cloudera的强大引擎。它是新Cloudera数据平台或CDP的一部分,该平台已于今年年初在Microsoft Azure上启用。CDW服务可让您满足SLA,在零摩擦的情况下使用新的用例并最大程度地降低成本。在11日,CDW在Microsoft Azure上已全面上市,该服务可通过Azure市场作为CDP的一部分使用。

与客户讨论数据仓库时,经常会出现三种情况。企业永远无法尽快获得所需的东西。通常会错过SLA,尤其是随着用户数量和用例的增长。而且,即使不是完全强制性的命令,也存在向公共云迁移的压力。

尽管有许多因素导致了这些情况,但是对于如何处理它只有一个答案:CDW。 这篇文章描述了Cloudera客户所面临的代表性示例,并说明了CDW如何解决这些问题。它还着眼于该解决方案中几种Azure服务(例如Azure Kubernetes服务和ADLS Gen2)所起的关键作用。

以一家制造用于飞机的设备的公司为例。像许多企业一样,有大量的分析师在研究精选的数据,业务线(LOB)经理专注于卓越的运营,而数据科学家则在新数据集中寻找竞争优势。但是,也存在挑战,如以下4个例子所示:

  • CDW为业务分析人员Ramesh提供了经济高效,可扩展的报表和仪表板,因此它们的SLA不会被错过。

  • CDW使数据架构师Kelly可以处理仓库中的数据,而不会影响其他工作负载。

  • CDW为数据科学家Olivia提供了无限的计算资源,可以在几分钟之内将对象存储中的任何数据扔掉。

  • CDW为运营经理Mariana提供了一个单一平台,该平台可以执行传统的数据仓库以及需要不同技术的新用例。同时保留每个数据集的单个副本并利用共享的元数据和安全性。

在下面的部分中,我们将进一步解释CDW和Azure如何提供这些功能。


高效,可伸缩的报表和仪表板数据管理


Ramesh和他的业务分析师团队全天不间断地发布报告。业务依靠他的团队提供的洞察力来运行,尤其是与客户情绪有关的洞察力,而老绿道近期旅行支出的下降,这一点就更加至关重要。因此,他们不能错过SLA,否则业务就会向着其他方向发展。

每当没有查询时,CDW虚拟仓库(VW)中的计算资源将保持暂停状态,不会产生任何成本。Ramesh上班后的第一个查询一到,他就会自动启动。如果由于Ramesh的许多同事都在早上晚些时候上线而导致查询负载稍后增加到饱和点,则VW将检测到这一点并提供更多计算资源来处理负载,同时保持高性能——这称为自动缩放。一旦负载下降到较低的水平,那么这些额外的计算资源就被释放了,因此不再产生成本。最后,在Ramesh最终离开工作并且查询全部结束的一天结束时,将自动暂停自身,再次下降为免费状态。

CDW可以使用Azure Kubernetes服务(AKS)快速配置计算Pod,并在不再需要时释放它们,从而提供这种按需付费的功能。这些Pod使用Standard_E16_v3计算实例大小(16 vCPU,128 GiB RAM,400 GiB本地SSD) AKS最终在后台使用VM缩放集来启用和控制自动缩放。

Ramesh的团队运行查询后,就可以通过服务中内置的三个缓存级别在很大程度上满足其SLA:

  • 数据缓存–首次从ADLS读取数据时,会将其缓存在使用该数据的计算节点上。随后需要相同数据的查询从本地缓存(而不是ADLS)获取数据。Hive LLAP和Impala VW均支持此缓存类型。

  • 结果集缓存–将结果发送回客户端后,结果集也将缓存在HiveServer2节点上的存储中。如果再次到达完全相同的查询(这在仪表板和BI用例中很常见),则直接从HS2缓存中提供结果。当前,只有Hive LLAP VW支持此缓存类型。

  • 物化视图–您可以定义物化视图(MV)的结构和内容,Hive将从基表中选择数据填充其中。对于后续访问基表的查询,如果Hive检测到可以从MV中提供数据,则它将透明地重写查询以使用该查询,从而避免了再次扫描基表,联接数据,对其进行汇总的需求等等。目前只有Hive LLAP大众汽车支持此功能。

凭借这种智能和性能优化水平,Ramesh和团队可以随着数据量和业务需求的增长而增长,而仅需支付实际工作所需的资源。


临时探索以补充SLA约束的工作量


CMO要求数据架构师Kelly提供量化近期营销活动影响的指标。仓库具有所需的数据,但也正在满负荷运行。凯利(Kelly)将需要使用各种查询类型来探索数据,并且不确定需要多长时间或她需要多少CPU和内存。在这样模糊的要求下,由于存在影响SLA约束的操作工作负载的风险,IT不允许她在数据仓库上执行此工作。她的查询可能会耗尽CPU资源,并从缓存中逐出所有热数据。因此,CMO没有度量标准来帮助理解其营销投资的影响。

借助CDW,Kelly可以拥有自己的计算环境,该环境可以查询仓库数据,但与其他受SLA约束的工作负载完全隔离。CDW可以通过与存储和计算层分开管理数据上下文(表定义,授权策略,元数据)来做到这一点。这样,多个计算环境都可以共享同一数据上下文。 Cloudera共享数据体验(SDX)是为此托管上下文提供的术语。

SDX的关键启用功能是能够在持久数据库中可靠地存储元数据和安全规则的功能。为此,使用Gen5 4 vCore,内存优化选项将Azure数据库用于PostgreSQL。托管的Postgres服务易于集成,高度可用且管理起来很简单。将其用作元数据和其他持久状态的单一事实来源,CDW可以安全地并行运行您的工作负载需求的多个计算环境。

当在这种情况下需要计算资源时,CDW提供的另一种方法是将您的工作负载从本地CDH或HDP群集扩展到在公共云中运行的CDP。在这种情况下,Workload Manager工具用于分析您的内部工作负载,确定适合突发的候选工作负载(在这种情况下,临时探索查询会干扰SLA绑定查询),然后将数据和元数据复制到CDP。现在可以在您的云环境中安全地运行工作负载。如果这样做,您可能希望使用Microsoft ExpressRoute来确保良好的性能和一致的数据移动延迟。


快速配置以跟上业务速度



数据科学家奥利维亚(Olivia)有时需要使用尚未在仓库中的新数据文件来检验供应链优化的假设。但是中央IT部门从来没有计划过这样的突发性工作负载,也没有资源去做一个新的ETL项目,以将这些新数据(其价值尚未得到证实)整合到仓库中。这导致错过了降低供应链成本并降低其内部风险的机会。

如果使用CDW,Olivia将能够简单地启动一个新的Hive LLAP VW,该过程只需几分钟,然后在数据文件上创建一个外部表定义,以便她可以开始查询它们。使用Hive,您可以本地查询半结构化文本文件和带分隔符的文件(例如CSV或TSV)。有标准的开源库可查询JSON以及其他文件格式。而且,您始终可以为自定义格式定义自己的Serializer-Deserializer(SerDe)。即使使用这些基本文件格式,Hive仍将数据转换为其列式内存格式,以从缓存和IO效率优化中受益。

这种快速提供对对象存储中任意数据查询功能的功能可带来极大的灵活性和灵活性。您可以快速浏览新数据和使用新用例,以跟上业务发展的速度。但是,需要可扩展的高性能ADLS Gen2服务。Hadoop ABFS连接器提供了此关键集成点,将您存储在ADLS Gen2中的企业数据与Cloudera中可用的分析功能的生态系统联系起来。


利用共享资源的新用例的多模式分析



制造LOB运营经理Mariana受其首席运营官的委托,通过避免计划外的设备停机来提高产量。她估计,这将需要每秒存储100万个传感器读数,保留15个月的数据以适应历史趋势分析,对数据运行任意SQL的能力以及访问原始数据和聚合的需求。简而言之,她需要一个高度可扩展的实时数据仓库,该仓库可提供时间序列功能而又不会造成资金损失。

当前的数据仓库团队无法接近这些性能要求,并且他们的团队之一使用的传统时间序列数据库无法处理如此长的历史记录或执行任意SQL。借助CDP平台,Mariana可以在一小时内站起基础架构来托管此类应用程序,在这种情况下,将使用具有标准本地冗余SSD存储的Azure Compute VM。 Cloudera的时间序列产品主要依赖于Apache Kudu存储引擎和Apache Impala进行SQL查询。可以使用Apache NiFi从Azure Event Hub或Kafka或许多其他受支持的源之一中提取数据。强大的Cloudera引擎与强大的Azure基础架构的结合意味着可以满足Mariana的雄心勃勃的要求。

而之后当接到通过制造更可靠的飞机发动机来提高客户满意度的要求时,即便她不知道在工厂要进行哪些调整以提高质量。但是借助Cloudera,Mariana可以运行将时间序列应用程序中的数据与仓库中的其他数据结合起来的查询,以得出制造过程与客户体验之间的相关性(如航班延误所示)。

如上所述,这是通过SDX启用的,但是在这种情况下,由于不允许Mariana查看客户数据中的个人身份信息(PII),因此存在更高的安全级别。因为CDP与Azure Active Directory集成在一起以获取用户的身份和组成员身份,所以它可以使用Apache Ranger强制实施复杂的基于角色或基于属性的访问控制,以在Mariana访问数据时动态屏蔽所有PII数据。她现在可以安全地完成自己的工作,并通过尽自己的职责来提高客户满意度。

关于Cloudera


Cloudera,我们相信数据可以使今天的不可能,在明天成为可能。我们使人们能够将复杂的数据转换为清晰而可行的洞察力。Cloudera 为任何地方的任何数据从边缘到人工智能提供企业数据云平台服务。在开源社区不懈创新的支持下,Cloudera推动了全球最大型企业的数字化转型历程。


慧都大数据专业团队为企业提供Cloudera大数据平台搭建,免费业务咨询,定制开发等完整服务,快速、轻松、低成本将任何Hadoop集群从试用阶段转移到生产阶段。

欢迎拨打慧都热线023-68661681或咨询慧都在线客服,我们有专业的大数据团队,为您提供免费大数据相关业务咨询!


标签:

本站文章除注明转载外,均为本站原创或翻译。欢迎任何形式的转载,但请务必注明出处、不得修改原文相关链接,如果存在内容上的异议请邮件反馈至chenjj@pclwef.cn

文章转载自:CLOUDERA

为你推荐

  • 推荐视频
  • 推荐活动
  • 推荐产品
  • 推荐文章
  • 慧都慧问
扫码咨询


添加微信 立即咨询

电话咨询

客服热线
023-68661681

TOP