彩票走势图

使用Cloudera数据工程分析薪资保护计划数据

翻译|行业资讯|编辑:况鱼杰|2020-08-24 10:34:48.853|阅读 113 次

概述:本文说明了如何使用Apache Spark将Cloudera数据工程(CDE)用于基于PPP数据生成报告,同时解决上述所有挑战。

# 慧都年终大促·界面/图表报表/文档/IDE等千款热门软控件火热促销中 >>

相关链接:

薪酬保护计划(PPP)由美国联邦政府实施,旨在为企业提供直接激励措施,以使员工保持工资,特别是在Covid-19大流行期间。 PPP帮助合格的企业保留其劳动力,并帮助支付相关业务费用。美国财政部网站的数据显示了哪些公司获得了PPP贷款以及保留了多少职位。美国财政部批准了全美大约100万笔PPP贷款。

对这些数据的分析提出了三个挑战。首先,数据量很大。提取,整理,转换,检索和报告该数据的时间非常耗时。其次,数据集可能会发展,这将消耗额外的开发时间和资源。最后,在这样的多阶段流程中,事情可能会破裂。快速确定错误或瓶颈的能力将有助于一致地满足SLA。

本文说明了如何使用Apache Spark将Cloudera数据工程(CDE)用于基于PPP数据生成报告,同时解决上述所有挑战。


目的


下面设置了德克萨斯州立法预算委员会(LBB)的模拟方案,以帮助数据工程师管理和分析PPP数据。 该数据工程师的主要目标是向LBB提供两个最终报告:

  • 报告1:德克萨斯州所有保留工作的城市的细目分类
  • 报告2:保留职位的公司类型明细


Cloudera数据工程(CDE)


这是运行Apache Spark的Cloudera数据工程(CDE)可以提供帮助的地方。 CDE是Cloudera Data Platform(CDP)中的一项服务,它允许数据工程师创建,管理和调度Apache Spark作业,同时提供有用的工具来监视作业性能,访问日志文件以及通过Apache Airflow编排工作流程。 Apache Spark是一个数据处理框架,能够快速运行大规模数据处理。

美国财政部提供了两种不同的数据集,一种用于大于15万美元的批准贷款,另一种用于15万美元以下的批准贷款。为了生成LBB的两个最终报告,请遵循以下步骤。

  • 第一步是将两个单独的数据集加载到S3存储桶中。
  • 为每个数据集创建了一个Spark作业,以从S3存储桶中提取和过滤数据。
  • 这两个Spark作业将转换干净数据并将其加载到Hive数据仓库中以进行检索。
  • 创建了第三个Spark作业,以处理来自Hive数据仓库的数据以创建两个报告。

作业运行完成后,CDE将提供每个Spark作业内各个阶段的图形表示。这使数据工程师可以轻松地查看工作中哪些部分可能花费最多的时间,从而使他们可以轻松地优化和改进代码,从而最好地满足客户的SLA。


进行数据旅行以生成两个最终报告。

各种Spark阶段的CDE图形表示。


结果


实现了从一百万个批准申请人的记录中生成两个最终报告的主要目标。 第一份报告的图形摘要显示了得克萨斯州每个城市保留的职位数量的前10个样本,第二份报告显示了保留的职位数排名前5的样本(按公司类型。 例如,借助这些报告,德克萨斯州立法预算委员会可以推断出人均保留工作量最少的城市可能需要资源来减轻任何经济影响。

2020年德克萨斯州保留工作最多的十大城市

2020年职位最多的5大公司类型,德克萨斯州

关于Cloudera


Cloudera,我们相信数据可以使今天的不可能,在明天成为可能。我们使人们能够将复杂的数据转换为清晰而可行的洞察力。Cloudera 为任何地方的任何数据从边缘到人工智能提供企业数据云平台服务。在开源社区不懈创新的支持下,Cloudera推动了全球最大型企业的数字化转型历程。


慧都大数据专业团队为企业提供Cloudera大数据平台搭建,免费业务咨询,定制开发等完整服务,快速、轻松、低成本将任何Hadoop集群从试用阶段转移到生产阶段。

欢迎拨打慧都热线023-68661681或咨询慧都在线客服,我们有专业的大数据团队,为您提供免费大数据相关业务咨询!


标签:

本站文章除注明转载外,均为本站原创或翻译。欢迎任何形式的转载,但请务必注明出处、不得修改原文相关链接,如果存在内容上的异议请邮件反馈至chenjj@pclwef.cn


为你推荐

  • 推荐视频
  • 推荐活动
  • 推荐产品
  • 推荐文章
  • 慧都慧问
扫码咨询


添加微信 立即咨询

电话咨询

客服热线
023-68661681

TOP