提供3000多款全球软件/控件产品
针对软件研发的各个阶段提供专业培训与技术咨询
根据客户需求提供定制化的软件开发服务
全球知名设计软件,显著提升设计质量
打造以经营为中心,实现生产过程透明化管理
帮助企业合理产能分配,提高资源利用率
快速打造数字化生产线,实现全流程追溯
生产过程精准追溯,满足企业合规要求
以六西格玛为理论基础,实现产品质量全数字化管理
通过大屏电子看板,实现车间透明化管理
对设备进行全生命周期管理,提高设备综合利用率
实现设备数据的实时采集与监控
利用数字化技术提升油气勘探的效率和成功率
钻井计划优化、实时监控和风险评估
提供业务洞察与决策支持实现数据驱动决策
原创|大数据新闻|编辑:蒋永|2019-03-07 11:35:41.000|阅读 1382 次
概述:接着上次的文章,本次我们针对的是大数据从业者的老司机面试时会遇到的问题,并给出相应的建议与答案。
# 慧都年终大促·界面/图表报表/文档/IDE等千款热门软控件火热促销中 >>
相关链接:
上一篇文章我们总结了10个大数据面试入门级问题,大家是否有收获,如果还没有看的小伙伴,可以直接跳转《干货|50个大数据面试问题及答案第一篇:10个大数据面试入门级问题》开始学习吧!
本次我们慧都网分析的是10个已经在大数据行业工作的老司机们面试时的问题及建议答案,话不多说,赶紧开始今天的学习。
如果您在大数据世界中有相当丰富的工作经验,那么根据您以前的经验,您将在大数据面试中被问到一些问题。这些问题可能与您的经验或基于场景有关。所以,准备好这些最好的大数据面试问题和答案 。
11.您有大数据经验吗?如果有,请分享一下。
如何处理: 问题没有具体答案,因为这是一个主观问题,答案取决于您以前的经验。在大数据访谈期间询问这个问题,面试官想要了解您以前的经验,并且还试图评估您是否适合项目要求。
那么,你将如何处理这个问题呢?如果您有以前的经验,请在过去的职位上开始履行职责,并慢慢向对话添加详细信息。告诉他们您使项目成功的贡献。一般来说,这个问题是在面试中提出的第二或第三个问题。后面的问题是基于这个问题,所以请仔细回答。您还应该注意不要过度使用以前工作的一个方面。保持简单和重点。
12.您更喜欢好的数据还是好的模型?为什么?
如何处理: 这是一个棘手的问题,但通常在大数据面试中被问到。它要求您在好的数据或好的模型之间进行选择。作为候选人,您应该尝试根据自己的经验回答这个问题。许多公司希望遵循严格的数据评估流程,这意味着他们已经选择了数据模型。在这种情况下,拥有良好的数据可能会改变游戏规则。另一种方式也适用于基于良好数据选择的模型。
正如我们已经提到的,请根据您的经验回答。但是,不要说拥有良好的数据和良好的模型很重要,因为在现实生活中很难同时拥有这两个数据。
13.您是否会优化算法或代码以使其运行更快?
如何处理: 这个问题的答案应该始终是“是”。真实世界的性能很重要,它不依赖于您在项目中使用的数据或模型。
面试官可能也有兴趣知道您是否有任何以前的代码或算法优化经验。对于初学者来说,这显然取决于他过去从事过哪些项目。有经验的候选人也可以相应地分享他们的经验。但是,请诚实地对待您的工作,如果您过去没有优化代码,那就没关系了。只需让面试官了解您的真实体验,您就可以破解大数据访谈。
14.您如何处理数据准备?
如何处理: 数据准备是大数据项目的关键步骤之一。大数据访谈可能涉及至少一个基于数据准备的问题。当面试官问你这个问题时,他想知道你在数据准备过程中采取了哪些步骤或预防措施。
如您所知,需要数据准备才能获得必要的数据,然后可以进一步用于建模目的。你应该把这个消息传达给面试官。您还应该强调要使用的模型类型以及选择特定模型的原因。最后,但并非最不重要,您还应该讨论重要的数据准备术语,如转换变量,异常值,非结构化数据,识别差距等。
15.您如何将非结构化数据转换为结构化数据?
如何处理: 非结构化数据在大数据中非常常见。应将非结构化数据转换为结构化数据,以确保正确的数据分析。您可以通过简要区分两者来开始回答问题。完成后,您现在可以讨论用于将一个表单转换为另一个表单的方法。您也可以分享您所做的真实情况。如果您最近刚毕业,那么您可以分享与您的学术项目相关的信息。
通过正确回答这个问题,您发出信号表明您了解结构化和非结构化数据的类型,并且具有使用这些数据的实践经验。如果你具体回答这个问题,你肯定能够破解大数据访谈。
16.哪种硬件配置对Hadoop作业最有利?
配置4/8 GB RAM和ECC内存的双处理器或核心机器是运行Hadoop操作的理想选择。但是,硬件配置因项目特定的工作流程和流程而异,因此需要进行自定义。
17.当两个用户尝试访问HDFS中的同一文件时会发生什么?
HDFS NameNode支持独占只写。因此,只有第一个用户将收到文件访问权限,第二个用户将被拒绝。
18.如何在NameNode关闭时恢复它?
需要执行以下步骤才能启动并运行Hadoop集群:
在大型Hadoop集群的情况下,NameNode恢复过程会消耗大量时间,这在日常维护的情况下将成为更大的挑战。
19.您对Hadoop中的Rack Awareness有何了解?
它是一种应用于NameNode的算法,用于决定块及其副本的放置方式。根据机架定义,同一机架内的DataNode之间的网络流量最小化。例如,如果我们将复制因子视为3,则将两个副本放在一个机架上,而将第三个副本放在单独的机架中。
20.“HDFS Block”和“Input Split”有什么区别?
HDFS将输入数据物理地划分为用于处理的块,这被称为HDFS块。
输入拆分是映射器用于映射操作的逻辑数据划分。
欢迎拨打慧都热线023-68661681或咨询,我们将帮您转接大数据专家团队,并发送相关资料给您!
下集预告:干货|50个大数据面试问题及答案第三篇:10个大数据Hadoop面试问题
本站文章除注明转载外,均为本站原创或翻译。欢迎任何形式的转载,但请务必注明出处、不得修改原文相关链接,如果存在内容上的异议请邮件反馈至chenjj@pclwef.cn
大数据分析的一些发展趋势将为企业的未来发展做好准备。大数据分析如今成为政府部门和私营企业以及医疗机构抗击新冠疫情的重要资源。这在很大程度上要归功于云计算软件的发展,很多企业现在可以实时跟踪和分析大量业务数据,并相应地对其业务流程进行必要的调整。
生产质量分析是从工厂订单下单-订单生产-流入市场, 针对整个生产链进行全面的质量分析。其中最重要的一环就是对于质量控制。
生产质量分析主要是为了帮助企业更快更准确的发现产品的质量问题,找到影响质量的根本原因,改善原因,提高企业产品良率。下面我们看看慧都科技的质量分析到底能帮助企业解决哪些问题?
在工业制造界,企业极不希望发生停机事故。因为,一小时的停机时间会使企业损失上百万人民币甚至更多。除了资金方面的损失之外,停机还意味着,当持续发生设备故障时,对员工的激励难度则会变大。因此,在企业的日常业务运营中,预测性维护就显得十分重要。
一款用于数据驱动的云优先型企业的平台。
Cloudera 企业版基于hadoop的大数据分析和管理软件
Cloudera Essentials管理和支持Cloudera的Hadoop发行版。
Cloudera Data Warehouse今天,明天及未来的现代分析数据库。
Cloudera Operational DB现代数据驱动型业务的实时洞察。
服务电话
重庆/ 023-68661681
华东/ 13452821722
华南/ 18100878085
华北/ 17347785263
客户支持
技术支持咨询服务
服务热线:400-700-1020
邮箱:sales@pclwef.cn
关注我们
地址 : 重庆市九龙坡区火炬大道69号6幢