干货|50个大数据面试问题及答案完结篇：经验丰富的Hadoop开发人员面试问题

原创|大数据新闻|编辑：蒋永|2019-03-12 10:20:10.000|阅读 1135 次

概述：截止到现在我们已经更新了四期，涵盖了大数据新人面试、大数据经验者面试、大数据hadoop面试和hadoop开发新人面试四个板块，今天进入最后一期，慧都网给大家分享10个经验丰富的Hadoop开发人员面试问题。

# 慧都年终大促·界面/图表报表/文档/IDE等千款热门软控件火热促销中 >>

经验丰富的Hadoop开发人员面试问题

面试官对经验丰富的Hadoop开发人员有更多的期望，因此他们会提一些相对有难度的问题。因此，如果您已经获得了一些经验，请不要忘记涵盖基于命令，基于场景，基于真实体验的问题。在这里，我们为有经验的Hadoop开发人员带来一些示例面试问题。

41.如何重启Hadoop中的所有守护进程？

答：要重新启动所有守护进程，需要先停止所有守护进程。Hadoop目录包含sbin目录，该目录存储脚本文件以在Hadoop中停止和启动守护进程。

使用stop daemons命令/sbin/stop-all.sh停止所有守护进程，然后使用/sin/start-all.sh命令再次启动所有守护进程。

42.在Hadoop中使用jps命令有什么用？

答： jps命令用于检查Hadoop守护程序是否正常运行。此命令显示在计算机上运行的所有守护程序，即Datanode，Namenode，NodeManager，ResourceManager等。

43.解释覆盖HDFS中复制因子的过程。

答：有两种方法可以覆盖HDFS中的复制因子。

方法1：在文件基础上

在此方法中，使用Hadoop FS shell在文件的基础上更改复制因子。用于此的命令是：

$ hadoop fs - setrep -w2 / my / test_file

这里，test_file是复制因子将设置为2的文件名。

方法2：在目录基础上

在此方法中，复制因子在目录基础上更改，即修改给定目录下所有文件的复制因子。

$ hadoop fs -setrep -w5 / my / test_dir

这里，test_dir是目录的名称，目录的复制因子，其中的所有文件都将设置为5。

44.没有任何数据的NameNode会发生什么？

答案： Hadoop中不存在没有任何数据的NameNode。如果有NameNode，它将包含一些数据或它将不存在。

45.解释NameNode恢复过程。

答案： NameNode恢复过程涉及下面提到的使Hadoop集群运行的步骤：

在恢复过程的第一步中，文件系统元数据副本（FsImage）启动一个新的NameNode。
下一步是配置DataNodes和Clients。然后，这些DataNode和客户端将确认新的NameNode。
在最后一步中，新的NameNode在完成最后一个检查点FsImage加载和接收来自DataNodes的块报告时开始为客户端提供服务。

注意：不要忘记，这个NameNode恢复过程在大型Hadoop集群上消耗了大量时间。因此，它使日常维护变得困难。因此，建议使用HDFS高可用性架构。

46. Hadoop CLASSPATH如何启动或停止Hadoop守护进程是必不可少的？

CLASSPATH包含必要的目录，其中包含用于启动或停止Hadoop守护程序的jar文件。因此，设置CLASSPATH对于启动或停止Hadoop守护进程至关重要。

但是，每次设置CLASSPATH都不是我们遵循的标准。通常CLASSPATH写在/etc/hadoop/hadoop-env.sh文件中。因此，一旦我们运行Hadoop，它将自动加载CLASSPATH。

47.为什么HDFS只适用于大型数据集而不适用于许多小文件？

这是由于NameNode的性能问题。通常，NameNode被分配了巨大的空间来存储大规模文件的元数据。元数据应该来自单个文件，以实现最佳的空间利用率和成本效益。对于小尺寸文件，NameNode不使用整个空间，这是性能优化问题。

48.为什么我们需要Hadoop中的数据位置？

HDFS中的数据集存储为Hadoop集群的DataNodes中的块。在MapReduce作业执行期间，各个Mapper处理块（Input Splits）。如果数据不在Mapper执行作业的同一节点中，则需要通过网络将数据从DataNode复制到映射器DataNode。

现在，如果MapReduce作业具有超过100个Mapper并且每个Mapper尝试同时从集群中的其他DataNode复制数据，则会导致严重的网络拥塞，这是整个系统的一个重要性能问题。因此，数据接近计算是一种有效且具有成本效益的解决方案，在技术上称为Hadoop中的数据位置。它有助于提高系统的整体吞吐量。

数据局部性能的3 种：