大数据面试题(一)

2023-05-16

一、.hdfs写文件的步骤

答案：

(1)client向NameNode申请上传…/xxx.txt文件

(2)NN向client响应可以上传文件

(3)Client向NameNode申请DataNode

(4)NN向Client返回DN1,DN2,DN3

(5)Client向DN1,DN2,DN3申请建立文件传输通道

(6)DN3,DN2,DN1依次响应连接

(7)Client向DN1上传一个block，DN1向DN2,DN3冗余文件

二、hdfs读取文件步骤

答案：

(1)client向NN请求下载…/xxx.txt文件

(2)NN向client返回文件的元数据

(3)Client向DN1请求访问读数据blk_1

(4)DN1向Client传输数据

(5)Client向DN2请求访问读数据blk_2

(6)DN2向Client传输数据

三、hadoop的shuffle过程

1.Map端的shuffle
Map端会处理输入数据并产生中间结果，这个中间结果会写到本地磁盘，而不是HDFS。每个Map的输出会先写到内存缓冲区中，当写入的数据达到设定的阈值时，系统将会启动一个线程将缓冲区的数据写到磁盘，这个过程叫做spill。
　　在spill写入之前，会先进行二次排序，首先根据数据所属的partition进行排序，然后每个partition中的数据再按key来排序。partition的目是将记录划分到不同的Reducer上去，以期望能够达到负载均衡，以后的Reducer就会根据partition来读取自己对应的数据。接着运行combiner(如果设置了的话)，combiner的本质也是一个Reducer，其目的是对将要写入到磁盘上的文件先进行一次处理，这样，写入到磁盘的数据量就会减少。最后将数据写到本地磁盘产生spill文件(spill文件保存在{mapred.local.dir}指定的目录中，Map任务结束后就会被删除)。

　　最后，每个Map任务可能产生多个spill文件，在每个Map任务完成前，会通过多路归并算法将这些spill文件归并成一个文件。至此，Map的shuffle过程就结束了。

2.Reduce端的shuffle

Reduce端的shuffle主要包括三个阶段，copy、sort(merge)和reduce。
　　首先要将Map端产生的输出文件拷贝到Reduce端，但每个Reducer如何知道自己应该处理哪些数据呢？因为Map端进行partition的时候，实际上就相当于指定了每个Reducer要处理的数据(partition就对应了Reducer)，所以Reducer在拷贝数据的时候只需拷贝与自己对应的partition中的数据即可。每个Reducer会处理一个或者多个partition，但需要先将自己对应的partition中的数据从每个Map的输出结果中拷贝过来。
　　接下来就是sort阶段，也成为merge阶段，因为这个阶段的主要工作是执行了归并排序。从Map端拷贝到Reduce端的数据都是有序的，所以很适合归并排序。最终在Reduce端生成一个较大的文件作为Reduce的输入。

　　最后就是Reduce过程了，在这个过程中产生了最终的输出结果，并将其写到HDFS上。

四、fsimage和edit的区别？

当NN,SN要进行数据同步时叫做checkpoint时就用到了fsimage与edit，fsimage是保存最新的元数据的信息，当fsimage数据到一定的大小事会去生成一个新的文件来保存元数据的信息，这个新的文件就是edit，edit会回滚最新的数据。

五、简单说一下hadoop的map-reduce模型

首先map task会从本地文件系统读取数据，转换成key-value形式的键值对集合，使用的是hadoop内置的数据类型，如Text，Longwritable等。

将键值对集合输入mapper进行业务处理过程，将其转化成需要的key-value再输出。

之后会进行一个partition分区操作，默认使用的是hashpartitioner，可以通过重写hashpartitioner的getPartition方法来自定义分区规则。

之后会对key进行sort排序，grouping分组操作将相同key的value合并分组输出，在这里可以使用自定义的数据类型，重写WritableComparator的Comparator方法来自定义排序规则，重写RawComparator的compara方法来自定义分组规则。

之后进行一个combiner归约操作，就是一个本地的reduce预处理，以减小shuffle，reducer的工作量。

Reduce task会用过网络将各个数据收集进行reduce处理，最后将数据保存或者显示，结束整个job。

六、运行hadoop集群需要哪些守护进程？

DataNode,NameNode,TaskTracker和JobTracker都是运行Hadoop集群需要的守护进程。

七、hadoop的TextInputFormat作用是什么，如何自定义实现？

InputFormat会在map操作之前对数据进行两方面的预处理。

1.是getSplits，返回的是InputSplit数组，对数据进行Split分片，每片交给map操作一次。

2.是getRecordReader，返回的是RecordReader对象，对每个Split分片进行转换为key-value键值对格式传递给map常用的InputFormat是TextInputFormat，使用的是LineRecordReader对每个分片进行键值对的转换，以行偏移量作为键，行内容作为值。

自定义类继承InputFormat接口，重写createRecordReader和isSplitable方法在createRecordReader中可以自定义分隔符。

八、hadoop和spark都是并行计算，那么他们有什么相同和区别？

两者都使用mr模型来进行并行计算，hadoop的一个作业称为job，job里面分为map task和reduce task，每个task都是在自己的进程中运行的，当task结束时，进程也会结束。

Spark用户提交的任务称为application，一个application对应一个SparkContext，app中存在多个job，没触发一个action操作就会产生一个job。

这些job可以并行或者串行执行，每个job有多个stage，stage是shuffle过程中DAGSchaduler通过RDD之间的依赖关系划分job而来的，每个stage里面有多个task，组成taskset有TaskSchaduler分发到各个executor中执行，executor的生命周期是和application一样的，即使没有job运行也是存在的，所以task可以快速启动读取内存进行计算的。

Hadoop的job只有map和reduce操作，表达能力比较欠缺而且在mr过程中会重复的读写hdfs，造成大量的io操作，多个job需要自己管理关系。

Spark的迭代计算都是在内存中进行的，API中提供了大量的RDD操作join，groupby等，而且通过DAG图可以实现良好的容错。

九、为什么要用flume导入hdfs，hdfs的架构是怎样的？

Flume可以实时的导入数据到hdfs中，当hdfs上的文件达到一个指定大小的时候会形成一个文件，或者超时所指定时间的话也形成一个文件。

文件都是存储在datanode上的，namenode存储着datanode的元数据信息，而namenode的元数据信息是存在内存中的，所以当文件切片很小或者很多的时候会卡死。

十、MR程序运行的时候会有什么比较常见的问题？

比如说作业中大部分都完成了，但是总有几个reduce一直在运行。

这是因为这几个reduce中的处理的数据要远远大于其他的reduce，可能是对键值对任务划分的不均匀造成的数据倾斜。

解决的方法可以在分区的时候重新定义分区规则对于value数据很多的key可以进行拆分、均匀打散等处理，或者是在map端的combiner中进行数据预处理的操作。

十一、简单说一下hadoop和spark的shuffle过程

Hadoop：map端保存分片数据，通过网络收集到reduce端。

Spark：spark的shuffle实在DAGSchedular划分Stage的时候产生的，TaskSchedular要分发Stage到各个worker的executor。减少shuffle可以提高性能。

十二、hive中存放的是什么？

表。

存的是和hdfs的映射关系，hive是逻辑上的数据仓库，实际操作的都是hdfs上的文件，HQL就是用SQL语法来写的MR程序。

十三、Hive与关系型数据库的关系？

没有关系，hive是数据仓库，不能和数据库一样进行实时的CRUD操作。

是一次写入多次读取的操作，可以看成是ETL的工具。

十四、Flume的工作及时是什么？

核心概念是agent，里面包括source，channel和sink三个组件。

Source运行在日志收集节点进行日志采集，之后临时存储在channel中，sink负责将channel中的数据发送到目的地。

只有发送成功channel中的数据才会被删除。

首先书写flume配置文件，定义agent、source、channel和sink然后将其组装，执行flume-ng命令。

十五、Hbase行键列族的概念，物理模型，表的设计原则？

行键：是hbase表自带的，每个行键对应一条数据。

列族：是创建表时指定的，为列的集合，每个列族作为一个文件单独存储，存储的数据都是字节数组，其中数据可以有很多，通过时间戳来区分。

物理模型：整个hbase表会拆分成多个region，每个region记录着行键的起始点保存在不同的节点上，查询时就是对各个节点的并行查询，当region很大时使用.META表存储各个region的起始点，-ROOT又可以存储.META的起始点。

Rowkey的设计原则：各个列族数据平衡，长度原则、相邻原则，创建表的时候设置表放入regionserver缓存中，避免自动增长和时间，使用字节数组代替string，最大长度64kb，最好16字节以内，按天分表，两个字节散列，四个字节存储时分毫秒。

列族的设计原则：尽可能少(按照列族进行存储，按照region进行读取，不必要的io操作)，经常和不经常使用的两类数据放入不同列族中，列族名字尽可能短。

十六、请列出正常的hadoop集群中hadoop都分别需要启动哪些进程，他们的作用分别都是什么，请尽量列的详细一些。

namenode：负责管理hdfs中文件块的元数据，响应客户端请求，管理datanode上文件block的均衡，维持副本数量

Secondname:主要负责做checkpoint操作；也可以做冷备，对一定范围内数据做快照性备份。

Datanode:存储数据块，负责客户端对数据块的io请求

Jobtracker :管理任务，并将任务分配给 tasktracker。

Tasktracker: 执行JobTracker分配的任务。

Resourcemanager、Nodemanager、Journalnode、Zookeeper、Zkfc

十七、请说明hive中Sort By、Order By、Cluster By，Distribute By各代表什么意思？

order by：会对输入做全局排序，因此只有一个reducer（多个reducer无法保证全局有序）。只有一个reducer，会导致当输入规模较大时，需要较长的计算时间。

sort by：不是全局排序，其在数据进入reducer前完成排序。

distribute by：按照指定的字段对数据进行划分输出到不同的reduce中。

cluster by：除了具有 distribute by 的功能外还兼具 sort by 的功能。

十八、HBase简单读写流程？

读：

找到要读数据的region所在的RegionServer，然后按照以下顺序进行读取：先去BlockCache读取，若BlockCache没有，则到Memstore读取，若Memstore中没有，则到HFile中去读。

写：

找到要写数据的region所在的RegionServer，然后先将数据写到WAL(Write-Ahead Logging，预写日志系统)中，然后再将数据写到Memstore等待刷新，回复客户端写入完成。

十九、HBase的特点是什么？

(1)hbase是一个分布式的基于列式存储的数据库，基于hadoop的HDFS存储，zookeeper进行管理。

(2)hbase适合存储半结构化或非结构化数据，对于数据结构字段不够确定或者杂乱无章很难按一个概念去抽取的数据。

(3)hbase为null的记录不会被存储。

(4)基于的表包括rowkey，时间戳和列族。新写入数据时，时间戳更新，同时可以查询到以前的版本。

(5)hbase是主从结构。Hmaster作为主节点，hregionserver作为从节点。

二十、请描述如何解决Hbase中region太小和region太大带来的结果。

Region过大会发生多次compaction，将数据读一遍并写一遍到hdfs上，占用io，region过小会造成多次split，region会下线，影响访问服务，调整hbase.heregion.max.filesize为256m。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

大数据面试题(一) 的相关文章

获得焦点文本框下显示_PyQt5焦点控制

39 39 39 setFocus 设置指定控件获取焦点 setFocusPolicy Policy 设置焦点获取策略 Qt TabFocus 通过Tab键获取焦点 Qt ClickFocus 通过被单击获取焦点 Qt StrongFocu
x86从实模式到保护模式 pdf_X86 CPU的工作模式

按照Intel 64 and IA 32 Architectures Software Developer s Manual 的说法 X86 IA32 CPU有4种操作模式 xff08 Opearting Modes xff09 xff0c
openflow交换机流表删除_sdn交换机与普通交换机区别—Vecloud

SDN xff0c 即Software Defined Network 软件定义网络 xff0c 传统的网络设备交换机路由器的固由设备制造商锁定和控制 xff0c 所以SDN希望将网络控制与物理网络拓扑分离 xff0c 从而摆脱硬件对
计算机会议论文拒绝理由奇葩,论文被拒稿的各种奇葩理由，到底该怎样应对？...

原标题 xff1a 论文被拒稿的各种奇葩理由 xff0c 到底该怎样应对 xff1f 你的论文漏洞 xff0c 比我爷爷的网眼背心上的网眼还多来自某毒蛇审稿人审稿人什么的 xff0c 真的是最令人讨厌了搞科研的小伙伴 xff0c 估计
域用户执行金蝶K/3报错解决方法

自从上星期测试加域意外将公司考勤系统整出事后 xff0c 就再也不敢在物理机测试了装好虚拟机和装好金蝶K 3系统后 xff0c 被这条报错信息折腾了好几天 xff0c 一方面是不熟悉该软件 xff0c 另一方面是几乎搜不到相关的文章一
控制理论导论_理论分享2 | 积极情绪的拓展-建构理论

导论随着积极心理学以及积极组织学术研究的兴起 xff0c 积极情绪的拓展建构理论也越来越疏导理论界和实践界的重视 xff0c 该理论的被引次数不断攀升 xff0c 现已经成为解释积极情绪如何给个人和组织带来积极作用的基础理论 1 理论基
系统操作手册_实物资产管理软件操作手册（系统角色）

一系统角色系统角色菜单提供了对系统角色信息维护的功能 xff0c 可以自定义角色名称和添加角色成员 xff0c 其中角色名称不可重复系统权限是针对角色进行设定的 xff0c 因此此处设定的角色在角色权限分配中会使用到二维护角色
bmi055 标定_RealSense T265相机及IMU标定，运行VINS

转自 https www jianshu com p 194d6c9ef9a4 不确定该文章有没有对IMU和相机的时间做同步 xff01 1 使用imu utils工具包标定IMU 这里有个坑 xff0c imu utils依赖code u
怎么禁用计算机上的自动播放,win7自动播放功能如何关闭？一招轻松关闭自动播放功能...

一些用户向win7纯净版系统电脑插入U盘或光盘时 xff0c 系统会自动播放音视频文件或者弹出自动播放的选择窗口 xff0c 提示我们选择相关的操作 xff0c 这是怎么回事 xff1f 因为系统播放功能引起的 xff0c 只要关闭即可修复
雅可比矩阵机器学习_深度学习中的Matrix Calculus （一）

绝大多数网络上对深度学习公式的推导教程notation混乱 xff0c 而专门介绍Matrix Calculus的材料可能又过于繁杂其实在深度学习中用到的矩阵微积分并不艰深 xff0c 看完之后你就可以愉快的进行各种推导了本文仅作为优秀
linux内核图形工具,UKTools - 在Ubuntu中安装最新Linux内核的另一款工具

Linux公社已经介绍了一个名为Ukuu的图形工具 xff0c 可以很容易地在Ubuntu和Linux Mint中安装最新的Linux内核详细介绍见这里今天我将向您展示一个名为UKTools的新命令行工具 xff0c 它提供 xff1a
matlab gpu程序效率,如何利用GPU（CUDA）加速Matlab程序？

在Matlab中调用GPU的CUDA API进行并行加速 xff0c 主要有两种途径 xff1a 1 对现有Matlab代码的简单改写 xff0c 调用Matlab中支持CUDA的函数进行加速 2 将C语言的CUDA函数封装成库 xff0c
zabbix监控深信服_zabbix3 通过snmpv3监控linux主机

一 zabbix 3 通过snmp v3监控linux主机原因是第三方系统 xff0c 无法安装zabbix客户端 xff0c 只能通过snmp 协议来监控深信服 xff1a 在AC和SSL 等设备中 xff0c SNMP默认是开启的
听课 java_java听课笔记（一）

java三大版本 j2se xff1a core java java application gt javase j2me xff1a 手机上的小应用 gt javame j2ee xff1a java企业级的应用开发 gt javaee
dao模式和前端控制器结合使用_收藏 I 北大青鸟控制器调试软件编程模式二使用说明...

关注 34 消防物联网行业 34 安全最美好 xff01 若为原创解读侵权必究喜讯 xff1a 欢迎加入消防调试员俱乐部注群群已满 xff0c QQ三群号码 xff1a 194961045 文末有福利今天春天的雨水悄悄地来了北
百度开源的数据可视化工具eCharts真心不错

开发文档 xff1a http echarts baidu com doc doc html 部分摘录如下 xff1a 简介 ECharts xff0c 缩写来自Enterprise Charts xff0c 商业级数据图表 xff0c 一
python中定义函数常用关键字_在Python中，使用关键字define定义函数。

在Python中 xff0c 使用关键字define定义函数答 xff1a 错热应力与零外载相平衡 xff0c 是由热变形受约束引起的自平衡应力 xff0c 在温度高处发生拉伸 xff0c 温度低处发生压缩形变答 xff1a 错中国
从CNN到GCN的联系与区别——GCN从入门到精（fang）通（qi）

博客刷不出来图的 xff0c 去知乎地址吧 xff0c 没图不好懂的 https www zhihu com question 54504471 answer 332657604 1 什么是离散卷积 xff1f CNN中卷积发挥什么作用 x
vue-vben-admin 解析三之 eslint + prettier 分析

初学vue3 demo https github com Miofly vue3 vite vuex demo eslint prettier 用于格式化与美化代码从而达到项目代码统一的规范所需安装包如下 eslint typescri
git push的时候报错：error: src refspec xxxxx does not match any. 错误原因和解决方法

先说一下自己的修改经历 xff1a 我本身想push到的是一个master的分支bugfix V1120 然而当我执行 git push origin bugfix V1120 报错 error src refspec xxxxx does

随机推荐

树莓派与stm32通信

设备准备 xff1a 2 树莓派怕 pi3 B 3 stm开发板资料准备 xff1a 主要问题 xff1a 1 stm32读编码器信息 2 stm32 与树莓派通信发出拍照指令 3 树莓派获取数据后做拍照动作
云文档托管方案分析

文章目录一前言二网页生成器的选择2 1 VuePress2 2 Sphinx2 3 Docusaurus2 4 结论三支持全文搜索3 1 VuePress 自带插件3 1 1 vuepress plugin fulltext se
CUDA和cudnn的安装

参考 https blog csdn net weixin 44170512 article details 103990592CUDA 和 TF的版本匹配在最下面 https www tensorflow org install sou
从零开始学习HBase - 一文详解HBase常用API

HBase常用API总结使用的HBase版本为 1 31 1 pom xml文件 span class token comment lt 配置 Hbase 的依赖 gt span span class token tag span cla
基于SDN的访问控制模块实现

一背景 1 访问控制访问控制技术 xff0c 指防止对任何资源进行未授权的访问 xff0c 从而使计算机系统在合法的范围内使用意指用户身份及其所归属的某项定义组来限制用户对某些信息项的访问 xff0c 或限制对某些控制功能的使用的一种
Java -- 访问权限控制（public，protected，private）

访问权限控制 xff08 public xff0c protected xff0c private xff09 Java中最大权限到最小权限依次为 xff1a public xff0c protected xff0c private 类库
认识一下toB和toC

这个话题似乎是老生常谈 xff0c 但其实每个人的理解都不尽相同 xff0c 甚至一个人在不同阶段也有很大不同 xff0c 就好像金庸武侠独孤求败的利剑软剑重剑木剑 xff0c 阅历不同 xff0c 感悟不同 xff0c 境界就不同
将Docker镜像安全扫描步骤添加到CI/CD管道

使用GitlabCI和Trivy 介绍如今 xff0c 镜像安全扫描变得越来越流行这个想法是分析一个Docker镜像并基于CVE数据库寻找漏洞这样 xff0c 我们可以在使用镜像之前知道其包含哪些漏洞 xff0c 因此我们只能在生产中
卡尔曼滤波器之经典卡尔曼滤波

参考文献 xff1a xff11 http www bzarg com p how a kalman filter works in pictures xff12 https blog csdn net u010720661 article
卡尔曼滤波器之扩展卡尔曼滤波

参考文献 xff1a xff11 https zhuanlan zhihu com p 63641680 目录 xff11 xff0e 非线性模型 xff12 xff0e 非线性模型到线性模型的近似 xff11 xff0e 非线性模型卡尔
VINS fusion软件架构分析（3）--- 输入IMU和相机信息 inputIMU + inputImage

文章目录 1 输入IMU和相机信息1 1 inputIMU1 1 1 fastPredictIMU1 1 1 1 Utility deltaQ 1 1 2 pubLatestOdometry知识点 pair 1 2 inputImage1
VINS fusion软件架构分析（2）---- 从参数文件读取参数

1 参数配置文件 VINS是利用参数文件yaml统一管理重要的参数 xff0c 主要分为两个参数配置文件 xff0c 如下图普通参数配置文件 xff0c 如euroc mono imu config yaml相机模型参数配置文件 xff0
VINS fusion软件架构分析（5）--- 坐标系转换

对于VINS代码的解读 xff0c 其中一个重要的知识储备就是理解坐标系间的转换 xff0c 这对于后面代码阅读非常重要 xff0c 因此本章重点解释一下 VINS中有3个坐标系 xff1a 世界坐标系 worldIMU坐标系body相机坐
《算法导论》习题5.3-1 ~ 5.3-7

算法导论习题 5 3 1 5 3 7 5 3 5 带星号我抄了一下题目 5 3 6 比较有意思我抄了一下题目其他的题可以自己对照书原书第三版 5 3 1 直接考虑第2次循环前第1次循环后第1个位置的元素是原集合1 n中任意一个元素的
ROS:坐标系之间的关系 (map \ odom \ base_link)

ROS 坐标系之间的关系 map odom base link 在使用ROS进行定位与导航操作时 xff0c 会伴随着各种坐标系 xff0c 并且每种坐标系都有明确的含义 xff0c ros中定义了常见的坐标系 xff0c 并且所有的坐标系
上下拉电阻的作用

这是在论坛上收集到的一些总结 xff1a 一 OC OD门 xff0c 这种门结构如果不做上拉的话 xff0c 是不能实现电平的高底跳变的 xff0c 不能实现跳变 xff0c 便不能表征数据二驱动能力 xff0c 我们看很多的CPU或
实测MySQL 查询结果保留两位小数函数的区别汇总

MySQL查询结果保留两位小数常用的几个函数的区别 xff0c 使用场景 1 随机函数format x d 2 格式化小数函数format x d 例如 xff1a select format 23456 789 2 或 select fo
STLINK怎么与STM32单片机连接

STLink是ST官方开发的单片机仿真工具 xff0c 可以烧写程序在线仿真 xff0c 使用非常方便 STLink具有两种接口 xff0c 分别为 1 SWD模式 2 SWIM单总线模式 SWD模式主要针对STM32系列的单片机 xff
Ubuntu 18.04系统下创建新用户

以下介绍在Ubuntu 18 04系统下创建新用户目录修改用户权限及删除用户的正确方法在Ubuntu系统上创建新用户使用 sudo useradd 用户名命令 xff0c 但只能创建用户 xff0c 不能在 home 中创建用户目录
大数据面试题(一)

一 hdfs写文件的步骤答案 xff1a 1 client向NameNode申请上传 xxx txt文件 2 NN向client响应可以上传文件 3 Client向NameNode申请DataNode 4 NN向Client返回DN1 D

大数据面试题(一)

大数据面试题(一) 的相关文章

随机推荐

热门标签