hbase与spark笔试题(选择题)

2023-11-19

转自:https://www.cnblogs.com/cxzdy/p/5388451.html
http://www.bigdatastudy.net/show.aspx?id=175&cid=14

一、HBASE笔试题

  1. HBase来源于哪篇博文? C
    A The Google File System
    B MapReduce
    C BigTable
    D Chubby

  2. 下面对HBase的描述哪些是正确的? B、C、D
    A 不是开源的
    B 是面向列的
    C 是分布式的
    D 是一种NoSQL数据库

  3. HBase依靠()存储底层数据 A
    A HDFS
    B Hadoop
    C Memory
    D MapReduce

  4. HBase依赖()提供消息通信机制 A
    A Zookeeper
    B Chubby
    C RPC
    D Socket

  5. HBase依赖()提供强大的计算能力 D
    A Zookeeper
    B Chubby
    C RPC
    D MapReduce

  6. MapReduce与HBase的关系,哪些描述是正确的? B、C
    A 两者不可或缺,MapReduce是HBase可以正常运行的保证
    B 两者不是强关联关系,没有MapReduce,HBase可以正常运行
    C MapReduce可以直接访问HBase
    D 它们之间没有任何关系

  7. 下面哪些选项正确描述了HBase的特性? A、B、C、D
    A 高可靠性
    B 高性能
    C 面向列
    D可伸缩

  8. 下面与Zookeeper类似的框架是?D
    A Protobuf
    B Java
    C Kafka
    (Kafka是一个高吞吐量分布式消息系统。linkedin开源的kafka。 Kafka就跟这个名字一样,设计非常独特。首先,kafka的开发者们认为不需要在内存里缓存什么数据,操作系统的文件缓存已经足够完善和强大,只要你不搞随机写,顺序读写的性能是非常高效的。kafka的数据只会顺序append,数据的删除策略是累积到一定程度或者超过一定时间再删除。Kafka另一个独特的地方是将消费者信息保存在客户端而不是MQ服务器,这样服务器就不用记录消息的投递过程,每个客户端都自己知道自己下一次应该从什么地方什么位置读取消息,消息的投递过程也是采用客户端主动pull的模型,这样大大减轻了服务器的负担。Kafka还强调减少数据的序列化和拷贝开销,它会将一些消息组织成Message Set做批量存储和发送,并且客户端在pull数据的时候,尽量以zero-copy的方式传输,利用sendfile(对应java里的 FileChannel.transferTo/transferFrom)这样的高级IO函数来减少拷贝开销。可见,kafka是一个精心设计,特定于某些应用的MQ系统,这种偏向特定领域的MQ系统我估计会越来越多,垂直化的产品策略值的考虑)
    D Chubby
    (MapReduce 很多人已经知道了,但关于Chubyy似乎熟悉它的就非常有限,这倒是不奇怪,因为MapReduce是一个针对开发人员的 ProgrammingModel,自然会有很多人去学习它,而Chubby更多的是一种为了实现MapReduce或者Bigtable而构建的内部的 工具,对于开发人员来说基本上是透明的。
    Chubby首先是一个分布式的文件系统。Chubby能够提供机制使得client可以在Chubby service上创建文件和执行一些文件的基本操作。说它是分布式的文件系统,是因为一个Chubby cell是一个分布式的系统,一般包含了5台机器,整个文件系统是部署在这5台机器上的。
    但是,从更高一点的语义层面上,Chubby是一个 lock service,一个针对松耦合的分布式系统的lock service。所谓lock service,就是这个service能够提供开发人员经常用的“锁”,“解锁”功能。通过Chubby,一个分布式系统中的上千个client都能够 对于某项资源进行“加锁”,“解锁”。
    那么,Chubby是怎样实现这样的“锁”功能的?就是通过文件。Chubby中的“锁”就是文件,在上例 中,创建文件其实就是进行“加锁”操作,创建文件成功的那个server其实就是抢占到了“锁”。用户通过打开、关闭和读取文件,获取共享锁或者独占锁; 并且通过通信机制,向用户发送更新信息。

综上所述,Chubby是一个lock service,通过这个lock service可以解决分布式中的一致性问题,而这个lock service的实现是一个分布式的文件系统。)

  1. 下面与HDFS类似的框架是?C
    A NTFS
    B FAT32
    C GFS(也是分布式文件系统,谷歌自己的分布式文件系统)
    D EXT3

  2. 下面哪些概念是HBase框架中使用的?A、C
    A HDFS
    B GridFS
    C Zookeeper
    D EXT3

第二部分:HBase核心知识点(对于Hbase实现核心LSM,会在下篇文章介绍)

  1. LSM含义是?A
    A 日志结构合并树(Log-Structured Merge Tree)
    B 二叉树
    C 平衡二叉树
    D 长平衡二叉树

  2. 下面对LSM结构描述正确的是? A、C
    A 顺序存储
    B 直接写硬盘
    C 需要将数据Flush到磁盘
    D 是一种搜索平衡树

  3. LSM更能保证哪种操作的性能?B
    A 读
    B 写
    C 随机读
    D 合并

  4. LSM的读操作和写操作是独立的?A
    A 是。
    B 否。
    C LSM并不区分读和写
    D LSM中读写是同一种操作

  5. LSM结构的数据首先存储在()。 B
    A 硬盘上
    B 内存中
    C 磁盘阵列中
    D 闪存中

16 HFile数据格式中的Data字段用于()。A
A 存储实际的KeyValue数据
B 存储数据的起点
C 指定字段的长度
D 存储数据块的起点

17 HFile数据格式中的MetaIndex字段用于()。D
A Meta块的长度
B Meta块的结束点
C Meta块数据内容
D Meta块的起始点

18 HFile数据格式中的Magic字段用于()。A
A 存储随机数,防止数据损坏
B 存储数据的起点
C 存储数据块的起点
D 指定字段的长度

19 HFile数据格式中的KeyValue数据格式,下列选项描述正确的是()。A、D
A 是byte[]数组
B 没有固定的结构
C 数据的大小是定长的
D 有固定的结构

20 HFile数据格式中的KeyValue数据格式中Value部分是()。C
A 拥有复杂结构的字符串
B 字符串
C 二进制数据
D 压缩数据
第三部分:HBase高级应用介绍

31 HBase中的批量加载底层使用()实现。A
A MapReduce
B Hive
C Coprocessor
D Bloom Filter

  1. HBase性能优化包含下面的哪些选项?A、B、C、D
    A 读优化
    B 写优化
    C 配置优化
    D JVM优化

  2. Rowkey设计的原则,下列哪些选项的描述是正确的?A、B、C
    A 尽量保证越短越好
    B 可以使用汉字
    C 可以使用字符串
    D 本身是无序的

  3. HBase构建二级索引的实现方式有哪些? A、B
    A MapReduce
    B Coprocessor
    (HBase在0.92之后引入了协处理器(coprocessors),实现一些激动人心的新特性:能够轻易建立二次索引、复杂过滤器(谓词下推)以及访问控制等)
    C Bloom Filter
    D Filter

  4. 关于HBase二级索引的描述,哪些是正确的?A、B
    A 核心是倒排表
    B 二级索引概念是对应Rowkey这个“一级”索引
    C 二级索引使用平衡二叉树
    D 二级索引使用LSM结构

  5. 下列关于Bloom Filter的描述正确的是?A、C
    A 是一个很长的二进制向量和一系列随机映射函数
    B 没有误算率
    C 有一定的误算率
    D 可以在Bloom Filter中删除元素
    第四部分:HBase安装、部署、启动

  6. HBase官方版本可以安装在什么操作系统上?A、B、C
    A CentOS
    B Ubuntu
    C RedHat
    D Windows

  7. HBase虚拟分布式模式需要()个节点?A
    A 1
    B 2
    C 3
    D 最少3个

  8. HBase分布式模式最好需要()个节点?C
    A 1
    B 2
    C 3
    D 最少

  9. 下列哪些选项是安装HBase前所必须安装的?A、B
    A 操作系统
    B JDK
    C Shell Script
    D Java Code

  10. 解压.tar.gz结尾的HBase压缩包使用的Linux命令是?A
    A tar -zxvf
    B tar -zx
    C tar -s
    D tar -nf

二、spark笔试题

  1. spark 的四大组件下面哪个不是 ( D )
    A.Spark Streaming B Mlib C Graphx D Spark R

2.下面哪个端口不是 spark 自带服务的端口 ( C )
A.8080 B.4040 C.8090 D.18080

3.spark 1.4 版本的最大变化 ( B )
A spark sql Release 版本 B 引入 Spark R C DataFrame D支持动态资源分配

  1. Spark Job 默认的调度模式 ( A )
    A FIFO B FAIR C 无 D 运行时指定

5.哪个不是本地模式运行的个条件 ( D )
A spark.localExecution.enabled=true B 显式指定本地运行 C finalStage 无父 Stage D partition默认值

6.下面哪个不是 RDD 的特点 ( C )
A. 可分区 B 可序列化 C 可修改 D 可持久化

  1. 关于广播变量,下面哪个是错误的 ( D )
    A 任何函数调用 B 是只读的 C 存储在各个节点 D 存储在磁盘或 HDFS

  2. 关于累加器,下面哪个是错误的 ( D )
    A 支持加法 B 支持数值类型 C 可并行 D 不支持自定义类型

9.Spark 支持的分布式部署方式中哪个是错误的 ( D )
A standalone B spark on mesos C spark on YARN D Spark on local

10.Stage 的 Task 的数量由什么决定 ( A)

A Partition B Job C Stage D TaskScheduler

11.下面哪个操作是窄依赖 ( B )
A join B filter C group D sort

12.下面哪个操作肯定是宽依赖 ( C )
A map B flatMap C reduceByKey D sample

13.spark 的 master 和 worker 通过什么方式进行通信的? (D )
A http B nio C netty D Akka

14 默认的存储级别 (A )
A MEMORY_ONLY B MEMORY_ONLY_SER
C MEMORY_AND_DISK D MEMORY_AND_DISK_SER

15 spark.deploy.recoveryMode 不支持那种 ( D)
A.ZooKeeper B. FileSystem D NONE D hadoop

16.下列哪个不是 RDD 的缓存方法 (C )
A persist() B Cache() C Memory()

17.Task 运行在下来哪里个选项中 Executor 上的工作单元 (C )
A Driver program B. spark master C.worker node D Cluster manager

18.hive 的元数据存储在 derby 和 mysql 中有什么区别 (B )
A.没区别 B.多会话 C.支持网络环境 D数据库的区别

19.DataFrame 和 RDD 最大的区别 (B )
A.科学统计支持B.多了 schema C.存储方式不一样 D.外部数据源支持

20.Master 的 ElectedLeader 事件后做了哪些操作 (D )
A. 通知 driver B.通知 worker C.注册 application D.直接 ALIVE

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

hbase与spark笔试题(选择题) 的相关文章

  • 调整使用底层 HBase 表的 Hive 查询

    我在 Hbase 中有一个表 比如说 tbl 我想使用它来查询它 蜂巢 因此我将一个表映射到 hive 如下所示 CREATE EXTERNAL TABLE tbl id string data map
  • 从 HBase shell 导出数据

    我正在尝试将数据从 HBase Shell 导出到我可以解析的文本文件 然后添加到 msysql 数据库 我目前正在使用以下命令 echo scan registration COLUMNS gt registration status h
  • 如何像 Hive 表分区一样在 Hbase 表中创建分区

    我们计划从 CDH3 迁移到 CDH4 作为迁移的一部分 我们还计划将 HBASE 引入我们的系统 因为它也会更新数据 在 CDH3 中我们使用 Hive 作为仓库 这里我们遇到了迁移的主要问题 Hive 支持表分区 我们的系统有许多不同模
  • SparkSQL+Hive+Hbase+Hbase集成不起作用

    当我尝试连接配置单元表 正在使用 时出现错误 通过 Hbase 集成创建 在 Spark 中 我遵循的步骤 Hive表创建代码 CREATE TABLE test sample id string name string STORED BY
  • 将 Jar 文件添加到 WEB-INF/lib [重复]

    这个问题在这里已经有答案了 我是 Eclipse Java 和 Linux 的新手 我搜索这个问题 但没有找到答案 我想编写一个操作 HBase 表的程序 所以我有一些与 HBase 相关的 Jar 文件 在普通的 Java 应用程序中 我
  • 当在HBase中反转Scan时,哪个是startKey,哪个是stopKey?

    我使用的是 HBase 0 98 它允许以相反的顺序进行扫描 这是我的代码 scan new Scan eventTimeKey nowKey scan setCaching 1 setting this to 1 since I only
  • HBase区域服务器和Hadoop数据节点应该在同一台机器上吗?

    抱歉 我没有资源来设置集群来测试它 我只是想知道 我可以将 hbase 区域服务器部署在 hadoop 数据节点计算机之外的单独计算机上吗 我想答案是肯定的 但我不确定 hbase区域服务器和hadoop数据节点部署在不同的机器上是好是坏
  • 稀疏数据/数据存储/数据库是什么意思?

    最近一直在阅读 Hadoop 和 HBase 并遇到这个术语 HBase 是一个开源 分布式 sparse 柱状店 他们所说的稀疏是什么意思 这有什么关系吗 稀疏矩阵 http en wikipedia org wiki Sparse ma
  • Spark 序列化错误:当我将 Spark Stream 数据插入 HBase 时

    我对 Spark 如何在数据格式方面与 HBase 交互感到困惑 例如 当我在下面的代码片段中省略 ERROR 行时 它运行良好 但是添加该行后 我发现了与序列化问题相关的 任务不可序列化 的错误 如何更改代码 发生错误的原因是什么 我的代
  • Spark 2 的 hbase-spark

    我想要进行全面扫描hbase from Spark 2 using Scala 我没有固定的目录定义 因此库为SHC https github com hortonworks spark shc不是一个选择 我的逻辑选择是使用 hbase
  • HBase:使用Java API创建表时指定版本

    我知道我们可以通过以下方式从 hbase shell 执行此操作 create t1 NAME gt f1 VERSIONS gt 5 我在中找不到任何相应的选项HTableDesctiptor在 Java API 中 知道如何做到这一点吗
  • 如何运行Hbase Java示例?

    我在运行简单的 Hbase 示例时遇到问题 我在 HbaseTest java 上创建了一个表并插入了一些记录 在Unix中 我可以编译java类 经过 javac classpath hbase 0 94 2 jar hadoop cor
  • Spark:如何通过 python-api 使用 HBase 过滤器,例如 QualiferFilter

    我想通过使用像 python api 中的 QualiferFilter 这样的过滤器从 HBase 获取行 我知道如何从 HBase 获取行 就像在代码下一样 host localhost keyConv org apache spark
  • 使用 Spark 和 Phoenix 将 CSV 文件保存到 hbase 表

    有人可以向我指出使用 Spark 将 csv 文件保存到 Hbase 表的工作示例吗2 2我尝试过但失败的选项 注意 它们都适用于我的 Spark 1 6 凤凰火花 hbase spark it nerdammer bigdata spar
  • 我的 cdh5.2 集群在运行 hbase MR 作业时出现 FileNotFoundException

    我的 cdh5 2 集群运行 hbase MR 作业时出现问题 例如 我将 hbase 类路径添加到 hadoop 类路径中 vi etc hadoop conf hadoop env sh 添加行 export HADOOP CLASSP
  • hadoop和hbase的最新兼容版本

    我必须在4台机器上安装hadoop和hbase 我找到了最新版本hadoop 2 6 0 and hbase 0 98 9 hadoop2 bin 1 它们兼容吗 2 我应该如何在4台机器上安装hbase和hadoop 即有多少个maste
  • 如何将多个 QualifierFilter 应用于 HBase 中的一行

    我们想使用两个 QualifierFilters 过滤 HBase 表上的扫描 意味着我们只想获取表中确实具有特定列 col A 的行AND 某个其他列 col B 我们当前的方法如下所示 FilterList filterList new
  • Hbase 列族

    Hbase 文档表示 避免创建超过 2 3 个列族 因为 Hbase 不能很好地处理超过 2 3 个列族 其原因在于压缩和刷新 以及 IO 但是 如果我的所有列总是填充 对于每一行 那么我认为这个推理并不那么重要 因此 考虑到我对列的访问是
  • HBase:创建多个表或包含多个列的单个表?

    什么时候创建多个表而不是创建具有大量列的单个表才有意义 据我了解 表通常只有几个列族 1 2 每个列族可以支持 1000 多个列 当 HBase 似乎在单个表中可能存在大量列时表现良好时 什么时候创建单独的表才有意义 在回答问题本身之前 让
  • 在 Amazon EMR 上使用 java 中的 hbase 时遇到问题

    因此 我尝试使用作为 MapReduce 步骤启动的自定义 jar 来查询 Amazon ec2 上的 hbase 集群 我的 jar 在地图函数内 我这样调用 Hbase public void map Text key BytesWri

随机推荐

  • 模糊数学Python(一)模糊运算

    代码 import numpy as np def istype a 判断模糊矩阵a的类型 a np array a s np eye a shape 0 a shape 1 if a gt s all and a T a all retu
  • 安装12.04lts的两个问题总结

    因为在win7下有很多bug 老师叫我用Linux来完成项目的最后一步 啊啊啊 之前一直是在虚拟机里面搞 安装Ubuntu的过程中遇到了好多个问题 好吧好吧 下面总结一下 让遇到同样问题的朋友少走点弯路吧 1 分区问题 建立 主分区 之后
  • 数据操作之-dataframe常见操作:取行、列、切片、统计特征值

    import numpy as np import pandas as pd from pandas import from numpy import data DataFrame np arange 16 reshape 4 4 inde
  • Spring Boot 学习研究笔记(十八) 添加log4j2日志文件

    Spring Boot 添加log4j2日志文件 对于一个线上程序或者服务而言 重要的是要有日志输出 这样才能方便运维 而日志的输出需要有一定的规划 如日志命名 日志大小 日志分割的文件个数等 在SpringBoot的框架下 会使用log4
  • 栈头文件C语言

    Stack ADT h 栈模型头文件 数据类型定义 typedef char Name typedef struct stack node Name name struct stack node next Stack Node typede
  • GD32450i-EVAL学习笔记 6 - ADC

    目录 1 初始化ADC 1 1 使能RCU 1 2 设置频率 1 3 设置分辨率 1 4 设置数据对齐方式 1 5 使能扫描模式 1 6 设置触发模式 1 6 使能ADC 2 初始化通道规则 3 通道使能 4 软件触发使能 5 获取ADC的
  • C#List类容输出

    将集合中的类容 添加间隔符号后 输出为string List
  • vue之babel自动埋点

    公司项目是vue单页面技术 这天组长对我说 为了凸显我们的作用 做点外行或者新手看起来高深的东西 例如自动埋点 当时我的表情先是 然后摸鱼摸习惯了 就是这种状态 最后组长说领导的态度决定我们的绩效 没办法 为了money 无奈打开了老朋友
  • nacos集群部署遇到的问题总结

    问题一 内存不足 问题描述 nacos is starting with cluster Error occurred during initialization of VM Could not reserve enough space f
  • Eclipse android apk打包

    Eclipse android 开发更改apk名字 有以下几步 第一步 修改工程包名 在eclipse里 找到项目包和java包 原则上都一样 就可以按 F2 修改名字 随之 源 java也会得到相应的修改 然而每个 java文件都需要把如
  • Fortify 代码扫描安装使用教程

    前言 Fortify 能够提供静态和动态应用程序安全测试技术 以及运行时应用程序监控和保护功能 为实现高效安全监测 Fortify具有源代码安全分析 可精准定位漏洞产生的路径 以及具有1分钟1万行的扫描速度 Fortify SCA 支持丰富
  • 现在投资创客教育

    很多人会问创客要不要投资 就像吃西红柿鸡蛋面要不要用刀叉一样 你当然可以用 也可以用筷子 格物斯坦表示如果没有筷子 喜欢用手抓着吃也是可以的啊 投资人是路径的一种 不是唯一 更不是全部 投资创客教育是教育培训行业比较热门的话题 该行业未来是
  • Python基础语法学习之变量与赋值

    近几年Python飞速发展 开始学习Python的人群不在仅仅局限于编程开发者 许多其他行业的从业者也开始将Python作为自己的职业技能 本文仍然是针对零基础的初学者 继续学习Python的基础语法 变量与赋值 主要内容包括变量和赋值的概
  • el-checkbox-group限制勾选数量

  • 代理模式:静态代理和动态代理

    代理模式 代理对象增强对目标对象的功能 分类 静态代理 动态代理 jdk代理通过实现接口 cglib通过实现类实现 静态代理 JDK动态代理 CGLIB代理模式 通过回调拦截器方法实现代理对象的生成
  • 【计算机视觉】直接线性变换(DLT)求解P矩阵(2 使用SVD分解)(附MATLAB代码)

    引言 之前的帖子已经完成了一种计算直接线性变换的方法 是直接通过矩阵运算来进行的 不过随后得到的结果并不能满足精度要求 如果只是用来作为迭代优化的一个初值的话 对于精度的要求倒也不用那么高 但在查阅资料时又发现了另一种解法 是通过SVD分解
  • DataFrame对象创建

    文章目录 前言 一 创建DataFrame对象 二 使用步骤 前言 一 创建DataFrame对象 示例 将字典 年龄 23 22 21 岗位 客服 运营 公关 年购买量 10 15 8 转换成一个DataFrame对象 二 使用步骤 代码
  • 搭建主数据管理平台,解决多个系统数据不统一的问题

    如今的电子产业环境要求电子制造商必须能对产业中的各种变化做出迅速的反应 而这些变化产生了前所未有的大量数据 包括来自产品类别增加 供应中断和需求波动以及其它因素等多方面的数据 这些数据以多种格式存在于各种系统之中 虽然 企业为管理它们花费了
  • FastAPI准备之pydantic类型检查工具

    官方文档 https pydantic docs helpmanual io 这些组织都在用 Jupyter notebook FastAPI Amazon Web Services Uber Microsoft 优势 可以和IDE结合 可
  • hbase与spark笔试题(选择题)

    转自 https www cnblogs com cxzdy p 5388451 html http www bigdatastudy net show aspx id 175 cid 14 一 HBASE笔试题 HBase来源于哪篇博文