【面试真题】今日头条大数据面试100题，收藏备用

2023-11-17

1、简述WordCount 的实现过程

2、简述MapReduce与 Spark 的区别与联系

3、Spark 在客户端与集群运行的区别

4、相同的 SQL 在 HiveSql 与 SparkSQL 的实现中，为什么 Spark 比 Hadoop 快

5、简述自定义 UDF实现过程

6、HBase 表设计有哪些注意事项

7、谈谈你对HBase 的 HLog的理解

8、数据同样存在 HDFS，为什么 HBase支持在线查询

9、SparkSQL操作Hive中的数据遇到过什么问题嘛？

10、SparkStreaming与Storm、Flink DataStream的区别与联系

11、海量数据下，用三个 map和一个 reduce 来做 top10，哪种方法最优。

12、数据仓库的模型如何设计

13、简述数据仓库的数据清洗过程

14、谈谈数据仓库业务建模、数据分析方法

15、说一说数据仓库是怎么设计的

16、数仓设计规范包含哪些方面

17、数仓数据质量如何监控

18、说一说你们的项目包含哪些数仓主题

19、简述数仓拉链表的实现原理

20、有没有遇到数据倾斜的问题（场景、解决方式）

21、手写 map-reduce，两份数据，一份是设备 id+用户 id，一份是设备 id+点击的广告+ 点击时间，找出每个用户id 每天 10 条最新的广告点击记录

22、手写SQL查询出用户连续七天登录的用户（user_id,login_date）

23、Sqoop 增量导入数据是如何实现的

24、Flume 事务是如何实现的

25、从Kafka 消费者角度考虑是拉取数据还是推送数据

26、Kafka 中的数据是有序的吗

27、Kafka 数据推送失败后怎么处理

28、Kafka 如何保证生产者精确发送一次？

29、Kafka 数据重复怎么处理？

30、Spark Streaming 如何实现精准一次消费？

31、谈谈项目中，Hive优化是怎么做的？

32、如何手写MR实现Hive Join操作？

33、Hive如何处理数据倾斜的？

34、Hive执行碰到过 oom 情况吗？什么原因导致的，怎么处理的？

35、Hbase 包含哪些组件？

36、什么情况下会用到HBase数据库？

37、简述Hbase 的读写流程

38、简述Spark任务提交的流程

39、简述Spark的两种核心Shuffle

40、你们项目中HBase是如何建模设计的？

41、你们的项目中是如何设计HBase Rowkey的？

42、你们的项目是如何实现数据精确一次消费的？

43、你们的项目是如何解决数据倾斜问题？

44、你们项目是否会丢失数据？如何做的数据治理？

45、你们项目技术选型为什么是Spark而不是Flink，有哪些优缺点？

46、HBase数据库数据读写为什么这么快？

47、消费不到Kafka数据该怎么办？

48、手写Spark RDD实现TOPN

题目描述：手写Spark RDD统计用户成绩前10的记录，字段包含user_id, score。

49、利用spark-sql手写一个DataFrame实现WordCount

50、谈谈数据仓库的建模与分层

51、介绍一下Flink容错机制

52、谈谈你对Spark调优及数据倾斜的处理方式

53、Hbasse 和 mysql 区别和存储原理

54、kafka 的底层原理，kafka 如何保证全局消费数据有序

55、简述yarn底层原理、执行流程和yarn 底层使用的算法

56、谈谈你对hive udf、udaf、udtf的理解

57、简述Hive转换为MR的过程

58、谈谈你对Flink watermark的理解

59、谈谈你对Flink barrier机制的理解

60、谈谈你对Flink checkpoint机制的理解

61、谈谈你们项目中对Kafka做了哪些调优？

62、简述Hive任务提交过程

63、如何对Kafka进行监控？

64、如何对Kafka进行重分区？

65、用Cannal 监控mysql之后，Scala 怎么通过 SparkStreaming 去消费的？

66、谈谈你对多线程和多进程的理解

67、MySQL 引擎是什么，常用的是哪个 innodb，知道原理吗？

68、常用的数据结构都有哪些？并举例说明其应用场景？

69、MySQL 优化，怎么建索引？

70、算法：给 2 个有序数组，合并成一个有序数组

71、SQL排名取值

题目描述：有一个班级学生成绩表，包含班级，学号，科目，分数等字段，现在求某个班级总分最高的前五名？

72、数组目标数据查找算法

题目描述：如何查找有序数组中的目标值？二分查找法，请简述二分查找法的实现原理？

73、SQL分组统计

题目描述：有一个用户观看视频的时长表，现在要求统计时间在0-1分钟，1-10分钟的用户数？

74、g1回收器和cms 有哪些区别？

75、jvm该如何调整？

76、SQL开窗函数使用

题目描述：表字段为：department_id、user_id、amount，现在要求统计每个部门、每个人的薪资占部门薪资的比例。

77、算法题：最长回文子串. 给定一个字符串 s，找到 s 中最长的回文子串

78、谈谈你对二叉树算法的理解？

79、谈谈你对Java线程安全、锁和线程池的理解？

80、链表反转排序如何实现

81、谈谈你对LRU算法的理解

82、谈谈你对深度优先搜索的理解？

83、Java heap是如何分代的？

84、谈谈你对线程安全与可重入的理解

85、jvm包含哪些常见的垃圾回收算法

86、谈谈你对Java并发包的理解

87、说说线程池几个配置参数含义

88、谈谈你对redis跳表的理解

89、Java中Spring单例模式如何使用

90、谈谈你对Spring ioc的理解

91、谈谈你对回文函数的理解

92、算法基础建模有哪些？

93、redis底层原理？以及如何预估数据量？

94、谈谈你对聚类kmeans算法的理解

95、求字符串中首先出现 3 次且仅出现 3 次的字符

96、两个链表第一次交叉的节点

题目描述：给定两个可能有环也可能无环的单链表，头节点head1和head2。请实现一个函数，如果两个链表相交，请返回相交的第一个节点。如果不相交，返回null

【要求】

如果两个链表长度之和为N，时间复杂度请达到O(N)，额外空间复杂度请达到O(1)。

97、有用过树结构么？什么场景下用到的？

98、如何实现一个map数据结构？什么场景下使用map？

99、用Java如何实现一个List

100、谈谈你对Linux fork命令的理解与使用

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

大数据实战精英架构师

面试题

flink

big data

Hadoop

【面试真题】今日头条大数据面试100题，收藏备用的相关文章

使用 Hive 自定义输入格式

Update 好吧事实证明以下不起作用的原因是因为我使用的是较新版本的InputFormat API import org apache hadoop mapred这是旧的与import org apache hadoop mapredu
Kafka Streams 在 HDFS 上查找数据

我正在使用 Kafka Streams v0 10 0 1 编写一个应用程序并希望通过查找数据来丰富我正在处理的记录该数据带时间戳的文件每天或每天 2 3 次写入 HDFS 目录我怎样才能将其加载到Kafka Streams应
Hadoop YARN 作业陷入映射 0% 并减少 0%

我正在尝试运行一个非常简单的作业来测试我的 hadoop 设置所以我尝试使用 Word Count Example 它陷入了 0 所以我尝试了一些其他简单的作业并且每个作业都陷入了困境 52191 0003 14 07 14 23 55
映射减少计数示例

我的问题是关于mapreduce programming in java 假设我有 WordCount java 示例一个标准mapreduce program 我希望map函数收集一些信息并返回形成如下的reduce函数map
HDFS 在大量小文件和 128 Mb 块大小上的行为

我有很多多达数十万个小文件每个文件 10 100 Kb 我的 HDFS 块大小等于 128 MB 我的复制因子等于 1 为每个小文件分配 HDFS 块有什么缺点吗我见过相当矛盾的答案答案说最小的文件占用整个块 https stac
Hive 表的默认分隔符是什么？

如果我们在创建表时不提及任何分隔符 hive 是否有默认分隔符创建表日志 ts bigint 行字符串按 dt 字符串国家地区字符串分区默认分隔符 001 如果创建hive表时没有设置您可以将其更改为其他分隔符例如 hive
如何在hadoop/map reduce中创建固定行数的输出文件？

假设我们有 N 个具有不同行数的输入文件我们需要生成输出文件使得每个输出文件恰好有 K 行最后一个输出文件可以有是否可以使用单个 MR 作业来完成此操作我们应该打开文件以便在reducer中显式写入输出中的记录应该被打乱 tha
HDFS容量：如何阅读“dfsadmin报告”

我使用的是 Hadoop 2 6 0 当我运行 hdfs dfsadmin report 时我得到类似这样的信息简化 Configured Capacity 3 TB Present Capacity 400GB DFS Remaini
Hive如何存储数据，什么是SerDe？

当查询表时 SerDe 将将文件中的字节中的一行数据反序列化为 Hive 内部使用的对象来操作该行数据执行 INSERT 或 CTAS 时请参阅第 441 页上的导入数据表的 SerDe 将将 Hive 的一行数据的内部表示序列化为
一个目录下可以有两个oozieworkflow.xml文件吗？

一个目录下可以有两个oozieworkflow xml文件吗如果是这样我如何指示 oozie runner 运行哪一个您可以有两个工作流程文件只需为它们指定唯一的名称然后您可以通过设置oozie wf application pa
Sqoop Import --password-file 功能在 sqoop 1.4.4 中无法正常工作

我使用的是hadoop 1 2 1 sqoop版本是1 4 4 我正在尝试运行以下查询 sqoop import connect jdbc mysql IP 3306 database name table clients target d
将 hadoop fs 路径转换为 EMR 上的 hdfs:// 路径

我想知道如何将数据从 EMR 集群的 HDFS 文件系统移动到 S3 存储桶我认识到我可以直接在 Spark 中写入 S3 但原则上之后执行它也应该很简单到目前为止我还没有发现在实践中这是正确的 AWS 文档建议s3 dist cp
HDP 3.1.0.0-78 升级后无法使用 ResourceManager UI 终止 YARN 应用程序

我最近将 HDP 从 2 6 5 升级到 3 1 0 它运行 YARN 3 1 0 并且我无法再使用旧的 8088 cluster apps 或新的 8088 从 YARN ResourceManager UI 终止应用程序 ui2 ind
Spark超时可能是由于HDFS中文件超过100万个的binary Files()

我正在通过以下方式读取数百万个 xml 文件 val xmls sc binaryFiles xmlDir 该操作在本地运行良好但在纱线上失败并显示 client token N A diagnostics Application app
Hive ParseException - 无法识别“结束”“字符串”附近的输入

尝试从现有 DynamoDB 表创建 Hive 表时出现以下错误 NoViableAltException 88 at org apache hadoop hive ql parse HiveParser IdentifiersParser
在 Hadoop 中处理带标头的文件

我想在 Hadoop 中处理很多文件每个文件都有一些头信息后面跟着很多记录每个记录都存储在固定数量的字节中对此有何建议我认为最好的解决方案是编写一个自定义的InputFormat http hadoop apache org co
Oozie SSH 操作

Oozie SSH 操作问题 Issue 我们正在尝试在集群的特定主机上运行一些命令我们为此选择了 SSH Action 我们面对这个 SSH 问题已经有一段时间了这里真正的问题可能是什么请指出解决方案 logs AUTH FAILE
这个 Java 语法是什么意思？ [复制]

这个问题在这里已经有答案了可能的重复 java中的是什么意思 https stackoverflow com questions 12649572 what does the type in java mean 在下面的代码中 Itera
如何在 Hadoop 中将 String 对象转换为 IntWritable 对象

我想转换String反对IntWritableHadoop 中的对象任何过程都可以进行转换 IntWritable value new IntWritable Integer parseInt someString 并处理以下可能性par
遍历 ArrayWritable - NoSuchMethodException

我刚刚开始使用 MapReduce 并且遇到了一个奇怪的错误我无法通过 Google 回答该错误我正在使用 ArrayWritable 制作一个基本程序但是当我运行它时在Reduce过程中出现以下错误 java lang Runti

随机推荐

mac电脑的C语言安装包,Mac上运行C／C++程序

由于工作需要要在Mac环境里面运行C程序遇到的问题及解决方法如下 1 确认环境里是否安装了command line developer tools 打开Terminal终端输入g 提示 xcrun error invalid acti
（新）Chrome浏览器自定义背景插件

一效果预览二项目回顾 1 原理主要是利用js脚本在页面打开前插入一个背景图片容器在通过相应的事件控制来实现该功能 2 功能将网络图片设置为浏览器背景 3 使用下载插件 gt 修改js文件加入图片链接添加浏览器扩展 gt 刷
C++学习记录6--srand(time(NULL)产生随机数

time 函数返回从1970 1 1 00 00 00到调用time 函数时所经过的时间以秒为单位所以是个整数 time NULL 或time 0 表示在内存中不存储返回的数值头文件 include
如何保证测试用例覆盖全面

测试用例覆盖度一般是从以下几方面衡量的 1 测试需求的覆盖保证所有需求都已经设计用例 2 测试特性的覆盖保证所有不同类型已覆盖如功能测试性能测试等 3 平台与层次的覆盖保证所有平台有用例覆盖不同层次都有设计用例如业务层接口
JavaScript随机生成颜色功能

思路实现一个函数随机生成颜色格式为 000000 颜色由a f A F 0 9 3种字母任意组成且后面是3位或者6位只要随机生成一个数字是奇数或者偶数来随机出是3位或者6位然后在随机其下标循环上面步骤确认的次数 functio
设计模式之简单工厂模式(Simply Factory)摘录

从设计模式的类型上来说简单工厂模式是属于创建型模式又叫静态工厂方法 Static Factory Method 模式但不属于23种GOF设计模式之一简单工厂模式是由一个工厂对象决定创建出哪一种产品类的实例简单工厂模式是工厂模式家族
数据库索引

3 1 概括索引 Index 是数据库中的一种存储结构用于快速查找数据索引通常是在数据库表上创建的可以用于加速查询排序和数据的唯一性验证索引可以理解为图书中的目录通过目录我们可以很快找到页码对应的内容当表中有大量数据需要查询
计算机竞赛基于计算机视觉的身份证识别系统

0 前言优质竞赛项目系列今天要分享的是基于机器视觉的身份证识别系统该项目较为新颖适合作为竞赛课题方向学长非常推荐更多资料项目分享 https gitee com dancheng senior postgraduate 1
封裝：WPF基于Vlc.DotNet.Wpf封装的视频播放器

一目的应用自带的MediaElement播放器播放文件类型有限有些格式还需要安装插件由此应用第三方工具包Vlc DotNet Wpf封装支持多格式的视频播放器二环境 VS2019 Win10 Vlc DotNet Wpf HeB
校友全剧透CMU ：ME + 转CS + 其他主要项

在CMU待了一个半学期了对于留学对于CMU 对于ME 对于转CS 对于CMU其它各种项目都了解的更多了一些也有不同的体会我想这篇文章应该会对任何一个申请了CMU 或者想申请CMU 甚至每一个想要出国留学的人都会有一点帮助写下面这些
Easy-Es核心功能深度介绍

背景近期随着项目开源后热度的不断上涨越来越多小伙伴开始对框架核心功能感兴趣今天就让我带大家深入源码和架构一起探索Easy Es 简称EE 的核心功能是如何被设计和实现的和众多ORM框架一样 EE最为核心的功能就是CRUD 增删改查
selenium3之selenium-server-standalone-3.8.1.jar启动

查看安装的selenium版本下载对应版本的selenium server 下载地址 http selenium release storage googleapis com index html 需要先安装JDK 自行百度安装启动se
Linux的NFS共享目录操作步骤

首先准备两台Linux 一台服务器一台客户机 IP地址可自行设置两台防火墙都要关闭配置服务器IP地址 172 20 10 11 配置客户机IP地址 172 20 10 12 先关闭防火墙 systemctl stop filewall
【JavaScript】页面加载解决Uncaught TypeError: Cannot set property of undefined at

在初学js的时候有同学会遇到 Uncaught TypeError Cannot set property onmouseover of undefined at html 的问题这个问题牵扯到页面加载顺序的问题我们知道页面的加载顺
使用Prometheus+Grafana+Spring Boot Actuator监控应用

在企业级的应用中监控往往至关重要监控可以帮助我们预防故障预测变化趋势在达到阈值的时候报警为排查生产问题提供更多的信息如果我们不知道我们程序的运行情况当线上系统出现了事故再去排查就需要花费更多的时间如果能提前监控就能早做准备
VScode的PHP远程调试模式Xdebug

目录第一步安装VScode中相应插件 remote ssh的原理 ssh插件 PHP相关插件第二步安装对应PHP版本的xdebug 查看PHP具体配置信息的phpinfo页面 1 首先打开php编辑器新建一个php文件例如 i
CentOS7下rsync实现服务器之间实时同步

rsync简介 rsync是类unix系统下的数据镜像备份工具使用快速增量备份工具Remote Sync可以远程同步支持本地复制或者与其他SSH rsync主机同步文章主讲实际操作不再进行详细叙述想要了解更多可以查看百度百科一
QT 编译报错“QWidget: Must construct a QApplication before a QWidget”

一错误原因 1 在构造QApplication之前创建了部件某个类或者其子类中采用了静态的qWidget或者其子类由于静态或者全局对象在 main 之前就产生了所以早于main 里的QApplication对象 2 混用 debu
Python实现敏感词过滤

在我们生活中的一些场合经常会有一些不该出现的敏感词我们通常会使用去屏蔽它例如尼玛 gt 一些骂人的敏感词和一些政治敏感词都不应该出现在一些公共场合中这个时候我们就需要一定的手段去屏蔽这些敏感词下面我来介绍一些简单版本的敏感词屏蔽
【面试真题】今日头条大数据面试100题，收藏备用

1 简述WordCount 的实现过程 2 简述MapReduce与 Spark 的区别与联系 3 Spark 在客户端与集群运行的区别 4 相同的 SQL 在 HiveSql 与 SparkSQL 的实现中为什么 Spark 比 Had