【面试真题】今日头条大数据面试100题,收藏备用

2023-11-17

1、简述WordCount 的实现过程

2、简述MapReduce与 Spark 的区别与联系

3、Spark 在客户端与集群运行的区别

4、相同的 SQL 在 HiveSql 与 SparkSQL 的实现中,为什么 Spark 比 Hadoop 快

5、简述自定义 UDF实现过程

6、HBase 表设计有哪些注意事项

7、谈谈你对HBase 的 HLog的理解

8、数据同样存在 HDFS,为什么 HBase支持在线查询

9、SparkSQL操作Hive中的数据遇到过什么问题嘛?

10、SparkStreaming与Storm、Flink DataStream的区别与联系

11、海量数据下,用三个 map和一个 reduce 来做 top10,哪种方法最优。

12、数据仓库的模型如何设计

13、简述数据仓库的数据清洗过程

14、谈谈数据仓库业务建模、数据分析方法

15、说一说数据仓库是怎么设计的

16、数仓设计规范包含哪些方面

17、数仓数据质量如何监控

18、说一说你们的项目包含哪些数仓主题

19、简述数仓拉链表的实现原理

20、有没有遇到数据倾斜的问题(场景、解决方式)

21、手写 map-reduce,两份数据,一份是设备 id+用户 id,一份是设备 id+点击的广告+ 点击时间,找出每个用户id 每天 10 条最新的广告点击记录

22、手写SQL查询出用户连续七天登录的用户(user_id,login_date)

23、Sqoop 增量导入数据是如何实现的

24、Flume 事务是如何实现的

25、从Kafka 消费者角度考虑是拉取数据还是推送数据

26、Kafka 中的数据是有序的吗

27、Kafka 数据推送失败后怎么处理

28、Kafka 如何保证生产者精确发送一次?

29、Kafka 数据重复怎么处理?

30、Spark Streaming 如何实现精准一次消费?

31、谈谈项目中,Hive优化是怎么做的?

32、如何手写MR实现Hive Join操作?

33、Hive如何处理数据倾斜的?

34、Hive执行碰到过 oom 情况吗?什么原因导致的,怎么处理的?

35、Hbase 包含哪些组件?

36、什么情况下会用到HBase数据库?

37、简述Hbase 的读写流程

38、简述Spark任务提交的流程

39、简述Spark的两种核心Shuffle

40、你们项目中HBase是如何建模设计的?

41、你们的项目中是如何设计HBase Rowkey的?

42、你们的项目是如何实现数据精确一次消费的?

43、你们的项目是如何解决数据倾斜问题?

44、你们项目是否会丢失数据?如何做的数据治理?

45、你们项目技术选型为什么是Spark而不是Flink,有哪些优缺点?

46、HBase数据库数据读写为什么这么快?

47、消费不到Kafka数据该怎么办?

48、手写Spark RDD实现TOPN

题目描述:手写Spark RDD统计用户成绩前10的记录,字段包含user_id, score。

49、利用spark-sql手写一个DataFrame实现WordCount

50、谈谈数据仓库的建模与分层

51、介绍一下Flink容错机制

52、谈谈你对Spark调优及数据倾斜的处理方式

53、Hbasse 和 mysql 区别和存储原理

54、kafka 的底层原理,kafka 如何保证全局消费数据有序

55、简述yarn底层原理、执行流程和yarn 底层使用的算法

56、谈谈你对hive udf、udaf、udtf的理解

57、简述Hive转换为MR的过程

58、谈谈你对Flink watermark的理解

59、谈谈你对Flink barrier机制的理解

60、谈谈你对Flink checkpoint机制的理解

61、谈谈你们项目中对Kafka做了哪些调优?

62、简述Hive任务提交过程

63、如何对Kafka进行监控?

64、如何对Kafka进行重分区?

65、用Cannal 监控mysql之后,Scala 怎么通过 SparkStreaming 去消费的?

66、谈谈你对多线程和多进程的理解

67、MySQL 引擎是什么,常用的是哪个 innodb,知道原理吗?

68、常用的数据结构都有哪些?并举例说明其应用场景?

69、MySQL 优化,怎么建索引?

70、算法:给 2 个有序数组,合并成一个有序数组

71、SQL排名取值

题目描述:有一个班级学生成绩表,包含班级,学号,科目,分数等字段,现在求某个班级总分最高的前五名?

72、数组目标数据查找算法

题目描述:如何查找有序数组中的目标值?二分查找法,请简述二分查找法的实现原理?

73、SQL分组统计

题目描述:有一个用户观看视频的时长表,现在要求统计时间在0-1分钟,1-10分钟的用户数?

74、g1回收器和cms 有哪些区别?

75、jvm该如何调整?

76、SQL开窗函数使用

题目描述:表字段为:department_id、user_id、amount,现在要求统计每个部门、每个人的薪资占部门薪资的比例。

77、算法题:最长回文子串. 给定一个字符串 s,找到 s 中最长的回文子串

78、谈谈你对二叉树算法的理解?

79、谈谈你对Java线程安全、锁和线程池的理解?

80、链表反转排序如何实现

81、谈谈你对LRU算法的理解

82、谈谈你对深度优先搜索的理解?

83、Java heap是如何分代的?

84、谈谈你对线程安全与可重入的理解

85、jvm包含哪些常见的垃圾回收算法

86、谈谈你对Java并发包的理解

87、说说线程池几个配置参数含义

88、谈谈你对redis跳表的理解

89、Java中Spring单例模式如何使用

90、谈谈你对Spring ioc的理解

91、谈谈你对回文函数的理解

92、算法基础建模有哪些?

93、redis底层原理?以及如何预估数据量?

94、谈谈你对聚类kmeans算法的理解

95、求字符串中首先出现 3 次且仅出现 3 次的字符

96、两个链表第一次交叉的节点

题目描述:给定两个可能有环也可能无环的单链表,头节点head1和head2。请实现一个函数,如果两个链表相交,请返回相交的 第一个节点。如果不相交,返回null

【要求】

如果两个链表长度之和为N,时间复杂度请达到O(N),额外空间复杂度请达到O(1)。

97、有用过树结构么?什么场景下用到的?

98、如何实现一个map数据结构?什么场景下使用map?

99、用Java如何实现一个List

100、谈谈你对Linux fork命令的理解与使

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

【面试真题】今日头条大数据面试100题,收藏备用 的相关文章

  • 使用 Hive 自定义输入格式

    Update 好吧 事实证明以下不起作用的原因是因为我使用的是较新版本的InputFormat API import org apache hadoop mapred这是旧的与import org apache hadoop mapredu
  • Kafka Streams 在 HDFS 上查找数据

    我正在使用 Kafka Streams v0 10 0 1 编写一个应用程序 并希望通过查找数据来丰富我正在处理的记录 该数据 带时间戳的文件 每天 或每天 2 3 次 写入 HDFS 目录 我怎样才能将其加载到Kafka Streams应
  • Hadoop YARN 作业陷入映射 0% 并减少 0%

    我正在尝试运行一个非常简单的作业来测试我的 hadoop 设置 所以我尝试使用 Word Count Example 它陷入了 0 所以我尝试了一些其他简单的作业 并且每个作业都陷入了困境 52191 0003 14 07 14 23 55
  • 映射减少计数示例

    我的问题是关于mapreduce programming in java 假设我有 WordCount java 示例 一个标准mapreduce program 我希望map函数收集一些信息 并返回形成如下的reduce函数map
  • HDFS 在大量小文件和 128 Mb 块大小上的行为

    我有很多 多达数十万个 小文件 每个文件 10 100 Kb 我的 HDFS 块大小等于 128 MB 我的复制因子等于 1 为每个小文件分配 HDFS 块有什么缺点吗 我见过相当矛盾的答案 答案说最小的文件占用整个块 https stac
  • Hive 表的默认分隔符是什么?

    如果我们在创建表时不提及任何分隔符 hive 是否有默认分隔符 创建表日志 ts bigint 行字符串 按 dt 字符串 国家 地区字符串 分区 默认分隔符 001 如果创建hive表时没有设置 您可以将其更改为其他分隔符 例如 hive
  • 如何在hadoop/map reduce中创建固定行数的输出文件?

    假设我们有 N 个具有不同行数的输入文件 我们需要生成输出文件 使得每个输出文件恰好有 K 行 最后一个输出文件可以有 是否可以使用单个 MR 作业来完成此操作 我们应该打开文件以便在reducer中显式写入 输出中的记录应该被打乱 tha
  • HDFS容量:如何阅读“dfsadmin报告”

    我使用的是 Hadoop 2 6 0 当我运行 hdfs dfsadmin report 时 我得到类似这样的信息 简化 Configured Capacity 3 TB Present Capacity 400GB DFS Remaini
  • Hive如何存储数据,什么是SerDe?

    当查询表时 SerDe 将将文件中的字节中的一行数据反序列化为 Hive 内部使用的对象来操作该行数据 执行 INSERT 或 CTAS 时 请参阅第 441 页上的 导入数据 表的 SerDe 将将 Hive 的一行数据的内部表示序列化为
  • 一个目录下可以有两个oozieworkflow.xml文件吗?

    一个目录下可以有两个oozieworkflow xml文件吗 如果是这样 我如何指示 oozie runner 运行哪一个 您可以有两个工作流程文件 只需为它们指定唯一的名称 然后您可以通过设置oozie wf application pa
  • Sqoop Import --password-file 功能在 sqoop 1.4.4 中无法正常工作

    我使用的是hadoop 1 2 1 sqoop版本是1 4 4 我正在尝试运行以下查询 sqoop import connect jdbc mysql IP 3306 database name table clients target d
  • 将 hadoop fs 路径转换为 ​​EMR 上的 hdfs:// 路径

    我想知道如何将数据从 EMR 集群的 HDFS 文件系统移动到 S3 存储桶 我认识到我可以直接在 Spark 中写入 S3 但原则上 之后执行它也应该很简单 到目前为止 我还没有发现在实践中这是正确的 AWS 文档建议s3 dist cp
  • HDP 3.1.0.0-78 升级后无法使用 ResourceManager UI 终止 YARN 应用程序

    我最近将 HDP 从 2 6 5 升级到 3 1 0 它运行 YARN 3 1 0 并且我无法再使用旧的 8088 cluster apps 或新的 8088 从 YARN ResourceManager UI 终止应用程序 ui2 ind
  • Spark超时可能是由于HDFS中文件超过100万个的binary Files()

    我正在通过以下方式读取数百万个 xml 文件 val xmls sc binaryFiles xmlDir 该操作在本地运行良好 但在纱线上失败并显示 client token N A diagnostics Application app
  • Hive ParseException - 无法识别“结束”“字符串”附近的输入

    尝试从现有 DynamoDB 表创建 Hive 表时出现以下错误 NoViableAltException 88 at org apache hadoop hive ql parse HiveParser IdentifiersParser
  • 在 Hadoop 中处理带标头的文件

    我想在 Hadoop 中处理很多文件 每个文件都有一些头信息 后面跟着很多记录 每个记录都存储在固定数量的字节中 对此有何建议 我认为最好的解决方案是编写一个自定义的InputFormat http hadoop apache org co
  • Oozie SSH 操作

    Oozie SSH 操作问题 Issue 我们正在尝试在集群的特定主机上运行一些命令 我们为此选择了 SSH Action 我们面对这个 SSH 问题已经有一段时间了 这里真正的问题可能是什么 请指出解决方案 logs AUTH FAILE
  • 这个 Java 语法是什么意思? [复制]

    这个问题在这里已经有答案了 可能的重复 java中的是什么意思 https stackoverflow com questions 12649572 what does the type in java mean 在下面的代码中 Itera
  • 如何在 Hadoop 中将 String 对象转换为 IntWritable 对象

    我想转换String反对IntWritableHadoop 中的对象 任何过程都可以进行转换 IntWritable value new IntWritable Integer parseInt someString 并处理以下可能性par
  • 遍历 ArrayWritable - NoSuchMethodException

    我刚刚开始使用 MapReduce 并且遇到了一个奇怪的错误 我无法通过 Google 回答该错误 我正在使用 ArrayWritable 制作一个基本程序 但是当我运行它时 在Reduce过程中出现以下错误 java lang Runti

随机推荐

  • mac电脑的C语言安装包,Mac上运行C/C++程序

    由于工作需要 要在Mac环境里面运行C程序 遇到的问题及解决方法如下 1 确认环境里是否安装了command line developer tools 打开Terminal终端 输入g 提示 xcrun error invalid acti
  • (新)Chrome浏览器自定义背景插件

    一 效果预览 二 项目回顾 1 原理 主要是利用js脚本在页面打开前插入一个背景图片容器 在通过相应的事件控制来实现该功能 2 功能 将网络图片设置为浏览器背景 3 使用 下载插件 gt 修改js文件 加入图片链接 添加浏览器扩展 gt 刷
  • C++学习记录6--srand(time(NULL)产生随机数

    time 函数 返回从1970 1 1 00 00 00到调用time 函数时所经过的时间 以秒为单位 所以是个整数 time NULL 或time 0 表示在内存中不存储返回的数值 头文件 include
  • 如何保证测试用例覆盖全面

    测试用例覆盖度一般是从以下几方面衡量的 1 测试需求的覆盖 保证所有需求都已经设计用例 2 测试特性的覆盖 保证所有不同类型已覆盖 如 功能测试 性能测试等 3 平台与层次的覆盖 保证所有平台有用例覆盖 不同层次都有设计用例 如业务层 接口
  • JavaScript随机生成颜色功能

    思路 实现一个函数 随机生成颜色 格式为 000000 颜色由a f A F 0 9 3种字母任意组成 且 后面是3位或者6位 只要随机生成一个数字是奇数或者偶数来随机出是3位或者6位 然后在随机其下标循环上面步骤确认的次数 functio
  • 设计模式之简单工厂模式(Simply Factory)摘录

    从设计模式的类型上来说 简单工厂模式是属于创建型模式 又叫静态工厂方法 Static Factory Method 模式 但不属于23种GOF设计模式之一 简单工厂模式是由一个工厂对象决定创建出哪一种产品类的实例 简单工厂模式是工厂模式家族
  • 数据库索引

    3 1 概括 索引 Index 是数据库中的一种存储结构 用于快速查找数据 索引通常是在数据库表上创建的 可以用于加速查询 排序和数据的唯一性验证 索引可以理解为图书中的目录 通过目录我们可以很快找到页码对应的内容 当表中有大量数据需要查询
  • 计算机竞赛 基于计算机视觉的身份证识别系统

    0 前言 优质竞赛项目系列 今天要分享的是 基于机器视觉的身份证识别系统 该项目较为新颖 适合作为竞赛课题方向 学长非常推荐 更多资料 项目分享 https gitee com dancheng senior postgraduate 1
  • 封裝:WPF基于Vlc.DotNet.Wpf封装的视频播放器

    一 目的 应用自带的MediaElement播放器播放文件类型有限 有些格式还需要安装插件 由此应用第三方工具包Vlc DotNet Wpf封装支持多格式的视频播放器 二 环境 VS2019 Win10 Vlc DotNet Wpf HeB
  • 校友全剧透CMU :ME + 转CS + 其他主要项

    在CMU待了一个半学期了 对于留学 对于CMU 对于ME 对于转CS 对于CMU其它各种项目都了解的更多了一些 也有不同的体会 我想这篇文章应该会对任何一个申请了CMU 或者想申请CMU 甚至每一个想要出国留学的人都会有一点帮助 写下面这些
  • Easy-Es核心功能深度介绍

    背景 近期随着项目开源后热度的不断上涨 越来越多小伙伴开始对框架核心功能感兴趣 今天就让我带大家深入源码和架构 一起探索Easy Es 简称EE 的核心功能是如何被设计和实现的 和众多ORM框架一样 EE最为核心的功能就是CRUD 增删改查
  • selenium3之selenium-server-standalone-3.8.1.jar启动

    查看安装的selenium版本 下载对应版本的selenium server 下载地址 http selenium release storage googleapis com index html 需要先安装JDK 自行百度安装 启动se
  • Linux的NFS共享目录操作步骤

    首先准备两台Linux 一台服务器 一台客户机 IP地址可自行设置 两台防火墙都要关闭 配置服务器IP地址 172 20 10 11 配置客户机IP地址 172 20 10 12 先关闭防火墙 systemctl stop filewall
  • 【JavaScript】页面加载 解决Uncaught TypeError: Cannot set property of undefined at

    在初学js的时候 有同学会遇到 Uncaught TypeError Cannot set property onmouseover of undefined at html 的问题 这个问题牵扯到页面加载顺序的问题 我们知道 页面的加载顺
  • 使用Prometheus+Grafana+Spring Boot Actuator监控应用

    在企业级的应用中 监控往往至关重要 监控可以帮助我们预防故障 预测变化趋势 在达到阈值的时候报警 为排查生产问题提供更多的信息 如果我们不知道我们程序的运行情况 当线上系统出现了事故再去排查就需要花费更多的时间 如果能提前监控 就能早做准备
  • VScode的PHP远程调试模式Xdebug

    目录 第一步 安装VScode中相应插件 remote ssh的原理 ssh插件 PHP相关插件 第二步 安装对应PHP版本的xdebug 查看PHP具体配置信息的phpinfo页面 1 首先 打开php编辑器 新建一个php文件 例如 i
  • CentOS7下rsync实现服务器之间实时同步

    rsync简介 rsync是类unix系统下的数据镜像备份工具 使用快速增量备份工具Remote Sync可以远程同步 支持本地复制 或者与其他SSH rsync主机同步 文章主讲实际操作 不再进行详细叙述 想要了解更多可以查看百度百科 一
  • QT 编译报错“QWidget: Must construct a QApplication before a QWidget”

    一 错误原因 1 在构造QApplication之前创建了部件 某个类或者其子类中采用了静态的qWidget或者其子类 由于静态或者全局对象在 main 之前就产生了 所以 早于main 里的QApplication对象 2 混用 debu
  • Python实现敏感词过滤

    在我们生活中的一些场合经常会有一些不该出现的敏感词 我们通常会使用 去屏蔽它 例如 尼玛 gt 一些骂人的敏感词和一些政治敏感词都不应该出现在一些公共场合中 这个时候我们就需要一定的手段去屏蔽这些敏感词 下面我来介绍一些简单版本的敏感词屏蔽
  • 【面试真题】今日头条大数据面试100题,收藏备用

    1 简述WordCount 的实现过程 2 简述MapReduce与 Spark 的区别与联系 3 Spark 在客户端与集群运行的区别 4 相同的 SQL 在 HiveSql 与 SparkSQL 的实现中 为什么 Spark 比 Had