2020-10-24 大数据面试问题

2023-11-19

上周面试数据开发职位主要从公司的视角讲一下记录下面试流水。

1. 三面技术一轮hr，面到了cto 整体来看是这一周技术含量最高信息量最大的一个，1到4轮过了4个小时，技术上的问题主要问的对数据分层的理解。

1. 一面自我介绍、目前团队的规模多大（20）、你负责的模块是那些（购物、短信、增长）、那几个人在做

2. 数据架构图划分（五层架构讲了7分钟左右）

3. 指标口径怎么统一、那些工作（定标准、报表和核心、场景）、数据治理怎么做（元数据管理）

动作：业务迭代下线模型。依据：指标热度、模型事实冗余、链路层级

4.报表可是化怎么做的、报表数量、访问量多大

集团自己开发的工具、看指标的场景指标分冷热分类，运营经常关注的核心指标做成核心模型、根据访问频次来设计分析型的模型。

5.数据集成资源平衡，数据同步过程、增量同步、实时同步怎么做的

分离线同步，离线同步数量，mysql 同步过程建表、同步任务模型（先擦除再写入）

实时同步：doris

6.数据状态变更同步，比如物流位置变更

同步方案，拉链表的使用

7.同步任务怎么实现的

datalink

8.每天同步数据量监控，你对数据的一些想法上午数据库本来50t，下午增量150t 怎么发现原因，对任务怎么进行监控。

元数据管理

9.数仓底层到集市层，资源有限，怎么对任务做一些调度做些监控保证任务产出，底层调度yarn ，怎么安排任务。

10.100cu把500+任务合理分配保证合理运行。

1.500任务梳理，场景应用了解 2.任务分优先级标签。如果数据有问题会卡住任务失败影响下游运行。失败任务解决方案

11.技术栈 sparksql 调优

1.数据倾斜

1.代码优化 jion、 group by 、distinct 优化

2.机器参数调优参数优化 task 、shuffle 、小文件。。。

父rdd就1000个，分配2000个有用么，spark资源怎么分配，executor数量是多少，怎么调整，资源使用率最大化

1.没有用，可以增加并行度增加cores和parallel数量。 executor设置上限，根据任务数据量设置不同的资源数，底层模型和报表模型。不一定看表的数据量

12. spark内存模型，1000g的内存在executer 上的分配

一个executor 是一个节点，按照每个节点的vcore配置

13.flink相关任务做过么

根据业务场景描述过程

14. 数据治理和指标统一的推动，数仓成熟度如何，olap推动解放数分的人力？

15.数仓的准确性价值

16.流批一体、目标数据架构、实时应用场景

17.二面主要讲的的是项目明细、实时的问题、怎么做指标的统一、mapreduce的流程

flink的很多checkpoint 机制，流流join的等待机制 waterdrop的问了好多不懂的

18.三面cto面试上来没有自我介绍，

分层理解（5六分钟）、范式建模、什么是事实、模型冗余做法、数据治理工作

手写代码

19.hr面试

1.目前的薪资、为什么离职、团队中角色、涨薪情况、期望薪资（要少了，hr没还价）、期望的工作、对自己后续的规划、对面试公司了解么，996接收么、你和核心竞争力是什么。

我问了公司的文化、后续需要做的事情？

2.360 也是3面技术一面hr ，整体技术上很容易没什么很深的影响，简单问了下我自己的一些情况和一些

1.简单的hive知识（sort by、order by、distrubte by、cluster by 区别）很简单的问题，怎么做分层的，

2.二面问了很多语言相关的问题，hive有哪些窗口函数（row_number、lead、lag、first_vlaue等）也比较容易、 scala上 object 可以有main函数么（可以，我根据看的书大概的影响）、case 类和普通类的区别（不太会）

3.shell 的基本用法

4.面试官是做系统架构刚转型数仓

3.菜鸟

一面面试高级java开发问了很多java问题 object和.java 执行流程

二面也是讲一下项目技术细节，面试官和数仓关系不大，问题不是很专业

4.拼多多

自我介绍离线和实时都会有一些问题问了1个半小时，最后20分钟代码，就是速度有点慢，20分最后一问大概说了思路。大部分整体没什么影响了

1.一段sql 的执行流程怎么翻译成mapreduce的，喜欢问一些基本底层的问题。（sql主要的语法是group的用法）

2.hive和spark 的区别

3.操作数据库和数仓的区别尽可能说的更多

4.spark 的shuffle 的实现

5.mobtech 面试官感觉技术挺厉害

1.spark 中reducebykey、grupbykey、conbinerbykey是什么操作

2.RDD缓存有哪几个

3.怎么解决数据倾斜

4.最近看了那些书

5.工作过程解决那些技术难点 -我说的留存的方案

6.感觉影响最深的是我问了数仓的发展问题，其中包含那些是变得那些事不变的？

职责数据管理部门、数据服务布局工具

不变：不同场景下大数据解决方案、大数据组件熟悉

6.唯品会技术也挺好都是spark 问题

1.boradcast 的原理

我曾经最看过一些资料，把目前的认知说了下，是关于orc和压缩方向的和数据节点之间的广播方案

2.CBO 问题

3.算子action是怎么样执行的

4.scala 中lazy的方案再java 中是如何实现的

5.spark 的shuffle 的实现

6.倾斜方案怎么解决- 回答的很详细还可以

7.RDD 的一个问题忘记了还不太会

7.百度

一面主要是面试官自己说，地点在北京，老大很nice ，说了目前的工作内容以及如何破局，人很是在。

8.2345网络影响不深刻，聊的主要是跟技术无关

9.任意门整个数据的上下游的理解、工作的期望

10.b站事业部总监工作的期望

11.善珍hr hr很能说

12 palpay 英文简历没有希望给一份，用英文和外国人沟通

总结来说最主要的还是自我介绍这一环节、其他的是环境上下游了解（数据分层、数据上下游、工程能力（spark内核、flink））、后续规划想法

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

面试

基本功

spark

Hadoop

2020-10-24 大数据面试问题的相关文章

在 Hadoop 中按文件中的值排序

我有一个文件其中每行包含一个字符串然后是一个空格然后是一个数字例子 Line1 Word 2 Line2 Word1 8 Line3 Word2 1 我需要按降序对数字进行排序然后将结果放入文件中为数字分配排名所以我的输出应该
如何在 Hadoop 中将 String 对象转换为 IntWritable 对象

我想转换String反对IntWritableHadoop 中的对象任何过程都可以进行转换 IntWritable value new IntWritable Integer parseInt someString 并处理以下可能性par
hadoop中reducer的数量

我正在学习hadoop 我发现减速器的数量非常令人困惑 1 reducer的数量与partition的数量相同 2 reducer 的数量是 0 95 或 1 75 乘以节点数每个节点的最大容器数 3 减速机数量设定为mapred re
Hive“添加分区”并发

我们有一个外部 Hive 表用于处理原始日志文件数据这些文件每小时一次并按日期和源主机名分区目前我们正在使用简单的 python 脚本导入文件这些脚本每小时触发几次该脚本根据需要在 HDFS 上创建子文件夹从临时本地存储复制
伪分布式模式下的 Hadoop。连接被拒绝

P S 请不要将此标记为重复 Hi 我一直在尝试以伪分布式模式设置和运行 Hadoop 当我运行 start all sh 脚本时我得到以下输出 starting namenode logging to home raveesh Hado
将 CSV 转换为序列文件

我有一个 CSV 文件我想将其转换为 SequenceFile 我最终将使用它来创建 NamedVectors 以在聚类作业中使用我一直在使用 seqdirectory 命令尝试创建 SequenceFile 然后使用 nv 选项将该输
如何从hdfs读取文件[重复]

这个问题在这里已经有答案了我在 project1目录下的hadoop文件系统中有一个文本文件名mr txt 我需要编写 python 代码来读取文本文件的第一行而不将 mr txt 文件下载到本地但我无法从 hdfs 打开 mr tx
InvalidRequestException（为什么：empid 如果包含 Equal，则不能被多个关系限制）

这是关于我从 Apache Spark 查询 Cassandra 时遇到的问题 Spark 的正常查询工作正常没有任何问题但是当我使用关键条件进行查询时出现以下错误最初我尝试查询复合键列族它也给出了与下面相同的问题由以下原因引
HDFS 中的文件数量与块数量

我正在运行单节点 hadoop 环境当我跑的时候 hadoop fsck user root mydatadir block 我真的对它给出的输出感到困惑 Status HEALTHY Total size 998562090 B Tot
Hive：如何分解嵌入 CSV 文件中的 JSON 列？

从 CSV 文件带有标题和管道分隔符中我得到了以下两个内容其中包含一个 JSON 列内部有一个集合如下所示第一种情况使用没有名称的 JSON 集合 ProductId IngestTime ProductOrders 918
处理 oozie 工作流程中的循环

我有一个 oozie 用例用于检查输入数据可用性并根据数据可用性触发 MapReduce 作业所以我编写了一个 shell 脚本来检查输入数据并在 oozie 中为其创建了一个 ssh 操作输入数据检查的重试次数和重试间隔应该是可配
Flume将数据从MySQL迁移到Hadoop

请分享您的想法需求是将MySQL db中的数据迁移到Hadoop HBase进行分析数据应该实时或接近实时地迁移 Flume可以支持这个吗有什么更好的方法据我了解 Flume 并不是为此而设计的 Flume 基本上用于读取日志如数
Pig 10.0 - 将元组分组并在 foreach 中合并包

我在用着Pig 10 0 我想在 foreach 中合并包假设我有以下内容visitors alias a b 1 2 3 4 a d 1 3 6 a e 7 z b 1 2 3 我想对第一个字段上的元组进行分组并将包与一组语义合并以获
无法在 Hadoop Map-Reduce 作业中加载 OpenNLP 句子模型

我正在尝试将 OpenNLP 集成到 Hadoop 上的 Map Reduce 作业中从一些基本的句子分割开始在地图函数中运行以下代码 public AnalysisFile analyze String content InputS
hive 添加分区语句忽略前导零

我在 hdfs 上有文件夹 user test year 2016 month 04 dt 25 000000 0 需要将上面的分区路径添加到test table 命令 ALTER TABLE test ADD IF NOT EXISTS
java.io.IOException: EnsureRemaining: 仅剩余 0 个字节，尝试读取 1

我在 giraph 中的自定义类方面遇到一些问题我制作了 VertexInput 和 Output 格式但总是收到以下错误 java io IOException ensureRemaining Only bytes remaining
Hadoop Windows 设置。运行 WordCountJob 时出错：“任何本地目录中都没有可用空间”

我正在按照此视频教程尝试在我的计算机上设置 hadoop 如何在 Windows 10 上安装 Hadoop https www youtube com watch v zujpglKP0Nw 我已经成功设置它从 sbin 目录执行 st
运行 Sqoop 导入和导出时如何找到最佳映射器数量？

我正在使用 Sqoop 版本 1 4 2 和 Oracle 数据库运行 Sqoop 命令时例如这样 sqoop import fs
当我将文件存储在 HDFS 中时，它们会被复制吗？

我是 Hadoop 新手当我使用以下方式存储 Excel 文件时hadoop fs putcommoad 它存储在HDFS中复制因子为3 我的问题是是否需要3份并分别存储到3个节点中这是 HDFS 工作的漫画 https docs
将 Apache Zeppelin 连接到 Hive

我尝试将我的 apache zeppelin 与我的 hive 元存储连接起来我使用 zeppelin 0 7 3 所以没有 hive 解释器只有 jdbc 我已将 hive site xml 复制到 zeppelin conf 文件夹

随机推荐

(转载）我们需要什么样的字段类型

数据库定义到char类型的字段时不知道大家是否会犹豫一下到底选char nchar varchar nvarchar text ntext中哪一种呢结果很可能是两种一种是节俭人士的选择最好是用定长的感觉比变长能省些空间而且处理
Java 两种zero-copy零拷贝技术mmap和sendfile的介绍

详细介绍了两种zero copy零拷贝技术mmap和sendfile的概念和基本原理目录 1 标准IO 2 零拷贝 2 1 sendfile调用 2 1 mmap调用 2 2 MQ中的应用 1 标准IO 很多软件是基于server cli
MES在流程和离散型制造企业的应用存在哪些差别？

企业的生产方式主要可以分为按定单生产按库存生产或上述两者的组合从生产类型上考虑则可以分为批量生产和单件小批生产从产品类型和生产工艺组织方式上企业的行业类型可分为流程生产行业和离散制造行业典型的流程生产行业有医药石油化工电力
C++ 拷贝构造函数和赋值运算符

本文主要介绍了拷贝构造函数和赋值运算符的区别以及在什么时候调用拷贝构造函数什么情况下调用赋值运算符最后简单的分析了下深拷贝和浅拷贝的问题拷贝构造函数和赋值运算符在默认情况下用户没有定义但是也没有显式的删除编译器会自动的隐式
Direct3D光照

光照的组成环境光这种类型的光经其他表面反射到达物体表面并照亮整个场景要想以较低代价粗略模拟这类反射光环境光是一个很好的选择漫射光这种类型光沿着特定的方向传播当它到达某一表面时将沿着各个方向均匀反射无论从哪个方位观察表面
Spring的资源访问接口---Resource

JDK提供的访问资源的类 File等不能很好满足各种某些资源的访问需求比如缺少从类路径和Web容器的上下文中获取资源的资源操作类 Spring的Resource接口提供了更好用的资源访问能力 Spring使用Resource访问各种资源
linux 交叉编译找不到库文件

网上大众的作法这里不做介绍在编译一些库的时候可能某些工具会用到宿主机的而这些工具在调用的时候会找和宿主机匹配的库而交叉编译的库是不能用的遇见这种情况基本是解决不了的但是可以通过configure 的选项去掉这些过程举个例子我在
MySQL多列字段去重的案例实践

同事提了个需求如下测试表有code cdate和ctotal三列 select from tt 现在要得到code的唯一值但同时带着cdate和ctotal两个字段提起唯一值想到的就是distinct distinct关键字可以
Nodejs版本管理工具mvn部署

部署mvn curl o https raw githubusercontent com creationix nvm v0 34 0 install sh bash 添加环境变量 vim zshrc export NVM DIR HOME
Webpack中的tree-shaking

文章目录 Webpack中的tree shaking 简单实践副作用sideEffects sideEffects配置项 false 数组结论 Webpack中的tree shaking tree shaking就是把js文件中无用的模
【编程题】——求链表的中间节点

题目求链表的中间结点如果链表中结点总数为奇数返回中间结点如果结点总数是偶数返回中间两个结点的任意一个思路定义两个指针一个指针一次走一步另一个指针一次走两步当走得快的指针到达链表末尾的时候走得慢的指针刚好达到链表的中间节
文件管理系统（操作系统）——9张思维导图

文件管理系统 1 文件管理 1 1 一个文件的逻辑结构比如一个文本txt文件又或者Excel文件在我们用户看来它是长什么样的这个就是逻辑结构几个概念逻辑结构就是指在用户看来单个文件内部的数据应该是如何组织起来的物理结构
黑马SpringBoot笔记

基础篇把Tomcat服务器更换成Jetty服务器排除Tomcat依赖更换为Jetty
【Java面试题汇总】Redis篇（2023版）

导航黑马Java笔记踩坑汇总 JavaSE JavaWeb SSM SpringBoot 瑞吉外卖 SpringCloud 黑马旅游谷粒商城学成在线牛客面试题目录 1 说说你对Redis的了解 2 说说Redis的单线程架构 3
7.java类中的方法

1 类中的方法 1 实例方法格式访问限制修饰符方法的返回值数据类型方法名称参数列表方法体解释访问限制修饰符 public 缺省的方法的返回值数据类型就是方法的执行结果类型有返回值时方法的返回值数据类型一定是方法执行结
FPGA硬件工程师Verilog面试题（基础篇二）

作者简介大家好我是嵌入式基地是一名嵌入式工程师希望一起努力一起进步个人主页嵌入式基地系列专栏 FPGA Verilog 习题专栏微信公众号嵌入式基地 FPGA硬件工程师Verilog面试题二习题一多功能数据处理器
大数据hive篇--常用操作

文章目录 hive常用操作一建表 1 自定义分隔符 2 JSON分隔符 3 正则分隔符将查询的结果导入新表表的类别外部表内部表分区表导入数据使用分区表声明存储格式二常用函数开窗函数开窗函数常用的函数炸裂函数列
Android RecyclerView最全使用详解

本文目录 RecyclerView概述 RecyclerView使用基础篇第一步添加RecyclerView 第二步添加布局文件第三步添加逻辑代码运行效果 RecyclerView使用进阶篇布局管理器线性布局管理器网格
Go语言学习4-数组类型

数组类型引言 1 数组 1 1 类型表示法 1 2 值表示法 1 3 属性和基本操作总结引言上篇我们了解 Go语言的基本数据类型现在开始介绍数组类型主要如下 1 数组在Go语言中数组被称为Array 就是一个由若干相同类型的
2020-10-24 大数据面试问题

上周面试数据开发职位主要从公司的视角讲一下记录下面试流水 1 三面技术一轮hr 面到了cto 整体来看是这一周技术含量最高信息量最大的一个 1到4轮过了4个小时技术上的问题主要问的对数据分层的理解 1 一面自我介绍目前团队的规模多大 2

2020-10-24 大数据面试问题

2020-10-24 大数据面试问题 的相关文章

随机推荐

热门标签

2020-10-24 大数据面试问题的相关文章