2020-10-24 大数据面试问题

2023-11-19

上周面试数据开发职位主要从公司的视角讲一下记录下面试流水。

1. 三面技术一轮hr,面到了cto 整体来看是这一周技术含量最高信息量最大的一个,1到4轮过了4个小时,技术上的问题主要问的对数据分层的理解。

1. 一面自我介绍、目前团队的规模多大(20)、你负责的模块是那些(购物、短信、增长)、那几个人在做

2. 数据架构图划分(五层架构讲了7分钟左右)

3. 指标口径怎么统一 、那些工作(定标准、报表和核心、场景)、数据治理怎么做(元数据管理)

动作:业务迭代下线模型 。依据:指标热度、模型事实冗余、链路层级

4.报表可是化怎么做的、报表数量、访问量多大

集团自己开发的工具、看指标的场景指标分冷热分类,运营经常关注的核心指标做成核心模型、根据访问频次来设计分析型 的模型。

5.数据集成资源平衡,数据同步过程、增量同步、实时同步怎么做的

分离线同步,离线同步数量,mysql 同步过程 建表、同步任务模型(先擦除再写入)

实时同步:doris

6.数据状态变更同步,比如物流位置变更

同步方案,拉链表的使用

7.同步任务怎么实现的

datalink

8.每天同步数据量监控,你对数据的一些想法 上午数据库本来50t,下午增量150t 怎么发现原因,对任务怎么进行监控。

元数据管理

9.数仓底层到集市层,资源有限,怎么对任务做一些调度做些监控保证任务产出,底层调度yarn ,怎么安排任务。

10.100cu把500+任务合理分配保证合理运行。

1.500任务梳理,场景应用了解 2.任务分优先级标签 。如果数据有问题会卡住任务失败影响下游运行。失败任务解决方案

11.技术栈 sparksql 调优

1.数据倾斜

1.代码优化 jion、 group by 、distinct 优化

2.机器参数调优 参数优化 task 、shuffle 、小文件 。。。

父rdd就1000个,分配2000个有用么,spark资源怎么分配,executor数量是多少,怎么调整,资源使用率最大化

1.没有用,可以增加并行度增加cores和parallel数量。 executor设置上限,根据任务数据量设置不同的资源数,底层模型和报表模型。不一定看表的数据量

12. spark内存模型,1000g的内存在executer 上的分配

一个executor 是一个节点,按照每个节点的vcore配置

13.flink相关任务做过么

根据业务场景描述过程

14. 数据治理和指标统一的推动,数仓成熟度如何,olap推动解放数分的人力?

15.数仓的准确性价值

16.流批一体、目标数据架构、实时应用场景

 

17.二面主要讲的的是项目明细、实时的问题、怎么做指标的统一、mapreduce的流程

flink的很多checkpoint 机制,流流join的等待机制 waterdrop的 问了好多不懂的

18.三面cto面试上来没有自我介绍,

分层理解(5六分钟)、范式建模、什么是事实、模型冗余做法、数据治理工作

手写代码

19.hr面试

1.目前的薪资、为什么离职、团队中角色、涨薪情况、期望薪资(要少了,hr没还价)、期望的工作、对自己后续的规划、对面试公司了解么,996接收么、你和核心竞争力是什么。

我问了公司的文化、后续需要做的事情?

 

 

2.360 也是3面技术一面hr ,整体技术上很容易没什么很深的影响,简单问了下我自己的一些情况和一些

1.简单的hive知识(sort by、order by、distrubte by、cluster by 区别)很简单的问题,怎么做分层的,

2.二面问了很多语言相关的问题,hive有哪些窗口函数(row_number、lead、lag、first_vlaue等)也比较容易、 scala上 object 可以有main函数么(可以,我根据看的书大概的影响)、case 类和普通类的区别(不太 会)

3.shell 的基本用法

4.面试官是做系统架构刚转型数仓

3.菜鸟

一面面试高级java开发问了很多java问题 object和.java 执行流程

二面也是讲一下项目技术细节,面试官和数仓关系不大,问题不是很专业

4.拼多多

自我介绍 离线和实时都会有一些问题问了1个半小时,最后20分钟代码,就是速度有点慢,20分最后一问大概说了思路。大部分整体没什么影响了

1.一段sql 的执行流程怎么翻译成mapreduce的,喜欢问一些基本底层的问题。(sql主要的语法是group的用法)

2.hive和spark 的区别

3.操作数据库和数仓的区别尽可能说的更多

4.spark 的shuffle 的实现

5.mobtech 面试官感觉技术挺厉害

1.spark 中reducebykey、grupbykey、conbinerbykey是什么操作

2.RDD缓存有哪几个

3.怎么解决数据倾斜

4.最近看了那些书

5.工作过程解决那些技术难点 -我说的留存的方案

6.感觉影响最深的是 我问了数仓的发展问题,其中包含那些是变得那些事不变的?

职责 数据管理部门、数据服务 布局工具

不变: 不同场景下大数据解决方案、大数据组件熟悉

6.唯品会 技术也挺好都是spark 问题

1.boradcast 的原理

我曾经最看过一些资料,把目前的认知说了下,是关于orc和压缩方向的和数据节点之间的广播方案

2.CBO 问题

3.算子action是怎么样执行的

4.scala 中lazy的方案再java 中是如何实现的

5.spark 的shuffle 的实现

6.倾斜方案怎么解决- 回答的很详细还可以

7.RDD 的一个问题忘记了还不太会

7.百度

一面主要是面试官自己说,地点在北京,老大很nice ,说了目前的工作内容以及如何破局,人很是在。

8.2345网络 影响不深刻,聊的主要是跟技术无关

9.任意门 整个数据的上下游的理解、工作的期望

10.b站事业部总监 工作的期望

11.善珍hr hr很能说

12 palpay 英文简历没有希望给一份,用英文和外国人沟通

 

总结来说 最主要的还是自我介绍这一环节、其他的是环境上下游了解(数据分层、数据上下游、工程能力(spark内核、flink))、后续规划想法

 

 

 

 

 

 

 

 

 

 

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

2020-10-24 大数据面试问题 的相关文章

  • 在 Hadoop 中按文件中的值排序

    我有一个文件 其中每行包含一个字符串 然后是一个空格 然后是一个数字 例子 Line1 Word 2 Line2 Word1 8 Line3 Word2 1 我需要按降序对数字进行排序 然后将结果放入文件中 为数字分配排名 所以我的输出应该
  • 如何在 Hadoop 中将 String 对象转换为 IntWritable 对象

    我想转换String反对IntWritableHadoop 中的对象 任何过程都可以进行转换 IntWritable value new IntWritable Integer parseInt someString 并处理以下可能性par
  • hadoop中reducer的数量

    我正在学习hadoop 我发现减速器的数量非常令人困惑 1 reducer的数量与partition的数量相同 2 reducer 的数量是 0 95 或 1 75 乘以 节点数 每个节点的最大容器数 3 减速机数量设定为mapred re
  • Hive“添加分区”并发

    我们有一个外部 Hive 表 用于处理原始日志文件数据 这些文件每小时一次 并按日期和源主机名分区 目前 我们正在使用简单的 python 脚本导入文件 这些脚本每小时触发几次 该脚本根据需要在 HDFS 上创建子文件夹 从临时本地存储复制
  • 伪分布式模式下的 Hadoop。连接被拒绝

    P S 请不要将此标记为重复 Hi 我一直在尝试以伪分布式模式设置和运行 Hadoop 当我运行 start all sh 脚本时 我得到以下输出 starting namenode logging to home raveesh Hado
  • 将 CSV 转换为序列文件

    我有一个 CSV 文件 我想将其转换为 SequenceFile 我最终将使用它来创建 NamedVectors 以在聚类作业中使用 我一直在使用 seqdirectory 命令尝试创建 SequenceFile 然后使用 nv 选项将该输
  • 如何从hdfs读取文件[重复]

    这个问题在这里已经有答案了 我在 project1目录下的hadoop文件系统中有一个文本文件名mr txt 我需要编写 python 代码来读取文本文件的第一行 而不将 mr txt 文件下载到本地 但我无法从 hdfs 打开 mr tx
  • InvalidRequestException(为什么:empid 如果包含 Equal,则不能被多个关系限制)

    这是关于我从 Apache Spark 查询 Cassandra 时遇到的问题 Spark 的正常查询工作正常 没有任何问题 但是当我使用关键条件进行查询时 出现以下错误 最初 我尝试查询复合键列族 它也给出了与下面相同的问题 由以下原因引
  • HDFS 中的文件数量与块数量

    我正在运行单节点 hadoop 环境 当我跑的时候 hadoop fsck user root mydatadir block 我真的对它给出的输出感到困惑 Status HEALTHY Total size 998562090 B Tot
  • Hive:如何分解嵌入 CSV 文件中的 JSON 列?

    从 CSV 文件 带有标题和管道分隔符 中 我得到了以下两个内容 其中包含一个 JSON 列 内部有一个集合 如下所示 第一种情况 使用没有名称的 JSON 集合 ProductId IngestTime ProductOrders 918
  • 处理 oozie 工作流程中的循环

    我有一个 oozie 用例 用于检查输入数据可用性并根据数据可用性触发 MapReduce 作业 所以我编写了一个 shell 脚本来检查输入数据 并在 oozie 中为其创建了一个 ssh 操作 输入数据检查的重试次数和重试间隔应该是可配
  • Flume将数据从MySQL迁移到Hadoop

    请分享您的想法 需求是将MySQL db中的数据迁移到Hadoop HBase进行分析 数据应该实时或接近实时地迁移 Flume可以支持这个吗 有什么更好的方法 据我了解 Flume 并不是为此而设计的 Flume 基本上用于读取日志 如数
  • Pig 10.0 - 将元组分组并在 foreach 中合并包

    我在用着Pig 10 0 我想在 foreach 中合并包 假设我有以下内容visitors alias a b 1 2 3 4 a d 1 3 6 a e 7 z b 1 2 3 我想对第一个字段上的元组进行分组 并将包与一组语义合并以获
  • 无法在 Hadoop Map-Reduce 作业中加载 OpenNLP 句子模型

    我正在尝试将 OpenNLP 集成到 Hadoop 上的 Map Reduce 作业中 从一些基本的句子分割开始 在地图函数中 运行以下代码 public AnalysisFile analyze String content InputS
  • hive 添加分区语句忽略前导零

    我在 hdfs 上有文件夹 user test year 2016 month 04 dt 25 000000 0 需要将上面的分区路径添加到test table 命令 ALTER TABLE test ADD IF NOT EXISTS
  • java.io.IOException: EnsureRemaining: 仅剩余 0 个字节,尝试读取 1

    我在 giraph 中的自定义类方面遇到一些问题 我制作了 VertexInput 和 Output 格式 但总是收到以下错误 java io IOException ensureRemaining Only bytes remaining
  • Hadoop Windows 设置。运行 WordCountJob 时出错:“任何本地目录中都没有可用空间”

    我正在按照此视频教程尝试在我的计算机上设置 hadoop 如何在 Windows 10 上安装 Hadoop https www youtube com watch v zujpglKP0Nw 我已经成功设置它 从 sbin 目录执行 st
  • 运行 Sqoop 导入和导出时如何找到最佳映射器数量?

    我正在使用 Sqoop 版本 1 4 2 和 Oracle 数据库 运行 Sqoop 命令时 例如这样 sqoop import fs
  • 当我将文件存储在 HDFS 中时,它们会被复制吗?

    我是 Hadoop 新手 当我使用以下方式存储 Excel 文件时hadoop fs putcommoad 它存储在HDFS中 复制因子为3 我的问题是 是否需要3份并分别存储到3个节点中 这是 HDFS 工作的漫画 https docs
  • 将 Apache Zeppelin 连接到 Hive

    我尝试将我的 apache zeppelin 与我的 hive 元存储连接起来 我使用 zeppelin 0 7 3 所以没有 hive 解释器 只有 jdbc 我已将 hive site xml 复制到 zeppelin conf 文件夹

随机推荐

  • (转载)我们需要什么样的字段类型

    数据库定义到char类型的字段时 不知道大家是否会犹豫一下 到底选char nchar varchar nvarchar text ntext中哪一种呢 结果很可能是两种 一种是节俭人士的选择 最好是用定长的 感觉比变长能省些空间 而且处理
  • Java 两种zero-copy零拷贝技术mmap和sendfile的介绍

    详细介绍了两种zero copy零拷贝技术mmap和sendfile的概念和基本原理 目录 1 标准IO 2 零拷贝 2 1 sendfile调用 2 1 mmap调用 2 2 MQ中的应用 1 标准IO 很多软件是基于server cli
  • MES在流程和离散型制造企业的应用存在哪些差别?

    企业的生产方式 主要可以分为按定单生产 按库存生产或上述两者的组合 从生产类型上考虑 则可以分为批量生产和单件小批生产 从产品类型和生产工艺组织方式上 企业的行业类型可分为流程生产行业和离散制造行业 典型的流程生产行业有医药 石油化工 电力
  • C++ 拷贝构造函数和赋值运算符

    本文主要介绍了拷贝构造函数和赋值运算符的区别 以及在什么时候调用拷贝构造函数 什么情况下调用赋值运算符 最后 简单的分析了下深拷贝和浅拷贝的问题 拷贝构造函数和赋值运算符 在默认情况下 用户没有定义 但是也没有显式的删除 编译器会自动的隐式
  • Direct3D光照

    光照的组成 环境光 这种类型的光经其他表面反射到达物体表面 并照亮整个场景 要想以较低代价粗略模拟这类反射光 环境光是一个很好的选择 漫射光 这种类型光沿着特定的方向传播 当它到达某一表面时 将沿着各个方向均匀反射 无论从哪个方位观察 表面
  • Spring的资源访问接口---Resource

    JDK提供的访问资源的类 File等 不能很好满足各种某些资源的访问需求 比如缺少从类路径和Web容器的上下文中获取资源的资源操作类 Spring的Resource接口提供了更好用的资源访问能力 Spring使用Resource访问各种资源
  • linux 交叉编译找不到库文件

    网上大众的作法这里不做介绍 在编译一些库的时候可能某些工具会用到宿主机的 而这些工具在调用的时候会找和宿主机匹配的库 而交叉编译的库是不能用的 遇见这种情况基本是解决不了的 但是可以通过configure 的选项去掉这些过程 举个例子 我在
  • MySQL多列字段去重的案例实践

    同事提了个需求 如下测试表 有code cdate和ctotal三列 select from tt 现在要得到code的唯一值 但同时带着cdate和ctotal两个字段 提起 唯一值 想到的就是distinct distinct关键字可以
  • Nodejs版本管理工具mvn部署

    部署mvn curl o https raw githubusercontent com creationix nvm v0 34 0 install sh bash 添加环境变量 vim zshrc export NVM DIR HOME
  • Webpack中的tree-shaking

    文章目录 Webpack中的tree shaking 简单实践 副作用sideEffects sideEffects配置项 false 数组 结论 Webpack中的tree shaking tree shaking就是把js文件中无用的模
  • 【编程题】——求链表的中间节点

    题目 求链表的中间结点 如果链表中结点总数为奇数 返回中间结点 如果结点总数是偶数 返回中间两个结点的任意一个 思路 定义两个指针 一个指针一次走一步 另一个指针一次走两步 当走得快的指针到达链表末尾的时候 走得慢的指针刚好达到链表的中间节
  • 文件管理系统(操作系统)——9张思维导图

    文件管理系统 1 文件管理 1 1 一个文件的逻辑结构 比如一个文本txt文件 又或者Excel文件 在我们用户看来 它是长什么样的 这个就是逻辑结构 几个概念 逻辑结构 就是指在用户看来 单个文件内部的数据应该是如何组织起来的 物理结构
  • 黑马SpringBoot笔记

    基础篇 把Tomcat服务器更换成Jetty服务器 排除Tomcat依赖更换为Jetty
  • 【Java面试题汇总】Redis篇(2023版)

    导航 黑马Java笔记 踩坑汇总 JavaSE JavaWeb SSM SpringBoot 瑞吉外卖 SpringCloud 黑马旅游 谷粒商城 学成在线 牛客面试题 目录 1 说说你对Redis的了解 2 说说Redis的单线程架构 3
  • 7.java类中的方法

    1 类中的方法 1 实例方法 格式 访问限制修饰符 方法的返回值数据类型 方法名称 参数列表 方法体 解释 访问限制修饰符 public 缺省的 方法的返回值数据类型 就是方法的执行结果类型 有返回值时 方法的返回值数据类型一定是方法执行结
  • FPGA硬件工程师Verilog面试题(基础篇二)

    作者简介 大家好我是 嵌入式基地 是一名嵌入式工程师 希望一起努力 一起进步 个人主页 嵌入式基地 系列专栏 FPGA Verilog 习题专栏 微信公众号 嵌入式基地 FPGA硬件工程师Verilog面试题 二 习题一 多功能数据处理器
  • 大数据hive篇--常用操作

    文章目录 hive常用操作 一 建表 1 自定义分隔符 2 JSON分隔符 3 正则分隔符 将查询的结果导入新表 表的类别 外部表 内部表 分区表 导入数据 使用分区表 声明存储格式 二 常用函数 开窗函数 开窗函数常用的函数 炸裂函数 列
  • Android RecyclerView最全使用详解

    本文目录 RecyclerView概述 RecyclerView使用 基础篇 第一步 添加RecyclerView 第二步 添加布局文件 第三步 添加逻辑代码 运行效果 RecyclerView使用 进阶篇 布局管理器 线性布局管理器 网格
  • Go语言学习4-数组类型

    数组类型 引言 1 数组 1 1 类型表示法 1 2 值表示法 1 3 属性和基本操作 总结 引言 上篇我们了解 Go语言的基本数据类型 现在开始介绍数组类型 主要如下 1 数组 在Go语言中 数组被称为Array 就是一个由若干相同类型的
  • 2020-10-24 大数据面试问题

    上周面试数据开发职位主要从公司的视角讲一下记录下面试流水 1 三面技术一轮hr 面到了cto 整体来看是这一周技术含量最高信息量最大的一个 1到4轮过了4个小时 技术上的问题主要问的对数据分层的理解 1 一面自我介绍 目前团队的规模多大 2