2015年机器学习/数据挖掘面试总结

2023-05-16

2015年机器学习/数据挖掘面试总结

明年硕士毕业，今年开始找工作。在北方呆的太久，想回湿润的南方。
第一站（3月份），阿里数据挖掘实习生面试。个人觉得，阿里的面试是最人性化的，几乎不需要提前准备什么。不需要刷题，不需要死记硬背一些概念。他们看重的是你的项目经历和解决实际问题的能力。每一场面试都不难，但是面试的次数是我所知道的公司中最多的。面试的题目有：
1）自我介绍。突出自己的特色就好，废话少说。
2）项目经历。先简述，后详述。一般要描述这个项目的背景，需求，你是怎么做的，结果如何。然后，面试官就会问与其他人相比，你的创新在哪儿，你遇到过哪些坑，你觉得还可以往哪方面改进。如果你是和别人合作的项目，面试官还会问你们是怎样分工的。
3）协同过滤主要有哪些？基于物品的和基于用户的。
4）一道组合数学题。10盏灯，灭三盏，两头的必须亮着，不能灭掉相邻的两盏灯，问组合数？C(6,3) = 20 。
5）PCA有什么用？降维。

第二站（7月8日），百度商业搜索部门面试。这是我最不堪回首的面试经历。面试官和我的交流很少，沉默寡言，说话很直接。面试结束后，我自我感觉还算良好，问他觉得我怎么样，他很直接地说，很差。我心碎了一地，默默地告诉自己失败是成功之母，然后回去梳理知识。面试题目有：
1）反转链表。一上来就要求在纸上写代码，要求是反转链表。好简单的一道题！我说有递归和非递归解法，先写了递归，然后写了非递归算法，检查三遍，没问题，很开心的交卷。结果因为第一次在纸上写代码，写的可谓是龙飞凤舞，被面试官狠狠的鄙视了，说我的代码写得太丑了。回去后，我在电脑上又写了一遍，感觉也不是很丑啊。http://blog.csdn.net/u011300443/article/details/46804339
2）排列数的生成算法。http://blog.csdn.net/u011300443/article/details/46884681
3）项目经历。他问我用过哪些模型，我说用过GBDT，RF，LR，SVM。然后他接着问SVM原理是什么，SVM核函数的作用。SVM是在给定的数据集上找一个超平面，使得支持向量（超平面两边距离超平面最近的点）到超平面的距离最大。SVM通过引入核函数，巧妙地解决了在高维空间中的内积运算，从而很好地解决了非线性分类问题。
第三站（7月31日），百度大数据研发部门面试。第一面有两个面试官，第二面的面试官很拽的感觉。面试题目有：
1）最长公共子序列。我一不留神写成求编辑距离的算法了。
2）字符串转整数。
3）哈夫曼编码。给出每个词的频率，为每个词的编码，使得平均编码长度最短。
4）虚函数机制。
第四站（8月19日），京东面试。面试题目有：
1）设计O(n)空间复杂度的均值平滑算法。
2）最大连续乘积子串。用动态规划求解。
第五站（8月20日），百度网络搜索部门面试。面试官平易近人，交流起来很舒心。经常聊着聊着，就开始兴奋起来，感觉不像是一场面试，更像是一次朋友的交谈。末了，我还问面试官怎么看待公司喜欢招“熟练工”的问题？他说他们部门更看重项目经历和思维能力，他们部门的员工更像艺术家，而非工程师。面试题目有：
1）给你54张扑克牌，判断是否是顺子。Hash算法。
第六站（8月27日），阿里搜索部面试。阿里的面试官真的很nice，很有耐心。8月26号，我手机快没电了而且静音了。8月27号早上，面试官给我打电话，因为手机静音所以没听到，结果打了几次后，把我手机打没电了。粗心的我一直没意识到手机没电了，直到下午5点给手机充电时才发现面试官给我的短信。我赶紧回了过去，约在晚上7点半面试。面试官有了早上的经验，提前半小时（7点）开始打我电话，我又没收到，后来发现是忘记取消手机静音了。我还收到面试官发过来的一条略带调侃的短信“又打不通了哦”，一个“哦”字让我的心略略安稳了一些。后来，我打电话给他，他还说以为是我的手机出了问题，然后主动和我聊起了我名字的含义，缓解了我紧张的情绪，才开始进入正题。面试题目有：
1）说一下随机森林的执行过程。
2）基尼指数和信息增益的区别。
3）GBDT和RF的优缺点。
4）他：你有什么想问我的？
我：你们是不是核心部门？
他：当然是的。为什么想去核心部门？
我：我喜欢做有挑战性的工作。
他：如果你能把非核心部门变成核心部门，不是更有挑战性吗？
我：有道理。
————————————————————————————————————
以下，是小猴子遇到的腾讯面试题，非常感谢他的无私奉献。:)
腾讯面试
1）有25匹马，5个跑道，一次只能比5匹马，得到跑得最快的前3，至少需要比几次？
答：7次。
2）一个文件中包含超大的N个数，求最大的K个数？
答：最小堆，时间复杂度为N log k 。
3）一个数据流中，如何采样得到100个数，保证采样得到的100个数是随机的？
答：蓄水池抽样算法。
4）如何解决特征共线性的问题？
答：可以利用PCA，特征降维，去除冗余特征和噪声特征。
5）为什么RF和GBRT比LR效果好？
答：混合模型的优势，分别是bagging和boosting的思想，LR毕竟是单模型，而且特征不保证与label是线性的，需要特征转换和拟合。
6）LR正则化L1和L2的区别？
答：L1正则化产生稀疏解，将不相关特征对应的权重设为0，去除不相关特征，进行特征选择，L2正则化进行特征权重衰减。L1正则是拉普拉斯先验，L2正则是高斯先验。两者都能达到防止过拟合，增加模型的泛化能力的目的。

————————————————————————————————————
找工作和找对象差不多，都是双向选择。被拒不代表你不好，也许是因为你们彼此不适合。找一份最适合你的工作，找一个最适合你的伴侣，人生就很美满了。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

2015年机器学习/数据挖掘面试总结的相关文章

Android 系统调用实现函数功能--SVC指令的实现与检测

0x0 简述 xff1a arm android中通过一些反编译的工具分析ELF文件时 xff0c 根据一些导入的系统函数可以很轻松的找到一些功能代码的实现 xff1a 查看libc中分析这些函数的实现 xff1a arm中通过SVC指令实
Docker学习笔记（九）：Docker +Jenkins +Github持续集成

本次配置时 xff0c jenkins需要配置在外网可访问的服务器上 xff0c 因为在git push内容到github时 xff0c 触发Webhooks并推送到jenkins服务器上 1 配置Github xff08 通过秘钥登录 x
opencv-python 常用函数介绍

目录 imread xff1a 读取图片 imshow xff1a 展示图片 resize xff1a 图片等比例缩放 split xff1a 获取所有像素的颜色值 merge xff1a 根据颜色值合成图片 VideoCapture xf
redis 内存占用分析

在Redis命令行中 xff0c 执行MEMORY STATS命令查询内存使用详情 Redis实例的内存开销主要由两部分组成 xff1a 业务数据的内存开销 xff0c 该部分一般作为重点分析对象非业务数据的内存开销 xff0c 例如主备
php laravel 分析 redis 各个key的内存占用情况

lt php namespace App Console Commands Tools use Illuminate Console Command use Illuminate Support Facades DB class Redis
centos7手动修改dns

DNS是计算机域名系统 Domain Name System 或Domain Name Service 的缩写 xff0c 它是由域名解析器和域名服务器组成的域名服务器是指保存有该网络中所有主机的域名和对应IP地址 xff0c 并具有将域
查看并关闭占用端口

查看占用端口 sudo lsof i 8888 关闭占用端口 sudo kill 9 2558243
从水果连连看到两条序列比对

一序列比对 Sequence Alignment 序列比对 xff08 sequence alignment xff09 xff0c 目前是生物信息学的基本研究方法算法类似于连连看 xff0c 规则是上下两个水果一样 xff0c 就可以
Nginx 配置详解

Nginx 配置文章目录 Nginx 配置文件结构全局配置events 配置http 配置server 配置 Rewrite一地址重写 xff0c 地址转发 xff0c 重定向二 URL 重写语法 xff1a 使用 xff1a 三 if
趣谈网络协议(一)

一般来说 xff0c 网上的购物都是基于应用层的Http协议那么在这一层协议书我们包装了什么呢 xff0c 请看下图一应用层 Http头 http1 1 POST URL 正文格式 content type 长度 content l
JS 中 Json 数据的快速排序

主要方法 span class token comment 升序排列 span span class token keyword function span span class token function up span span cl
生物信息学导师推荐（持续更新）

本系列会持续更新 xff0c 帮助大家找到更适合自己的导师 xff0c 注意排名不分先后 xff0c 接下来我们开始介绍 xff1a 陈润生单位 xff1a 中国科学院生物物理研究所方向 xff1a 长非编码RNA以及编码小肽的系统发现
Python 中变量的多种复制方法（常规拷贝，浅拷贝，深拷贝）

常规拷贝大家常用的变量复制方法 xff0c 用 61 就行但是 xff01 但是 xff01 但是 xff01 在我们复制字典和列表时会和我们预想的不一致接下来 xff0c 做个小实验常规拷贝在原始变量 x 的改变后 xff0c 因
图解机器学习：分类模型性能评估指标

人间出现一种怪病 xff0c 患病人群平时正常 xff0c 但偶尔暴饮暴食 xff0c 这种病从外观和现有医学手段无法分辨为了应对疫情 xff0c 准备派齐天大圣去下界了解情况事先神官从人间挑选了一些健康人和患病者来对大圣的业务能力进行
数据库涉及大量数据查询时的注意事项

避免频繁连接和关闭数据库 xff0c 这样会导致IO访问次数太频繁设计表时要建立适当的索引 xff0c 尤其要在 where 及 order by 涉及的列上建立索引避免全表扫描 xff0c 以下情况会导致放弃索引直接进行全部扫描避免
axios 使用详解

一安装 cnpm install axios 二使用三种写法 span class token comment 第一种写法 span axios span class token punctuation span span class
生物序列比对的几种应用场景（图文）

今天和大家讨论几种序列比对的应用场景 xff0c 当然只是抛转引玉 xff0c 如果小伙伴有其他应用场景 xff0c 欢迎讨论一物种基因的进化二基因组学 2 1 比较基因组学揭示保守区 2 2 比较基因组学揭示功能元件例如上图的
图解机器学习之回归模型性能评估指标

一个房价预测的任务 xff0c 老板说你看看这个模型咋样 xff1f 我们先绘制一个坐标轴 xff1a Y 轴为房价 xff0c X 轴为年份将过去房价数据绘制为绿色 xff0c 回归模型绘制为蓝色关键问题是 xff0c 怎么知道这个模
Chrome 将 http 域名自动跳转 https 的解决方案

问题来源使用 Chrome 内核浏览器 xff0c 包括 Google Chrome xff0c edge xff0c 360浏览器等为了安全在访问同一域名时 xff0c 只要访问过带有 https 域名 xff0c 如果再使用http
一文读懂相分离（图文详解）

目录什么是相分离 xff1f 相分离的原理相分离的分子功能生物信息中的相分离一什么是相分离 xff1f 相分离 phase separation 本身是一个物理化学概念 xff0c 二元或多元混合物会在一定的条件下分离为不同的相

随机推荐

g++: 内部错误：Killed (程序 cc1plus)

这个原因是内存不足 xff0c 在linux下增加临时swap空间 step 1 sudo dd if 61 dev zero of 61 home swap bs 61 64M count 61 16 注释 xff1a of 61 hom
React 开发 | 样式模块化

1 使用 ES6 实现样式模块化 xff0c 避免样式冲突 index module css span class token punctuation span title span class token punctuation span
React 开发 | 父子组件间通信

文章目录一省流二父传子例子三子传父例子一省流父组件 gt 子组件 xff1a 通过 props 传递子组件 gt 父组件 xff1a 通过 props 传递 xff0c 但是父组件需要提取给子组件传递一个预定义的函数二父
React 开发 | 常用 Hooks

useState 作用用于函数式组件操作 state xff0c 类似于类组件的 setState 写法 xff1a state setState 61 useState initValue state xff1a 状态变量名setSta
React 项目部署后，页面404解决

解决方法一 xff1a Nginx 配置 span class token punctuation span listen span class token number 80 span span class token punctuati
一文读懂 UniProt 数据库（2023 最新版）

一 UniProt 数据库介绍 Uniprot xff08 Universal Protein xff09 是包含蛋白质序列 xff0c 功能信息 xff0c 研究论文索引的蛋白质数据库 xff0c 整合了包括EBI xff08 Europ
理解泛型调用和函数调用签名

这里通过五个示例逐步理解泛型调用和函数调用签名 span class token comment 64 Author Zheng Lei 64 Email baimoc 64 163 com 64 Date 2023 01 18 16 29
图解统计学 10 | 贝叶斯公式与全概率公式

文章目录概率联合概率条件概率全概率公式贝叶斯公式过年了 xff0c 作为水果店老板的我们 xff0c 一共进了三种水果 xff0c 其中 xff1a 西瓜 xff1a 50个香蕉 xff1a 30个橙子 xff1a 20个为了方便
中断处理流程

大家都说在中断处理函数中不能调度 xff0c 或者说睡眠这到底为什么 xff1f 下面看中断处理的过程 xff0c 从中是否能找到原因中断发生后会调到 irq svc xff1a align 5 irq svc svc entry ir
ROS Publishers

ROS的发布者在python语言中 xff0c ROS发布者定义格式如下 xff1a pub1 61 rospy Publisher topic name message type queue size 61 size topic nam
用已有镜像创建容器

背景想编译一套针对arm架构上CPU的keepalived xff0c 现有条件是 xff0c 有一套arm的CPU xff0c 上面已经安装了centos7 xff0c 为了不影响本身系统的环境 xff0c 所以想着创建一个容器来隔离环
Ubuntu 18.04生命周期现被扩展至10年

为更好的与刚被蓝色巨人 IBM 收购的红帽展开竞争 xff0c Ubuntu 18 04 LTS长期支持版周期被扩展至整整10年正常情况下 Ubuntu LTS 长期支持版的生命周期都是五年 xff0c 即在五年内这些版本都会持续提供安全
卡尔曼滤波(Kalman filtering)小结

最近项目用到了kalman滤波 xff0c 本博文简单介绍下卡尔曼滤波器的概念原理和应用 xff0c 做个小结概念卡尔曼滤波 xff08 Kalman filtering xff09 一种利用线性系统状态方程 xff0c 通过系统输入
Cmake:编写CMakeLists.txt文件编译C/C++程序

1 CMake编译原理 CMake是一种跨平台编译工具 xff0c 比make更为高级 xff0c 使用起来要方便得多 CMake主要是编写CMakeLists txt文件 xff0c 然后用cmake命令将CMakeLists txt文件
官方免费的正版Xshell，人人都可以马上拥有

找个 Xshell 咋就这么费劲可以说 Xshell 是 Windows 平台下最好的第三方终端软件了 xff0c 程序员必备但是屏幕前的你 xff0c 搜索下载 Xshell xff0c 都是跳到奇怪的下载网站有时候下载的也是免费试
第2章梅西法阅读

梅西法可以用于任何对象集合的排名 xff0c 但是一定要预先定义好成对比较数据比如乒乓球赛 xff0c 成对比较数据就是两个人PK的结果 xff1b 网页排序 xff0c 成对比较数据可以是两个网页的流量梅西法的主要思路是构造一个最小二
我与算法的缘分

六年前 xff0c 我完全不知道算法是什么东西六年后 xff0c 我看到算法就两眼放光六年的时间让我从算法小菜鸟蜕变成算法爱好者大一上学期 xff0c 我对算法一点概念都没有 xff0c 当时老师让我们用伪代码写算法 xff0c 我基
EM算法实例讲解

第一次接触EM算法 xff0c 是在完成半隐马尔科夫算法大作业时我先在网上下载了两份Baum Welch算法的代码 xff0c 通过复制粘贴 xff0c 修修补补 xff0c 用java实现了HMM算法 xff08 应用是韦小宝掷两种骰子
机器学习漫谈

机器学习漫谈数据挖掘机器学习项目一般包括四个关键部分 xff0c 分别是 xff0c 数据分析 xff0c 特征工程 xff0c 建立模型 xff0c 验证 1 数据分析从广义上讲 xff0c 数据分析包括数据收集 xff0c 数据处
2015年机器学习/数据挖掘面试总结

2015年机器学习数据挖掘面试总结明年硕士毕业 xff0c 今年开始找工作在北方呆的太久 xff0c 想回湿润的南方第一站 xff08 3月份 xff09 xff0c 阿里数据挖掘实习生面试个人觉得 xff0c 阿里的面试是最人性

2015年机器学习/数据挖掘面试总结

2015年机器学习/数据挖掘面试总结 的相关文章

随机推荐

热门标签

2015年机器学习/数据挖掘面试总结的相关文章