Kaggle研究16,000+数据科学从业者并公开数据 !(附数据集下载)

2023-11-19

来源:机器之心

本文长度为2540字,建议阅读5分钟

本文整理Kaggle对人工智能领域超过16,000受调查者的调查数据结果。


Kaggle 是互联网上最著名的数据科学竞赛平台之一,今年3月8日,这家机构被谷歌收购,6月6日又宣布用户数量超过了100万人。最近,这一社区首次进行了机器学习/数据科学现状调查。在超过16,000名从业者的详尽答卷中,我们可以一窥目前业内的发展趋势。有趣的是,Kaggle也将调查结果封装成了匿名数据集以供大家自行分析。


有史以来第一次,Kaggle 对人工智能领域进行了全行业深度调查,试图全面了解数据科学和机器学习概况。本次调查收到了超过 16,000 份回复,众多受调查者的数据向我们提供了有关从业者人群、业界最新动态以及如何进入该行业的洞见。以下报告包括本次调查的所有主要结果,其中包含的主要内容有:


  1. 虽然 Python 很可能是机器学习最常用的编程语言,但统计学家更多地使用 R 语言。

  2. 平均而言,数据科学家的年龄在 30 岁左右,但是这个数字在不同的国家有所不同。例如,印度的受访者要比澳大利亚的平均年轻 9 岁。

  3. 有关被调查者教育程度,最普遍的学位是硕士,但是工资最高的($150k+)人群中,拥有博士学位的人稍稍多一点。


Kaggle 已经公开了该调查的匿名数据集,以供大家进行探究:https://www.kaggle.com/kaggle/kaggle-survey-2017。


如何定义数据工作者?


观察数据从业者的方式有很多,但本文将从有关数据科学从业者的工作和背景的人口统计学信息开始。


1. 调查对象的年龄


如图可见,本次调查对象的平均年龄大约 30 岁,但这个值在各个国家之间有变动。例如印度的调查对象的平均年龄就比澳大利亚的小了 9 岁。



2. 你目前的就业状况如何?


受调查者中,有 65.7% 表示自己有全职工作。



3. 你的职位是什么?


尽管我们把数据科学家定义为使用代码分析数据的人,我们发现数据科学领域可涵盖的工作非常多。比如在伊朗和马来西亚,数据科学从业者最流行的工作头衔是「科学家或者研究者」。




4. 你的全职年薪是多少?


中位数$55,441,不过由于很多人没有全职工作(收入为 0),所以这一数字不甚准确。尽管在我们的调查中「补偿和福利」的重要性排序稍微比「职业发展机遇」的低一点,不过知道什么是合理的补偿依然不错。在美国,一般机器学习工程师带回家最多的是培根。



131 个回复由于超出最大值而没有显示出来,但它们被算进了中位数。


5. 你的最高学历是什么?


因此,你需要再获得一个学位吗?通常来讲,数据科学从业者中最普遍的学历是硕士,但是获取最高薪水($150K - $200K 和 $200k+)的那些人多是有着博士学位。




被调查者的平均水平是数据科学家职称,30 岁左右,硕士学历,年薪$55,000左右。但实际情况并不如此平均。这些最初的几个人口统计学问题只是展示了复杂的 Kaggle 数据科学社区在年龄、性别、国籍、工作职称、薪水、经验和学历方面的表层差异。


数据科学家的工作内容是什么?


我们把数据科学家定义为写代码以分析数据的一群人。他们的日常工作内容是什么?以下是我们的调查结果。


1. 工作中使用什么数据科学方法?


Logistic 回归是工作之中最为常用的数据科学方法,不过神经网络使用更为频繁的国家安全领域除外。总的来说,数据科学中更常见的还是使用经典的机器学习算法,简单的线性与非线性分类器是数据科学中最常见的算法,而功能强大的集成方法也十分受欢迎。我们看到目前神经网络模型的使用频率要高于支持向量机,这可能是近来多层感知机要比使用带核函数的 SVM 更加广泛的表现。



2. 工作中使用最多的语言是什么?


Python 是数据科学家最常用的语言,也是最常用的数据分析工具。不过,还有很多数据科学家仍然保持着对 R 语言的忠诚。



以上仅展示了 15 个回答,还有 38 个回答被隐藏。


3. 在工作中常用的数据类型是什么?


关系型数据是开发者在工作中最常用的数据类型,因为大多数产业工程师都十分关注于这种关系型数据。而学术研究者和国防安全产业则更注重于文本与图像。



4. 如何分享工作中的代码?


尽管很多受访者(58.4%)使用 Git 在工作分享他们的代码。但大公司中的开发者更倾向于将代码保留在本地,并通过像 Email 那样的文件共享软件来分享他们的代码。而初创公司可能需要在云中共享以保持更加敏捷的反应。



5. 工作中遇到的障碍主要是什么?


脏数据(dirty data)显然是排在了第一位,也就是说数据科学家一般最常见的困扰就是需要对数据进行大量的预处理工程。除了数据预处理工程以外,还有很多问题困扰着数据科学家,比如说众多的机器学习算法各有各的擅长领域,所以理解它们的性能也会有一些困难。不过我们注意到向其他人解释数据科学是什么也会困扰着数据科学家,解决办法可以是推荐机器之心呀。



上图仅展示了前面的 15 个回答,还有 7 个回答没有展示。


此外,如果你们点击选择条件,那么就能按照条件过滤回答。很多行业的受访者表示他们缺少数据科学相关的人才,所以数据科学家目前是十分幸运的。


数据科学家新手如何入行?


当开始一个新的职业生涯的时候,看看别人的成功秘诀是很有帮助的。我们调查了在数据科学行业工作的人们,询问他们是如何做到的。以下是我们最喜欢的几条建议:


1. 你们会推荐数据科学家新手最先学哪门语言?


每一位数据科学家都有自己的对选择第一门语言的想法。事实证明,那些仅使用Python或R语言的人们做出了正确的选择。不过如果你问一下使用过R和Python的人们,他们有两倍的可能会推荐Python给你。



2. 你们使用哪些数据科学学习资源?


数据科学是一个快速变化的领域,有很多有价值的资源可以帮助你学习并保持业内的顶尖位置,从而不断提升你的竞争力。已经在数据科学领域中工作的人们会更多使用 Stack Overflow Q&A,Conferences 和 Podcasts,以对不断涌入这个领域的人们保持自己的优势。如果想要发布内容或开源软件,请时刻记住刚进入这个领域的人们通常更多使用官方的文档和观看 Youtube 视频。




3. 你们在哪里获取开源数据?


没有数据,就没有数据科学。当需要学习数据科学技巧的时候,知道如何找到干净的开源数据集用于练习和开发项目相当重要。很高兴得知我们的数据集聚合器(dataset aggregators,https://www.kaggle.com/datasets)正发展为数据科学社区成员中最频繁使用的工具。



4. 你们怎么找工作,怎么找到的?


找工作的时候,可能到公司网站上,或在指定技术方向的招聘信息上,但是根据已经在数据科学领域工作的人们的经验,这些方式是最差的选择。而直接联系招聘者或建立自己的网络以进入这个领域才是他们的首选。



Note:少于 50 名受访者的组别被合并进了「Other」类中。其中一些柱状图为了美观而做了缩放处理,希望查看所有问题和结果的原始数据可访问:https://www.kaggle.com/amberthomas/kaggle-2017-survey-results


本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

Kaggle研究16,000+数据科学从业者并公开数据 !(附数据集下载) 的相关文章

  • Python安全攻防之第二章Python语言基础

    2 3 Python模块的安装与使用 python模块的安装 pip3 install 模块名称 py 3 m pip install 模块名称 python模块的导入与使用 1 Import模块名称 采用 Import模块名称 方式时 需
  • Shell中的算术运算

    let expr bc都是在Bash shell环境中进行数学运算时我们会用到的工具 一 整数运算 let 当使用let时 变量名之前不能再添加 用法 var1 2 var2 3 let result var1 var2 echo resu
  • 一文搞懂积分不等式证明(积分证明题总结笔记3/3)

    积分证明题是考研中难度较大的板块 很多学弟学妹们希望我出一篇总结文章 故作本文 希望对大家有所帮助 本文所涉及题目 均是来自市面上常见题册 李林880 张宇1000题 汤家凤1800等 由于内容较多 故分为三部分 等式证明 点击进入 由积分
  • Qt 绘图设备,QPixmap 和QImage 相互转化

    Qt的绘图系统允许使用相同的API在屏幕和其他打印设备上进行绘制 整个绘图系统基于 QPainter QPainterDevice 和 QPaintEngine三个类 QPainter用来执行绘制的操作 QPaintDevice是一个二维空
  • ospf和mgre的综合应用

    1 R6为ISP只能配置IP地址 R1 R5的环回为私有网段 首先划分好IP地址 如下图所示 然后对各个环回和接口进行IP配置 如下面所示 对r1 r1 int l0 r1 LoopBack0 ip add 192 168 1 1 24 r
  • Mybatis-plus查看完整执行sql

    Mybatis plus查看完整执行sql application properties 文件 mybatis plus configuration log impl org apache ibatis logging stdout Std
  • Redis-Sentinel(哨兵模式),看这篇就够了哦

    文章目录 简介 启动并初始化Sentinel 初始化Sentinel服务器 替换普通Redis代码为Sentinel的专用代码 初始化 Sentinel 状态 初始化Sentinel监视的主服务器列表 创建连向主服务器的网络连接 获取主服务
  • 二进制兼容与Qt的D指针

    二进制兼容的定义 一个连接到旧版本的动态库的应用程序 无需重新编译就可以用新版本的动态库运行 则这个库被认为是二进制兼容的 一个连接到旧版本的动态库的应用程序 无需修改源码单需要重新编译后可以用新版本的动态库运行 则这个库被认为是源码兼容的
  • java版spring cloud+spring boot 直播电商 社交电子商务平台

    涉及平台 平台管理 包含自营店面 商家端 PC端 手机端 买家平台 PC端 H5 公众号 小程序 APP端 IOS Android 微服务 核心思想 分布式 微服务 云架构 模块化 原子化 持续集成 集群部署 开发模式 代码生成工具 驱动式
  • 【Java 数据结构】单链表与OJ题

    篮球哥温馨提示 编程的同时不要忘记锻炼哦 暮色降临 冲一杯咖啡 目录 1 什么是链表 2 实现一个单向非循环链表 2 1 实现前的约定 2 2 addFirst 方法 2 3 addList 方法 2 4 addIndex 方法 2 5 c
  • SpringBoot 集成积木报表

    前言 积木报表是jeecg的一款开源但代码不开源的一款自定义报表 可以基于 网页灵活调整报表的布局 样式等内容 无需编程 专为企业数据分析 报表制作而设计 降低管理人员汇总制作报表的门槛 解决各类日常管理和 汇报的难题 但是因为代码不开源所
  • SQL 入门的必读好书

    点击蓝色 有关SQL 关注我哟 加个 星标 天天与10000人一起快乐成长 最近 很多朋友来问我 有没有入门 SQL 的好书 与这些朋友聊天发现 大部分人都没有系统学过计算机专业的专修课 有从物流转行的 有从会计专业扩展的 还有从运维行业转
  • 出现“java.sql.SQLException: 无法转换为内部表示”解决方法

    现在 java sql SQLException 无法转换为内部表示 很可能是因为数据库某字段的类型出错了 比如程序将某字段当做Integer类型 而数据库存储又使用另外一种类型 不如String 建议出现这样问题的同行们认真检查一下代码
  • 软件配置管理

    第一章 1 软件配置管理用于控制变化 2 软件配置管理 Software Configuration Management SCM 是指一套管理软件开发和维护过程中所产生的各种中间软件产品的方法和规则 它是控制软件系统演变的学科 3 软件配
  • java8之lambda表达式

    java8 近期 在一个不完全的统计中 java8的普及率已经到达了近80 图 1 相比之前的java版本 下面两个是java8出现带来最大的影响 其一是极大地简化了代码的复杂度尤其是在处理集合以及接口这两个方面 除此之外 java8引入了
  • Linux系统FTP传输协议

    目录 一 FTP传输协议 什么是FTP传输协议 FTP数据连接的两种方式 二 如何使用FTP传输协议 三 设置黑白名单 设置黑名单 设置白名单 一 FTP传输协议 什么是FTP传输协议 FTP协议 文件传输协议 网络上控制文件传输的双向性
  • 中国央行数字货币或比Libra更早发行,考虑让非政府机构参与试点

    中国官员和专家们表示 中国正在测试推出中国首款央行数字货币 CBDC 的多种方式 他们预计私营机构将更多地参与创造政府支持的货币 基于一些领域正在进行的试验 引入 CBDC 的时机已经接近成熟 但与中国央行关系密切的专家们周一表示 Face
  • 区块链教育应用案例_区块链技术在教育领域中的应用研究

    来源 廊坊云报 廊坊日报讯教育对一个国家来说意味着希望 教育行业数字的应用是各行各业发展的基础 只有通过完善的教育体系 才能培育出更加优秀的人才来输送到各个行业 所以说教育领域是一个重要领域 其他重要领域的未来 包括科学 医学 农业 工业和
  • 华为hilens 系统制作

    恢复出厂设置 https support huawei com enterprise zh doc EDOC1100112066 9b0a1fba 长按RST按钮2 3秒 在这个过程中 短按电源按钮后松开 当前面板健康指示灯出现橙色 常亮
  • Debian 12 发布,迄今为止最佳 Linux 版本

    Debian 项目今天发布了 Debian 12 Bookworm 操作系统的最终版本 这是一个重大发布 带来了几个新功能 更新的组件和许多改进 凭借其长期稳定和安全的历史 Debian 12 备受全球开源爱好者的热切期待 这个新版本带来了

随机推荐

  • 图书馆管理系统开发(C# && Sql Server)

    图书馆管理系统 C S架构软件 开发 主要步骤 遇见问题 1 主要步骤 1 1 学习主干知识 大概懂得数据库相关sql语法 大概懂得C 语法 C 菜鸟教程 把基础篇看看 大概掌握 Net开发窗口界面 Net教程 然后可以实战一下项目 VS2
  • 将嘉立创中元件导出为AD封装库使用

    AD封装库的选择和元件的查找实在让人头大 我们不妨使用好嘉立创提供的丰富元器件库 如果想要找到想要的元件 可以直接去嘉立创EDA 标准版 的元件库中寻找 在符号类型中可以找到原理图文件 很奇怪 在嘉立创商城中直接搜索的话元器件会比在嘉立创E
  • python列表输出去掉引号_如何从导出的python列表中删除逗号、引号和圆括号?

    你们帮了我最后一个新手的忙 所以我想我会再问一次 现在 我的Python 3代码从CSV文件中获取数据 将数据存储为列表 创建该数据的排列 并以列格式将其导出回新的CSV文件 不幸的是 导出列表的格式不适合我的需要 我的问题是 如何在pyt
  • vue3.0项目报错:删除node包重新装报错

    前言 vue3 0的项目删除node包以后重新装项目 会报错 vue loader v16 找不到 安装以后下次再删包 再装会报错webpack的问题 解决办法 在新建项目后 打开pack json文件 找到 devDependencies
  • 【积累】Element-ui,el-dialog里面嵌入el-form,resetFields失效问题

    记一次element ui el dialog里面嵌入el form 使用resetFields方法初始化表单失效 问题记录 前提 当el form在一个el dialog中 dialog显示与否绑定变量 showDialog ref 为
  • 用DC-DC 升压降压以及产生负电压的原理及应用

    文章目录 前言 一 Boost和Buck电路 二 实际使用 1 DC DC芯片 2 DC DC芯片产生负电压 前言 在设计电源电路时经常会用到升压降压和负电压等电路 博主结合理论知识和实际应用加上自己理解 分享这篇文章 一 Boost和Bu
  • 设置无线路由器与有线网络在同一网段

    公司有两台路由器 一台连接internet的大路由器 一台无线路由器 两台路由器不在同一网段 所以无法实现互联互通 在一个局域网中很不方便 原设置 无线路由器的WAN口连接到大路由器上 插网线 无线路由器的WAN IP设置与大路由器一个网段
  • 【微信小程序】wx.request出现undefined

    偶现 天啦噜 一直困惑了很久的bug终于找到原因了 示例代码如下 wx request sucess function res if res statusCode 200 res data status 200 do something e
  • csdn中使用KaTeX给公式编号

    说明 csdn用的公式编辑器是Katex 并不是LaTeX 两者语法有些区别 比如LaTeX中的公式编号 begin equation 在KateX中就会解析错误 katex中 给公式编号用 tag 1 的形式 例如 E mc 2 tag
  • 【Threejs效果:挖空几何体】ThreeBSP实现墙体挖洞

    1 效果如下 2 代码如下 基本思路 1 创建两个mesh 一个墙体 一个窗户 2 然后取墙体和窗户的差集 将差集转换成几何体 3 根据几何体新建mesh 并贴纹理 依赖库有三个 import as THREE from three imp
  • CPU系统级验证——概览索引

    1 RISC V CPU核指令集验证分析 1 wujian100 1 SoC核分析 无剑100实际上是一款低功耗SoC 采用的CPU核是E902 core通过AHB总线与Icache相连 2 验证环境分析 通过 readmemh test
  • Nginx的alias的用法及与root的区别(转)

    http nginx org en docs http ngx http core module html alias http nginx org en docs http ngx http core module html root 以
  • Anaconda创建虚拟环境出现CondaHTTPError: HTTP 000 CONNECTION FAILED for url <https://mirrors.tuna.ts解决办法

    使用Anaconda创建一个新的环境 执行 conda create n scrapyEnv python 3 6 结果出现了 CondaHTTPError HTTP 000 CONNECTION FAILED for url https
  • 电脑上有哪些好用的视频剪辑软件

    http www 360doc com content 18 0712 08 55889173 769741943 shtml 可以说 现在视频正日益成为营销和社交媒体的一个组成部分 这就是为什么会有视频编辑越来越火的原因 这已随着视频在当
  • matlab 从点云中移除隐藏点

    目录 一 功能概述 1 算法概述 2 主要函数 二 代码实现 三 结果展示 四 参考链接 一 功能概述 1 算法概述 该函数使用如下步骤从指定的视点确定点云中的可见点 1 将点云与中心位于视点的坐标系相关联 2 使用球形投影进行反演 创建一
  • nginx配置vue(history模式)

    问题的原因 项目本来使用 hash 的路由模式来部署 因为需求关系 现在要改成 history 的模式来部署了 路径上不要有 号 第一步 修改项目的 router index js 的配置 const router new VueRoute
  • modbus总线协议(一)modbus rtu

    一 介绍 Modbus协议由Modicon公司开发出来 现在Modbus是工业领域全球最流行的协议 硬件支持RS 232 RS 422 RS 485和以太网设备 应用在PLC DCS 智能仪表等工控领域 图片来源于网络 二 modbus协议
  • template 的使用

    插件介绍 template 是一个高性能的JavaScript模板引擎 插件特性 1 性能卓越 执行速度快 mustache 与 tmpl 的20多倍 2 支持运行时调试 可精准定位异常模板所在语句 3 对 NodeJS Express 有
  • Java NIO Files类读取文件流方式详解

    Java NIO Files类读取文件流方式详解 Files类原理概述 java nio file Files是Java标准库提供的一个工具类 用于操作文件和目录 它提供了一系列静态方法 可以用于创建 复制 删除 移动 重命名 读取 写入文
  • Kaggle研究16,000+数据科学从业者并公开数据 !(附数据集下载)

    来源 机器之心 本文长度为2540字 建议阅读5分钟 本文整理Kaggle对人工智能领域超过16 000受调查者的调查数据结果 Kaggle 是互联网上最著名的数据科学竞赛平台之一 今年3月8日 这家机构被谷歌收购 6月6日又宣布用户数量超