机器学习竞赛中取胜

2023-11-10

摘要: 本文总结由Marios Michailidis(a.k.a Kazanova),Kaggle Grandmaster在2016年3月5日现在排名第3位的在线研讨会上分享的技巧,更好地在机器学习竞赛中取胜

更多深度文章,请关注:https://yq.aliyun.com/cloud


作者:Team Machine Learning,这是一个机器学习爱好者团队,他们热衷于建立一个希望在数据科学/机器学习方面建立事业的有抱负的年轻毕业生和专业人士的环境。


上一节讲述了机器学习的一些知识点和工具,接下来的问题会更加现实。

问答

20.是否需要Kaggle排行榜顶尖的技能,也是你作为数据科学家日常工作所需的技能? 或者它们相交还是有些不同? 我可以认为数据科学家的工作是基于Kaggle比赛吗? 如果一个人在Kaggle上做得很好,那么她会在她的职业生涯中成为一名成功的数据科学家吗?

有一定比例的重叠,特别是在制作预测模型时,通过python / R处理数据并创建报告和可视化。Kaggle不提供(但你可以得到一些想法):

  • 如何将业务问题转化为建模的问题
  • 如何监控模型的部署
  • 如何解释(多次)困难的概念给利益相关者。

我认为在业界总是留有优秀的kagglers的空间。 只是数据科学可以有许多可能的路线。 例如,不是每个人都倾向于自己创业,或者是面对客户,而是解决非常特殊的(技术)任务。

21.哪些机器学习概念必须在Kaggle比赛中表现良好?.

  • 数据询问/探索
  • 数据转换-预处理
  • 掌握工具知识
  • 熟悉度量和优化
  • 交叉验证
  • 模型校正
  • 集成

22.你如何看待数据科学家工作的未来?自动化会扼杀这份工作吗?

不,我不这么认为。这就是他们过去曾说的自动化计算。但最终需要大量的开发人员来完成这项工作!数据科学家可能会专注于随着时间的推移,将业务问题翻译成ml问题,并且通常成为流程的指导者——如建模过程的经理/主管一样。

23.如何在RPython中使用整体建模来提高预测的准确性。 请引用一些现实生活中的例子?

你可以看我的github脚本,它解释了不同的基于Kaggle比赛的机器学习方法。同时,核对这个集成指南

24.什么是最好的python深度学习库或文本分析框架?

我喜欢Keras(因为现在支持稀疏数据),Gensim(对于word 2 vec)。

25.在现实生活中,通过这些竞赛获得的知识有多大价值? 我经常看到通过合并许多模型赢得的比赛...这是现实生活中的情况吗? 还是在真实的制作系统中解释模型比这些庞大的组合更有价值?

在某些情况下,是的——可解释或快速(或记忆效率)更重要。但随着时间的推移,这将很可能改变,因为人们将不再害怕黑盒子解决方案,并专注于准确性。

26.我应该学习关于机器学习算法的核心,还是继续尝试形成对算法的理解并使用它们(在比赛中,并解决现实生活中的商业问题)?

你不需要核心。 每天都有出现的新东西——有时很难跟踪它。 这就是为什么你应该专注于任何算法的正确使用,而不是投资于一个。

27.哪些是不平衡数据的最佳机器学习技术?

我在这里不做特别的处理。 这归功于优化正确的度量(对我来说)。用几句话来解释很难。有很多技术的抽样,但我从来没有使用过。 有些人正在使用Smote。 我认为试图更改目标变量的主分布是没有价值的。你只是最终得到增加或改变主要几率。 如果你真的想要一个界限来决定你是否应该采取行动 你可以根据主要几率进行设置。

我可能不是最好的回答这个问题的人。我个人从来没有发现它(显著)有助于改变目标变量的分布或目标变量中的几率的感知。可能只是其他算法在处理这个任务时比其他算法更好(例如基于树的应用程序应该能够处理这个)。

28.通常,营销研究问题主要通过标准回归技术来处理 线性和逻辑回归,聚类,因子分析等。我的问题是机器学习和深度学习技巧/算法对营销研究或业务问题有用吗? 例如,如何解释一个神经网络的输出到客户端是有用的?有什么资源可以参考吗?

它们在某种意义上是有用的,你可以很有可能提高准确度(在预测上我们说营销反应)与线性模型(如回归)。 解释输出是很困难的,在我看来,这不是必要的,因为我们一般都会走向更多的黑盒子和复杂的解决方案。

作为数据科学家,你应该努力确保有一种方法来测试一些不可观察(测试)数据的结果有多好,而不是想了解为什么你得到的预测类型。 我认为从复杂模型中解压缩信息是一个很好的话题(对研究有用),但是我不认为这是必要的。

另一方面,公司、人员、数据科学家、统计学家和一般可被归类为“数据科学玩家”的任何人都需要接受教育,接受黑箱解决方案是完全正常的。 这可能需要一段时间,所以运行一些回归以及你正在做的任何其他建模可能会很好,并且通常会尝试提供说明图和总结信息,以便为您的模型为什么执行此操作。

29.如何在Kaggle建立合作团队?

你可以在论坛(即kaggle)中询问。 在“人们可以信任你”之前,这可能需要几场比赛。 原因是他们害怕复制的帐户(违反竞争规则),所以人们更喜欢被证明是公平的人。 假设有一段时间过去了,你只需要想想你想玩的人,你认为你可以从中学习的人与可能和你采取不同的方法的人,所以你可以在组合方法时利用多样性的好处。

30.我已经完成了基本的机器学习课程(理论)。现在我开始了我的实践历程。你刚刚推荐通过scikit learn文档,现在人们都在说TENSORFLOW是下一个scikit learn,所以我应该通过scikit还是TF是一个不错的选择?

我不同意这个“人们在说TENSORFLOW是下一个scikit learn”的说法。 Tensorflow是一个完成某些机器学习任务(如深入学习)的框架。 我想你可以学习两者,但我会从scikit开始。 我个人不知道TensorFlow,但是我使用的是基于张量流的工具(例如Keras)。

31.我在任何比赛中面临的主要挑战是清理数据,使其可用于预测模型。 你如何克服呢?

我加入了俱乐部! 一段时间后,你将创建可以相对较快处理这个的管道。 但是,你总是需要在这方面花时间。

32.如何在没有强大的机器的情况下计算大数据?

你应该考虑一些如vowpal wabbit和在线解决方案的工具,可以逐一解析所有内容。 你需要在编程方面投入更多资源。

33.什么是特征工程?

简而言之,特征工程可以理解为:

  • 特征变换(例如将数字或分类变量转换为其他类型)
  • 特征选择
  • 利用特征交互(比如我应该把变量A和变量B结合起来)
  • 处理空值
  • 处理异常值

34.哪些数学技能在机器学习中很重要?

一些基本概率以及线性代数(例如向量)。 然后一些统计数据也有帮助。 像平均值、频率、标准偏差等。

35.可以分享你以前的解决方案吗?

看一些代码和一些没有(只是一般的方法)。

https://www.kaggle.com/c/malware-classification/discussion/13863

http://blog.kaggle.com/2015/05/11/microsoft-malware-winners-interview-2nd-place-gert-marios-aka-kazanova/

https://github.com/kaz-Anova/ensemble_amazon

http://blog.kaggle.com/2015/12/03/dato-winners-interview-1st-place-mad-professors/

http://blog.kaggle.com/2016/04/08/homesite-quote-conversion-winners-write-up-1st-place-kazanova-faron-clobber/

https://mlwave.com/how-we-won-3rd-prize-in-crowdanalytix-copd-competition/

http://blog.kaggle.com/2016/08/31/avito-duplicate-ads-detection-winners-interview-2nd-place-team-the-quants-mikel-peter-marios-sonny/

http://blog.kaggle.com/2016/12/15/bosch-production-line-performance-competition-winners-interview-3rd-place-team-data-property-avengers-darragh-marios-mathias-stanislav/

36.你需要多长时间来建立你的第一个机器学习预测器?

取决于问题(大小、复杂性、特征数量)。一般来说,一开始你可能会花费很多时间在稍后可以考虑的事情上。 考虑到编程,背景或其他经验,每个人的时间可能会有所不同。

37.你可以推荐一些知识竞赛吗,不一定在水平上竞争如kaggle但是可以为你的技能打基础?

看这里titanic和数字识别器都是很好的比赛来开始。titanic更好,因为它假定一个平面文件。 数字识别器用于图像分类,因此可能会更先进。

38.你对于使用WekaPython来学习机器学习有什么看法?

我喜欢Weka。它有一个很好的文档——特别是如果你想学习算法。 不过我不得不承认,它不像RPython的一些实现一样有效。 它有很好的覆盖。 Weka也有一些很好的可视化——特别是对于一些基于树的算法。 我可能会建议你把重点放在RPython,除非你的背景完全是使用Java

概要

简而言之,机器学习竞赛成功的关键在于学习新事物,花费大量的时间训练,特征工程和验证模型。 除此之外,在论坛上与社区进行互动,阅读博客并从其他竞争对手的方法中学习。


以上为译文

本文由北邮@爱可可-爱生活 老师推荐,阿里云云栖社区组织翻译。

文章原标题《Winning Tips on Machine Learning Competitions by Kazanova, Current Kaggle #3》,作者:Team Machine Learning译者:tiamo_zn,审校:海棠。

文章为简译,更为详细的内容,请查看原文

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

机器学习竞赛中取胜 的相关文章

  • 比尔盖茨与萨姆.奥尔特曼的对话及感想

    谈话内容 比尔 盖茨 嘿 萨姆 萨姆 奥尔特曼 嘿 比尔 比尔 盖茨 你好吗 萨姆 奥尔特曼 哦 天哪 这真的太疯狂了 我还好 这是一个非常激动人心的时期 比尔 盖茨 团队情况怎么样 萨姆 奥尔特曼 我想 你知道很多人都注意到了这样一个事实
  • 用通俗易懂的方式讲解:如何用大语言模型构建一个知识问答系统

    传统搜索系统基于关键字匹配 在面向 游戏攻略 技术图谱 知识库等业务场景时 缺少对用户问题理解和答案二次处理能力 本文探索使用大语言模型 Large Language Model LLM 通过其对自然语言理解和生成的能力 揣摩用户意图 并对
  • 【EI复现】基于深度强化学习的微能源网能量管理与优化策略研究(Python代码实现)

    欢迎来到本博客 博主优势 博客内容尽量做到思维缜密 逻辑清晰 为了方便读者 座右铭 行百里者 半于九十 本文目录如下 目录 1 概述 2 运行结果 2 1 有 无策略奖励 2 2 训练结果1
  • 【路径规划】基于A*算法路径规划研究(Matlab代码实现)

    欢迎来到本博客 博主优势 博客内容尽量做到思维缜密 逻辑清晰 为了方便读者 座右铭 行百里者 半于九十 本文目录如下 目录 1 概述 2 运行结果 3 参考文献 4 Matlab代码实现
  • Soul App:年轻人的社交状态,还有多少种可能?

    查尔斯 狄更斯在 双城记 的开篇写下 这是最好的时代 这是最坏的时代 这是智慧的时代 这是愚蠢的时代 这是信仰的时期 这是怀疑的时期 人们面前有着各样事物 人们面前一无所有 既然万事万物都和狄更斯所说般 好坏参半 那又何必执着于过去 苦恼于
  • socket网络编程几大模型?看看CHAT是如何回复的?

    CHAT回复 网络编程中常见的有以下几种模型 1 阻塞I O模型 Blocking I O 传统的同步I O模型 一次只处理一个请求 2 非阻塞I O模型 Non blocking I O 应用程序轮询调用socket相关函数检查请求 不需
  • 什么是充放电振子理论?

    CHAT回复 充放电振子模型 Charging Reversal Oscillator Model 是一种解释ENSO现象的理论模型 这个模型把ENSO现象比喻成一个 热力学振荡系统 在这个模型中 ENSO现象由三个组成部分 充电 Char
  • 利用CHAT上传文件的操作

    问CHAT autox js ui 上传框 CHAT回复 上传文件的操作如果是在应用界面中的话 由于Android对于文件权限的限制 你可能不能直接模拟点击选择文件 一般来说有两种常见的解决方案 一种是使用intent来模拟发送一个文件路径
  • 活动日程&直播预约|智谱AI技术开放日 Zhipu DevDay

    点击蓝字 关注我们 AI TIME欢迎每一位AI爱好者的加入 直播预约通道 关于AI TIME AI TIME源起于2019年 旨在发扬科学思辨精神 邀请各界人士对人工智能理论 算法和场景应用的本质问题进行探索 加强思想碰撞 链接全球AI学
  • 基于opencv的大米计数统计(详细处理流程+代码)

    在我每周的标准作业清单中 有一项是编写计算机视觉算法来计算该图像中米粒的数量 因此 当我的一个好朋友M给我发了一张纸上的扁豆照片 显然是受到上述转发的启发 请我帮他数一下谷物的数量时 它勾起了我怀旧的回忆 因此 我在我的旧硬盘上寻找很久以前
  • 毕业设计:基于卷积神经网络的图像分类系统 python人工智能

    目录 前言 设计思路 一 课题背景与意义 二 算法理论原理 2 1 卷积神经网络 2 2 SVM算法 三 检测的实现 最后 前言 大四是整个大学期间最忙碌的时光 一边要忙着备考或实习为毕业后面临的就业升学做准备 一边要为毕业设计耗费大量精力
  • 如何快速申请GPT账号?

    详情点击链接 如何快速申请GPT账号 一OpenAI 1 最新大模型GPT 4 Turbo 2 最新发布的高级数据分析 AI画图 图像识别 文档API 3 GPT Store 4 从0到1创建自己的GPT应用 5 模型Gemini以及大模型
  • 机器学习算法实战案例:时间序列数据最全的预处理方法总结

    文章目录 1 缺失值处理 1 1 统计缺失值 1 2 删除缺失值 1 3 指定值填充 1 4 均值 中位数 众数填充
  • 人工智能 AI 如何让我们的生活更加便利

    每个人都可以从新技术中获益 一想到工作或生活更为便利 简捷且拥有更多空余时间 谁会不为之高兴呢 借助人工智能 每天能够多一些空余时间 或丰富自己的业余生活 为培养日常兴趣爱好增添一点便利 从电子阅读器到智能家居 再到植物识别应用和智能室内花
  • AI在保护环境、应对气候变化中的作用

    对于AI生命周期数据领域的全球领导者而言 暂时搁置我们惯常的AI见解和AI生命周期数据内容产出 来认识诸如世界地球日这样的自然环境类活动日 似乎是个奇怪的事情 我们想要知道 数据是否真的会影响我们的地球环境 简而言之 是 确实如此 但作为一
  • AI帮助终结全球饥饿问题

    全球饥饿问题是牵动人心的头等大事 5月28日是 世界饥饿日 这一问题更值得关注 让人人都能吃饱的想法不仅令人向往 而且很快就会变成现实 与大多数新事物引进一样 对于在控制世界粮食供应这样复杂的任务中AI究竟应该发挥多大的作用 人们还踟蹰不前
  • 【EI复现】基于深度强化学习的微能源网能量管理与优化策略研究(Python代码实现)

    欢迎来到本博客 博主优势 博客内容尽量做到思维缜密 逻辑清晰 为了方便读者 座右铭 行百里者 半于九十 本文目录如下 目录 1 概述 2 运行结果 2 1 有 无策略奖励 2 2 训练结果1
  • CorelDRAW2024官方中文版重磅发布更新

    35年专注于矢量设计始于1988年并不断推陈出新 致力为全球设计工作者提供更高效的设计工具 CorelDRAW 滋养并见证了一代设计师的成长 在最短的时间内交付作品 CorelDRAW的智能高效会让你一见钟情 CorelDRAW 全称 Co
  • 蒙特卡洛在发电系统中的应用(Matlab代码实现)

    欢迎来到本博客 博主优势 博客内容尽量做到思维缜密 逻辑清晰 为了方便读者 座右铭 行百里者 半于九十 本文目录如下 目录 1 概述 2 运行结果 3 参考文献 4 Matlab代码实现
  • 3D点云检测神技 | UFO来了!让PointPillars、PV-RCNN统统涨点!

    作者 AI驾驶员 编辑 智驾实验室 点击下方 卡片 关注 自动驾驶之心 公众号 ADAS巨卷干货 即可获取 点击进入 自动驾驶之心 3D目标检测 技术交流群 本文只做学术分享 如有侵权 联系删文 在这篇论文中提出了一个关于在3D点云中检测未

随机推荐

  • 解决STM32F0/F1内部FLASH写操作导致中断程序无法响应的问题

    必看链接 试图搞懂MDK程序下载到flash 二 分散加载文件scatter 参考链接 STM32F10x单片机Flash写操作导致中断不响应问题 最近本人在写STM32F0系列的FLASH写操作的代码时突然发现一个问题 MCU往内部FLA
  • android 打开file not found,在Android中打开资源时的java.io.FileNotFoundException

    AssetManager assetManager getApplicationContext getAssets String files null try files assetManager list imgs catch IOExc
  • 常用运放电路计算与分析

    常用运放电路计算与分析 1 运放的符号表示 2 集成运算放大器的技术指标 1 开环差模电压放大倍数 开环增益 大 Ao Ad Vo V V 107 1012倍 2 共模抑制比高 KCMRR 100db以上 3 输入电阻大 ri gt 1MW
  • 详解三相直流无刷电机驱动器硬件原理图

    三相直流无刷电机是指具有三相的绕组 无电刷和换向器 或集电环 的电机 并采用直流电经过逆变电路进行驱动的电机 与传统的 有刷直流电机相比 直流无刷电机采用了电子换向取代有刷电机的机构换向 取消了电刷和换向器 并将原有 有刷电机 中的定转子颠
  • 大火的AIGC是什么?能用到工作中哪些地方?

    一 AIGC是什么 AIGC 即Artificial Intelligence Generated Content 中文译为人工智能生成内容 简单来说 就是以前本来需要人类用思考和创造力才能完成的工作 现在可以利用人工智能技术来替代我们完成
  • codeblock出现“64位Windows不兼容”问题的解决办法探究

    注 Codeblocks出现该问题暂时还没有根除的解决办法 并且没有明确的解决办法 该篇文章仅提供一些解决问题的思路 原因分析 在网上有不少网友遇见此类问题 但是并没有给出具体的解决方案 但是在解决该问题的案例中 此问题的最大可能原因为 电
  • Java 运算符中 前++ 和后++ 的区别详解

    博主前些天发现了一个巨牛的人工智能学习网站 通俗易懂 风趣幽默 忍不住也分享一下给大家 点击跳转到网站 一 前 和 后 的区别 具体在代码中给出 Test public void test3 前 先自加1 再运算 int a 10 int
  • 2022-07-14 mysqldump备份和还原数据库

    今天生产环境要将数据库迁移到其它机器上 所以打算用mysqldump进行数据库的备份和还原工作 1 备份 在linux的mysql的bin下执行语句 mysqldump uroot p webdata gt webdata sql 2 还原
  • 两个深度学习模型进行融合Concatenate

    下面是两个深度学习模型的融合代码 具体需要哪两个模型进行融合需要自己替换成相应的模型层 model1 Sequential input model1 add Dense 32 input shape NUM FEAT1 1 model1 a
  • 使用vue-json-viewer实现高亮展示、折叠和复制json数据

    一 安装 npm install vue json viewer save 二 组件引入 import JsonViewer from vue json viewer components JsonViewer 三 使用 参数说明
  • mockmvc模拟Spring Security登录用户

    mockmvc模拟Spring Security登录用户 1 1 准备数据 1 1 1 创建模拟用户 并设置默认用户信息 1 1 2 为 WithMockCustomUser 指定一个 SecurityContextFactory 1 2
  • ThreadPoolExecutor使用示例,请给出详细代码示例

    import java util concurrent Executors import java util concurrent ThreadPoolExecutor import java util concurrent TimeUni
  • 相关系数,互相关函数,协方差,卷积

    X t 为随机过程 a t E X t 为期望 Y t 为另一随机过程 自相关函数的定义为 R s t E X s X t 互相关函数的定义为 R s t E X s Y t 事实上 在图象处理中 自相关和互相关函数的定义如下 设原函数是f
  • CSS滤镜 filter 网站灰色设置

    webkit filter grayscale 100 moz filter grayscale 100 ms filter grayscale 100 o filter grayscale 100 filter grayscale 100
  • 安装虚拟网络服务器,云服务器安装虚拟网络设置方法

    云服务器安装虚拟网络设置方法 内容精选 换一换 通过云服务器或者外部镜像文件创建私有镜像时 如果云服务器或镜像文件所在虚拟机的网络配置是静态IP地址时 您需要修改网卡属性为DHCP 以使私有镜像发放的新云服务器可以动态获取IP地址 不同操作
  • NMAKE程序维护工具

    用法 NMAKE commandfile NMAKE options f makefile x stderrfile macrodefs targets 选项 A 生成所有已计算的目标 B 如果时间戳相等则生成 C 取消输出消息 D 显示生
  • 【2020】奇安信秋招C/C++方向试卷3

    这种试卷根本不会做 老板一共需要给某个员工发奖金n元 可以选择一次发1元 也可以选择一次发2元 也可以选择一次发3元 请问老板给这位员工发放完n元奖金共有多少种不同的方法 数据范围 1 lt n lt 10 class Solution p
  • 【pytorch】固定(freeze)住部分网络

    前言 最好 最高效 最简洁的 是 方案一 方案一 步骤一 固定基本网络 代码模板 获取要固定部分的state dict pre state dict torch load model path map location torch devi
  • 第十四届教育技术与计算机国际会议新增SSCI, ESCI期刊

    第十四届教育技术与计算机国际会议 ICETC 2022 特增SSCI ESCI期刊啦 组委会将从会议录用并注册的文章中遴选优秀文章推荐到以下SSCI ESCI期刊 被选中的文章作者需要在被会议接收的文章基础上增加至少50 的新内容 Adva
  • 机器学习竞赛中取胜

    摘要 本文总结由Marios Michailidis a k a Kazanova Kaggle Grandmaster在2016年3月5日现在排名第3位的在线研讨会上分享的技巧 更好地在机器学习竞赛中取胜 更多深度文章 请关注 https