机器学习算法工程师的自我修养

2023-11-03

https://www.toutiao.com/a6647345854191501828/

2019-01-18 10:14:00

通往机器学习算法工程师的进阶之路是崎岖险阻的。《线性代数》《统计学习方法》《机器学习》《模式识别》《深度学习》，以及《颈椎病康复指南》，这些书籍将长久地伴随着你的工作生涯。

除了拥有全面、有条理的知识储备，我认为，想成为一名优秀的算法工程师，更重要的是对算法模型有着发自心底的热忱，对研究工作有一种匠心精神。这种匠心精神，直白来讲，可以概括为：发现问题的眼光、解决问题的探索精神，以及对问题究原竟委的执着追求。这里，我想给大家分享一个小故事，也是发生在本书作者身边真实的情景。

在微信红包占领家家户户年夜饭的那个时代，我们的小伙伴也没有例外。一群心有猛虎、细嗅蔷薇的算法研究员深切意识到自己不仅手速慢，运气也可谓糟糕。在埋头疯点手机屏幕的间隙，他们查阅了抢红包策略的相关文献，发现国内外对这一理论框架的探究极度匮乏。知识拯救命运，他们决定将红包机制的公平性提升到理论高度。通过大量的模拟实验，统计在不同顺位领到红包的大小。数据分析显示，越后面领到红包的人，虽然红包金额的期望（均值）和前面的人相同，但方差会更大，这也意味着他们更容易获得一些大额红包。从此，掌握这一规律的研究员们在各个群中“屡试不爽”，再也没有抢到过红包，留下的只有“手慢了，红包派完了”几个大字。

新年钟声敲响的时分临近，Boss级别的人物往往会在群里发一些超级大额的红包。最夸张的一次有一位幸运儿在10人红包中领到2角钱，还没来得及在心中完成“老板真抠门”的碎碎念，抬头定睛一看，最佳手气500多元。判若云泥的手气虽没有埋下同事关系间的芥蒂，却让这帮算法工程师们产生了新的思考——如果把大额红包分成多份给大家抢，会减小“人品”因素带来的“贫富差距”吗？理论结合实际，他们不仅通过数学推导确认这一结论，还设计了一系列实验证明了多个红包的确会缩小不同人领到红包金额之间的差异性（方差）。从此，他们组的Leader在发大红包的时候都会刻意平均分成几份，既增加了大家抢红包的乐趣，又避免了有人因运气不佳而扼腕兴叹的愤懑。

当然，故事不止于此。他们还利用红包的特性编写了一系列面试题，筛选着一批又一批的机器学习算法工程师，例如，“用红包产生随机数”“用红包随机选出n个候选人”，诸如此类源自生活的小问题在本书后续章节中亦不难寻其踪迹。

这种探究问题的匠心精神充斥着他们生活的各个角落。每天下楼吃饭等电梯的时候，因担心上厕所错过电梯，他们建立多个模型分析不同时段电梯平均等待时间对应厕所时机的最优选择；在夕阳的余晖下欣赏湖光塔影时，他们会思考为何粼粼波光成了图像编码中的棘手难题；打开购物APP看着目不暇接的喜欢抑或不喜欢的商品，他们反思自己搭建的推荐系统是否也会让用户有着相同的无奈或是欣喜。每一件小事，因为对研究有了热爱，都可以成为工作的一部分，成为开启机器学习大门的钥匙。

工作中的算法工程师，很多时候，会将生活中转瞬即逝的灵感，付诸产品化。组里的一位同事在看某国产剧的时候，发现可以非常方便地跳过片头和片尾。从消费者的角度出发，这的确是一个大有裨益的产品特征，于是他仔细统计了我们自己平台的视频源数据，发现只有一部分视频含有片头、片尾的时间点信息，而且都是人为标记的。试想，对于一家具有百万量级内容源的视频公司，在所有的剧集上人为标记片头、片尾信息有如天方夜谭。通过广泛的背景调研、方法尝试，攫取前人工作之精华，不断加以创新，依据自己的数据特点量体裁衣，他们的团队设计出了一种基于深度神经网络与浅层特征融合的片尾自动检测模型。经过反复的迭代与充分的实验，得到了令人满意的结果。这一工作也申请了美国发明专利，并一步步走向产品化。

将算法研究应用到工作中，与纯粹的学术研究有着一点最大的不同，即需要从用户的角度思考问题。很多时候，你需要明确设计的产品特征、提升的数据指标，是不是能真正迎合用户的需求，这便要求算法工程师能在多个模型间选择出最合适的那个，然后通过快速迭代达到一个可以走向产品化的结果。这种创新精神与尝试精神便是“匠心”一词在工作中的体现。

当然，匠心精神诚可贵，知识储备作为成功的根底亦必不可少，这也是我们写作这本书的初衷。扎实的数学基础、完整的算法体系、深入的模型理解，是我们想传达给读者的精华之所在。

成为机器学习算法工程师的道路固然崎岖，却充满着旖旎和壮阔。你需要做的只是，想清自己真正想成为的那个角色，踏踏实实地在本书中汲取足够多的养分，然后，静静合上书页，在生活中体会种种细节，感受机器学习的璀璨多姿。

机器学习算法工程师的自我修养

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

机器学习算法工程师的自我修养的相关文章

【多源数据融合】基于Dempster-Shafer理论的信念对数相似度测量及其在多源数据融合中的应用（Matlab代码实现）

欢迎来到本博客博主优势博客内容尽量做到思维缜密逻辑清晰为了方便读者座右铭行百里者半于九十本文目录如下目录 1 概述 2 运行结果 3 参考文献 4 Matlab代码实现
问CHAT很繁琐的问题会不会有答案呢？

问CHAT 什么已有的基于极值理论的极端温度重现期主要针对极端高温事件对极端低温事件研究较少 CHAT 回复为这主要可能是由于以下几个原因 1 气候变化与全球变暖当前全球变暖和气候变化的问题备受关注这导致科研者更加关注极端高温事件
喜报|华测导航荣获“张江之星”领军型企业称号

近日 2023年度张江之星企业培育名单发布上海华测导航荣获2023年度张江之星领军型企业称号据悉张江之星企业培育是上海科创办为落实关于推进张江高新区改革创新发展建设世界领先科技园区的若干意见张江高新区加快世界领先科技园区
利用CHAT写实验结论

问CHAT 通过观察放置在玻璃表面上的单个水滴人们可以观察到水滴充当成像系统探究这样一个透镜的放大倍数和分辨率 CHAT回复实验报告标题利用玻璃表面的单一水滴观察成像系统的放大倍数和分辨率一实验目的通过对比和测量研究和探索玻
基于java的ssh医院在线挂号系统设计与实现

基于java的ssh医院在线挂号系统设计与实现 I 引言 A 研究背景和动机基于Java的SSH医院在线挂号系统设计与实现的研究背景和动机随着信息技术的迅速发展和应用医院在线挂号系统已成为医院管理的重要组成部分传统的挂号方式存在许多
让CHAT介绍下V2ray

CHAT回复 V2Ray是一个网络工具主要用于科学上网和保护用户的网络安全它的名字源自Vmess Ray 光线通过使用新的网络协议为用户提供稳定且灵活的代理服务下面是一些V2Ray的主要特性 1 多协议支持 V2Ray 提供了大量
基于opencv的大米计数统计（详细处理流程＋代码）

在我每周的标准作业清单中有一项是编写计算机视觉算法来计算该图像中米粒的数量因此当我的一个好朋友M给我发了一张纸上的扁豆照片显然是受到上述转发的启发请我帮他数一下谷物的数量时它勾起了我怀旧的回忆因此我在我的旧硬盘上寻找很久以前
毕业设计：基于深度学习的微博谣言检测系统人工智能

目录前言设计思路一课题背景与意义二算法理论原理三检测的实现最后前言大四是整个大学期间最忙碌的时光一边要忙着备考或实习为毕业后面临的就业升学做准备一边要为毕业设计耗费大量精力近几年各个学校要求的毕设项目越来越难有
毕业设计：基于卷积神经网络的图像分类系统 python人工智能

目录前言设计思路一课题背景与意义二算法理论原理 2 1 卷积神经网络 2 2 SVM算法三检测的实现最后前言大四是整个大学期间最忙碌的时光一边要忙着备考或实习为毕业后面临的就业升学做准备一边要为毕业设计耗费大量精力
台积电再被坑，2纳米光刻机优先给Intel和三星，美国太霸道了

外媒指出今年ASML的10台2纳米光刻机分配已经基本确定了 Intel拿到6台三星获得3台台积电只能得到一台考虑到美国对ASML的强大影响力外媒的这些消息应该有较高的可信性 Intel在先进工艺制程方面自从2014年量产14纳米之
作物叶片病害识别系统

介绍由于植物疾病的检测在农业领域中起着重要作用因为植物疾病是相当自然的现象如果在这个领域不采取适当的护理措施就会对植物产生严重影响进而影响相关产品的质量数量或产量植物疾病会引起疾病的周期性爆发导致大规模死亡这些问题需要在初
如何快速申请GPT账号？

详情点击链接如何快速申请GPT账号一OpenAI 1 最新大模型GPT 4 Turbo 2 最新发布的高级数据分析 AI画图图像识别文档API 3 GPT Store 4 从0到1创建自己的GPT应用 5 模型Gemini以及大模型
如何用GPT进行论文润色与改写？

详情点击链接如何用GPT GPT4进行论文润色与改写一OpenAI 1 最新大模型GPT 4 Turbo 2 最新发布的高级数据分析 AI画图图像识别文档API 3 GPT Store 4 从0到1创建自己的GPT应用 5 模型Ge
不要再苦苦寻觅了！AI 大模型面试指南（含答案）的最全总结来了！

AI 大模型技术经过2023年的狂飙 2024年必将迎来应用的落地对 IT 同学来讲这里蕴含着大量的技术机会越来越多的企业开始招聘 AI 大模型岗位本文梳理了 AI 大模型开发技术的面试之道从 AI 大模型基础面 AI 大模型进阶
AI-基于Langchain-Chatchat和chatglm3-6b部署私有本地知识库

目录参考概述部署安装环境准备原理和流程图一键启动启动WebAPI 服务启动WebUI服务 Docker部署
基于节点电价的电网对电动汽车接纳能力评估模型研究（Matlab代码实现）

欢迎来到本博客博主优势博客内容尽量做到思维缜密逻辑清晰为了方便读者座右铭行百里者半于九十本文目录如下目录 1 概述 2 运行结果 3 参考文献 4 Matlab代码数据
考虑光伏出力利用率的电动汽车充电站能量调度策略研究（Matlab代码实现）

欢迎来到本博客博主优势博客内容尽量做到思维缜密逻辑清晰为了方便读者座右铭行百里者半于九十本文目录如下目录 1 概述 2 运行结果 3 参考文献 4 Matlab代码数据
GPT4+Python近红外光谱数据分析及机器学习与深度学习建模

详情点击链接 GPT4 Python近红外光谱数据分析及机器学习与深度学习建模第一 GPT4 入门基础 1 ChatGPT概述 GPT 1 GPT 2 GPT 3 GPT 3 5 GPT 4模型的演变 2 ChatGPT对话初体验注册与
考虑光伏出力利用率的电动汽车充电站能量调度策略研究（Matlab代码实现）

欢迎来到本博客博主优势博客内容尽量做到思维缜密逻辑清晰为了方便读者座右铭行百里者半于九十本文目录如下目录 1 概述 2 运行结果 3 参考文献 4 Matlab代码数据
对中国手机作恶的谷歌，印度CEO先后向三星和苹果低头求饶

日前苹果与谷歌宣布合作发布了 Find My Device Network 的草案旨在规范蓝牙追踪器的使用在以往苹果和谷歌的生态形成鲜明的壁垒各走各路如今双方竟然达成合作发生了什么事首先是谷歌安卓系统的市场份额显著下滑数年来

随机推荐

c++ 读写excel_每天10分钟，轻松入门python，json、csv等读写

JSON的全称是 JavaScript Object Notation 意思是JavaScript对象表示法它是一种基于文本独立于语言的轻量级数据交换格式这种数据在弄爬虫的时候经常会见到这类型的数据下面展示一个简单的json数据
利用计数器实现任意分频，占空比为60%（任意占空比）电路 [VHDL]

本次实验为利用计数器实现分频常数为24000 占空比为60 的电路也可以设置为任意分频任意占空比的电路一设计思路设计分析要将原来的占空比为50 大频率的信号重新设为60 占空比频率较小的周期信号其中频率的思想就是分频器利用
Northstar软件下载以及搭建机器人时遇到的坑

上个学期学机器人的时候老师让我们用 innostar 创意之星做出一个机器人来但我翻遍全网也没找到创意之星的配套软件我找了三天也没找到公司官网也没有给博创的人发邮件也不回给我整的心态爆炸为了方便后来的学弟学妹们现在把我找到
Java 优先队列（PriorityQueue）总结

PriorityQueue 实现的是 Queue 接口可以使用 Queue 提供的方法以及自带的方法 1 PriorityQueue概述 Java PriorityQueue 实现了 Queue 接口不允许放入 null 元素其通过
LVGL学习笔记

提示文章写完后目录可以自动生成如何生成可参考右边的帮助文档文章目录前言一硬件要求二移植 1 准备工作 2 文件准备 3 加入工程前言 LVGL 轻巧而多功能的图形库是一个免费的开放源代码图形库它提供创建具有易于使用的
Shopify Liquid 日期

Shopify Liquid 日期变量 assign start date now date s assign start date year now date Y assign yoy start start date year minu
基于卷积神经网络的车道线检测

在本博客中我们将探讨如何使用卷积神经网络 CNN 在Udacity自动驾驶数据集上进行车道线检测我们将首先简要介绍自动驾驶的相关知识然后介绍车道线检测的重要性接下来我们将构建一个CNN模型并在Udacity数据集上对其进行训练和
【Mo 人工智能技术博客】K-means：无监督聚类的经典算法

K means 无监督聚类的经典算法作者郑培无监督学习是一类用于在数据中寻找模式的机器学习技术无监督学习算法使用的输入数据都是没有标注过的这意味着数据只给出了输入变量自变量 X 而没有给出相应的输出变量因变量在无监督学习中
常见的并发模型

介绍常见解决并发的策略一般有两种共享数据和消息传递基于消息传递的实现有 CSP模型典型的有Go语言中基于Channel的通讯 Actor模型典型的有Akka中的Actor模型 CSP模型和Actor模型的简单理解 Don t co
linux centos中查看应用进程和杀死进程

1 ps 表示查看正在运行中的进程 2 ps ef 表示查看所有进程的详细信息 3 输入 ps ef grep nmon 表示搜索nmon相关的进程 4 杀死进程 kill 9 进程号
【常用的反监控（winrdlv3）方法winrdlv3】

常用的反监控 winrdlv3 方法winrdlv3 方案一使用silent terminal 禁用 sdhelper2 exe和winrdlv3 exe两个程序进程加密进程终止或者可以只中止sdhelper2则不会加密也不会被管理员发
Python手册(Standard Library)--re

文章目录 re模块匹配返回re对象 MatchObject 查找检索替换和分割 flags标志 re 模块使 Python 语言拥有全部的正则表达式功能 compile 函数根据一个模式字符串和可选的标志参数生成一个正则表达式对象
笔记：JavaScript编译与执行

1 js的编译与执行事件循环单线程语言 JavaScript是单线程语言即在浏览器中一个页面只有一个线程在执行js代码进程和线程假设我们有一家工厂进程那么工厂所拥有的独立资源就相当于系统给我们分配的内存这是独立的如果我们
Flutter 学习笔记 (二) —— Flutter布局及常用widget总结

前言在Flutter里 UI控件就是Widget Widget根据不同的功能可以分为结构元素如按钮或菜单文本样式字体或者颜色方案布局属性如填充对齐居中可以这么理解一个flutter的页面是有一棵树型的Widget组成包
Nginx+Redis+Ehcache：大型高并发与高可用的三层缓存架构总结

Nginx Redis Ehcache 大型高并发与高可用的三层缓存架构总结 Nginx 对于中间件nginx常用来做流量的分发同时nginx本身也有自己的缓存容量有限我们可以用来缓存热点数据让用户的请求直接走缓存并返回减少流向服
电感的特性

电感的特性 2009 10 19 17 06 jonniyong 分类工程技术科学浏览4472次简单的说电感有虑波震荡扼流三个作用但是具体是怎么来实现的呢各自的工作原理还有就是对于这三种用途的电感那些因素影响他们也就是说
文本预处理 BOW（Bag Of Words，词袋）和 TF-IDF（Term Frequency-Inverse Document Frequency，词频逆文档频率）

1 BOW 构建过程将文本中的词汇提取出来组成一个词汇表每篇文档则使用词汇表中的词来表示形成一个词频向量忽略词汇之间的顺序关系只关心词频信息比如文本1 The cat sits on the mat 文本2 The dog
分别描述TCP的3次握手和四次挥手的定义、目的和过程

定义三次握手是指建立TCP连接协议时需要在客户端和服务器之间发送三个包握手过程中传送的包里不包含数据三次握手完毕后客户端与服务器才正式开始传送数据四次挥手是指终止TCP连接协议时需要在客户端和服务器之间发送四个包四次挥手完毕
C语言浮点数跟 0 值比较

include
机器学习算法工程师的自我修养

https www toutiao com a6647345854191501828 2019 01 18 10 14 00 通往机器学习算法工程师的进阶之路是崎岖险阻的线性代数统计学习方法机器学习模式识别深度学习以及颈椎病康

机器学习算法工程师的自我修养

机器学习算法工程师的自我修养 的相关文章

随机推荐

热门标签

机器学习算法工程师的自我修养的相关文章