如何成长为一名机器学习工程师

2023-11-15

如何成长为一名机器学习工程师?

经常有人这么问,而这篇文章就尝试回答这个问题,其中会谈到关于机器学习的方方面面,从简单的线性回归到最新的神经网络。你不仅将学习如何使用这些技术,还将学习如何从头开始构建它们。

这个指南主要面向计算机视觉(CV),这也是掌握一般知识的最快方式,从CV中获取的经验可以简单地应用到机器学习的其他领域。

我们将使用TensorFlow作为框架。这些课程需要你会Python,虽然不要求你是大师,但至少要懂基本的知识。(另外,都是英语授课)

温馨提示,学习知识与动手实践相结合效果更佳。

1. 课程

1.1 约翰霍普金斯大学的实用机器学习

课程总共4周,用户评分:4.4(5分制,下同)

地址:

https://www.coursera.org/learn/practical-machine-learning#syllabus

1.2 斯坦福大学的机器学习

课程总共11周,用户评分:4.9。授课教师是大名鼎鼎的吴恩达。

地址:

https://www.coursera.org/learn/machine-learning

上面两节课,会教给你数据科学和机器学习的基本知识,并为下面的学习做好准备。

1.3 CS231n:面向视觉识别的卷积神经网络

总共16个课时,目前已更新为2017春季的最新版本。李飞飞是这节课程的导师。

地址:

http://cs231n.stanford.edu/

现在才算步入正轨。这是网上最好的机器学习与计算机视觉课程。

1.4 Google讲深度学习

整个课程大约耗时三个月,导师为Google首席科学家Vincent Vanhoucke,以及Google Brain的技术负责人Arpan Chakraborty。

在这个课程中,将会教授深度学习的原理、设计可以从复杂的大型数据集学习的智能系统、训练和优化基本的神经网络、CNN、LSTM等。

地址:

https://www.udacity.com/course/deep-learning--ud730

选修课。你可以只看其中练习的部分。

1.5 CS224d:面向自然语言处理的深度学习

总共17个课时。

地址:

http://cs224d.stanford.edu/

选修课。推荐给那些需要用到NLP的同学。课程内容也很棒。

1.6 深度学习电子书

Leonardo Araujo dos Santos整理的深度学习电子书。

地址:

https://leonardoaraujosantos.gitbooks.io/artificial-inteligence/content/

选看。这是一本涉及诸多机器学习领域的好书。

2. 练习

这部分给了一堆教程和项目的清单,你应该逐一尝试并了解它们的工作原理,以及考虑如何进行改进提升。这个列表的存在,只是为了增加你对机器学习的兴趣,所以遇到一些困难也别气馁,当你准备好就可以随时上手练习。

2.1 TensorFlow上的简单练习

Kadenze学院出品,总共5个课时。

地址:

https://www.kadenze.com/courses/creative-applications-of-deep-learning-with-tensorflow-iv/info

2.2 Tensorflow菜谱

这部分内容来自Nick McClure的电子书《TensorFlow Machine Learning Cookbook》。

地址:

https://github.com/nfmcclure/tensorflow_cookbook

2.3 Tensorflow-101教程部分

这是一个用Python和Jupyter Notebook编写的教程。试图为TensorFlow初学者提供尽可能的详细解释,希望对大家有用~

地址:

https://github.com/sjchoi86/Tensorflow-101

2.4 快速风格迁移网络

地址:

https://github.com/lengstrom/fast-style-transfer

这个教程展示了如何使用神经网络,将名画的风格迁移到任何一张照片上。

2.5 图像分割

这是一个使用TensorFlow实现的完全卷积网络。作者Marvin Teichmann还提供了如何把这部分代码集成到你的语义分割管道中的示例。

地址:

https://github.com/MarvinTeichmann/tensorflow-fcn

2.6 使用SSD实现物体识别

物体识别最快(也是最简单)的模型之一

地址:

https://github.com/balancap/SSD-Tensorflow

2.7 面向物体识别和语义分割的快速掩膜RCNN

地址:

https://github.com/CharlesShang/FastMaskRCNN

2.8 强化学习

地址:

https://github.com/dennybritz/reinforcement-learning

非常有用,特别是当你想搭建一个机器人或者下一个DotA AI时。

2.9 Google大脑团队的Magenta项目

地址:

https://github.com/tensorflow/magenta/tree/master/magenta/models

这个项目旨在通过神经网络创造出色的艺术和音乐作品。

2.10 深度双边学习实时图像增强

地址:

https://groups.csail.mit.edu/graphics/hdrnet/

一个很棒的图像增强算法,来自Google。

2.11 自动驾驶汽车项目

地址:

https://github.com/udacity/self-driving-car

想造一辆自动驾驶汽车么?这是一个很好的入门。

3. FAQ

如果中途卡住了怎么办?

首先,你得明白机器学习不是100%精确的东西,大多数情况下只是一个很好的猜测,并且需要大量的调整迭代。大多数情况下,想出一个独特的点子是非常困难的,因为你的时间和资源将耗费在训练模型上。

所以,不要自己想解决方案。去搜索论文、项目,以及求助他人,积攒的经验越多,你会干的越好。给几个可能有用的网站:

http://www.gitxiv.com

http://www.arxiv-sanity.com

https://arxiv.org

https://stackoverflow.com

为什么论文不能完全解决这个问题,为什么论文有些地方是错的?

很遗憾,并不是所有的科技人员都想把他们的成果公之于众,但他们都需要发表论文来获得“名“或者”利”。所以一些人可能只发布部分素材,或者给出错误的公式。所以找到代码永远比找到论文更有用。

哪里可找到最新的资料?

参考上面推荐过的几个网站,尤其是gitxiv.com,不仅仅能找到论文,而且还能找到代码,所以特别实用。

我应该用云计算还是台式机/笔记本电脑?

云更适用于有大量计算需求的情况。对于学习和测试来说,使用台式机/笔记本电脑要便宜得多,当然前提是配有支持CUDA的显卡。比方,我自己就用一个笔记本训练模型,显卡是带有690CUDA核心的GTX GeForce 960M。

当然,如果有免费的云资源可用,当然要用。

如何更好地调整超参数?

训练的主要问题是时间。你不可能一直坐在那看着训练数据。因此,我建议你使用Grid Search。基本上,只需要创建一组超参数和模型架构,然后一个接一个的运行,并保存结果。这样就能晚上训练,白天比较结果,找到最有希望的那个。

详情可以参考这个网址:

http://scikit-learn.org/stable/modules/grid_search.html

— 

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

如何成长为一名机器学习工程师 的相关文章

  • 喜报|华测导航荣获“张江之星”领军型企业称号

    近日 2023年度 张江之星 企业培育名单发布 上海华测导航荣获2023年度 张江之星 领军型企业称号 据悉 张江之星 企业培育是上海科创办为落实 关于推进张江高新区改革创新发展建设世界领先科技园区的若干意见 张江高新区加快世界领先科技园区
  • Soul App:来一场始于“兴趣”,轻松自在的“零糖”社交吧

    岁末年终 回顾2023年 这一年你都做了什么呢 记不清楚没关系 互联网都帮你记录好了 2023年 B站的年轻人当 所见所闻 刷新自身认知时 往往会发送弹幕 啊 来抒发惊叹 这一年 支付宝 小荷包 的用户中00后占了4成 近一半更开启了 自动
  • 利用CHAT写实验结论

    问CHAT 通过观察放置在玻璃表面上的单个水滴 人们可以观察到水滴充当成像系统 探究这样一个透镜的放大倍数和分辨率 CHAT回复 实验报告标题 利用玻璃表面的单一水滴观察成像系统的放大倍数和分辨率 一 实验目的 通过对比和测量 研究和探索玻
  • 用CHAT分析高校体育智慧教学体系构建与探索研究现状

    CHAT回复 现阶段 高校体育智慧教学体系的构建与探索研究还处于初级阶段 但全球数字化转型大潮的推动下 一些较为前沿的研究和实践已经开始出现 1 教学平台的建设 很多高校已经开始尝试使用在线教育平台进行体育教学 把传统的面对面授课模式转变为
  • 打造完美人像,PixCake像素蛋糕助您一键修图

    您是否曾经为自己的人像照片需要进行繁琐的修图而感到困扰 是否曾经想要打造出完美的自拍照 却不知道该如何下手 现在 我们为您推荐一款强大的人像处理技术修图软件 PixCake像素蛋糕 PixCake像素蛋糕是一款基于AI人像处理技术的修图软件
  • 活动日程&直播预约|智谱AI技术开放日 Zhipu DevDay

    点击蓝字 关注我们 AI TIME欢迎每一位AI爱好者的加入 直播预约通道 关于AI TIME AI TIME源起于2019年 旨在发扬科学思辨精神 邀请各界人士对人工智能理论 算法和场景应用的本质问题进行探索 加强思想碰撞 链接全球AI学
  • 明日 15:00 | NeurIPS 2023 Spotlight 论文

    点击蓝字 关注我们 AI TIME欢迎每一位AI爱好者的加入 哔哩哔哩直播通道 扫码关注AITIME哔哩哔哩官方账号预约直播 1月17日 15 00 16 00 讲者介绍 黄若孜 腾讯AI LAB游戏AI研究员 2020年复旦大学硕士毕业后
  • 强烈推荐收藏!LlamaIndex 官方发布高清大图,纵览高级 RAG技术

    近日 Llamaindex 官方博客重磅发布了一篇博文 A Cheat Sheet and Some Recipes For Building Advanced RAG 通过一张图给开发者总结了当下主流的高级RAG技术 帮助应对复杂的生产场
  • 用通俗易懂的方式讲解:使用 LlamaIndex 和 Eleasticsearch 进行大模型 RAG 检索增强生成

    检索增强生成 Retrieval Augmented Generation RAG 是一种结合了检索 Retrieval 和生成 Generation 的技术 它有效地解决了大语言模型 LLM 的一些问题 比如幻觉 知识限制等 随着 RAG
  • 如何用GPT进行论文润色与改写?

    详情点击链接 如何用GPT GPT4进行论文润色与改写 一OpenAI 1 最新大模型GPT 4 Turbo 2 最新发布的高级数据分析 AI画图 图像识别 文档API 3 GPT Store 4 从0到1创建自己的GPT应用 5 模型Ge
  • 2023最新pytorch安装(超详细版)

    前言 一 判断是否有Nvidia 英伟达显卡 二 CPU版 2 1 安装Anaconda 2 2 创建虚拟环境 2 3安装pytorch 2 4 验证pytorch是否安装成功 三 GPU版 3 1 安装Anaconda 3 2 创建虚拟环
  • AI在保护环境、应对气候变化中的作用

    对于AI生命周期数据领域的全球领导者而言 暂时搁置我们惯常的AI见解和AI生命周期数据内容产出 来认识诸如世界地球日这样的自然环境类活动日 似乎是个奇怪的事情 我们想要知道 数据是否真的会影响我们的地球环境 简而言之 是 确实如此 但作为一
  • AI-基于Langchain-Chatchat和chatglm3-6b部署私有本地知识库

    目录 参考 概述 部署安装 环境准备 原理和流程图 一键启动 启动WebAPI 服务 启动WebUI服务 Docker部署
  • 主流进销存系统有哪些?企业该如何选择进销存系统?

    主流进销存系统有哪些 企业该如何选择进销存系统 永久免费 的软件 这个可能还真不太可能有 而且就算有 也只能说是相对免费 因为要么就是数据存量有限 要么就是功能有限 数据 信息都不保障 并且功能不完全 免费 免费软件 免费进销存 诸如此类
  • 【固定翼飞机】基于最优控制的固定翼飞机着陆控制器设计研究(Matlab代码实现)

    欢迎来到本博客 博主优势 博客内容尽量做到思维缜密 逻辑清晰 为了方便读者 座右铭 行百里者 半于九十 本文目录如下 目录 1 概述 2 运行结果 3 参考文献 4 Matlab代码及文章
  • 回望计算机视觉会议ICCV的31年

    作者 原野寻踪 编辑 汽车人 原文链接 https zhuanlan zhihu com p 670393313 点击下方 卡片 关注 自动驾驶之心 公众号 ADAS巨卷干货 即可获取 点击进入 自动驾驶之心 全栈算法 技术交流群 本文只做
  • 蒙特卡洛在发电系统中的应用(Matlab代码实现)

    欢迎来到本博客 博主优势 博客内容尽量做到思维缜密 逻辑清晰 为了方便读者 座右铭 行百里者 半于九十 本文目录如下 目录 1 概述 2 运行结果 3 参考文献 4 Matlab代码实现
  • GPT4+Python近红外光谱数据分析及机器学习与深度学习建模

    详情点击链接 GPT4 Python近红外光谱数据分析及机器学习与深度学习建模 第一 GPT4 入门基础 1 ChatGPT概述 GPT 1 GPT 2 GPT 3 GPT 3 5 GPT 4模型的演变 2 ChatGPT对话初体验 注册与
  • 5_机械臂运动学基础_矩阵

    上次说的向量空间是为矩阵服务的 1 学科回顾 从科技实践中来的数学问题无非分为两类 一类是线性问题 一类是非线性问题 线性问题是研究最久 理论最完善的 而非线性问题则可以在一定基础上转化为线性问题求解 线性变换 数域 F 上线性空间V中的变
  • 【产品兼容认证】WhaleStudio 成功兼容TiDB数据库软件

    平凯星辰和白鲸开源宣布成功完成产品兼容认证 北京 2023年12月27日 平凯星辰 北京 科技有限公司 以下简称平凯星辰 旗下的 TiDB 产品与白鲸开源的 WhaleStudio 已成功完成产品兼容性认证 这一重要合作旨在为全球客户提供更

随机推荐

  • Devops理论与基础

    目录 文章目录 目录 1 什么是DevOps 2 什么是CI CD 1 一家软件公司 2 软件开发过程 3 传统应用发布模式 4 持续集成 CI 5 持续部署 CD 6 CI CD带来的好处 7 CI CD管道的阶段 3 DevSecOps
  • 如何寻找数据集?

    如何寻找数据集 除了医疗领域之外 其他领域的数据集有时也很难获取 这就需要我们掌握一些常见的数据集搜集方法和常用资源 最近 Medium 上的一位博主介绍了多个常用的数据集获取来源 1 Awesome Data 这是一个 GitHub 存储
  • git拉取的小程序代码,编译显示[ app.json 文件内容错误] app.json: app.json 未找到 怎么办?

    项目运行到微信开发者工具时 出现如此报错 解决方案 1 项目导入方式不正确 应该导入应该导入unpackage dist dev mp weixin打开项目 而不是直接打开项目文件夹 2 应该注意将项目的AppId 换成有自己开发权限的id
  • 蓝牙解析(part7):BLE的连接

    转自Wowo大神的http www wowotech net bluetooth ble connection html 1 前言 了解蓝牙的人都知道 在经典蓝牙中 保持连接 Connection 是一个相当消耗资源 power和带宽 的过
  • 动态BGP与静态BGP的区别

    动态BGP与静态BGP的区别 1 静态BGP功能简单 其带宽功能 可以实现多网接入 但路径上只有通向几大运营商的固定的几条路径 当某个运营商方向 的某个路由节点出现故障时 会导致某个运营商方向不能正常通信 造成单点故障 影响范围是 某个运营
  • 应急响应全流程

    一 根据情报先判断出需要出应急的是什么事件类型 常见事件类型 大规模沦陷 情况类型 情况内容 挖矿病毒 勒索病毒 无文件落地 不死 顽固 马 钓鱼 数据劫持 二 保持第一现场 第一现场包含 第一发现人 第一情报 失陷主体 群体 主体 群体行
  • drools 7.x 决策表使用

    1 何时使用决策表 何时使用决策表 如果规则能够被表达为模板 数据的格式 那你 应该考虑使用决策表 决策表中的每一行就是对应模板的一行数据 将产生一个规则 运行决策表 Drools 引擎所部署的系统中执行决策表 首先 决策表转换 成的Dro
  • Git — husky + eslint 实现代码提交检测

    一 配置ESlint 1 1 安装eslint npm install eslint D 1 2 初始化eslint 生成配置文件 npx eslint init 1 3 在编辑器安装ESlint插件 1 4 通过执行命令检测文件代码规范
  • 要隐藏高德地图的线外面的区域

    要隐藏高德地图的线外面的区域 可以通过设置地图的 mask 属性来实现 下面是具体的步骤 获取需要隐藏的区域的边界坐标点集合 这些坐标点必须按照顺时针或逆时针方向排序 这样才能正确地关闭区域 推荐使用高德官方提供的在线地图工具获取坐标点 创
  • 栈.栈STL

    栈 是后进先出的数据结构 它叫做栈 栈限定为只能在一端进行插入和删除操作 栈的实现只需要一个一维数组和一个指向栈顶的变量top就可以了 我们通过top来对栈进行插入和删除操作 栈的使用 1 判定回文串 利用栈实现判断字符串是不是回文串 栈用
  • 腾讯 T10级 Jetpack 学习思维导图意外流出,还不赶紧过来围观?

    引言 2018年 Google 官方推出一个全新的开发组件工具库 Jetpack 并将2017年所推出的一个架构组件库 Architecture Components 作为 Jetpack 的一部分纳入其中 当然 Jetpack 并没有就此
  • spark程序运行异常:java.lang.OutOfMemoryError: GC overhead limit exceeded

    此次异常是在集群上运行的spark程序日志中发现的 由于这个异常导致sparkcontext被终止 以致于任务失败 出现的一些原因 参考 GC overhead limit exceeded java lang OutOfMemoryErr
  • Edittext出现两个光标且位置不一致

    问题发生 近期的UI调整中发现在对Edittext设置居中过后 点击存在内容的ET会出现两个光标且不一致 解决方案 设置控件为单行
  • 什么是BI分析系统

    BI分析系统是一种用于帮助企业进行数据分析和决策的工具 它通过收集 整理 分析和可视化庞大的数据集 帮助企业了解自身的业务状况 并提供有关未来预测和战略决策的有价值信息 BI分析系统以其强大的功能和灵活性 在企业管理和决策中发挥着重要的作用
  • P5744 【深基7.习9】培训

    include
  • 详解目标检测Faster R-CNN

    目标检测的一般结构 背景 R CNN 是 Faster R CNN 的启发版本 R CNN 是采用 Selective Search算法来提取 propose 可能的 RoIs regions of interest 区域 然后对每个提取区
  • IC验证常见问题 地图

    SV SystemVerilog和Verilog中的表达式位宽 https blog csdn net m0 46345246 article details 121758747 dist 权重 https www cnblogs com
  • flutter -- 创建一个新的应用

    VS Code 启动 VS Code 调用 View gt Command Palette shift command P 输入 flutter 然后选择 Flutter New Module Project action 指定放置项目的位
  • PyCharm 装 cv2(openCV)

    首先在下面这个网址找对应的openCV版本 cp后就是python版本号 cp39是python3 9 Python Extension Packages for Windows Christoph Gohlke uci edu https
  • 如何成长为一名机器学习工程师

    如何成长为一名机器学习工程师 经常有人这么问 而这篇文章就尝试回答这个问题 其中会谈到关于机器学习的方方面面 从简单的线性回归到最新的神经网络 你不仅将学习如何使用这些技术 还将学习如何从头开始构建它们 这个指南主要面向计算机视觉 CV 这