详解数据科学自动化与机器学习自动化

2023-12-20

过去十年里,人工智能(AI)构建自动化发展迅速并取得了多项成就。在关于AI未来的讨论中,您可能会经常听到人们交替使用数据科学自动化与机器学习自动化这两个术语。事实上,这些术语有着不同的定义:如今的自动化机器学习,即 AutoML ,特指模型构建自动化。但是,数据科学家的工作内容并不仅止于此。简单地说,数据科学家从数据中获取信息,以解决现实世界中的问题;机器学习只是数据科学家的众多工作方法之一。 从数据预处理到解决方案部署,自动化贯穿数据科学生命周期的每个阶段。毋庸置疑,AutoML极大地提升了数据科学生命周期的自动化程度,尤其是在模型构建阶段。在大多数情况下,自动化主要针对最耗时、最复杂的任务,以降低任务难度,提高效率。借助先进的自动化技术,数据科学家可以将更多时间花在训练任务上:利用数据洞察为其服务的企业开发差异化解决方案。

数据生命周期中的自动化

在解决方案开发过程中,数据科学家完成的每一项任务都包括在数据科学生命周期中。于我们而言,我们需要关注数据科学家在构建AI模型时需要完成的任务。数据生命周期的每个阶段,都涉及到某种程度的自动化。鉴于AI构建过程中有几个步骤较为耗时,这一事实并不出人意料。

数据准备

假设数据科学家需要解决某一问题,则他们的首要任务就是收集和准备数据。通常情况下,数据准备包括将数据转换成正确格式、识别数据错误、以及修复数据异常。目前,数据准备任务已经实现部分自动化。数据科学家可以使用简单的探索法或第三方数据清理工具来清理数据。例如,探索法可以指定自动删除实际范围以外的任何数字。数据清理工具可以自动清理模式、执行统计分析,并根据需要完成其他准备步骤。 为何数据清理仍未实现完全自动化?主要原因是数据科学家需要经常对数据做出主观决策。另外,数据集可能会包含许多边缘数据;数据清理工具或探索法可能无法轻易解决这些问题。

数据探索

数据科学生命周期的下一阶段是数据探索。在这一阶段中,数据科学家使用可视化工具来获得数据概览。与第一阶段相同,数据探索阶段只能实现部分自动化。数据科学家可以自动创建图表,但图表分析仍需要其专业知识。

特征工程

特征工程正逐渐成为AutoML的一部分,并且可能有利于提升ML的自动化程度。特征工程是指从现有输入中创建新的输入变量,新的输入变量与您试图解决的问题相关。如果操作正确,特征工程可以促使模型关注数据中未明确呈现的重要变量,从而提升模型性能。 借助自动化,工具可以从各种表格、文本、地理空间和时间序列数据以及其他来源获得特征。这些工具可以快速评估数百个,甚至数百万个特征,并输出与模型最相关的特征。因此,在自动化的帮助下,数据科学家可以更高效地完成这些传统的人工选择任务。

模型构建

模型构建包括模型选择、验证和超参数优化(HPO)。模型构建可以完全实现自动化,这正是AutoML的真正亮点。AutoML工具可以循环使用同一组输入数据来训练各类模型,以选出性能最佳的模型。工具可以通过超参数优化和重复验证措施自动调整模型,以提高模型准确度。但是,AutoML模型仍会保持高准确性和高置信度,模型质量不会成为模型效率提高的代价。 关于自动化模型构建的更多信息,请参阅我们的文章“关于 AutoML ,其中包含了您想了解的一切信息。”

持续部署

数据科学生命周期并不止于部署阶段。在实践过程中,每个AI模型都需要持续维护。因此,建立一个再训练流程将是成功的关键。在这一阶段中,我们使用自动化工具为模型提供定期维护检查,以确保模型始终满足准确度和置信度阈值。虽然在这一阶段中保持 人机协同 仍然大有帮助,但以自动化取代完全人工的过程,可以提高问题解决效率。

一个自动化示例:Github Copilot

最近, Github Copilot 软件成功上市,是AI自动化的一个现实示例。这款软件由OpenAI Codex提供支持,是一个AI配对程序员,可以帮助工程师编写代码。Github Copilot可以分析您正在开发的代码,在您输入代码时提示行或函数。该款软件旨在提供替代解决方案和测试用例,从而提高工作效率,降低复杂性。Github Copilot只是机器学习自 动化的最新激动人心的应用之一,可以极大地提高AI和工程的效率。

AI自动化的未来

当我们展望AI的未来时,数据科学自动化和AutoML可以告诉我们什么?首先,AI构建是一项具有挑战的任务,但已变得越来越容易。对自动化的需求无疑源于以下事实:实施AI解决方案需要时间、经费、专业知识等大量资源,而这通常导致许多小型企业望而却步。随着自动化工具的出现,准入门槛会降低,允许更多的参与者进入这一领域进行实验和创新。 随着AI和AutoML的发展,高质量训练数据的需求仍会存在,并且还会持续增长。AI从业者需要更多的数据来优化和修正机器学习模型,以及保持模型的实践性能。与外部数据供应商合作,可以为团队提供适合的工具、专业知识和流程,从而为实现长远的AI目标建立可扩展的数据流程。澳鹏(Appen)拥有目前最先进的AI辅助数据标注平台,其解决方案是获取高质量数据的最可靠来源,可以满足日益增长的数据需求。 数据科学家又会如何?机器是否会影响到对数据科学家的需求?当然不可能。数据科学家拥有机器无法比拟的高度专业化领域知识。定义和理解问题,并对数据进行假设等,都需要主观的专业知识。正如我们在软件工程中所看到的,当软件工程变得更容易时,软件工程师的需求只会上升;数据科学家当然也不例外。

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

详解数据科学自动化与机器学习自动化 的相关文章

  • 网络基础介绍

    1 网线制作 1 1 网线制作需要的工具 网线 网线钳 水晶头 测试仪 编辑 1 2 网线的标准 1 3 网线的做法 2 集线器 交换机 路由器的介绍 3 OSI七层模型 4 路由器的设置 4 1 常见的路由器设置地址 4 2 常见的路由器
  • C++设计模式 #3策略模式(Strategy Method)

    动机 在软件构建过程中 某些对象使用的的算法可能多种多样 经常改变 如果将这些算法都写在类中 会使得类变得异常复杂 而且有时候支持不频繁使用的算法也是性能负担 如何在运行时根据需求透明地更改对象的算法 将算法和对象本身解耦 从而避免上述问题

随机推荐

  • 网络基础介绍

    1 网线制作 1 1 网线制作需要的工具 网线 网线钳 水晶头 测试仪 编辑 1 2 网线的标准 1 3 网线的做法 2 集线器 交换机 路由器的介绍 3 OSI七层模型 4 路由器的设置 4 1 常见的路由器设置地址 4 2 常见的路由器
  • C++设计模式 #3策略模式(Strategy Method)

    动机 在软件构建过程中 某些对象使用的的算法可能多种多样 经常改变 如果将这些算法都写在类中 会使得类变得异常复杂 而且有时候支持不频繁使用的算法也是性能负担 如何在运行时根据需求透明地更改对象的算法 将算法和对象本身解耦 从而避免上述问题
  • WinSync.dll文件丢失导致程序无法运行问题

    其实很多用户玩单机游戏或者安装软件的时候就出现过这种问题 如果是新手第一时间会认为是软件或游戏出错了 其实并不是这样 其主要原因就是你电脑系统的该dll文件丢失了或没有安装一些系统软件平台所需要的动态链接库 这时你可以下载这个WinSync
  • 达芬奇18.6DaVinci ResolveStudio(Win/Mac)激活版

    DaVinci Resolve Studio 18是一款业界领先的视频后期制作软件 它集成了剪辑 调色 视觉特效 动态图形和音频后期制作等功能 为用户提供了完整的创作解决方案 该软件不仅适用于电影 电视和网页内容的制作 还广泛应用于广告 纪
  • 小程序模版|报名管理服务源码

    作者简介 Java领域优质创作者 CSDN博客专家 CSDN内容合伙人 掘金特邀作者 阿里云博客专家 51CTO特邀作者 多年架构师设计经验 腾讯课堂常驻讲师 主要内容 Java项目 Python项目 前端项目 人工智能与大数据 简历模板
  • Python 元组完全指南 1

    元组用于在单个变量中存储多个项目 mytuple apple banana cherry 元组是 Python 中的 4 种内置数据类型之一 用于存储数据集合 另外还有列表 集合和字典 它们都具有不同的特性和用途 元组是有序且不可更改的集合
  • WinSyncProviders.dll文件丢失导致程序无法启动问题

    其实很多用户玩单机游戏或者安装软件的时候就出现过这种问题 如果是新手第一时间会认为是软件或游戏出错了 其实并不是这样 其主要原因就是你电脑系统的该dll文件丢失了或没有安装一些系统软件平台所需要的动态链接库 这时你可以下载这个WinSync
  • 测试报告和结果分析 —— allure整合pytest生成测试报告

    一 生成HTML测试报告的三种方式 1 unittest和HTMLTestRunner整合 2 allure和pytest整合 3 Jenkins中安装allure插件 Jenkins安装插件出错 不能正常使用 二 allure整合pyte
  • F5创新产品赢得2023年众多全球知名奖项

    西雅图 2023年12月20日 全球多云应用安全和应用交付服务领导者F5 NASDAQ FFIV 日前宣布 公司在2023年斩获多项杰出荣誉 这些殊荣充分彰显了F5在潜心创新和追求卓越方面始终坚守的承诺 同时凸显了公司正在专注于利用更先进的
  • 浅谈小程序开源业务架构建设之路

    一 业务介绍 1 1 小程序开源整体介绍 百度从做智能小程序的第一天开始就打造真正开源开放的生态 我们的愿景是 定义移动时代最佳体验 建设智能小程序行业标准 打破孤岛 共建开源 开放 繁荣的小程序行业生态 百度智能小程序的生态玩家有三类 分
  • 华为OD机试真题-部门人力分配-2023年OD统一考试(C卷)

    题目描述 部门在进行需求开发时需要进行人力安排 当前部门需要完成N个需求 需求用requirements 表示 requirements i 表示第i个需求的工作量大小 单位 人月 这部分需求需要在M个月内完成开发 进行人力安排后每个月的人
  • std::string 转为 LPCTSTR类型

    在串口通讯中使用CreateFile 时 第一个参数类型为 LPCTSTR 通常使用的string类型需要进行转换 HANDLE CreateFile LPCTSTR lpFileName 指向文件名的指针 DWORD dwDesiredA
  • winrscmd.dll文件缺少导致程序无法运行问题

    其实很多用户玩单机游戏或者安装软件的时候就出现过这种问题 如果是新手第一时间会认为是软件或游戏出错了 其实并不是这样 其主要原因就是你电脑系统的该dll文件丢失了或没有安装一些系统软件平台所需要的动态链接库 这时你可以下载这个winrscm
  • 互操作性(Interoperability)如何影响着机器学习的发展?

    互操作性 Interoperability 也称为互用性 即两个系统之间有效沟通的能力 是机器学习未来发展中的关键因素 对于银行业 医疗和其他生活服务行业 我们期望那些用于信息交换的平台可以在我们需要时无缝沟通 我们每个人都有成千上万个数据
  • winsockhc.dll文件缺少导致程序无法运行问题

    其实很多用户玩单机游戏或者安装软件的时候就出现过这种问题 如果是新手第一时间会认为是软件或游戏出错了 其实并不是这样 其主要原因就是你电脑系统的该dll文件丢失了或没有安装一些系统软件平台所需要的动态链接库 这时你可以下载这个winsock
  • SpringBoot代码混淆与反混淆加密工具详解

    目录 反编译 混淆 正文 一共就两步 无需源码 直接对ipa文件进行混淆加密 打开要处理的IPA文件 设置签名使用的证书和描述文件 开始ios ipa重签名 简单就是把代码跑一哈 然后我们的代码 java文件 就被编译成了 class 文件
  • 38条Web测试经验分享

    2024软件测试面试刷题 这个小程序 永久刷题 靠它快速找到工作了 刷题APP的天花板 CSDN博客 文章浏览阅读1 9k次 点赞85次 收藏11次 你知不知道有这么一个软件测试面试的刷题小程序 里面包含了面试常问的软件测试基础题 web自
  • 详解数据科学自动化与机器学习自动化

    过去十年里 人工智能 AI 构建自动化发展迅速并取得了多项成就 在关于AI未来的讨论中 您可能会经常听到人们交替使用数据科学自动化与机器学习自动化这两个术语 事实上 这些术语有着不同的定义 如今的自动化机器学习 即 AutoML 特指模型构
  • winrssrv.dll文件缺少导致程序无法启动问题

    其实很多用户玩单机游戏或者安装软件的时候就出现过这种问题 如果是新手第一时间会认为是软件或游戏出错了 其实并不是这样 其主要原因就是你电脑系统的该dll文件丢失了或没有安装一些系统软件平台所需要的动态链接库 这时你可以下载这个winrssr
  • RPA机器人助力义务教育招生随机派位系统

    作为一名教育行业从业者 我深切地感受到招生工作中的繁琐和低效 每年招生季 我们需要处理大量的报名信息 进行筛选和录取工作 然而 由于人力资源有限 往往会出现疏漏和错误 给招生工作带来了不小的困扰 幸运的是 我们发现了八爪鱼RPA这一强大的工