Data-centric Artificial Intelligence: A Survey

2023-11-05

本文是AI相关的论文,针对《Data-centric Artificial Intelligence: A Survey》的翻译。

摘要

人工智能在几乎所有领域都产生了深远的影响。它取得巨大成功的一个重要因素是为构建机器学习模型提供了丰富而高质量的数据。最近,数据在人工智能中的作用被显著放大,催生了以数据为中心的人工智能概念。研究人员和从业者的注意力逐渐从推进模型设计转向提高数据的质量和数量。在这项调查中,我们讨论了以数据为中心的人工智能的必要性,然后全面看待了三个以数据为核心的通用目标(训练数据开发、推理数据开发和数据维护)和代表性方法。我们还从自动化和协作的角度组织现有文献,讨论挑战,并将各种任务的基准数据制成表格。我们相信这是第一次全面的调查,它提供了数据生命周期各个阶段的一系列任务的全局视图。我们希望它能帮助读者有效地了解这个领域的全貌,并为他们提供技术和进一步的研究思路,为构建人工智能系统系统系统地设计数据。将定期更新以数据为中心的人工智能资源的配套列表https://github.com/daochenzha/data-centric-AI

1 引言

2 数据为中心AI的背景

3 训练数据开发

4 推理数据开发

5 数据维护

6 数据基准

7 讨论与未来方向

以数据为中心的人工智能研究目前处于什么阶段,未来的潜在方向是什么?本节对以数据为中心的人工智能进行了顶层讨论,并介绍了我们发现的一些悬而未决的问题,旨在激励未来在该领域的探索。我们首先试图回答一开始提出的研究问题:

  • RQ1:让人工智能以数据为中心的必要任务是什么?以数据为中心的人工智能包括一系列任务,包括开发训练数据、推理数据和维护数据。这些任务包括但不限于1)清理、标记、准备、减少和扩充训练数据,2)生成分布内和分布外数据以进行评估,或调整提示以实现所需结果,以及3)构建用于理解、组织和调试数据的高效基础设施。
  • RQ2:为什么自动化对开发和维护数据具有重要意义?鉴于数据量以前所未有的速度不断增加,开发自动化算法以简化数据开发和维护过程至关重要。根据表2、表3和表4中调查的论文,已经为所有子目标开发了自动化算法。这些自动化算法跨越了不同的自动化级别,从编程自动化到基于学习的自动化,再到管道自动化。
  • RQ3:在哪些情况下,为什么人类参与对以数据为中心的人工智能至关重要?人类参与是许多以数据为中心的人工智能任务所必需的,例如大多数数据标记任务(表2)和推理数据开发中的几个任务(表3)。值得注意的是,不同的方法可能需要不同程度的人类参与,从充分参与到提供最少的投入。在许多场景中,人类的参与至关重要,因为这通常是确保人工智能系统的行为与人类意图一致的唯一途径。
  • RQ4:以数据为中心的人工智能目前进展如何?尽管以数据为中心的人工智能是一个相对较新的概念,但在许多相关任务中已经取得了相当大的进展,其中大多数被视为以模型为中心的范式中的预处理步骤。与此同时,最近出现了许多新的任务,对它们的研究仍在进行中。在第6节中,我们对基准论文的元分析显示,在不同领域取得了进展,其中大多数基准来自人工智能领域。在三个以数据为中心的通用人工智能目标中,训练数据开发受到了相对更多的研究关注。对于数据模态,表格和图像数据一直是主要关注点。随着以数据为中心的人工智能研究论文呈指数级增长,我们可能会在未来见证这一领域取得更多进展。

通过试图解决这些问题,我们的调查深入研究了各种任务及其需求和挑战,对以数据为中心的人工智能的范围和进展产生了更具体的了解。然而,尽管我们努力广泛而全面地涵盖各种任务和技术,但不可能涵盖以数据为核心的人工智能,我们将以数据为中心的人工智能与人工智能的另外两个热门研究主题联系起来:

  • 基础模型。基础模型是在大量未标记数据上训练的大型模型,可适用于各种任务,如大型语言模型和稳定扩散。随着模型变得足够强大,用模型执行许多以数据为中心的人工智能任务变得可行,例如数据标记和数据增强。因此,基础模型的最新趋势有可能从根本上改变我们对数据的理解。与将原始数据值存储在数据集中的传统方法不同,模型本身可以是一种数据形式(或原始数据的“容器”),因为模型可以传递信息(见第2.1节中的数据定义)。基础模型模糊了数据和模型之间的边界,但其训练仍然严重依赖于大型高质量的数据集。
  • 强化学习。强化学习是一个研究领域,它在没有任何初始数据的情况下训练智能代理来优化奖励。它是一种独特的学习范式,在用模型生成数据和用自己生成的数据训练模型之间交替。与基础模型一样,强化学习的进步也可能模糊数据和模型之间的边界。此外,强化学习已经在几个以数据为中心的人工智能子目标中被广泛采用,如数据标记、数据准备、数据缩减和数据增强。原因可以归因于它的目标导向性质,它非常适合自动化。

在研究了这两个快速发展的研究领域的联系后,我们假设,在人工智能系统的发展中,以数据为中心的人工智能和以模型为中心的AI可能会更加交织在一起。展望未来,我们提出了我们在以数据为中心的人工智能方面确定的一些潜在的未来方向:

  • 跨任务自动化。尽管在自动化各种以数据为中心的人工智能任务方面取得了重大进展,但跨多个任务的联合自动化在很大程度上仍未得到探索。尽管管道搜索方法已经出现,但它们仅限于训练数据开发。从广泛的以数据为中心的人工智能角度来看,最好有一个统一的框架来联合自动化针对不同目标的任务,从训练数据开发到推理数据开发和数据维护。
  • 数据模型联合设计。尽管以数据为中心的人工智能主张将重点转移到数据上,但这并不一定意味着模型必须保持不变。使用不同的模型时,最佳数据策略可能不同,反之亦然。此外,如上所述,随着基础模型和强化学习的发展,数据和模型之间的边界可能会变得越来越模糊。因此,人工智能的未来进展可能来自于共同设计数据和模型,数据和模型的共同进化可能为更强大的人工智能系统铺平道路。
  • 消除数据失真。在许多高风险应用中,人工智能系统最近被发现对某些群体表现出歧视行为,引发了对公平性的严重担忧。这些偏差通常源于数据中敏感变量的不平衡分布。从以数据为中心的角度来看,需要对数据进行更多的研究,包括但不限于减轻训练数据中的偏见,构建评估数据以揭露不公平问题的系统方法,以及在动态环境中持续维护公平数据。
  • 以各种方式处理数据。根据第6节中的基准分析,大多数研究工作都针对表格和图像数据。然而,在以数据为中心的人工智能中,其他同样重要但研究较少的数据模式带来了重大挑战。例如,时间序列数据表现出复杂的时间相关性,而图形数据具有复杂的数据相关性。因此,需要对如何为这些模态设计数据进行更多的研究。此外,开发能够同时处理多种数据模式的以数据为中心的人工智能解决方案是未来探索的一条有趣途径。
  • 数据基准开发。以模型为中心的人工智能的发展得益于推进模型设计的基准。而以数据为中心的人工智能需要更多地关注基准测试。如第6节所述,以数据为中心的人工智能的现有基准通常只关注特定任务。构建一个统一的基准来全面评估整体数据质量和各种以数据为中心的人工智能技术是一个重大挑战。尽管DataPerf在实现这一目标方面取得了显著进展,但它目前只支持有限数量的任务。制定更加统一的数据基准将大大加快这一领域的研究进展。

8 结论

这项调查的重点是以数据为中心的人工智能,这是人工智能中一个新兴的重要研究领域。我们通过展示精心设计和维护数据可以使人工智能解决方案在学术界和工业界更受欢迎,从而激发了对以数据为核心的人工智能的需求。接下来,我们提供了以数据为中心的人工智能的背景,包括其定义和目标驱动的分类法。然后,在提出的研究问题的指导下,我们从自动化和协作的角度回顾了用于不同目的的各种以数据为中心的人工智能技术。此外,我们收集了来自不同领域的数据基准,并在元级别对其进行了分析。最后,我们从全球角度讨论了以数据为中心的人工智能,并分享了我们对数据和模型之间模糊边界的看法。我们还介绍了该领域未来的潜在方向。总之,我们相信数据将在构建人工智能系统中发挥越来越重要的作用。与此同时,仍有许多挑战需要解决。我们希望我们的调查能够激励我们社区的合作举措,推动这一领域的发展。

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

Data-centric Artificial Intelligence: A Survey 的相关文章

随机推荐

  • HTML标题

    目录 HTML 标题 实例 标题很重要 HTML 水平线 实例 HTML 注释以及在PyCharm中快速添加注释 实例 HTML 提示 如何查看源代码 来自本页的实例 HTML 标签参考手册 一个完整的实例 在 HTML 文档中 标题很重要
  • 筛选法与试除法 判断素数

    素数的求解方法 第一种 试除法 第二种 筛选法 试除法 顾名思义 求一个数X是不是素数 就试用小于x大于1区间的自然数 只要有一个能整除 那么x就不是素数 否则就是 以输出100 200之间的素数为例 include
  • 深入理解SD卡基础原理以及内部结构的总结 (转)

    1 简介 SD卡 Secure Digital Memory Card 是一种为满足安全性 容量 性能和使用环境等各方面的需求而设计的一种新型存储器件 SD卡允许在两种模式下工作 即SD模式和SPI模式 本 系统采用SPI模式 本小节仅简要
  • buuctf - web - [极客大挑战 2019]Havefun

    入眼一看 是一只小猫 二话不说 直接F12 根据提示 修改 当前页面 URL 尝试传入参数 直接得flag
  • LWIP-TCP心跳机制

    LWIP TCP心跳机制 简介 在长连接下 可能很长一段时间都没有数据往来 理论上说 这个连接是一直保持连接的 但是实际情况中 如果中间节点出现什么故障是难以知道的 更致命的是 有的节点 防火墙 会自动把一定时间之内没有数据交互的连接给断掉
  • 什么是对网站的base64攻击?

    根据网络安全公司Imperva的一份报告 可以通过Base64编码进行的SQL注入攻击 是最常见的网络应用程序攻击类型之一 占所有攻击的20 这表明 Base64攻击是对网站和网络应用程序的一个重大威胁 Base64是一种常见的编码技术 用
  • 磁盘挂载问题:Fdisk最大只能创建2T分区的盘,超过2T使用parted

    1 下面使用parted工具进行分区的创建 parted dev sdb print 查看分区的使用情况 mklabel gpt 将MBR分区形式转换为GPT分区形式 mkpart promary ext4 划分一个采用ext4文件系统的主
  • SQL SUM() 函数

    SUM 函数返回数值列的总数 SQL SUM 语法 SELECT SUM column name FROM table name WHERE condition column name 是要计算总和的列名 table name 是包含要计算
  • 【学习笔记】感知机模型

    感知机 Perceptron 概述 1957年被提出 是一种有单层计算单元的神经网络模型 在结构上与M P模型相似 提出初衷是解决数据的分类问题 感知机是神经网络和支持向量机的基础 感知机原理 感知机本身是一种能进行二分类的线性模型 只要被
  • mysql为什么使用b+树

    MySQL 使用 B 树有以下几个原因 查询效率高 B 树的查询时间复杂度是 log n 级别的 相比链表和二叉树的 O n 性能要高得多 支持范围查询 B 树能够支持范围查询 这在 MySQL 中经常用于 WHERE 子句中的 BETWE
  • HC-05蓝牙模块使用记录

    前言 后面可能需要用到蓝牙远程控制 所以提前了解了一下 主要是用买来的蓝牙模块HC 05 主要包括一个蓝牙芯片CSR BC417 该公司是剑桥的一个公司 现已被高通收购 和一个FLASH芯片 调试一下两个HC 05之间基本的通讯以及与手机蓝
  • 关于TypeScript的引用类型

    基本数据类型 引用数据类型 赋值引用 public copyCite let obj name 1 let copyObj obj obj name 2 console log copyObj name 2 由于对象之间的赋值是复制了地址
  • 位运算的应用

    前天几天研究了下JDK的Collection接口 本来准备接着研究Map接口 可是一查看HashMap类源码傻眼咯 到处是位运算实现 所以我觉得还是有必要先补补位运算知识 不然代码看起来有点费力 今天系统研究了下 现记录如下 首先要明白一个
  • elementUI的el-table表格不生效问题

    我之前下载的elementUI依赖是用的镜像cnpm 删掉原来的依赖重新下npm的依赖npm i element ui S 重启前台服务就可以了
  • vue3和vite

    1 安装 vue cli 3 yarn add vue cli next 2 安装vite vue add vite 3 安装成功后package json中会添加 scripts vite node bin vite devDepende
  • 【hello C++】智能指针

    目录 一 内存泄漏 1 1 什么是内存泄漏 内存泄漏的危害 1 2 内存泄漏分类 1 3 如何检测内存泄漏 1 4 如何避免内存泄漏 二 智能指针的使用及原理 2 1 RAII 2 2 智能指针的原理 2 3 智能指针的发展历程 2 4 智
  • componentDidUpdate vs componentWillReceiveProps

    componentDidUpdate有两个参数prevProps和prevState 不管是父组件props的修改还是state状态的更改都会触发该方法 而componentWillReceiveProps只有在父组件重新render pr
  • IDEA 2020.1官网汉化插件安装

    idea 终于更新了2020 1版本 推荐使用2020的版本 新增了好多的特性 官方也终于支持了中文语言包 但是有些兄弟下载后在插件市场无法找到官方的汉化包等问题 请安装下面操作即可 1 去IDEA插件中心 https plugins je
  • protobuf通信消息设计技巧备忘

    1 有一个全局的ProtobufMessage 所有的requestXXX responseXXX都作为他的一个可选属性 这样简单粗暴的避免了需要二次序列化反序列化的恶心问题 2 有一个CommonMessage作为他的一个字段 用来存放公
  • Data-centric Artificial Intelligence: A Survey

    本文是AI相关的论文 针对 Data centric Artificial Intelligence A Survey 的翻译 以数据为中心的人工智能 综述 摘要 1 引言 2 数据为中心AI的背景 3 训练数据开发 4 推理数据开发 5