论文阅读：A survey of visual analytics techniques for machine learning

2023-05-16

题目：A survey of visual analytics techniques for machine learning

A survey of visual analytics techniques for machine learning

概述
Introduction
Taxonomy
- - Techniques before model building
  - - - data quality
      - feature engineering
  - Techniques during model building
  - Techniques after model building
Techniques before model building
- - Improving data quality
  - - - instance-level improvement
      - label-level improvement
  - improving feature quality
Techniques during model building
- - model understanding
  - - - Understanding the effects of parameters
      - Understanding model behaviours
  - Model diagnosis
  - Analyzing training dynamics
  - Model steering
  - - - Model refinement with human knowledge
      - Model selection from an ensemble
Techniques after model building
- - understanding static data analysis results
  - - - textual data analysis
      - other data analysis
  - Understanding dynamic data analysis results
  - - - offline analysis
      - online analysis
Research opportunities
- - Opportunities befour model building
  - - - Improving data quality for weakly supervised learning
      - Explainable feature engineering
  - Opportunities during model building
  - - - Online training diagnosis（在线训练诊断）
      - Interactive model refinement (交互模型细化）
  - Opportunities after model building
  - - - Understanding multi-model data
      - Analyzing concept drift
Conclusions
References

概述

本文发布于Computational Visual Media 2020

原文链接：https://doi.org/10.1007/s41095-020-0191-7

本文是清华大学刘世霞老师团队的一篇综述性质的文章，内容主要涵盖了visual analytics for machine learning领域的知识。他系统的回顾了过去十年发表的259篇论文以及2010年以前的代表性著作。通过建立了一个分类法并列出对应的具有影响力的作品来突出研究挑战与未来研究机会

本论文专注于数据分析技术，以帮助开发可解释的，值得信赖的，可靠的机器学习程序。选择的论文来自InfoVis, VAST, Vis,EuroVis, Pacific Vis, IEEE TVGC, CGF和CG&A

Introduction

各种视觉分析方法被提出来帮助机器学习更容易解释，使得机器学习模型更加值得信赖和可靠。这些研究工作充分结合了交互式可视化和机器学习的优势来提升分析和分析和理解学习过程中的主要组件来提升性能。例如用于解释深度卷积神经网络内部的视觉分析研究提高了深度学习模型的透明度[1-4]
机器学习的可视化分析技术的快速发展产生了全面回顾的需求，来帮助理解可视化技术是如何设计和应用于机器学习管道的，在不同的角度总结了这个领域的进展。现有的调查要么集中在机器学习的特定领域，如文本挖掘[5]，预测模型[6]和模型理解[1]，要么基于一组示例技术来概述一个本体[7]
这篇文章侧重机器学习的每个阶段的可视化技术，并关注可视化解释对可视化特征检测研究的贡献。本文系统的收集了259篇论文，并给予机器学习的研究过程，划分了三个相关阶段：before,during and after model building.在三个节点分析了可视化技术的功能，抽象了典型任务并使用样例说明。同时强调了视觉分析领域六个突出的研究方向和有待解决的问题

Taxonomy

本文将所有作品根据一个典型的机器学习pipeline[8]来分类,管道包括三个阶段（1）模型建立前的数据预处理（2）机器学习模型建立（3）模型建立后的部署。因此本文将机器学习的视觉分析技术映射到三个阶段：建模前的技术，建模中的技术和建模后的技术

Techniques before model building

在模型构建之前使用可视化分析技术的主要目的是帮助模型开发人员更好的为模型的构建准备数据。数据的质量主要取决于数据本身和所使用的特性。因此有两个研究方向：数据质量改进的可视化分析和特征工程。

data quality

有很多方式来提高数据质量，例如补全缺失的数据属性和纠正错误的数据标签。以前这些任务主要通过手动或者自动方法进行，比如learning-from-crowds算法，可以从嘈杂的人群标签中估计ground-truth标签[9]。为了减少专家的工作量并进一步提高自动方法的结果，一些工作使用可视化分析技术交互性的提高数据质量，近年来这一课题得到越来越多的关注

feature engineering

特征工程用于选择最优特征训练模型。在视觉分析中，交互式特征选择提供了一个交互式和迭代的特征选择过程。近年来，特征的选择和构建大多是通过神经网络进行的，相对应的，这一方向的研究关注在减少

Techniques during model building

模型构建是构建成功的机器学习应用程序的中心阶段。开发可视化分析方法来促进模型构建也是可视化领域一个日益发展的研究方向。本片论文将不同的方法按照分析目标进行分类，分为模型理解，模型诊断和模型转向(model understanding, model diagnosis, model steering)。模型理解方法旨在直观的解释模型的工作机制，例如参数的变化是如何影响模型，以及为什么模型为特定的输入提供特定的输出。模型诊断方法是通过对模型蓄念过程的交互探索来诊断模型训练中的错误。模型转向方法主要是通过交互式的方式来提高模型的性能

Techniques after model building

机器学习模型构建和部署完成后，帮助用户以直观的方式理解模型的输出，提高模型输出的信任度是至关重要的。与模型构建中的模型理解方法不同，这些探索模型输出的方法通常针对模型用户而非模型开发人员。这些方法的重点通常在于模型输出的直观表示和探索上。本文根据所分析的数据类型对这些方法进行分类，分为静态数据与动态数据。

Techniques before model building

在建立模型之前，两个主要的任务是数据处理和特征工程。低质量的数据和特征会降低机器学习模型的性能。数据质量问题包括缺失值，异常值和实例及其标签中的噪声。特征质量问题包括不相关的特性、特性之间的冗余等。虽然手动解决这些方法非常的耗时，但是自动方法的性能可能比较差。各种可视化分析技术被开发出来以减少专家的努力，同时提高产生高质量数据和特征的自动方法的性能[10]

Improving data quality

数据包含实例及其标签，从这个角度来看，改进数据质量的现有工作要么涉及实例级改进，要么涉及标签级改进

instance-level improvement

在实例级，许多可视化方法专注于检测和纠正数据中的异常，如缺失值和重复。[11]提出了profiler来帮助发现和评估表格数据中的异常。采用异常检测方法对数据异常进行检测，并将数据异常划分为不同类型。然后自动推荐链接摘要可视化以方便发现这些异常的潜在原因和后果。[12]开发了VIVID来处理纵向队列研究中数据的缺失值。通过多重协同可视化，帮助专家识别缺失值的根本原因并使用适当的模型替换缺失数据。DQProver Explorer[13]支持数据来源的分析，使用一个来源图来支持数据状态的导航和质量流来表述数据质量随时间的变化，说明异常去除这个迭代过程中的来源可以让用户意识到数据质量的变化，并对处理后的数据建立信任。对于非样本分布（OoD，没有被训练数据很好的覆盖的测试样本，是模型性能下降的一个主要来源）这种数据异常，[14]提出了OoDAnalyzer来检测和分析OoD样品。它提出了一种将高、低级特征相结合的面向对象的集成检测方法。检测结果的网格可视化（如下图）被用来探索上下文中的OoD样本，并解释他们存在的潜在原因。为了在勘探过程中以交互速率生成网格布局，基于霍尔定理开发了一种基于KNN的网格布局算法

在这里插入图片描述

当考虑时间序列数据的时候，由于时间具有明显的特征，导致需要在时间上下文中进行分析的特定质量问题，因此出现了一些挑战。为了解决这个问题，[15]提出了一个可视化分析系统Visplause来可视化地评估时间序列数据质量。系统会用表格的像是展示像异常频率及其时间分布这样的异常检测结果，为了解决可伸缩性问题，基于元信息将数据聚合到一个层次结构中，从而可以同时分析一组异常（比如同一个类型的异常时间序列）。除了自动监测异常之外，[16]提出的KYE还支持识别被自动方法忽略的额外异常。这种方法的时间序列数据以热图视图的形式呈现，其中异常模式（比如具有异常高值的区域）表明潜在的异常。为了更好的分析和细化点击流数据（点击流数据是视觉分析领域中被广泛研究的一种时间序列数据），segmentfier[17]提出为分割和分析提供一个迭代的探索过程。用户可以在三个不同粒度的协调视图中探索片段，并通过过滤、分区和转换来细分他们。每一步细化都会产生新的细分，这些细分可以被进一步分析和细化

为了解决数据质量改进中的不确定性，[18]开发了一种可视化分析工具来展示不同预处理方法引起的数据变化和不确定性。该工具使专家能够意识到方法的效果，并选择合适的方法，减少与任务无关的部分同时保留数据中与任务相关的部分

由于数据有暴露敏感信息的风险，近期有研究集中于在数据质量改进过程中保护数据隐私。对于表格数据，[19]开发了隐私暴露风险树(Privacy Exposure Risk Tree)来显示数据中的隐私，并开发了效用保持度矩阵来展示效用如何随着隐私保护操作的应用而变化。[20]提出了一个可视化分析系统GraphProtector来保护网络数据集中的隐私。为了保护网络的重要结构，首先根据节点的重要性指定节点优先级。重要节点被分配低优先级，减少了修改这些节点的可能性，并可以根据自己的知识和经验选择最合适的操作

label-level improvement

根据数据是否有噪声标签，现有的作品可以分为提高噪声标签质量的方法或者允许交互式标签的方法

Crowdsourcing为收集标签提供了一种经济高效的方式。然而，众多的工作者提供的标签通常充满噪声。针对去除标签中的噪声，[21]开发了一种众包聚类方法，以去除众包工作者们提供的冗余解释。解释首先被分组，然后最有代表性的被保留。[22]提出了C2A，将众包注释和工作者们的行为可视化，来帮助医生在临床视频中识别恶性肿瘤。该种技术可以帮助医生丢弃大多数无肿瘤的视频片段，专注于最有可能有肿瘤的视频片段。[23]开发了CMed,通过众包可视化临床图像注释以及工作者们的行为。通过根据注释精度对工作者进行聚类，并分析他们记录的事件来帮助专家找到优秀的工作者，并观察工作者行为模式产生的影响。[24]开发了三个协调可视化，一个混淆(a)，一个实例(b)和一个工作者可视化（c）以便于识别和验证不确定的实例标签和不可靠的工作者，通过这种方式他能改进众包标签。在专家验证的基础上，推荐更多的实例和工作者通过迭代和渐进的验证程序进行验证

在这里插入图片描述

在很多真实世界的数据集中，众包信息是不可用的。例如ImageNet数据集仅包含了通过自动去噪方法清除的标签。为了处理这类数据集，[25]开发了DataDebugger，通过利用用户选择的可信项目来交互式地提高数据质量。结合了分层可视化与增量投影方法和离群点有偏采样方法相结合，促进了可信项目的探索和识别。基于这些可信项目，数据矫正算法将标签从可信项目传播到整个数据集。[26]假设被训练分类器错误分类的实例可能是被贴错标签的实例。基于这一假设，他们使用了一个由多维增强投影的邻居连接树来帮助用户探索错误分类的实例并纠正错误标记的实例。矫正后，使用矫正后的标签细化分类器并开始新一轮的矫正。[27]开发了三种分类器引导的措施来检测数据错误，然后用矩阵和散点图的形式展示数据误差，帮助专家能够推理并理解误差

上述方法都是从带噪声的标记数据开始，但是很多数据集不具有这样的标签集。为了解决这个问题，现在有很多用于交互式标签的视觉分析方法。交互式标注的主要目标是减少标注工作。[28]使用了基于SOM的可视化将相似图像放在一起，允许用户一次性标记同一类的多个相似图像。[29]也使用这种策略来识别具有类似异常行为的social spambot群体，[30]也使用这种策略来标记移动眼球追踪数据，[31]使用这种策略来注释和分析电影中使用的原色策略。除了将相似的项目放在一起，过滤方法也被用于寻找感兴趣的项目并进行标记。[32]使用过滤和排序来查找相似的视频片段并利用表格可视化来呈现视频片段及其属性。用户可以过滤掉不相关的段，并根据属性排序相关的段，允许用户同时标记同一类的几个段。[33]提供了一个基于规则的过滤引擎来寻找足球比赛视频中的兴趣模式。专家可以通过自然语言图形交互界面来交互指定规则

最近，为了增强交互式标注的有效性，各种视觉分析方法已经将可视化技术与机器学习技术相结合，例如active learning。[34]最先提出了“intra-active labeling”的概念，他增强了人类知识的主动学习。用于不仅能够通过主动学习来查询实例和标注他们，而且能够交互式地理解和操纵机器学习模型。

除了开发交互式标签系统，还有一些实验来证明他们的有效性。[35]进行了实验来显示以用户为中心的视觉交互标注优于以模型为中心的主动学习。还进行了定量分析[36]来评估用户在标记过程中选择样品的策略。结果显示在早起阶段基于数据的（例如集群和密集区域）用户策略运行良好，然而在后期阶段，基于模型（例如类分离）的用户策略表示更好

improving feature quality

提高特征质量的典型方法是选择对预测贡献最大的有用特征，即特征选择。一个常见的特征选择策略是选择一个特征子集使他们之间的冗余最小化，并使得他们与目标之间的相关性最大化。沿着这一思路，现在已有几种方法来交互式的分析特征的冗余性和相关性。例如[37]提出了一种按特征排序的框架，该框架按相关性对特征进行排序。他们用表格和矩阵将排名结果可视化。[41]提出一种分区的可视化，用于分析特征或者特征对的相关性。特征或者特征对被划分为子部分，这允许用户在不同的细节层次上探索特征或者特征对的相关性。[38]利用平行坐标可视化来识别可以区分不同集群的特征。[39]通过不同的特征选择算法、交叉验证折叠和分类模型对特征进行排序，用户可以以交互方式选择最佳的特征和模型

除了选择现有要素，构建新要素在模型构建中也很有用。[40]提议为文本分类构建新的特征。通过直观地检查分类器错误并总结这些错误的根本原因，用户能够创建能正确区分错误分类文档的新功能。为了提高新特征的泛化能力，视觉摘要被用来分析一组错误而不是单个错误

Techniques during model building

机器学习模型由于缺乏可解释性，通常被视为黑盒，阻碍了其在自动驾驶汽车、金融投资等风险场景中的实际应用。当前模型构建中的视觉分析技术目标是探索如何揭示机器学习模型的底层工作机制，然后帮助模型开发人员构建格式良好的模型。首先，模型开发人员需要对模型有全面的了解，以便从耗时的试错过程中释放它们。当训练过程失败或者模型没有提供令人满意的性能时，模型开发人员需要诊断训练过程中出现的问题。最后，在模型构建过程中，需要花费大量的时间来改进模型性能，从而有助于模型控制。与这些需求相呼应，研究人员开发了许多可视化分析方法来增强模型理解、诊断和控制

model understanding

与模型理解相关的工作分为两类:一类是理解参数的影响，另一类是理解模型行为

Understanding the effects of parameters

模型理解的一个方面是检查模型输出如何随着模型参数的变化而变化。[42]开发了BirdVis （用于鸟类的预测），以探索不同参数配置和模型输出之间的关系，它还揭示了参数在预测模型中如何相互关联。[43]提出了一种可视化分析方法，以可视化变量如何影响逻辑回归模型中的统计指标

Understanding model behaviours

模型理解的另一个方面是模型如何产生期望的输出。有三种主要类型的方法用于解释模型行为：以网络为中心、以实例为中心和混合方法。

以网络为中心的方法旨在探索模型结构，并解释模型的不同部分(例如，卷积神经网络中的神经元或层)如何相互合作以产生最终输出。早期的工作采用有向图布局来可视化神经网络的结构[44]，但是随着模型结构变得越来越复杂，视觉混乱成为一个严重的问题。为了解决这个问题，[45]开发了CNNVis来可视化深度卷积神经网络（如下图）。它利用聚类技术将具有相似角色的神经元以及它们之间的联系进行分组，以解决由于它们数量庞大而导致的视觉混乱。这个工具帮助专家理解神经元的角色和他们所学的特征，此外，通过网络如何将低级特征聚合成高级特征。后来，[46]设计了一种图形可视化，用于探索Tensorflow中的机器学习模型架构。他们进行了一系列图形转换，根据给定的低级数据流图计算清晰的交互式图形布局，以显示模型的高级结构在这里插入图片描述
以实例为中心的方法旨在提供实例级的分析和探索，以及理解实例之间的关系。[47]通过将从神经网络的每一层中学习到的表示投影到2D散点图上，使它们可视化。用户可以识别表示投影中的聚类和混淆区域，从而理解网络所学习的表示空间。此外，他们还可以研究表征空间在训练过程中是如何演化的，从而理解网络的学习行为。一些用于理解循环神经网络（RNNs）的视觉分析技术也采用了这种以实例为中心的设计。LSTMVis [48]利用平行坐标来表示隐藏状态，以支持对文本上隐藏状态变化的分析。RNNVis [49]将隐藏状态单元(每个隐藏状态单元是中隐藏状态向量的一个维度)聚类为memory chips，将单词聚类为词云。它们之间的关系被建模为一个二分图，这支持了RNNs中句子级的解释

混合方法结合了上述两种方法，并利用了它们的优点。特别是，实例级分析可以在网络架构的背景下得到增强。这样的背景有助于理解网络的工作机制。[50]提出了Summit，以揭示有助于模型预测的重要神经元和关键神经元关联。它集成了一个嵌入视图来总结类之间的激活，并集成了一个属性图视图来揭示神经元之间有影响的连接。[51]提出的ActiVis用于大规模深度神经网络，它使用计算图可视化模型结构，并使用投影视图可视化实例、子集和类之间的激活关系

现在有一些想法，是使用代理解释模型（surrogate explainable model）来解释模型行为。这种方法的主要好处是不需要用户调查模型本身。因此，它们对那些没有机器学习知识或机器学习知识有限的人更有用。将分类器视为一个黑箱，[52]首先从分类器的输入和输出中提取基于规则的知识。然后使用规则矩阵将这些规则可视化，规则矩阵（Rule Matrix）支持从业者对提取的规则进行交互式探索，提高了模型的可解释性。[53]开发的DeepVID用于生成图像分类器的视觉解释。给定感兴趣的图像，深度生成模型首先被用于在其附近生成样本。这些生成的样本被用来训练一个更简单、更易解释的模型，比如一个线性回归分类器，它有助于解释原始模型是如何做出决策的

Model diagnosis

用于模型诊断的视觉分析技术可以分析训练结果，或者分析训练动态

现在有很多基于分类器性能诊断分类器的工具[54,55,56,57]。例如，Squares [57]使用方框来表示样本，并根据它们的预测类别对它们进行分组。使用不同的textures来编码真/假阳性/阴性，该工具允许在多个细节级别快速准确地估计性能指标

目前模型公平性问题越来越受到关注[58,59,60]。例如，[58]提出了一个名为FairSight的框架，并实现了一个可视化分析系统，以支持排名问题中的公平性分析。他们将机器学习管道分为三个阶段(数据、模型和结果)，然后使用不同的测量方法在个人和群体层面测量偏差。基于这些度量，开发人员可以迭代地识别那些导致歧视的特征，并将它们从模型中移除

目前还有研究关注于探索模型中的潜在漏洞，这些漏洞会阻止它们被可靠地应用于现实应用[60,61]。[60]提出了AEVis来分析对抗性例子如何欺骗神经网络。系统(如下图)将正常和敌对的例子作为输入，并提取它们的数据路径用于模型预测。然后，它使用了一个基于河流的隐喻来显示提取的数据路径的分叉和合并模式，这揭示了对抗性样本误导模型的地方。[61]设计了一系列从概述到细节的视觉表示，以揭示数据中毒(data poisoning)将如何使模型对特定样本进行错误分类。通过比较中毒的训练数据和正常训练数据的分布，专家可以推断出攻击样本错误分类的原因
在这里插入图片描述

Analyzing training dynamics

近期也有研究集中在分析训练动态上。这些技术旨在调试机器学习模型的训练过程。DGMTracker [63]帮助专家发现深度生成模型训练过程失败的原因。它利用蓝色噪声折线采样算法来同时保持异常值和训练动态的主要分布，以帮助专家发现故障的潜在根本原因。它还采用了一种信用分配算法来揭示神经元之间的相互作用，以便于故障传播的诊断。对深度强化学习的训练过程的诊断也给予了关注

[64]提出了DQNViz来理解和诊断一个用于breakout game的Q-networks。在概述层面，DQNViz通过折线图和堆叠面积图展示了培训过程中总体统计数据的变化。然后在细节层次上，使用分段聚类和模式挖掘算法来帮助专家识别Q-networks中代理的事件序列中的常见和可疑模式。

[65]提出DynamicsExplorer来诊断被训练用来控制迷宫球游戏的LSTM。为了支持快速识别哪里出现训练失败，它使用轨迹可变性图可视化球轨迹，并使用平行坐标图可视化它们的聚类

Model steering

model steering 有两种主要策略:用知识精炼模型，以及从模型集合中选择最佳模型

Model refinement with human knowledge

现在已有几种可视化分析技术，通过灵活的交互将用户置于模型细化过程的循环中

用户可以使用可视化分析技术直接细化目标模型。一个典型的例子是ProtoSteer[66]，这是一个视觉分析系统，可以编辑原型，以改进名为ProSeNet的原型序列网络[67]。ProtoSteer使用四个协调的视图来呈现ProSeNet中学习到的原型的信息。用户可以通过添加、删除和修改特定的原型来完善这些原型。然后使用这些用户特定的原型对模型进行重新训练，以获得性能增益。此外，[68]提出了BaobabView，支持专家利用领域知识迭代构建决策树。专家可以通过直接操作细化决策树，包括生长、剪枝和优化内部节点，并可以用各种视觉表示对改进后的决策树进行评估

除了直接的模型更新，用户还可以纠正结果中的缺陷或提供额外的知识，允许模型隐式更新，从而根据人的反馈产生改进的结果。一些研究集中在将用户知识整合到主题模型中以改善结果。例如，[69]提出了ReVision，允许用户利用带约束的进化贝叶斯玫瑰树聚类算法来引导分层聚类结果。如下图所示，约束条件和聚类结果以一种基于不确定性的树的可视化方式显示，以指导聚类结果的转向。用户可以通过拖动来细化约束层次结构。然后根据修改后的约束重新对文档进行聚类

在这里插入图片描述

后续有在环模型上的研究刺激了这类模型的改进。例如[70]提出了MutualRanker，利用基于不确定性的互强化图模型从微博数据中检索重要的博客、用户和话题标签。它显示了排名结果，不确定性和它的传播与一个复合可视化的帮助;用户可以查看图中最不确定的项目，并调整排名分数。通过在整个图中传播调整，对模型进行增量更新

Model selection from an ensemble

另一种模型转向策略是从模型集合中选择最佳模型，通常出现在聚类模型和回归模型中。[71]是一个用于视觉聚类分析的视觉分析系统，它根据用户选择的结果进行推荐，指导用户选择合适的输入特征和聚类参数。BEAMES[72]被设计用于回归任务中的多模型导向和选择。它通过不同的算法和相应的超参数创建回归模型集合，并通过数据实例的交互加权和交互特征选择和加权进一步优化。用户可以检查它们，然后根据性能的不同方面，如残差分数和均方误差，选择最优模型

Techniques after model building

在模型建立后，现有的可视化分析工作多数目的在帮助用户理解并从模型输出中获得见解，如高维数据分析结果。由于这些方法通常是数据驱动的，该论文根据分析的数据类型对相应的方法进行分类。论文认为数据的时间特性在视觉设计中至关重要，因此，选择将方法分为理解静态数据分析结果的方法和理解动态数据分析结果的方法。用于理解静态数据分析结果的可视化分析系统通常将所有模型输出作为一个大的集合，并分析静态结构。对于动态数据，除了了解每个时间点的分析结果外，系统通常会着重于说明数据随时间的演变

understanding static data analysis results

该论文从数据类型的角度对静态数据分析的认识进行了总结。目前大多数的研究集中在文本数据分析

textual data analysis

静态数据分析研究最广泛的主题是可视文本分析，它将交互式可视化技术与文本挖掘技术(如文档聚类、主题模型和单词嵌入)紧密地结合在一起，以帮助用户更好地理解大量文本数据。一些早期的作品使用简单的可视化来直接传达经典文本挖掘技术的结果，例如文本摘要、分类和聚类。

[73]开发了一种多视图可视化，包括列表视图、聚类视图、单词云、网格视图和文档视图，以直观地说明文档摘要、文档聚类、情感分析、实体识别和推荐的分析结果。将交互式可视化技术与文本挖掘技术相结合，为用户提供了流畅、详实的探索环境

后来的大多数研究都集中在将设计良好的交互式可视化与最先进的文本挖掘技术(如主题模型和深度学习模型)结合起来，以提供对文本数据的更深入的见解。为了提供在多个来源中讨论的相关主题的概述，[74]首先利用相关主题模型从多个文本来源中提取主题图。然后开发了一种图匹配算法来匹配来自不同来源的主题图，并采用分层聚类方法生成分层的主题图。匹配的主题图和层次结构都被输入到由径向柱状图和基于密度的节点链接图组成的混合可视化中(如下图(a))，以支持对所讨论的常见和独特主题的探索和分析多个源。[75]提出DemographicVis，根据用户生成的内容分析社交媒体上的不同人口群体。在这个模型中，主题模型latent Dirichlet allocation (LDA)，被用来从语料库中提取主题特征。通过并行集可视化研究人口统计信息与提取的特征之间的关系[76]，并根据不同人口统计群体感兴趣主题的相似性将其投影到二维空间上(如下图(b))

目前一些深度学习模型也因为其更好的性能而被采用。例如，[77]提出了cite2vec，通过文档使用(如引文)来可视化文档集合中的潜在主题。它扩展了著名的word2vec模型：skip-gram，同时考虑引文信息和文本内容，生成单词和文档的嵌入。首先使用t-SNE将单词投影到一个二维空间中，然后将文档投影到同一个空间中，同时考虑文档-单词关系和文档-文档关系

other data analysis

除了文本数据外，该论文还研究了其他类型的数据。[78]通过LDA模型分析流场，分别将路径线定义为文档，将特征定义为单词。建模完成后，利用多维尺度将原始路径线和提取的主题投影到二维空间中，生成多个预览来渲染重要主题的路径线。

可视化分析工具SMARTexplore[79]帮助分析人员发现和理解维度内部和维度之间的有趣模式，包括相关性、聚类和离群值。为此，它将基于表的可视化与模式匹配和子空间分析紧密结合在一起

Understanding dynamic data analysis results

除了了解静态数据分析的结果，调查和分析数据中的潜在主题如何随时间变化也很重要。例如，一个系统可以帮助政治家做出及时的决定，如果它提供了在社交媒体上的主要公众意见的概述，以及它们如何随着时间的变化。现有的大多数工作都集中于理解数据语料库的分析结果，其中每个数据项都与一个时间戳相关联。根据系统是否支持流数据分析，我们可以进一步将现有的可视化动态数据分析工作归类为离线的和在线的。在离线分析中，所有数据在分析之前都是可用的，而在线分析处理在分析过程中传入的流数据

offline analysis

离线分析研究可以根据分析任务分为:主题分析、事件分析、轨迹分析

理解大型文本语料库中话题随时间的演化是一个重要的研究课题。现有的作品大多采用河流隐喻来表达文本语料库随时间的变化。《the meriver》[80]是开创性的作品之一，使用河流隐喻来揭示不同主题体量的变化。为了更好地理解文档语料库的内容变化，TIARA[81,82]利用LDA模型从语料库中提取主题，并揭示它们随时间的变化。然而，对于复杂的分析任务，用户希望探索不同主题之间的关系及其随时间的变化，仅观察数量和内容的变化是不够的。因此，以后的研究都集中在理解主题之间的关系(例如，主题分割和合并)以及它们随时间的演变模式。例如，[83]首先使用渐进式分层Dirichlet过程模型从文档集合中提取主题分割和合并模式[84]。然后开发了一个带有一组精心设计的符号的河流隐喻，以可视化地说明前面提到的主题关系及其随时间的动态变化

在这里插入图片描述

[85]利用话题竞争模型提取话题之间的动态竞争以及意见领袖在社交媒体上的作用。[86]将竞争模型扩展为“合作竞争”(cooperation and competition)模型，以帮助理解进化主题之间更复杂的交互作用。[87]提出了一种视觉分析系统 IdeaFlow，用于学习不同社会群体随时间的领先关系

然而，这些作品采用的是扁平化的主题建模结构，在处理大规模文本语料库的大数据时代，这阻碍了它们的使用。为了便于理解大型文本语料库中的主要内容，一些工作在将分层主题模型与交互式可视化相结合方面做了努力。例如，[88]使用进化贝叶斯玫瑰树算法[89]提取了一个主题树序列，然后计算每棵树的采伐量。这些树切点用于近似主题树，并以河流隐喻的形式显示它们，这也揭示了主题之间的动态关系，包括主题的诞生、死亡、分裂和合并

事件分析的目标是在有序的事件序列中揭示常见的或语义上重要的顺序模式。为了便于大规模事件序列的可视化探索和模式发现，现在已几种可视化分析方法。例如，[90]开发了一种针对点击流数据的可视化分析方法。从点击流数据中发现并修剪最大顺序模式。取的模式和原始数据在四个粒度上得到了很好的说明:模式、片段、序列和事件。[91]开发了EventThread，它使用基于张量的模型将事件序列数据转换为n维张量。利用张量分解技术提取潜在模式(线程)，分割成阶段，然后聚类。这些线程表示为分割的线性条纹，并使用线映射隐喻来揭示不同阶段之间的变化。后来又对EventThread进行了扩展，克服了每个阶段固定长度的限制[92]。提出了一种无监督阶段分析算法来有效地识别事件序列中的潜在阶段。基于该算法，开发了一种交互式可视化工具，用于揭示和分析跨阶段的演化模式

其他工作集中在理解移动数据(如GPS记录)分析结果。[93]从轨迹中提取运动事件，然后进行时空聚类进行聚集。这些集群使用时空包络图进行可视化，以帮助分析人员发现城市中潜在的交通堵塞。[94]采用LDA模型挖掘出租车轨迹中的潜在运动模式。每辆出租车的移动，以所经过的街道名称为代表，被视为一份文件。使用平行坐标来可视化街道在主题上的分布，其中每个轴代表一个主题，每个折线代表一个街道。主题的演化被可视化为在相邻时间窗口之间连接相似主题的主题路径。

[95]分别将起点-终点流视为单词，将轨迹视为段落，然后使用word2Vec模型来生成每个起点-终点流的矢量化表示。然后使用t-SNE将流的嵌入投影到二维空间中，分析人员可以检查出发地-目的地流的分布，并选择一些显示在地图上。在直接分析原始轨迹数据的基础上，也有一些论文尝试在轨迹上增加辅助信息，以减少视觉探索的负担。[96]使用DBScan对目的地进行聚类，然后使用Foursquare提供目的地的详细信息(如商店、大学、住所)。基于丰富的数据，提取频繁模式并在可视化中显示(如下图);时间轴上的图标有助于理解这些模式。[97]从带有地理标记的社交媒体中挖掘轨迹，并显示从文本内容中提取的关键词，帮助用户探索轨迹的语义

在这里插入图片描述

online analysis

在线分析对于流数据(如文本流)尤其必要。作为在线分析文本流的先驱工作，[98]提出了ScatterBlog来分析地理定位的tweet流。该系统使用Twitter4J来获取流消息，并在这些消息中提取位置、时间、用户ID和标记化术语。为了有效地分析推文流，采用增量聚类算法对相似推文进行聚类。基于聚类结果，实时检测时空异常并向用户报告

为了减少用户在scatterblog中过滤和监控的工作量，[99]提出了ScatterBlogs2，该算法利用机器学习技术对scatterblog进行增强。它构建了基于svm的分类器来过滤感兴趣的推文，并使用LDA模型来生成主题概述

为了有效地处理高容量文本流，[100]开发了TopicStream来帮助用户分析高容量文本流中的分层主题演化。在TopicStream中，从文本流构建了一个进化的主题树，并开发了一个树切割算法，以减少视觉混乱，使用户能够专注于感兴趣的主题。该工具结合河流隐喻和视觉沉积隐喻，有效地说明了整体分层主题的演变，以及随着时间的推移，新到达的文本文档如何逐渐聚合到现有主题中

由TopicStream的启发，[101]开发了StreamExplorer，可以跟踪和比较社会流。特别地，它开发了一种基于熵的事件检测方法来检测社交媒体流中的事件。它们在多层次可视化中进一步可视化，包括基于符号的时间轴、地图可视化和交互式镜头

除了文本流之外，还分析了其他类型的流数据。例如，[102]采用了一种长期短期记忆模型进行道路交通拥堵预测，并使用VolumeSpeed Rivers可视化技术将结果可视化。拥塞的传播也被提取和可视化，帮助分析人员了解在检测到的拥塞之间的因果关系

Research opportunities

在这一部分，论文提出了针对机器学习的视觉分析研究的主要挑战和潜在的研究机会。

Opportunities befour model building

Improving data quality for weakly supervised learning

弱监督学习从有质量问题的数据构建模型，包括不准确的标签、不完整的标签和不准确的标签。提高数据质量可以提高弱监督学习模型的性能。现有的大多数方法关注不准确的数据(例如，嘈杂的众包注释和标签错误)质量问题，以及与不完整数据(例如，没有或只有少数数据被标签)质量问题相关的交互式标签。然而，很少有人致力于更好地利用与不完整数据质量问题以及不精确数据(例如，不精确的粗粒度标签)质量问题相关的未标记数据。

首先，视觉分析技术解决不完全性问题的潜力还没有被充分利用。例如，提高无标记数据的质量对于半监督学习来说至关重要，半监督学习在训练过程中与少量有标记的数据紧密结合，从而推断出从数据集到标记集的正确映射。一个典型的例子是基于图的半监督学习，它依赖于标记数据和未标记数据之间的关系。自动构建的关系(图)有时质量很差，导致模型性能下降。这些图质量差的一个主要原因是，自动图构造方法通常依赖全局参数(如KNN图构造方法中的全局k值)，这可能在局部不合适。因此，有必要利用可视化来说明标签是如何沿着图的边传播的，以促进理解局部图结构如何影响模型性能。基于这样的理解，专家可以自适应地修改图，逐步生成高质量的图

其次，虽然不准确的数据质量问题在实际问题中很常见，但是它很少受到视觉分析领域的关注。该问题是指标签不精确的情况，例如粗粒度标签，例如在CT扫描中出现的标签。CT扫描的标签通常来自相应的诊断报告，描述患者是否有特定的医疗问题(如肿瘤)。对于有肿瘤的CT扫描，我们只知道扫描中的一个或多个切片包含肿瘤。然而，我们不知道哪些切片含有肿瘤，也不知道肿瘤在这些切片中的确切位置。虽然已经提出了多种机器学习方法[103,104]来学习这种粗粒度的标签，但由于缺乏准确的信息，可能会导致性能较差。细粒度验证仍然需要改进数据质量。为此，一个潜在的解决方案是将交互式可视化与学习算法结合起来，通过检查总体数据分布和错误的预测，更好地说明性能差的根本原因，从而开发一个交互式验证过程，以提供更细粒度的标签，同时最大限度地减少专家的工作

Explainable feature engineering

现有的改进特征质量的工作主要集中在传统分析模型中的表格或文本数据上。这些数据的特征是可以自然解释的，这使得特征工程过程简单。然而，深度神经网络提取的特征比手工提取的特征表现更好。由于深度神经网络的黑盒特性，这些深度特征很难被解释，这给特征工程带来了诸多挑战

首先，提取的特征是在数据驱动的过程中获得的，当数据集有偏置时，可能不能很好地代表原始图像/视频;例如，给定一个只有深色狗和浅色猫的数据集，提取的特征可能会强调颜色，而忽略其他区分概念，比如脸和耳朵的形状。如果不清楚这些有偏差的特征，就很难以合适的方式纠正它们。因此，未来工作的一个有趣的主题是利用交互式可视化来揭示为什么这些特征是有偏差的。这里的关键挑战是如何度量被提取的特征保留或丢弃的信息，并以一种可理解的方式将其可视化

此外，提取的深度特征存在冗余。删除冗余特性可以带来几个好处，比如降低存储需求和提高通用化。然而，如果不清楚特征的确切含义，就很难判断一个特征是否冗余。因此，未来一个有趣的话题是开发一种可视分析方法，以一种可理解的方式来表达特征冗余，让专家来探索它，并去除冗余特征

Opportunities during model building

Online training diagnosis（在线训练诊断）

现有的用于模型诊断的可视化分析工具大多离线工作:诊断数据是在训练过程结束后收集的。他们已经展示了他们揭示失败训练过程的根本原因的能力。然而，随着现代机器学习模型变得越来越复杂，训练过程可能持续几天甚至几周。离线诊断严重制约了视觉分析辅助训练的能力。因此，开发用于在线诊断培训过程的可视化分析工具是非常必要的，这样模型开发人员就可以识别异常并及时对过程做出相应的调整。这可以在试错模型构建过程中节省大量时间

在线诊断的关键挑战是及时发现训练过程中的异常。尽管开发实时自动准确检测异常的算法仍然是一项艰巨的任务，但交互式可视化有望找到一种方法，在训练过程中定位潜在的错误。与离线诊断不同的是，训练过程中的数据将持续输入在线分析工具。因此，需要渐进的可视化技术来产生部分流数据的有意义的可视化结果。这些技术可以帮助专家监控在线模型培训过程，并快速识别可能的问题

Interactive model refinement (交互模型细化）

最近的研究探索了利用不确定性促进交互模型的细化，有许多方法为模型输出分配不确定性分数(例如，基于分类器产生的置信度分数)，并且可以使用视觉提示来引导用户检查具有高度不确定性的模型输出。模型的不确定性将在用户细化后重新计算，用户可以迭代执行，直到他们满意的结果。此外，还可以利用额外的信息为用户提供更智能的指导，以促进快速和准确的模型细化过程。然而，改进交互模型的空间仍然很大程度上没有被研究人员探索。一个可能的方向是，由于细化过程通常需要多次迭代，因此可以从用户之前的交互中学习后续迭代中的指导。例如，在集群应用程序中，用户可以在一些实例对上定义一些必须链接或不能链接的约束，这些约束可以用来指示模型在中间结果中分割或合并一些集群。此外，可以使用先验知识来预测需要改进的地方。例如，模型输出可能会与某些公共或领域知识发生冲突，特别是对于无监督模型(例如，非线性矩阵分解和主题建模的潜在Dirichlet分配)，在细化过程中应该考虑这些问题。因此，这种基于知识的策略侧重于揭示模型产生的不合理的结果，允许用户通过添加约束来细化模型

Opportunities after model building

Understanding multi-model data

现有的内容分析工作在理解文本、图像和视频等单模态数据方面取得了巨大成功。然而，现实世界的应用程序通常包含多模态数据，这些数据组合了几种不同的内容形式，如文本、音频和图像。例如，医生在考虑多种数据(如医疗记录(文本)、实验室报告(表格)和CT扫描(图像))后对患者进行诊断。在分析这些多模态数据时，仅通过简单地结合从单模态模型中学到的知识，无法很好地捕捉不同模态之间的深入关系。

采用多模态机器学习技术，并利用它们的能力来揭示不同形式的数据是很有希望的做法。为此，一个更强大的视觉分析系统对于理解这种多模态学习模型的输出至关重要。人们提出了许多机器学习模型来学习多模态数据的联合表示，包括自然语言、视觉信号和语音信号[105,106]。因此，未来的一个方向可能是如何以一种一体化的方式有效地可视化学习到的多模态数据的联合表示，以促进对数据及其关系的理解。各种经典的多模态任务可以用来增强视觉分析领域的自然交互。例如，在视觉和语言场景中，视觉基础任务(根据描述确定相应的图像区域)可以用于提供一个自然接口，以支持视觉环境中基于自然语言的图像检索

Analyzing concept drift

在现实世界的应用程序中，通常假设从输入数据到输出值(例如，预测标签)的映射是静态的。然而，随着数据的不断到达，输入数据和输出值之间的映射可能会以意想不到的方式改变。在这种情况下，在历史数据上训练的模型可能无法在新数据上正常工作。当应用程序数据与训练数据不匹配时，这通常会导致明显的性能下降。随着时间的推移，这种非平稳的学习问题被称为概念漂移(concept driift)。随着越来越多的机器学习应用直接使用流数据，检测和分析概念漂移并将其导致的性能退化最小化是非常重要的。在机器学习领域，研究了三个主要的研究课题:漂移检测、漂移理解和漂移适应(drift detection, drift understanding, and
drift adaptation)。机器学习研究人员提出了许多自动算法来检测和适应概念漂移。虽然这些算法可以提高学习模型在不确定环境下的适应性，但它们只是提供一个数值来衡量给定时间的漂移程度。这使得我们很难理解漂移发生的原因和地点。如果自适应算法不能改善模型性能，则自适应模型的黑盒行为使得诊断性能下降的根本原因变得困难。因此，模型开发人员需要能够直观地说明数据分布如何随时间变化，哪些样本会导致漂移，以及如何调整训练样本和模型来克服这种漂移的工具。这一需求自然导致了视觉分析范式的产生，在这个范式中，专家通过将人置于循环中，在概念漂移检测和适应算法方面进行交互和协作。这里的主要挑战是如何(1)可视化地表示流数据随时间的演变模式，并有效地比较数据在不同时间点的分布，(2)将流数据可视化与漂移检测和自适应算法紧密结合，形成一个人机交互的渐进分析环境

Conclusions

该论文综述了机器学习中视觉分析技术的最新进展。

根据相应的分析阶段，这些技术被分为三组:techniques before, during and after mode。每一类都进行了描述并列出了代表性的任务。在综合分析现有机器学习视觉分析研究的基础上，提出了未来与机器学习相关的视觉分析研究的6个方向，包括提高弱监督学习的数据质量、模型构建前可解释的特征工程、模型建立过程中的在线训练诊断和智能模型细化，模型建立后的多模态数据理解和概念漂移分析

References

[1] Liu, S. X.; Wang, X. T.; Liu, M. C.; Zhu, J. Towards better analysis of machine learning models: A visual analytics perspective. Visual Informatics Vol. 1, No.1, 48–56, 2017.
[2] Choo, J.; Liu, S. X. Visual analytics for explainable deep learning. IEEE Computer Graphics and Applications Vol. 38, No. 4, 84–92, 2018.
[3] Hohman, F.; Kahng, M.; Pienta, R.; Chau, D. H. Visual analytics in deep learning: An interrogative survey for the next frontiers. IEEE Transactions on Visualization and Computer Graphics Vol. 25, No. 8, 2674–2693, 2019.
[4] Zeiler, M. D.; Fergus, R. Visualizing and understanding convolutional networks. In: Computer Vision–ECCV 2014. Lecture Notes in Computer Science, Vol. 8689. Fleet, D.; Pajdla, T.; Schiele, B.; Tuytelaars, T. Eds. Springer Cham, 818–833, 2014.
[5] Liu, S. X.; Wang, X. T.; Collins, C.; Dou, W. W.; Ouyang, F.; El-Assady, M.; Jiang, L.; Keim, D. A. Bridging text visualization and mining: A task-driven survey. IEEE Transactions on Visualization and Computer Graphics Vol. 25, No. 7, 2482–2504, 2019.
[6] Lu, Y. F.; Garcia, R.; Hansen, B.; Gleicher, M.; Maciejewski, R. The state-of-the-art in predictive visual analytics. Computer Graphics Forum Vol. 36, No. 3, 539–562, 2017.
[7] Sacha, D.; Kraus, M.; Keim, D. A.; Chen, M. VIS4ML: An ontology for visual analytics assisted machine learning. IEEE Transactions on Visualization and Computer Graphics Vol. 25, No. 1, 385–395, 2019.
[8] Marsland, S. Machine Learning: an Algorithmic Perspective. Chapman and Hall/CRC, 2015.
[9] Hung, N. Q. V.; Thang, D. C.; Weidlich, M.; Aberer, K. Minimizing efforts in validating crowd answers. In: Proceedings of the ACM SIGMOD International Conference on Management of Data, 999–1014, 2015.
[10] Liu, S.; Andrienko, G.; Wu, Y.; Cao, N.; Jiang, L.; Shi, C.; Wang, Y.-S.; Hong, S. Steering data quality with visual analytics: The complexity challenge. Visual Informatics Vol. 2, No. 4, 191–197, 2018.
[11] Kandel, S.; Parikh, R.; Paepcke, A.; Hellerstein, J. M.; Heer, J. Profiler: Integrated statistical analysis and visualization for data quality assessment. In: Proceedings of the International Working Conference on Advanced Visual Interfaces, 547–554, 2012.
[12] Alemzadeh, S.; Niemann, U.; Ittermann, T.; V¨ olzke, H.; Schneider, D.; Spiliopoulou, M.; B¨ uhler, K.; Preim, B. Visual analysis of missing values in longitudinal cohort study data. Computer Graphics Forum Vol. 39, No. 1, 63–75, 2020.
[13] Bors, C.; Gschwandtner, T.; Miksch, S. Capturing and visualizing provenance from data wrangling. IEEE Computer Graphics and Applications Vol. 39, No. 6, 61–75, 2019.
[14] Chen, C. J.; Yuan, J.; Lu, Y. F.; Liu, Y.; Su, H.; Yuan, S. T.; Liu, S. X. OoDAnalyzer: Interactive analysis of out-of-distribution samples. IEEE Transactions on Visualization and Computer Graphics doi: 10.1109/TVCG.2020.2973258, 2020.
[15] Arbesser, C.; Spechtenhauser, F.; Muhlbacher, T.; Piringer, H. Visplause: Visual data quality assessment of many time series using plausibility checks. IEEE Transactions on Visualization and Computer Graphics Vol. 23, No. 1, 641–650, 2017.
[16] Gschwandtner, T.; Erhart, O. Know your enemy: Identifying quality problems of time series data. In: Proceedings of the IEEE Pacific Visualization Symposium, 205–214, 2018.
[17] Dextras-Romagnino, K.; Munzner, T. Segmen++ tifier: Interactive refinement of clickstream data. Computer Graphics Forum Vol. 38, No. 3, 623–634, 2019.
[18]Bernard, J.; Hutter, M.; Reinemuth, H.; Pfeifer, H.; Bors, C.; Kohlhammer, J. Visual-interactive pre- processing of multivariate time series data. Computer Graphics Forum Vol. 38, No. 3, 401–412, 2019.
[19] Wang, X. M.; Chou, J. K.; Chen, W.; Guan, H. H.; Chen, W. L.; Lao, T. Y.; Ma, K.-L. A utility-aware visual approach for anonymizing multi-attribute tabular data. IEEE Transactions on Visualization and Computer Graphics Vol. 24, No. 1, 351–360, 2018.
[20] Wang, X. M.; Chen, W.; Chou, J. K.; Bryan, C.; Guan, H. H.; Chen, W. L.; Pan, R.; Ma, K.-L. GraphProtector: A visual interface for employing and assessing multiple privacy preserving graph algorithms. IEEE Transactions on Visualization and Computer Graphics Vol. 25, No. 1, 193–203, 2019.
[21] Willett, W.; Ginosar, S.; Steinitz, A.; Hartmann, B.; Agrawala, M. Identifying redundancy and exposing provenance in crowdsourced data analysis. IEEE Transactions on Visualization and Computer Graphics Vol. 19, No. 12, 2198–2206, 2013.
[22] Park, J. H.; Nadeem, S.; Mirhosseini, S.; Kaufman, A. C2A: Crowd consensus analytics for virtual colonoscopy. In: Proceedings of the IEEE Conference on Visual Analytics Science and Technology, 21–30, 2016.
[23] Park, J. H.; Nadeem, S.; Boorboor, S.; Marino, J.; Kaufman, A. E. CMed: Crowd analytics for medical imaging data. IEEE Transactions on Visualization and Computer Graphics doi: 10.1109/ TVCG.2019.2953026, 2019.
[24] Liu, S. X.; Chen, C. J.; Lu, Y. F.; Ouyang, F. X.; Wang, B. An interactive method to improve crowdsourced annotations. IEEE Transactions on Visualization and Computer Graphics Vol. 25, No.1, 235–245, 2019.
[25] Xiang, S.; Ye, X.; Xia, J.; Wu, J.; Chen, Y.; Liu, S. Interactive correction of mislabeled training data.
[26] Paiva, J. G. S.; Schwartz, W. R.; Pedrini, H.; Minghim, R. An approach to supporting incremental visual data classification. IEEE Transactions on Visualization and Computer Graphics Vol. 21, No. 1, 4–17, 2015.
[27] B¨ auerle, A.; Neumann, H.; Ropinski, T. Classifier-guided visual correction of noisy labels for image classification tasks. Computer Graphics Forum Vol. 39, No. 3, 195–205, 2020.
[28] Moehrmann, J.; Bernstein, S.; Schlegel, T.; Werner, G.; Heidemann, G. Improving the usability of hierarchical representations for interactively labeling large image data sets. In: Human-Computer Interaction. Design and Development Approaches. Lecture Notes in Computer Science, Vol. 6761. Jacko, J. A. Ed. Springer Berlin, 618–627, 2011.
[29] Khayat, M.; Karimzadeh, M.; Zhao, J. Q.; Ebert, D. S. V ASSL: A visual analytics toolkit for social spambot labeling. IEEE Transactions on Visualization and Computer Graphics Vol. 26, No. 1, 874–883, 2020.
[30] Kurzhals, K.; Hlawatsch, M.; Seeger, C.; Weiskopf, D. Visual analytics for mobile eye tracking. IEEE Transactions on Visualization and Computer Graphics Vol. 23, No. 1, 301–310, 2017.
[31] Halter, G.; Ballester-Ripoll, R.; Flueckiger, B.; Pajarola, R. VIAN: A visual annotation tool for film analysis. Computer Graphics Forum Vol. 38, No. 3, 119–129, 2019.
[32] De Rooij, O.; van Wijk, J. J.; Worring, M. MediaTable: Interactive categorization of multimedia collections. IEEE Computer Graphics and Applications Vol. 30, No. 5, 42–51, 2010.
[33] Stein, M.; Janetzko, H.; Breitkreutz, T.; Seebacher, D.; Schreck, T.; Grossniklaus, M.; Couzin, I. D.; Keim, D. A. Director’s cut: Analysis and annotation of soccer matches. IEEE Computer Graphics and Applications Vol. 36, No. 5, 50–60, 2016.
[34] H¨ oferlin, B.; Netzel, R.; H¨ oferlin, M.; Weiskopf, D.; Heidemann, G. Inter-active learning of ad-hoc classifiers for video visual analytics. In: Proceedings of the Conference on Visual Analytics Science and Technology, 23–32, 2012.
[35] Bernard, J.; Hutter, M.; Zeppelzauer, M.; Fellner, D.; Sedlmair, M. Comparing visual-interactive labeling with active learning: An experimental study. IEEE Transactions on Visualization and Computer Graphics Vol. 24, No. 1, 298–308, 2018.
[36] Bernard, J.; Zeppelzauer, M.; Lehmann, M.; M¨ uller, M.; Sedlmair, M. Towards user-centered active learning algorithms. Computer Graphics Forum Vol. 37, No. 3, 121–132, 2018.
[37] Seo, J.; Shneiderman, B. A rank-by-feature framework for interactive exploration of multidimensional data. Information Visualization Vol. 4, No. 2, 96–113, 2005.
[38] Tam, G. K. L.; Fang, H.; Aubrey, A. J.; Grant, P. W.; Rosin, P. L.; Marshall, D.; Chen, M. Visualization of time-series data in parameter space for understanding facial dynamics. Computer Graphics Forum Vol. 30, No. 3, 901–910, 2011.
[39] Krause, J.; Perer, A.; Bertini, E. INFUSE: Interactive feature selection for predictive modeling of high dimensional data. IEEE Transactions on Visualization and Computer Graphics Vol. 20, No. 12, 1614–1623, 2014.
[40] Brooks, M.; Amershi, S.; Lee, B.; Drucker, S. M.; Kapoor, A.; Simard, P. FeatureInsight: Visual support for error-driven feature ideation in text classification. In: Proceedings of the IEEE Conference on Visual Analytics Science and Technology, 105–112, 2015.
[41] Ingram, S.; Munzner, T.; Irvine, V.; Tory, M.; Bergner, S.; M¨ oller, T. DimStiller: Workflows for dimensional analysis and reduction. In: Proceedings of the IEEE Conference on Visual Analytics Science and Technology, 3–10, 2010.
[42] Ferreira, N.; Lins, L.; Fink, D.; Kelling, S.; Wood, C.; Freire, J.; Silva, C. BirdVis: Visualizing and understanding bird populations. IEEE Transactions on Visualization and Computer Graphics Vol. 17, No. 12, 2374–2383, 2011.
[43] Zhang, J. W.; E, Y. L.; Ma, J.; Zhao, Y. H.; Xu, B. H.; Sun, L. T.; Chen, J.; Yuan, X. Visual analysis of public utility service problems in a metropolis. IEEE Transactions on Visualization and Computer Graphics Vol. 20, No. 12, 1843–1852, 2014.
[44] Tzeng, F.-Y.; Ma, K.-L. Opening the black box—Data driven visualization of neural networks. In: Proceedings of the IEEE Conference on Visualization, 383–390, 2005.
[45] Liu, M. C.; Shi, J. X.; Li, Z.; Li, C. X.; Zhu, J.; Liu, S. X. Towards better analysis of deep convolutional neural networks. IEEE Transactions on Visualization and Computer Graphics Vol. 23, No. 1, 91–100, 2017.
[46] Wongsuphasawat, K.; Smilkov, D.; Wexler, J.; Wilson,
J.; Mane, D.; Fritz, D.; Krishnan, D.; Viegas, F. B.; Wattenberg, M. Visualizing dataflow graphs of deep learning models in TensorFlow. IEEE Transactions on Visualization and Computer Graphics Vol. 24, No. 1, 1–12, 2018.
[47] Rauber, P. E.; Fadel, S. G.; Falcao, A. X.; Telea, A. C. Visualizing the hidden activity of artificial neural networks. IEEE Transactions on Visualization and Computer Graphics Vol. 23, No. 1, 101–110, 2017.
[48] Strobelt, H.; Gehrmann, S.; Pfister, H.; Rush, A. M. LSTMVis: A tool for visual analysis of hidden state dynamics in recurrent neural networks. IEEE Transactions on Visualization and Computer Graphics Vol. 24, No. 1, 667–676, 2018.
[49] Ming, Y.; Cao, S.; Zhang, R.; Li, Z.; Chen, Y.; Song, Y.; Qu, H. Understanding hidden memories of recurrent neural networks. In: Proceedings of the IEEE Conference on Visual Analytics Science and Technology, 13–24, 2017.
[50] Hohman, F.; Park, H.; Robinson, C.; Polo Chau, D. H. Summit: Scaling deep learning interpretability by visualizing activation and attribution summarizations. IEEE Transactions on Visualization and Computer Graphics Vol. 26, No. 1, 1096–1106, 2020.
[51] Kahng, M.; Andrews, P. Y.; Kalro, A.; Chau, D. H. ActiVis: Visual exploration of industry-scale deep neural network models. IEEE Transactions on Visualization and Computer Graphics Vol. 24, No. 1, 88–97, 2018.
[52] Ming, Y.; Qu, H. M.; Bertini, E. RuleMatrix: Visualizing and understanding classifiers with rules. IEEE Transactions on Visualization and Computer Graphics Vol. 25, No. 1, 342–352, 2019.
[53] Wang, J. P.; Gou, L.; Zhang, W.; Yang, H.; Shen, H. W. DeepVID: Deep visual interpretation and diagnosis for image classifiers via knowledge distillation. IEEE Transactions on Visualization and Computer Graphics Vol. 25, No. 6, 2168–2180, 2019.
[54] Alsallakh, B.; Hanbury, A.; Hauser, H.; Miksch, S.; Rauber, A. Visual methods for analyzing probabilistic classification data. IEEE Transactions on Visualization and Computer Graphics Vol. 20, No. 12, 1703–1712, 2014.
[55] Bilal, A.; Jourabloo, A.; Ye, M.; Liu, X. M.; Ren, L. 2018. Do convolutional neural networks learn class hierarchy? IEEE Transactions on Visualization and Computer Graphics Vol. 24, No. 1, 152–162, 2018.
[56] Gleicher, M.; Barve, A.; Yu, X. Y.; Heimerl, F. Boxer: Interactive comparison of classifier results. Computer Graphics Forum Vol. 39, No. 3, 181–193, 2020.
[57] Ren, D. H.; Amershi, S.; Lee, B.; Suh, J.; Williams, J. D. Squares: Supporting interactive performance analysis for multiclass classifiers. IEEE Transactions on Visualization and Computer Graphics Vol. 23, No. 1, 61–70, 2017.
[58] Ahn, Y.; Lin, Y. R. FairSight: Visual analytics for fairness in decision making. IEEE Transactions on Visualization and Computer Graphics Vol. 26, No. 1, 1086–1095, 2019.
[59] Cabrera, A. A.; Epperson, W.; Hohman, F.; Kahng, M.; Morgenstern, J.; Chau, D. H.; F AIR VIS: Visual analytics for discovering intersectional bias in machine learning. In: Proceedings of the IEEE Conference on Visual Analytics Science and Technology, 46–56, 2019.
[60] Wexler, J.; Pushkarna, M.; Bolukbasi, T.; Wattenberg, M.; Viegas, F.; Wilson, J. The what-if tool: Interactive probing of machine learning models. IEEE Transactions on Visualization and Computer Graphics Vol. 26, No. 1, 56–65, 2019.
[61] Cao, K. L.; Liu, M. C.; Su, H.; Wu, J.; Zhu, J.; Liu, S. X. Analyzing the noise robustness of deep neural networks. IEEE Transactions on Visualization and Computer Graphics doi: 10.1109/TVCG.2020.2969185, 2020.
[62] Ma, Y. X.; Xie, T. K.; Li, J. D.; Maciejewski, R. Explaining vulnerabilities to adversarial machine learning through visual analytics. IEEE Transactions on Visualization and Computer Graphics Vol. 26, No. 1, 1075–1085, 2020.
[63] Liu, M. C.; Shi, J. X.; Cao, K. L.; Zhu, J.; Liu, S. X. Analyzing the training processes of deep generative models. IEEE Transactions on Visualization and Computer Graphics Vol. 24, No. 1, 77–87, 2018.
[64] Wang, J. P.; Gou, L.; Shen, H. W.; Yang, H. DQNViz: A visual analytics approach to understand deep Q-networks. IEEE Transactions on Visualization and Computer Graphics Vol. 25, No. 1, 288–298, 2019.
[65] He, W.; Lee, T.-Y.; van Baar, J.; Wittenburg, K.; Shen, H.-W. DynamicsExplorer: Visual analytics for robot control tasks involving dynamics and LSTM-based control policies. In: Proceedings of the IEEE Pacific Visualization Symposium, 36–45, 2020.
[66] Ming, Y.; Xu, P. P.; Cheng, F. R.; Qu, H. M.; Ren, L. ProtoSteer: Steering deep sequence model with prototypes. IEEE Transactions on Visualization and Computer Graphics Vol. 26, No. 1, 238–248, 2020.
[67] Ming, Y.; Xu, P. P.; Qu, H. M.; Ren, L. Interpretable and steerable sequence learning via prototypes. In: Proceedings of the ACM SIGKDD International Conference on Knowledge Discovery & Data Mining, 903–913, 2019.
[68] Van den Elzen, S.; van Wijk, J. J. BaobabView: Interactive construction and analysis of decision trees. In: Proceedings of the IEEE Conference on Visual Analytics Science and Technology, 151–160, 2011.
[69] Yang, W. K.; Wang, X. T.; Lu, J.; Dou, W. W.; Liu, S. X. Interactive steering of hierarchical clustering. IEEE Transactions on Visualization and Computer Graphics doi: 10.1109/TVCG.2020.2995100, 2020.
[70] Liu, M. C.; Liu, S. X.; Zhu, X. Z.; Liao, Q. Y.; Wei, F. R.; Pan, S. M. An uncertainty-aware approach for exploratory microblog retrieval. IEEE Transactions on Visualization and Computer Graphics Vol. 22, No. 1, 250–259, 2016.
[71] Cavallo, M.; Demiralp, C. Clustrophile 2: Guided visual clustering analysis. IEEE Transactions on Visualization and Computer Graphics Vol. 25, No. 1, 267–276, 2019.
[72] Das, S.; Cashman, D.; Chang, R.; Endert, A. BEAMES: Interactive multimodel steering, selection, and inspection for regression tasks. IEEE Computer Graphics and Applications Vol. 39, No. 5, 20–32, 2019.
[73] Gorg, C.; Liu, Z. C.; Kihm, J.; Choo, J.; Park, H.; Stasko, J. Combining computational analyses and interactive visualization for document exploration and sensemaking in jigsaw. IEEE Transactions on Visualization and Computer Graphics Vol. 19, No. 10, 1646–1663, 2013.
[74] Liu, S.; Wang, X.; Chen, J.; Zhu, J.; Guo, B. TopicPanorama: A full picture of relevant topics. In: Proceedings of the IEEE Conference on Visual Analytics Science and Technology, 183–192, 2014.
[75] Dou, W.; Cho, I.; ElTayeby, O.; Choo, J.; Wang, X.; Ribarsky, W.; DemographicVis: Analyzing demographic information based on user generated content. In: Proceedings of the IEEE Conference on Visual Analytics Science and Technology, 57–64,2015.
[76] Kosara, R.; Bendix, F.; Hauser, H. Parallel sets: Interactive exploration and visual analysis of categorical data. IEEE Transactions on Visualization and Computer Graphics Vol. 12, No. 4, 558–568, 2006.
[77] Berger, M.; McDonough, K.; Seversky, L. M. Cite2vec: Citation-driven document exploration via word embeddings. IEEE Transactions on Visualization and Computer Graphics Vol. 23, No. 1, 691–700, 2017.
[78] Hong, F.; Lai, C.; Guo, H.; Shen, E.; Yuan, X.; Li. S. FLDA: Latent Dirichlet allocation based unsteady flow analysis. IEEE Transactions on Visualization and Computer Graphics Vol. 20, No.12, 2545–2554, 2014.
[79] Blumenschein, M.; Behrisch, M.; Schmid, S.; Butscher, S.; Wahl, D. R.; Villinger, K.; Renner, B.; Reiterer, H.; Keim, D. A. SMARTexplore: Simplifying high-dimensional data analysis through a table-based visual analytics approach. In: Proceedings of the IEEE Conference on Visual Analytics Science and Technology, 36–47, 2018.
[80] Havre, S.; Hetzler, E.; Whitney, P.; Nowell, L. ThemeRiver: Visualizing thematic changes in large document collections. IEEE Transactions on Visualization and Computer Graphics Vol. 8, No. 1, 9–20, 2002.
[81] Liu, S.; Zhou, M. X.; Pan, S.; Song, Y.; Qian, W.; Cai, W.; Lian, X. TIARA: Interactive, topic-based visual text summarization and analysis. ACM Transactions on Intelligent Systems and Technology Vol. 3, No.2, Article No. 25, 2012.
[82] Wei, F. R.; Liu, S. X.; Song, Y. Q.; Pan, S. M.; Zhou, M. X.; Qian, W. H.; Shi, L.; Tan, L.; Zhang, Q. TIARA: A visual exploratory text analytic system. In: Proceedings of the 16th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining, 153–162, 2010.
[83] Cui, W. W.; Liu, S. X.; Tan, L.; Shi, C. L.; Song, Y. Q.; Gao, Z. K.; Qu, H. M.; Tong, X. TextFlow: Towards better understanding of evolving topics in text. IEEE Transactions on Visualization and Computer Graphics Vol. 17, No. 12, 2412–2421, 2011.
[84] Teh, Y. W.; Jordan, M. I.; Beal, M. J.; Blei, D. M. Hierarchical dirichlet processes. Journal of the American Statistical Association Vol. 101, No. 476, 1566–1581, 2006.
[85] Xu, P. P.; Wu, Y. C.; Wei, E. X.; Peng, T. Q.; Liu, S. X.; Zhu, J. J.; Qu. H. Visual analysis of topic competition on social media. IEEE Transactions on Visualization and Computer Graphics Vol. 19, No. 12, 2012–2021, 2013.
[86] Sun, G. D.; Wu, Y. C.; Liu, S. X.; Peng, T. Q.; Zhu, J. J. H.; Liang, R. H. EvoRiver: Visual analysis of topic coopetition on social media. IEEE Transactions on Visualization and Computer Graphics Vol. 20, No. 12, 1753–1762, 2014.
[87] Wang, X.; Liu, S.; Chen, Y.; Peng, T.-Q.; Su, J.; Yang, J.; Guo, B. How ideas flow across multiple social groups. In: Proceedings of the IEEE Conference on Visual Analytics Science and Technology, 51–60, 2016.
[88] Cui, W. W.; Liu, S. X.; Wu, Z. F.; Wei, H. How hierarchical topics evolve in large text corpora. IEEE Transactions on Visualization and Computer Graphics Vol. 20, No. 12, 2281–2290, 2014.
[89] Wang, X. T.; Liu, S. X.; Song, Y. Q.; Guo, B. N. Mining evolutionary multi-branch trees from text streams. In: Proceedings of the 19th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining, 722–730, 2013.
[90] Liu, Z.; Wang, Y.; Dontcheva, M.; Hofiman, M.; Walker, S.; Wilson, A. Patterns and sequences: Interactive exploration of clickstreams to understand common visitor paths. IEEE Transactions on Visualization and Computer Graphics Vol. 23, No.1, 321–330, 2017.
[91] Guo, S. N.; Xu, K.; Zhao, R. W.; Gotz, D.; Zha, H. Y.; Cao, N. EventThread: Visual summarization and stage analysis of event sequence data. IEEE Transactions on Visualization and Computer Graphics Vol. 24, No. 1, 56–65, 2018.
[92] Guo, S. N.; Jin, Z. C.; Gotz, D.; Du, F.; Zha, H. Y.; Cao, N. Visual progression analysis of event sequence data. IEEE Transactions on Visualization and Computer Graphics Vol. 25, No. 1, 417–426, 2019.
[93] Andrienko, G.; Andrienko, N.; Hurter, C.; Rinzivillo, S.; Wrobel, S. Scalable analysis of movement data for extracting and exploring significant places. IEEE Transactions on Visualization and Computer Graphics Vol. 19, No. 7, 1078–1094, 2013.
[94] Chu, D.; Sheets, D. A.; Zhao, Y.; Wu, Y.; Yang, J.; Zheng, M.; Chen, G. Visualizing hidden themes of taxi movement with semantic transformation. In: Proceedings of the IEEE Pacific Visualization Symposium, 137–144, 2014.
[95] Zhou, Z. G.; Meng, L. H.; Tang, C.; Zhao, Y.; Guo, Z. Y.; Hu, M. X.; Chen, W. Visual abstraction of large scale geospatial origin-destination movement data. IEEE Transactions on Visualization and Computer Graphics Vol. 25, No. 1, 43–53, 2019.
[96] Krueger, R.; Thom, D.; Ertl, T. Semantic enrichment of movement behavior with foursquare— A visual analytics approach. IEEE Transactions on Visualization and Computer Graphics Vol. 21, No. 8, 903–915, 2015.
[97] Chen, S. M.; Yuan, X. R.; Wang, Z. H.; Guo, C.; Liang, J.; Wang, Z. C.; Zhang, X.; Zhang, J. Interactive visual discovering of movement patterns from sparsely sampled geo-tagged social media data. IEEE Transactions on Visualization and Computer Graphics Vol. 22, No. 1, 270–279, 2016.
[98] Thom, D.; Bosch, H.; Koch, S.; W¨ orner, M.; Ertl, T. Spatiotemporal anomaly detection through visual analysis of geolocated Twitter messages. In: Proceedings of the IEEE Pacific Visualization Symposium, 41–48, 2012.
[99] Bosch, H.; Thom, D.; Heimerl, F.; Puttmann, E.; Koch, S.; Kruger, R.; Worner, M.; Ertl, T. ScatterBlogs2: real-time monitoring of microblog messages through user-guided filtering. IEEE Transactions on Visualization and Computer Graphics Vol. 19, No. 12, 2022–2031, 2013.
[100] Liu, S. X.; Yin, J. L.; Wang, X. T.; Cui, W. W.; Cao, K. L.; Pei, J. Online visual analytics of text streams. IEEE Transactions on Visualization and Computer Graphics Vol. 22, No. 11, 2451–2466, 2016.
[101] Wu, Y. C.; Chen, Z. T.; Sun, G. D.; Xie, X.; Cao, N.; Liu, S. X.; Cui, W. StreamExplorer: A multi-stage system for visually exploring events in social streams. IEEE Transactions on Visualization and Computer Graphics Vol. 24, No. 10, 2758–2772, 2018.
[102] Lee, C.; Kim, Y.; Jin, S.; Kim, D.; Maciejewski, R.; Ebert, D.; Ko, S. A visual analytics system for exploring, monitoring, and forecasting road traffic congestion. IEEE Transactions on Visualization and Computer Graphics Vol. 26, No. 11, 3133–3146, 2020.
[103] Foulds, J.; Frank, E. A review of multi-instance learning assumptions. The Knowledge Engineering Review Vol. 25, No. 1, 1–25, 2010.
[104] Zhou, Z. H. Multi-instance learning from supervised view. Journal of Computer Science and Technology Vol. 21, No. 5, 800–809, 2006.
[105] Baltrusaitis, T.; Ahuja, C.; Morency, L. P. Multimodal machine learning: A survey and taxonomy. IEEE Transactions on Pattern Analysis and Machine Intelligence Vol. 41, No. 2, 423–443, 2019.
[106] Lu, J.; Batra, D.; Parikh, D.; Lee, S. ViLBERT: Pretraining task-agnostic visiolinguistic representations for vision-and-language tasks. In: Proceedings of the Advances in Neural Information Processing Systems, 13–23, 2019.

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

论文阅读 ：A survey of visual analytics techniques for machine learning

A survey of visual analytics techniques for machine learning

概述

Introduction

Taxonomy

Techniques before model building

data quality

feature engineering

Techniques during model building

Techniques after model building

Techniques before model building

Improving data quality

instance-level improvement

label-level improvement

improving feature quality

Techniques during model building

model understanding

Understanding the effects of parameters

Understanding model behaviours

Model diagnosis

Analyzing training dynamics

Model steering

Model refinement with human knowledge

Model selection from an ensemble

Techniques after model building

understanding static data analysis results

textual data analysis

other data analysis

Understanding dynamic data analysis results

offline analysis

online analysis

Research opportunities

Opportunities befour model building

Improving data quality for weakly supervised learning

Explainable feature engineering

Opportunities during model building

Online training diagnosis（在线训练诊断）

Interactive model refinement (交互模型细化）

Opportunities after model building

Understanding multi-model data

Analyzing concept drift

Conclusions

References

论文阅读 ：A survey of visual analytics techniques for machine learning 的相关文章

随机推荐

热门标签

论文阅读：A survey of visual analytics techniques for machine learning

论文阅读：A survey of visual analytics techniques for machine learning 的相关文章