开放集识别

2023-11-13

 0.摘要 

 1.到目前为止,在计算机视觉中,几乎所有基于机器学习的识别算法的实验评估都采用了封闭集识别的形式,即在训练时已知所有测试类。对于视觉应用来说,一个更现实的场景是开放集识别,在训练时存在不完整的世界知识,在测试时未知的类可以提交给算法本文探讨了开集识别的性质,并将其定义形式化为约束最小化问题。现有算法不能很好地解决开放集识别问题,因为它需要很强的泛化能力。作为解决方案的一个步骤,我们引入了一个新的1-vs-set机器,它雕刻一个决策空间的边缘距离的1-class或binary svm的线性核。这种方法适用于计算机视觉的几个不同的应用,其中开放集识别是一个具有挑战性的问题,包括对象识别和人脸验证。我们在这项工作同时考虑了这两个问题,大规模跨数据集实验在Caltech 256 and ImageNet sets上执行,以及LFW数据集上执行人脸匹配实验。与现有1-class and binary SVMs相比,实验证明了在相同的任务上,提出方法的有效性。

摘要解读:

  1. 陈述背景,指明为什么要进行开放集识别。
  2. 将开放集识别定义为经验风险+开放空间风险最小化问题
  3. 提出一个解决方案1-vs-set机器,并且在对象识别和人脸验证两个领域上,验证了提出方法的有效性

1.引言

识别和分类是计算机视觉中的常见术语。有什么区别吗?在分类中,我们假设存在一组特定的类,我们必须在这些类之间加以区别。在识别方面,我们假设有一些类我们可以在更大的空间里识别我们不识别的东西。激发我们工作的一个问题是:一般的物体识别问题是什么?当然,这个问题是《vision》的中心主题。根据Duin和Pekalska[1]的说法,一个人应该如何获得多阶层的认可仍然是一个开放的问题。它应该作为一系列的二进制分类来执行,还是通过检测来执行,在那里搜索每一个可能的类?当某些类被错误地采样、完全没有采样或未定义时,会发生什么。一般术语识别(以及本文所考虑的特定术语对象识别和人脸验证)表明,该表示可以处理不同的模式,通常是通过区分特征来定义的。它还建议,要识别的模式将在一般设置中,在视觉上与许多类混合。然而,对于某些问题,我们不需要也往往不可能掌握所有可能的类的知识(见图1)。例如,在生物学家的识别应用中,可能会对某一种鱼感兴趣。然而,分类器必须将相关设置中所有其他可能的对象的集合视为潜在的否定。类似地,面向安全的人脸匹配的验证问题将感兴趣的目标限制在一个声明的身份,而将所有其他可能的人作为潜在的冒名顶替者。在处理一般的对象识别,在无数的未知对象中有一个有限的已知对象集,组合和配置,标记一些新的,新奇的,或未知的应该总是一个有效的结果。这就导致了所谓的开放集识别,与那些做出封闭世界假设或使用封闭集计算的系统相比。

对于许多视觉问题,研究人员假设我们有来自所有类别的例子,并随后以二进制方式将整个空间标记为正(þ1)或负(1)。与此相反,一个开放集场景在测试中拥有训练中没有的类,而不仅仅是实例。假设我们能收集到正面类的例子是有点合理的,但是 "负面 "的数量和种类却没有很好的模型。重要的区别在于,用Zhou和Huang的话说[2](从托尔斯泰那里得到了一点启发),"所有的正面例子都是一样的;每个负面例子都有其负面的一面"。此外,即使所有的负面类都是已知的,从实用的角度来看,我们一般不可能有足够多的正面例子来平衡所需的负面类的采样。在任何一种情况下,我们都试图将问题从封闭世界的假设中概括为一个开放集。目标检测也许是最常见的视觉问题,但它并不存在于特定的封闭设置中。检测的目的是定位图像中感兴趣的目标。因为阴性检测不是感兴趣的。这个问题是开放的,而不是封闭的。流行的检测方法用一个相对适度的正例子采样和一个非常大的(通常是数以百万计的)来自数千个不同类的负例子采样来训练二进制分类器。当有可能对负类进行良好的采样时,这是一种合适的策略,但由于对可能的负类的了解非常不完整,在许多情况下它可能会导致不准确。此外,我们通常会留下一个负的集合偏差[3]这是由我们所知道的大量的班级抽样所定义的。从某种意义上说,当我们对可能类的领域有非常有限的知识时,检测就成为开放集识别的一种特殊情况,只有一类是我们感兴趣的。

图1描述了几种常见的开放程度不同的视觉问题。直觉上,一个只有单一兴趣类别的问题比一个有许多兴趣类别的问题要不那么公开。然而,我们可能遇到的未知类的数量也应该起到关键作用。让我们通过考虑要识别的目标类的数量、训练中使用的类的数量和测试中使用的类的数量来形式化一个特定问题或数据空间的开放性。

上面的公式产生了百分之百的开放性(值在0到100%之间),其中百分之百代表一个完全封闭的问题,值越大,问题就越开放。对于固定数量的培训课程,增加测试类的数量会增加开放性,就像增加需要识别的目标类的数量一样。在培训过程中,增加课程的可用性会降低开放性。通过对(1)取平方根,开放性随着类数量的增加而逐渐增长(如果是线性的,那么在这个公式中,开放性会迅速向只有中等数量的类的1移动,这是没有意义的)。表1显示了我们工作中考虑的不同例子的开放性值,以及图1中问题谱系中的其他例子的开放性值。每个类的训练实例的数量对给定分类器的准确性很重要,但不是类的属性问题本身,因此不是这个定义的一部分。对于几乎任何不受约束的现实问题,测试类的数量可以随着开放性接近100%而快速增长。

开放集识别问题的潜在解决方案必须对未知类和已知类进行优化。与典型的多类分类的一个重要区别是,一般的开集多类解决方案必须能够将输入标记为已知的类之一或未知的类。仅仅返回最有可能的类是不够的:分类器还必须支持拒绝。我们在这里提供的第一个见解是,支持向量机(SVMs)定义了半空间,并将分类远离任何训练样本的数据。虽然我们需要支持强泛化的解决方案,但对于与给定标签相关的样本与已知数据的距离应该有一个限制。根据训练数据衡量的经验风险,是经典定义和优化的风险。然而,对于开放集识别来说,考虑如何扩展模型以捕获不充分的泛化或专门化带来的未知风险是至关重要的。这与二元分类器方法不同,二元分类器方法试图最大化边际,边际是正决策边界和负决策边界之间的差距。虽然最大裕度对于闭集问题非常有效,但这种方法通常会导致对开放集问题的过度泛化。例如,在图2中,包含未知数的空间(?)可能会被标记为狗,因为没有什么限制正向标签传播,如果决定边界存在于鸟、青蛙和狗之间。支持向量机只考虑已知的负性,找到一个平面来分离正类和负类。人们可能会把最大裕度方法看作是假设所有的未知点都有相等的可能是正的或负的,基于最近的点,即使这个点非常远。对于一个来自未知类的样本,比如浣熊,这是一个错误的假设。我们认为,要想解决开放集识别问题,需要在训练样本的合理支持之外,最小化代表学习识别函数f的开放空间。

这项工作的主要目标是对监督学习环境下的开放集识别有一个彻底的了解。我们构建了这个问题的第一个形式化,并提供了一个经验案例,扩大了现有的具有线性核的1类和2类SVM来解决开放集识别问题。由此产生的1-vs-set机器是朝向解决方案的一步。具体来说,我们重新审视了1类和二元SVM在开放集识别问题上的思路,并通过一种新的学习技术解决了泛化/专业化问题。我们没有把泛化/专业化问题作为SVM训练函数的误差最小化来处理,而是引入了一个开放空间风险的概念,然后将训练数据上的经验风险与开放空间的风险模型相结合,使误差函数最小化。已知类训练数据代表1-vs-set的 "Set"。为了提高整个开放集的识别误差,我们的1-vs-set公式通过从基础SVM获得决策边界A周围的核心余量来平衡未知类,通过增加另一个平面来专门化所产生的半空间,然后概括或专门化这两个平面(如图2所示)来优化经验和开放空间风险。这个过程使用开放集训练数据和风险模型来定义一个新的 "开放集边缘"。第二个平面允许1-vs-set机器避免过度归纳,以免对图2中的浣熊进行错误分类。整体的优化也可以调整原来相对于A的余量,以减少开放空间的风险,这可以避免像猫头鹰这样的负面因素。

我们将本文的其余部分组织如下:首先,我们将在第2节中形式化开放集识别问题。在第3节中,我们将介绍开放集识别和机器学习的相关工作,包括视觉和模式识别。在第4节中,我们形式化了我们的边际泛化和专业化的理论模型,以发展1-vs-set机器。我们将该模型与常用的SVM模型进行比较,用于对象识别和人脸验证问题,并在第5节给出结果。我们将在第6节中总结和讨论未来工作的一些想法。

解读:

  1. 识别和分类的区别是,识别应该可以发现未知类(识别已知类和未知类),而分类只需要区分已知类(分类已知样本和未知样本)
  2. 引出一种开放集识别类型,即正类只有一类,负类无穷多类,部分未知,部分已知。如目标检测
  3. 定义开放性,如公式1,与目标类的数目、未知类的数目(testing-training)正相关。
  4. 说明现有分类器在面对开放集识别时的过度泛化问题,并给出开放集识别的一个方案,即在SVM的决策边界两边进行进一步的限制,使得与训练样本在一定距离内的空间能够划分为训练类。
  5. 引出后文开放空间风险的概念,并将开放集识别问题形式化为经验风险与开放空间的风险最小化问题。并且通过扩展现有ocsvm,bisvm在开放集识别中泛化和专门化的方案,来解决这个问题。

2.开放集识别形式化解读

假设来自不同类别的物体图像被处理成d维表示,即我们测量特征向量x属于IR^d.我们假设我们有无数个由IN标记的类别y,并且存在一个概率度量将x映射到y。为了简单起见,我们将关注一个单一类别的开放集识别,在不失一般性的前提下,我们假设这个感兴趣的类别的标签是1。此外,我们假设一个样本既可以是正的,也可以是负的,但不能同时是两个(没有嵌套类)。让P代表正的输入空间,即感兴趣的类是最可能的类的输入。让f 是某类P的可测量的识别函数,将测量值x映射到标签y。

更确切地说,考虑一个损失函数L,它定义了对一个向量x的错误标签的惩罚。我们的总体目标是找到一个函数f,使我们的期望误差最小化。更准确地说,考虑一个损失函数L定义错误标签的惩罚一个向量x。

不幸的是,由于我们没有得到联合分布P(x,y),我们不能直接最小化(3),问题在基本表述中是无法解决的。在这一点上,传统的方法是改变问题,只使用我们知道的东西。正如Smola在[5,第1.2.1节]中指出的,"唯一的出路是用经验概率密度函数来近似P(x,y)"。因此,理想风险的最小化被转换为经验风险的最小化。不幸的是,即使是最小化经验风险,在一般情况下也是不可行的[5], [6]。因此,先前的工作([6],[5],[7]等)利用了其他知识,如假设标签空间至少是局部平滑的,并对经验风险最小化进行正则化,使其具有良好的构成。例如,假设f来自一个特定的再现核希尔伯特空间(RKHS),H是一种增加平滑性约束的方式,然后在f 2 H上最小化经验风险(有一个正则化项)是很好的摆设。这就引出了一个问题,即如果近似理想风险表述的 "唯一方式 "是经验风险,或者当我们从(3)的理想风险最小化到我们的开放集识别表述时,是否有其他已知的东西可以/应该被添加。我们倾向于对f做最小的假设,但是从直觉上讲,对于任何已知的类,将开放空间标记为 "正 "是有风险的。对开放集识别的见解是认识到我们确实知道一些其他的东西:我们知道哪里存在正的训练样本,我们知道在 "开放空间"(远离已知数据的空间)我们没有一个很好的基础来为感兴趣的类别分配一个标签。

在正式确定开放空间风险之前,我们注意到,最大限度的边缘概念可以被视为使用关于开放空间的弱知识,其中我们预计在决策边界附近会有错误。因此,这些算法寻求最大化已知数据和决策边界之间的距离。这种最大限度的假设对于类之间的空间来说是很好的,但并没有真正解决剩余的开放空间。一般来说,在远离任何已知样本的地方仍然有无限大的空间,而且往往在这种开放空间的 "另一边 "甚至没有一个点可以用来定义一个边际。我们试图将这种风险正规化,然后加以管理。开放空间提供了什么信息?如果一个神谕者为开放空间提供了函数ðxÞ ¼ 1,其中没有一个已知的类存在,一个弱识别系统:ðxÞ ¼ 1可以被建立,即使没有训练样本。结合训练数据和 ,估计结果可能会更好。理想情况下,人们可能希望将开放空间定义为子空间IRd P,但这只是将定义还原为识别的问题。从正向数据中估计开放空间直接导致了一个单类公式,如我们在本文中研究的单类SVM。然而,请注意,一个线性1类SVM的开放空间仍然是一个半空间。我们对开放空间的估计方法在精神上是相似的,但不同的是,我们将标记的空间减少到小于半空间,并在开放空间的定义中包括其他训练数据,以及随后的识别函数。虽然我们不知道(3)中的联合分布Pðx; yÞ,但有一种方法可以把开放空间风险看成是一种弱假设。远离已知的数据,冷漠原则[8]表明,如果没有已知的理由来分配一个概率,那么应该给替代方案以同等的概率。在我们的案例中,这意味着在开放空间的所有点上,所有的标签(包括已知的和未知的)都有同样的可能性,风险也应该相应地被计算出来。然而,我们不可能在无限的空间中拥有常值概率分布--分布必须是可积的,并且积分为1。我们必须以不同的方式对开放空间进行形式化处理(例如,通过确保问题被很好地提出,然后假设概率与相对勒贝斯格测量成正比[9])。因此,我们可以考虑开放空间对全空间的度量,并将我们的风险惩罚定义为与这样的比率成正比。

考虑一个例子与大型球包含标记为开放空间的积极O和所有的积极训练的例子,以及给定的可测量的识别函数f, fðxÞ1识别类的y和fðxÞ0当y并不认可。开放空间ROðfÞ风险可以定义为

其中,开放空间风险被认为是被正面标记的开放空间(整个空间与经验空间的差值)与被正面标记的整体空间(包括正面例子附近的空间)的比例(以Lebesgue度量为准)。我们将开放空间标记为正面的越多,我们的开放空间风险就越大。方程式(4)只是一种理论上的可能性。其他定义也可以捕捉到开放空间风险的概念,而且有些定义可能以更精确的方式做到这一点。这个例子不包括损失函数、类条件密度或类先验,但有可能定义开放空间风险模型。这样的替代方案可能允许更精确的估计和/或简化多类公式,但由于未知类有未知的先验和未知的联合分布,它们需要引入更多的假设和复杂性。第4.2节中介绍了一个特定的线性核的开放空间风险模型。虽然我们想使开放空间中的未知风险最小化,但我们也需要在训练数据上的经验风险RE(数据错误度量)中进行平衡。这种经验风险通过某种类型的性能指标(经验错误概率和损失函数)结合数据错误。研究人员已经研究了SVM和其他优化更普遍的数据误差测量的学习模型[10]。虽然本文的介绍适用于许多措施,而且我们的实现可以优化多个不同的经验风险模型,但我们认为最适合开放集问题的是F-score的逆。我们在第5节中更详细地研究了这个分数。经验风险还可以包括硬性约束的规定(例如,至少满足一个特定的假接受率或假拒绝率),我们在下面讨论。总之,我们的目标是平衡开放空间中的未知风险和经验(已知)风险。在这个意义上,我们正式定义开放集识别问题如下。

在(5)中,我们将开放集识别定义为在识别函数的空间上将开放集风险最小化,它结合了开放空间风险和经验风险。考虑到函数f2h的假设,这个定义平衡了已知的^ V [^K,以及与未知类U相关的开放空间风险。我们还可以对训练错误(经验风险)进行明确的硬约束。这在某些应用程序中是有用的,其中一种错误可能被限制在操作使用(例如,最大允许的错误接受率)。满足这样的约束并不容易在(5)的最小化公式中指定。我们可以通过使(5)服从训练集中观察到的误差的分数的约束来增加这个约束

在定义开放集问题时,评估方法必须选取u中的一些未知类作为样本。因此,它们实际上是已知的,但被排除在训练之外。这在精神上类似于一般的机器学习评估,我们必须有已知的数据,而这些数据在训练中被认为是未知的。一个人可以做支撑型交叉验证或简单地有单独的测试数据。类似地,开放集识别可以保留一些类进行测试。注意,正式定义并没有精确地定义未知类的空间,我们不假定它们是枚举的,更不用说建模了。但是,重要的是要定义包含未知类的计算范式。如果我们从不测试未知的类,那么解决方案看起来可能过于受限。因此,对问题开放性为0的某集合T进行测试是评价开放集识别的必要条件。理想情况下,评估应该考虑具有多种开放水平和多种大小的训练和测试数据的测试集。

引言解读:

  1. 理想情况下可测函数的目标(开放集识别的目标)是最小化上述(3)中的分类误差(理想风险),传统方案中作了标签空间至少是局部平滑假设,其次用经验概率密度函数来近似P(x,y),最小化的误差是经验误差(或经验风险)。开放集识别仍作平滑假设,但不用经验概率密度函数来完全替代P(x,y),即仍然考虑最小化平滑后的经验空间以外的空间。
  2. 最大化已知数据和决策边界之间的距离的单类SVM的开放空间仍然是半平面,没有将开放空间限制为有界空间。本文通过隔离远离已知的数据,将半空间的开放空间再次缩小。由于在开放空间中,不能直接分配均等的常量概率(因为开放空间是无限空间的),本文分配的概率根据距离正例样本的距离进行递减。
  3. 定义开放空间风险为被正面标记的开放空间与被正面标记的整体空间的比例,定义开放集识别问题为最小化经验风险和开放集风险
  4. 说明开放集识别的评估方法,通常需要选一部分(不同比例)作为未知类来模拟开放集情况。其次,开放集的模拟也可以进行一步探索。

相关工作

文献中对开放集识别的处理有限,几乎所有的前期工作都集中在评价上。在评估协议之外,我们不知道任何先前的正式定义。在评价研究中人脸识别方法,Phillips等人的[11],一个典型的框架,开放集身份识别描述。Phillips等人所描述的开放集识别中评估的关键是操作阈值的定义所有的分类分数必须达到或超过才能被认为是匹配的。包含阈值的开放集识别系统不会天真地接受最高分数作为匹配,允许它处理样本与已知类不对应的情况。当然,选择仍然依赖于识别系统及其运行环境的要求。可以考虑使用一系列阈值构建完整的性能曲线(CMC、DET、PR等),并通过选择曲线上的一点来匹配实例。这一想法不仅局限于人脸识别,而且为许多研究跨视觉识别领域的研究人员所熟悉。在[12]中,Fayin和Wechsler再次从评估的角度看待开放集人脸识别,将其描述为国家标准与技术协会(NIST)早期人脸识别测试中观察列表的变体。它们指出:开放集识别是在假设不是所有的探测都有探子的情况下操作的,因此它需要拒绝选项。

鉴于我们在第2节中对开放集识别的正式定义,我们将简要讨论可能满足该定义的识别技术方面的相关工作。解决开放集问题的一个自然倾向可能是考虑二进制和多类学习方法,利用负训练数据的代表性抽样来尽可能地推广分类器。然而,二分类的性质抑制了开放集问题所需的可控泛化。考虑图3中的两个例子。1-vs-1分类器[13]是通过使用一个类的正例和另一个类的负例来训练的。在1-vs-1场景中,可以在训练期间在两个类之间实现良好的分离,但这并不能建立分隔额外已知或未知类的边界。1-vs-All分类器[13]是通过使用单个类的示例来训练的在1-vs-All场景中,我们可以看到对于未知类,也同样存在1-vs-1中的问题。在这两种情况下,当只考虑一个额外的训练示例时,结果可能会更糟,因为在不考虑其他可能的类的情况下,边界会重新调整以最大限度地分离已知数据。任何开放集问题的另一个问题是训练都是高度不平衡和非常不完整的(特别是在检测的情况下)。不平衡的数据通常会导致消极方面的过度专业化。重新采样并不能真正解决这个问题,而开放集识别中固有的不平衡也带来了二进制分类器无法轻易克服[14]的问题。因此,我们转向其他方法来弥补我们工作中的这些缺陷。

在本文中,我们考虑了以1类和2类SVM为基础的开放集识别问题,并引入了一个新的表述来解决泛化/专业化方面的问题。虽然有可能使用密度估计器(如[15]、[16]、[17]、[18])来代替SVM,但我们将重点限制在线性核机器上。对于这项工作来说,SVM具有一些理想的特征。它的解决方案是全局的和唯一的,它有一个简单的几何解释,并且它不依赖于输入空间的维度。而且它之前已经被考虑用于开放集识别。

解读:

  1. 此前的开放集识别主要是在评估上(而不是识别方法上),例如带阈值(拒绝选项)的开放集识别系统不会天真地接受最高分数作为匹配。
  2. 解决开放集问题的自然倾向是在分类中尽可能利用已知的负例数据来构造决策边界,然而负例数据采样不可能是完整的,因此1-vs-1和1-vs-All都不能做到隔离出未知类的边界,因为边界只能调整以最大限度地分离已知数据,并不能分离未知数据。
  3. 后文将以ocsvm,bisvm为主进行开放集问题扩展。

3.1开放集识别的SVM方法

Scho lkopf等人[19]引入的1类SVM将我们熟悉的SVM方法用于开放集识别问题。由于训练数据中没有第二个类,内核函数定义的原点就成为第二个类的唯一成员。我们的目标就是找到相对于原点的最佳边界。训练后产生的函数f的值þ1地区捕获的大部分训练数据点和1

定义正分类并获取大部分训练数据。正如一些研究者在文献[20]中指出的,1类SVM并没有提供特别好的泛化或专业化能力,这限制了它的使用。

虽然对二元SVM来说不是一个问题,但使用径向基函数(RBF)核,特别是用一个大的RBF核,也会导致过度专业化。这可能发生在 "滥用 "1类SVM的情况下,即对参数进行网格搜索,然后用给定数据集的所有可用的正面和负面例子进行测试。虽然从形式上看仍然是1类SVM,但由于只有正向数据被用于拟合,优化类参数以避免整个数据集的负向训练例子是不合适的(这一段也没太理解)。一类SVM在计算机视觉文献中得到了一些关注(尽管是有限的)--主要是在图像检索和人脸识别领域。十年前,Chen等人[21]首次将1类SVM应用于计算机视觉中的问题。对于二元分类,通常对正负训练实例给予同等对待。然而,Chen等人认为,对于图像检索来说,虽然假设正向训练实例以某种方式聚类是合理的,但对负向实例不能这样说,因为它们可能属于任何类别。因此,对于一个开放集问题,考虑一个1类SVM似乎是很自然的,它只用目标类的正面例子来训练。Chen等人[21]证明了这种方法的可行性(以及在随后的工作中[22],[23]),但有一个注意事项:核和参数选择。Zhou和Huang指出[20],RBF和其他高斯核通常用于1类SVMs,常常导致训练数据的 "过拟合",核参数的选择是临时性的,导致对许多类的总体概括性不足。我们认为,缺乏泛化和专业化,再加上封闭集测试的普遍做法,是1类SVM在视觉领域没有获得很大发展的主要原因。

检测,如引言中提到的,是一个重要的开放集问题,一些1类支持向量机技术已经被提出来解决它。Hongliang et al.[24]提出了一种有趣的方法,使用1类支持向量机进行人脸检测。通过选择子集并允许将少量负例纳入正例来优化用于训练1类SVM的数据,他们改进了泛化。这在一定程度上解决了周和黄在训练阶段的顾虑,但逻辑上不一致,没有理论支持。(通过降低专门化能力,来提高泛化能力)Cevikalp和Triggs[25]使用平板方法定义正数据周围的边界,然后应用1类支持向量机作为第二阶段的假阳性筛选用于对象检测(增加边界挡板)。Wu和Ye[26]使用正类样本和少数离群值样本训练的1类SVM,试图最大限度地利用高斯核定义的正体积和离群值之间的边界来进行新新值检测(采样离群值负例)。这种情况与本文提出的方法类似,但有以下关键区别。

  1. 我们的训练数据由更大的已知数据样本组成,而不仅仅是少数的例外情况。
  2. 在SVM训练后,我们考虑一个平衡的风险公式。
  3. 我们采用一种同时适用于1类和二值支持向量机的线性核方法。

除了计算机视觉,1-类支持向量机在模式识别的其他领域也被考虑,通常隐含地解决开放集识别问题,但没有对该问题的正式定义。最早和最好的作品之一是Manevitz和Yousef[27],它考虑了文档分类问题。使用1类支持向量机和基于更严格的离群值检测的新变异,作者在一个标准文档分类数据集(路透社)上显示了高水平的分类精度(离群值检测)。Manevitz和Yousef,和Zhou和Huang[20]一样,指出准确性对于核和参数的选择是非常敏感的,他们指出对于这个问题还没有很好的理解(核和参数会影响性能,因为这些改变了特征的映射方式,可能使开放性空间没有限制在有限空间内)。同样,我们自己的作品[28]也使用了一类支持向量机来进行文学风格的开放集分析。语音处理领域也考虑了一类支持向量机用于处理类未知的问题。在Shen和Yang的工作[29]中,提出了一种新的基于1类支持向量机的数据描述核用于文本相关的说话人验证。Kadri等人[30]成功地将1类支持向量机应用于音频流分割,通过对语音窗口的任意概率分布最大化广义似然比,克服了语音重叠和极短说话人变化的问题。Rossignol和Pietquin[31]使用1类SVM方法在重叠语音的背景下进行音频分割。在[30]的后续工作中,Rabaoui等人[32]超越了流分割,将语音分类考虑到识别任务中。

9.虽然1类支持向量机是专门为开放集问题设计的,但二进制支持向量机在这个问题上的潜力不容忽视。具体来说,用一个类的正样本和多个类的负样本(这在检测中很常见)训练分类器,是开放集识别的有效解决方案。二进制支持向量机试图学习一个最大限度地分离两个类的边界。设w是超平面的法向量。为了在线性二进位情况下(本文考虑的情况)分离数据,该算法解决了以下优化问题

式中,xi是来自数据fx1的第i个训练例;x2;。;xm jξ2 Xg, X包含正负样本,和彝语2 f1;þ1g是第i个训练示例中,正确的输出标签。

Malisiewicz等人[33]在重新访问用于检测任务的二进制支持向量机时注意到,用一个正例子和数百万个负例子训练的一个特定类的大型分类器集合可以产生令人惊讶的良好泛化效果。在这篇论文中,我们研究了一些特定的例子,其中假设了更多有限的训练数据样本可用的,特别是对于已知的类,在这些类中,像[33]这样的方法不容易应用。还应该提到一些类似于二进制svm的公式。与我们的算法一样,可以找到一些利用多个超平面[34]、[35]的方法,但不是在开放集识别的上下文中。Bartlett和Wegkamp[36]对铰链损失函数进行了改进,引入了一种带有拒绝选项的分类形式。拒绝选项是二值分类器的第三个决策,表示当一个观察的标签的条件概率接近于机会时的怀疑。为了实现这样一个拒绝选项,Bartlett和Wegkamp描述了一个构造(有点类似于我们自己对过度泛化问题的修复),它使用一个阈值来标记一个模糊的决策空间。然而,这里引入拒绝的概念是为了解决关于特定样本的不确定性问题,而不是拒绝不属于感兴趣类别的样本

解读:

  1. 开放集识别方法ocsvm(实际上是异常检测方法)是将训练数据当作一类,原点当作一类的特殊SVM。但他的决策边界仍然是半平面,并且核参数导致对类的概括性不足,泛化(负平面)和专门(正平面)性能都不好。(核和参数会影响性能,因为这些改变了特征的映射方式,可能使开放性空间没有限制在有限空间内)
  2. 在各种方法中,通过在正例中混入一些负例,通过增加决策挡板,通过引入离群值等来增强泛化性能。
  3. 二类SVM通过引入大量负例来解决单类开放集识别问题。(很多基于负例生成的方法基本上都是按照这种想法去做的)。也有带拒绝选项的二类SVM,其中引入拒绝的概念是为了解决关于特定样本的不确定性问题(输出标签不确定),而不是拒绝不属于感兴趣类别的样本(输入特征不确定)。

3.2其他方法

在严格的SVM框架之外,还有几种其他方法可以应用于开放集问题,尽管它们没有专门解决这个问题。最近,视觉界做出了一些努力来处理对象模型的表达性和易学性,以及增加训练数据[37]的需求。实际上,当训练类和测试类不相交时(即没有目标类的训练示例可用),已经引入了一些工作来解决对象分类问题。在这个方向上,研究人员探索了用于对象类识别的知识转移,如:由通用到特定的排序[38]施加的对象类空间的层次结构,表示对象类[39]的描述性属性的中间层,以及已知对象类[40]之间的直接相似度计算。在机器学习的文献中,也有一些在这个方向上的工作,如zero-shot[41]和one-shot[42]学习技术。为了处理一些类没有训练数据可用的分类问题,所有这些方法都需要在已知类和未知类之间引入耦合。根据Lampert等人[39]的说法,由于无法获得未观察类的训练数据,因此无法从样本中学习这种耦合,通常需要人工将其插入系统中。

这些类型的方法与我们在本文中讨论的方法之间的区别是有用的。在开放集识别问题中,我们有感兴趣的类的训练样本和一些负类的样本。然而,在我们解决这个问题的方案中,已知类和未知类之间不需要任何耦合,也不需要任何人工工作。上面的一些方法有正式的定义,但是对平滑性或数据准确性没有限制。将开放集识别的相关定义与将这些问题的开放集变体形式化的类别相结合,应该是可能的。

最后,本文所考虑的开放集识别问题也不同于一般的无监督和半监督学习技术(见[43])。常见的无监督技术(如聚类)并不能解决开放集问题的正式定义,开放集问题是一种更精确的标记,而不是在一个大型图像集合[45]中对具有相似外观的组进行标识。我们希望充分利用现有的培训实例。此外,半监督学习也不适用于我们的问题,因为我们没有将标签从已知样本传播到未知样本。半监督学习旨在开发同时利用有标记和无标记样本[45]的技术。事实上,正如我们在第2节中所讨论的,我们的目标是最小化所关注的类的总识别错误(5)。开放集识别问题的任何解决方案都可以作为半监督学习的工具,但其评价标准可能存在显著差异。

解读:

  1. 其他非SVM的方法,如知识转移(元学习)、zero-shot[41]和one-shot等,引入已知类和未知类之间的耦合,学习一个通用的分类方法。他们需要额外的知识。
  2. 开放集识别中已知类和未知类可以没有任何关系,不需要额外的知识。

4.介绍1-VS-SET机器解读

我们的开放集问题的初始方法是基于支持向量机的一个新的变种,我们称之为1-vs-set机器。正如我们在第2节中所描述的,解决开放集问题所固有的风险最小化包括最小化正标记区域以解决开放空间风险(反映过度泛化),并结合边界约束来最小化经验风险(反映过度专业化)。在本文中,我们引入了一个线性核的公式,它同时适用于1类支持向量机和二进制支持向量机。由于开放集识别问题与人类认知直接相关,因此可以提出支持线性核作为具有生物学基础[46],[47]的理想鉴别器的论点。此外,在我们的经验中,线性内核产生更好的结果比非线性内核相同的开集数据(我们显示在第五节)。初始定义的一类支持向量机是基于RBF内核,但多个作品可以发现[27],[48]使用一类支持向量机与线性内核,一旦定义了1类支持向量机的方程,如3.1节所述,对于线性核函数来说,最小化问题仍然定义得很好。直观地说,1类线性支持向量机可以被看作是取所有正数据,找到与支持向量接触的平面,并且原点在与训练数据相对的平面上的平面。对于二进制支持向量机,线性核是一种典型的选择,经常用于检测[3]、[33]的开放集问题。在这里,我们描述1 vs- set算法的细节。

解读:引出本文的1-vs-set机器来解决开放集问题(最小化经验风险和开放空间风险),包括线性ocsvm和bisvm。线性核比非线性核在开放集中更好(特征的线性变换使得变换后的开放空间限制在原始空间仍然有效)

4.1形式化线性核风险

解决优化问题的第一步是定义一个可计算的开放空间风险项。我们的开放集概念表明,标记远离阳性样本的点存在风险。正如在第二节中提到的,研究这个问题的一种方法是根据勒贝格度量的比率。但计算给定f ROðfÞ可能是棘手的。我们从一个示例开始强调一般问题,但由于我们的目标是最小化风险,我们能够找到另一种形式,这样减少ROðfÞ没有显式计算。作为开放空间风险的第一个近似值,我们称之为壳模型风险,我们在训练样本周围取一个大球,在该球周围取一个更大的球,并认为这两个球之间的任何东西都是 "开放空间"。更正式地说,让Sy是一个包含训练数据的半径为ry的球,在不丧失一般性的情况下,让它的方向是这样的:所有Y类的正的训练样本都在球的上半部分,h是相关的上半空间,这样,当x 2 h时,线性SVM定义fðxÞ ¼ 1,当不是时fðxÞ ¼ 0。让So是一个半径为ro的球,中心与Sy相同,让ro ry。因此,对于一个任意大的ro,壳模型的开放空间S是壳So Sy。回顾S ¼ So Sy,我们可以将与壳S相交的半空间h的壳模态风险RSh形式化为

我们强调,对于传统的线性核,将半空间标记为正会带来很大的未知风险。我们可以考虑其他模型来进一步降低风险。下一个最简单的模型,只在经典线性核上增加一个自由参数,即认为片状常数fðxÞ只在两个平行超平面之间的空间内为正。考虑一个具有固定厚度的板块,即两个平行超平面之间的空间,其间相隔的距离为x。假设该板块不包含球So和Sy的中心。Le´vy和Pellegrino[49]表明,与d维球的度量相比,这种板块的相对度量随着半径的增长而归于零。因此,板块的d维壳模型的开放空间风险为零。(???没有理解)因此,在下面的内容中,我们考虑这个特定的板块模型,但有额外的细化由于对于所有小的平板,贝壳模型的风险对于大的平板将趋近于零,因此需要一个更精细的模型来区分平板。我们可以考虑一个固定但大的壳尺寸的风险,在这种情况下,板的厚度与风险成正比。然而,我们也希望包括接近训练数据的开放空间的条款。完善后的模型将在可能的情况下使用边际式惩罚,在不可能的情况下使用与大壳内Lebesgue度量的比率相关的惩罚。

我们将1-vs-Set线性核的函数类H定义为两个平行的d维超平面(A和第1节中的介绍)之间的板块。我们初始化这些平面,使其只包含所有正的训练数据。我们可以通过进一步分离平面来泛化初始训练数据之外的内容,也可以通过移动其中任何一个平面,使它们更紧密地联系在一起来实现专业化。对于一个给定的平面方向,开放空间的风险与平面之间的分离距离成正比。因此,我们最初的优化是通过调整基于平面分离的参数开始的。特别是,我们将过度返回风险定义为平面距离的扩展,其中A是近平面的边际距离,是远平面的边际距离,þ是考虑到所有正面数据所需的分离度。在优化过程中,这两个条款与通过对可用的训练样本进行分类而确定的经验风险相平衡。根据类内数据的间隔来限制增长的决定是我们最初的解决方案,以平衡如果我们增加了大球而产生的假阳性的过度泛化风险,以及泛化的需要以避免未来的假阴性。

在近平面周围的边际空间!A和远平面周围的边际空间!我们允许用户用参数pA和p来指定控制那些附近开放空间的重要性。我们提供这些额外的细化(在第4.2节中描述),因为只有用户可以预测问题的开放性和局部开放空间的重要性。结合过度泛化和过度专业化的风险,以及任何指定的细化,我们对线性核子板块模型的开放空间风险R&是

解读:

  1. 优化的关键是优化开放空间风险(将远离训练/正例样本的样本标记为正例的风险,这种风险很难直接计算),可以通过非显式计算来实现
  2. 将开放空间风险形式化为一个壳模型,也就是将开放空间标记为正例的风险(原文无图,这里补了一个图如上),最小化的方案是通过添加两个平行的超平面。
  3. 将1-vs-Set线性核的函数类H定义为两个平行的d维超平面,通过调整基于平面分离的参数来实现泛化和专门化,来调整经验风险和开放空间风险。并定义上述开放空间的替代计算公式,第一项为泛化风险,第二项为专门化风险,第三四项为两个平面内的开放空间风险。(没有太理解这几个参数的含义,缺少示例图啊)

4.2在近平面压力和远平面压力下进行优化和精炼

有了这些定义,我们就可以在平板空间内对风险进行数值优化。算法1和算法2详细介绍了1类和二进制机器的优化过程。

 

图4说明了这个过程。图4a所示的基础线性1-vs-set机器,将刚刚接触到正例的极端。然后我们转向贪婪的优化,同时移动平面。如果所有的负面训练类都在该板块之外,过度专业化的风险项将抵消开放空间的风险项,并移动平面以进行泛化,如图4b。如果负面的例子与基础板块重叠,过度专业化风险将是1,而过度泛化风险项和可能的经验风险项RE将要求平面向内移动,如图4c。算法1将产生一个优化结果,其中每个平面都在来自f的决策分数上,随后进行微调,将每个平面放在优化过程中隔离的点和下一个最近的正负点之间,当平面处于数据的一个极端时有一个特殊情况。我们细化平面位置,根据参数化的 "压力 "pA和p,从最接近的数据和平面之间的余量中概括或特殊化,控制平面在决策分数之间移动的距离。如果一个决策分数是极端的,那么我们就不能真正定义一个基于边际的细化。这是一个比较常见的情况,对于...来说。当这种情况发生时,我们将泛化限制为用户指定的压力乘以正数据宽度þ。使用压力来细化位置的程序详见算法2。

参数化的压力影响到应用专业化和泛化的程度。当考虑大板的风险时,我们注意到近平面很可能有任何未知的负数据冲击或接近正边界。对于远点的飞机来说,更有可能增加的正数据会略微超过现有数据,而负数据可能不会那么接近。因此,我们提供了单独的压力,这样用户可以专门化近平面,而一般化远平面。在我们的实验中,在使用算法1和算法2后,当近平面相对于支持向量机的正常边缘进行专业化处理,而远平面则由初始优化结果进行一般化处理时,通常会得到更好的结果。然而,我们注意到,这部分只是语义,因为远平面的任何位置实际上是对标准支持向量机的一种专门化,它可以被看作是一个无限远的平面。当解决开放集问题时,通过专门化slab以使其更接近积极的例子,未知的风险就会降低。

最后,从学习的模型f和改进的平面A和,可以使用算法3对任意测试向量tx进行分类。在软件实现中,通过对距离的排序和从基地位置的搜索来优化R&ðfÞþrRE。代码还支持设置固定召回或精度,这是容易实现的明确的优化过程,满足定义1和(6)。由于我们使用的扩展LIBSVM[50]图书馆和排序,我们的实现是可行的,但整体的复杂性线性1-vs-set机可以OðnÞn数据项使用的思想[51]约阿希姆,和简单的选择,找到点接近远近的飞机。

解读:给出优化算法,即算法1根据支撑向量(正例点),移动A,Ω(A,Ω在支撑向量上)来最小化经验风险和开放集风险,算法2进一步使A,Ω向外扩展而进行泛化,泛化的范围不超过原支撑向量的最近点。(注意其中使用负例的bisvm只会影响决策函数f的计算。)

解读:给出总的分类方法,同时介绍一些情况,例如注意到近平面A很可能有任何未知的负数据冲击或接近正边界,而远平面Ω更有可能增加的正数据会略微超过现有数据,因此通常会专门化(内移)近平面A,而泛化(外移)远平面Ω。

5.实验分析

我们实验的一个重要目标是强调一旦数据集被重新语境化以反映一个开放集的问题,其性质就会完全不同。Torralba和Efros[3]最近指出,"事实上,一些数据集,一开始是作为旨在代表视觉世界的数据采集工作,现在已经变成了自己的封闭世界"。他们继续分析了流行的数据集中存在的各种偏见,这些偏见很容易被学习和利用来提高封闭场景下的识别准确率。通过在跨数据背景下将这些相同的集子视为开放集问题,我们可以直接解决负集偏见的问题(数据集认为是 "世界其他地方"[3])。在这里,我们提出的测试场景与现实世界的场景更加一致,在那里我们并不掌握所有类别的知识。

对于第5.1节中提出的物体识别实验,我们使用了两种不同的特征方法。第一种方法是流行的定向梯度直方图(HOG)[4]描述符,它通常用于检测问题。应用Dalal和Triggs所描述的标准程序,我们为下面的实验中所考虑的每张图像制作了一个3780维的特征向量。在第二种方法中,用于分类的基本特征是通过使用高斯之差[52]从图像中提取兴趣点(PoIs),然后在每个检测到的PoI周围的窗口中计算类似LBP[53]的特征描述符来生成的。特征向量由59个维度的直方图仓组成,概括了每个图像的特征描述符信息。

在第5.2节的实验中,我们还利用了两种不同的特征方法。第一种方法是用于物体识别实验的类似LBP的描述符,但完全按照Sapkota等人[53]中对人脸的描述来应用。这导致了3,776个维度的直方图仓,被用作学习的特征向量。第二种方法是普通的Gabor特征,它已经被证明在人脸验证方面产生了非常好的效果[54]。应用Pinto等人[54]描述的特征过程,我们产生了86,400维的特征向量。开放集识别在评估方面提出了一些新的挑战。

具体来说,我们需要解决选择哪种统计方法来评估分类性能,以及数据集的组织。这导致我们采用一些在物体识别和人脸验证中不常用的程序。我们下面的实验考虑了分类的几个方面,包括1-vs-set机器结果的统计学意义,对pA和p定义的参数空间的评估,以及问题开放性对分类性能的影响。这些实验中的所有1-vs-set机器都遵循(5)的最一般优化,其中r ¼ 1,并且没有用明确的约束条件进行训练(在(6)中, ¼ 0和 ¼ 1)。在所有的实验中(除了我们评估改变这些参数的影响的实验),近平面和远平面的压力被设置为pA ¼ 1:6和p ¼ 4的默认值,以提供额外的通用措施。关于统计学,准确性是评估二元决策分类器的一个自然选择。简单地说,准确率是指在所有分类决策(TP、TN、假阳性FP和假阴性FN)中正确分类的样本(真阳性TP和真阴性TN)。

类的平均精度不能用于开放集识别,因为类的总数c总是不确定的。然而,典型的准确度测量(13)可以,但它倾向于不强调正确的阳性和阴性分类之间的区别。记住--我们主要感兴趣的是在更大的负面样本库中识别少量的正面样本。为了强调这一点,考虑这样一种情况:一个分类器在100个阳性测试样本中返回一个真正的阳性,而在100,000个阴性测试样本中返回零个假阳性(感兴趣的是召回率)。这个分类器在这个测试中的准确率为99.9%--尽管它本质上是一个 "无 "的分类器。由于这个原因,召回率和精确度是一种常见的替代方法。召回率是指相对于所有可用的阳性例子而言,正确分类的阳性例子的数量。TP TPþFN。精度指的是相对于所有的假阳性和真阳性而言,正确分类的阳性例子的数量。TP TPþFP 。如果我们在比较不同分类器的任务中考虑精度和召回率,我们就会遇到 "苹果与橘子 "的比较问题,即存在不固定于特定精度或召回率的统计数据集合。例如,对于相同的训练和测试数据,1-vs-set机器可能在32%的精度下产生75%的召回率,而二元SVM在25%的精度下产生62%的召回率。虽然可以对决策分数进行特别的阈值处理以产生精度-召回率曲线,但解决这个问题的更好方法是使用F-measure,它为我们提供了一个在不一致的精度和召回率数字之间的一致比较点。在信息检索和机器学习中,F-measure被应用为精度和召回率的组合,由它们的谐波平均值给出

5.1目标识别评估

我们为开放集物体识别所考虑的数据遵循从[3]改编的交叉数据集方法。对于训练,我们从Caltech 256集中选择所有的类。对于测试,我们从Caltech 256中选择正面类的图像,但对于负面类则选择ImageNet [55]中的图像。尽管在Caltech 256中存在偏见,我们还是想确保正面类的训练和测试样本之间的某种一致性,同时试图根据Caltech 256中有限的负面样本对ImageNet中的负面样本进行归纳或专门化。虽然我们在训练过程中对我们的阳性物有一个感觉,但没有办法先验地知道各数据集的阳性类是否一致。然而,负面的肯定是负面的;因此,基于我们的优化,我们应该能够处理任何数据集的任何例子。从这些数据中,我们构建了两个不同大小的 "开放宇宙",允许我们改变训练和测试数据,这在一定程度上受到两个数据集为相同类别提供的图像数量的限制。

第一个开放宇宙由88个随机选择的类组成,我们选择一个类作为正面,n个类作为开放集训练数据或二元负数(其中n取决于实验),87个班级作为测试用负数。

第二个更开放的宇宙由212个随机选择的班级组成,我们选择一个班级作为阳性,n个班级作为开放集训练或二元否定,211个班级作为测试的否定。我们遵循一个多次试验的随机测试程序,在每次实验中选择不同的训练、开放集训练和测试集。这样做是为了验证在众多试验中报告结果的一致性,从而限制了异常值可能给单一试验带来的任何误导性印象。我们对所有的类循环了五次,每次迭代都对每个类正面处理一次。各个训练和测试样本的分解随着实验的进行而变化,并在下面描述各个测试的时候指出。为了确保公平的比较,1类1-vs-set机器和所有的二元分类器都是用完全相同的正负例子来训练的。一类机使用的默认参数是0.5,二类机使用的默认C参数是1,带有RBF核的机器使用的默认参数是1除以特征数(所有LIBSVM默认设置)。这些测试代表了88个类别的开放宇宙的532,400张图像,以及212个类别的开放宇宙的13,610,400张图像,在所有随机测试中的不同组合。我们的主要目标是以严格的统计学方式确定1类和二进制1-vs-set机器相对于典型SVM分类器在开放集识别问题上的优势。我们通过对每个开放世界的类的所有结果和我们的两个特征集中的每一个进行2尾配对t检验[56],以产生汇总统计。t检验使我们能够确定两组分类结果是否有显著差异。由此产生的P值是在0.05的置信水平下评估的(95%的置信度)。我们的无效假设H0指出第一组分类结果的F值低于第二组的结果。当p值小于0.05时,我们拒绝H0。我们也注意到P值小于0.01的情况。对于同时具有HOG和LBP-like特征的88个类别的开放世界测试,我们在其他五个类别(大约5%的可用类别)的70张正面图像和14张负面图像上进行训练,并在所有负面类别的30张正面图像和435张负面图像上进行测试。对于由212个班级组成的更困难的开放世界,我们从其他六个班级(约占可用班级的3%)中各训练30张正面图像和5张负面图像,并在所有负面班级中测试30张正面图像和6330张负面图像。这些统计测试的结果列于表2。在与其他利用线性核的机器的直接比较中,1类和二元1-vs-set机器的结果在统计上是显著的。除了一种情况外,其他情况下的无效假设都被拒绝。即使当我们转而与使用RBF核的典型机器进行跨核比较时,二进制1-vs-set机器产生了更好的结果,除了单一情况外,在统计学上是显著的。虽然这是一个 "苹果与橘子 "的比较,但RBF核显然是任何在完全相同的数据上使用线性核的机器的替代品;因此,我们包括这些结果。我们可以得出结论,对于开放集识别问题,1-vs-集机器是典型的SVM分类器的合适替代品。

在接下来的一系列实验中,我们从具有HOG特征的88类开放宇宙集中分解出细节,以观察影响分类的具体方面。首先,读者可能对上述统计摘要之外的实际F值感兴趣。图5a显示了按二进制1-vs-集机器性能排名的前25个类的F-测量值。带有线性核的二进制SVM也被绘制出来作为相同类别的基线比较。在所示的每一种情况下,二进制1-vs-set机器通过解决完全相同的训练数据上的受限最小化问题,能够获得比典型的二进制SVM更高的F值。一类1-vs-set机器也显示了F-measure的提高,尽管在这些特定的类别中,间隔要小得多。然而,1类1-vs-set机器不应该被忽视。对于88个类别中的27个,它产生了比二进制1-vsset机器更好的F-measure。(图中没显示,可能在作者的实验库里)与已公布的基础数据集的典型封闭集测试场景的结果相比,这些F值可能看起来很低,但我们必须记住,这个实验要困难得多:两台机器在训练期间只看到总类的5%,在测试期间看到所有的类。相比之下,图5b中所示的相同类别的准确率数字要高得多。准确率更强调在大型开放集场景下正确的负面分类实例。

接下来,我们转向对第4.2节中描述的由近端压力pA和远端压力p定义的参数空间的评估。为了在更广泛的背景下分析我们的结果,本实验的F-measure考虑了一系列随机测试中所有类别的真阳性、假阴性和假阳性,而不是像我们在上面的实验中那样只考虑单一类别的结果。使用具有HOG特征的88类开放宇宙集,我们使用二进制1-vs-集机器搜索参数空间,以更好地了解平面运动的影响。围绕我们的默认参数pA ¼ 1:6和p ¼ 4绘制这些数据的一部分(图6),我们可以看到在训练过程中近平面和远平面的移动确实影响了测试期间取得的结果。特别值得注意的是移动我们的算法所添加的第二个平面的影响(图6中的蓝色曲线),它限制了在原来的正半空间的假阳性。从算法1建立的平面(图6中蓝色曲线的X轴上的第7点)泛化得有点多,会导致F值的下降。最后,我们考虑开放性对F-measure的影响。直观地说,当训练期间有更多的类可用时,我们期望得到的分类器应该更准确,这正是我们在实践中观察到的。对于图7所示的曲线,我们为每个类别选择了60张图片作为正面测试数据,并将测试的开放度从42%(训练期间看到的30个负面类别)变为82%(训练期间看到的3个负面类别)。测试保持在30张正面图片和435张负面图片上。同样,这个实验的F值考虑了一系列测试中所有类别的真阳性、假阴性和假阳性。随着世界越来越开放,所有三个二元分类器的准确性都在下降。然而,即使在训练期间只有少量的类可用时,1-vs-set机器也能比其他机器大幅减少误报的数量。

5.2 人脸验证的评估

我们还分析了人脸验证的任务,其中人是类,类间的变化不太明显。我们选择了另一个著名的、具有挑战性的数据集来评估类。标记的野外人脸(LFW)[43]。LFW(和许多验证集一样)传统上被用于图像对匹配,根据本文的学习标准,这实际上既不是一个开放的也不是一个封闭的问题。然而,我们仍然可以从中定义训练和测试集。12个拥有至少50张图像(提供足够的训练数据)的人被选为画廊类。对于开放集的测试,我们从LFW集的其他人中随机选择了82个 "冒名顶替者",在所有类别中共产生了1316张测试图像。问题 "开放性 "的影响对于人脸验证来说也是一个非常重要的因素,随着越来越多的人尝试验证,基准测试可能无法反映算法的性能。我们的实验评估了这种情况,从一个完全封闭的12人的世界开始,在每个单独的实验中增加更多的冒名顶替者。再一次,我们遵循一个五次试验的随机测试程序,为每个实验选择不同的训练(每人35个正面和负面样本)和测试集(每人14个不同的测试样本)。画廊由二进制1-vs-set机器和具有线性核的二进制SVM表示,这些机器是用完全相同的正负样本训练的。用于验证的封闭集场景只考虑画廊和探针(测试样本)的12个已知的人。随后的四个实验考虑了不同数量的探针类,使开放程度从24%(30个探针类)到52%(94个探针类)不等。画廊仍然固定为12人。这与物体识别所描述的实验略有不同,在那里我们改变了训练班的数量,但与典型的人脸验证测试的批判性分析更为一致。图8显示了二进制1-vs-set机器和带有线性核的二进制SVM在LBPlike和Gabor特征之间的比较。当实验完全结束时,问题似乎很容易,所有机器都能产生相似的高F值。然而,随着问题越来越开放,1-vs-set机器和二进制SVM之间的F-measure出现了很大差距。一旦实验超越了封闭集测试协议,很快就会发现,具有强大特征的典型机器并不总是足以解决问题的开放集方面。这对人脸验证尤其重要,因为人脸验证在现实世界的认证应用中被使用。我们还使用2尾配对t检验评估了1-vs-set机器的结果的统计学意义。在所有开放集的情况下,在95%的置信区间内,结果都明显更好。

6 讨论和未来的工作

通过重新审视一般识别问题和基于SVM的识别系统的想法,我们对该问题的挑战和最常用的解决方案的缺陷有了更好的理解。在一个开放的世界里,我们不可能拥有所有类别的知识,我们也不可能对一个类别的每个可能的图像配置进行采样和训练。即使我们能做到,由于负数大大超过正数,为二元或多类分类器选择有代表性的负数训练例子是有问题的。开放集假设改变了我们必须评估什么是 "解决方案 "的方式--未知类别的风险必须被考虑在内,而不会导致不可预见的错误。考虑到这一点,我们将开放集识别问题形式化为一个风险最小的受限函数优化问题。作为解决方案的第一步,我们引入了一个新的 "1-vs-set机器 "作为1类和二进制SVM的扩展,以符合开放集问题定义的方式更好地支持泛化和专业化。针对物体识别和人脸验证的实验表明,在相同的问题上,与一元和二元SVM相比,1-vsset机器在提高准确性方面非常有效。有兴趣的读者可以从http://www.metarecognition. com/openset/下载我们的1-vs-set机器的源代码,以及所有实验的计算特征。Torralba和Efros[3]指出了封闭世界假设的影响:专注于在最新的数据集上击败最新的基准报告。视觉界的许多研究人员已经忽略了这些数据集的最初目的:识别视觉世界。通过将识别问题重新表述为开放集识别,我们自然可以避免过度训练的偏差。开放集测试方法减少了数据集偏差的机会,因为我们不能在大多数数据上进行训练。虽然留一的交叉验证很流行,但开放集的表述建议采用留一的验证。通过对现有数据集的测试进行重组,我们希望能鼓励研究人员开始解决更自然的开放集形式的识别问题。例如,我们在LFW的开放集重构上的结果可能没有封闭集测试那么令人印象深刻,但它们突出了无约束人脸验证的实际难度。这项工作的下一步是将我们的1-vs-set机器模型扩展到RBF核,RBF核有一个有界的体积,也可以通过泛化或专门化来适应。这包括探索SVM框架之外的其他核密度估计器。另一个未来方向是优化开放空间风险和经验风险之外的其他参数。二元SVM偏置项和成本C是自然的选择。我们强调,1-vs-set机器只是迈向真正适合开放集识别的算法的第一步。将开放集识别纳入其基本设计(特别是在初始密度估计阶段)的具体学习方法是非常有意义的。

 

7.本文总结:

  1. 概念与背景:陈述识别和分类的区别,指明为什么要进行开放集识别。并介绍常见的开放集识别类型。
  2. 问题提出:定义开放性,定义开放空间风险,并将将开放空间风险形式化为一个壳模型,将开放集识别问题形式化为经验风险与开放空间风险最小化问题。
  3. 相关工作:1)此前的开放集识别主要是在评估上(而不是识别方法上),例如带阈值(拒绝选项)的开放集识别系统不会天真地接受最高分数作为匹配,其中引入拒绝的概念是为了解决关于特定样本的不确定性问题(输出标签不确定),而不是拒绝不属于感兴趣类别的样本(输入特征不确定)。2)其他方法,如知识转移(元学习)、zero-shot[41]和one-shot等,引入已知类和未知类之间的耦合,学习一个通用的分类方法。他们需要额外的知识。
  4. 方法:提出两个解决方案1-vs-set机器(ocsvm,bisvm),主要思想是定义上述开放空间的替代计算公式,通过添加与决策边界两个平行的超平面,第一项为泛化风险,第二项为专门化风险,第三四项为两个平面内的开放空间风险。并且在对象识别和人脸验证两个领域上,验证了提出方法的有效性。
  5. 实施:说明开放集识别的评估方法,通常需要选一部分(不同比例)作为未知类来模拟开放集情况。其次,开放集的模拟也可以进行一步探索。
  6. 优点:1)本文通过隔离远离已知的数据,将半空间的开放空间再次缩小。
  7. 缺点:最大化已知数据和决策边界之间的距离的单类SVM的开放空间仍然是半平面,没有将开放空间限制为有界空间。
  8. 启发:1)优化的关键是优化开放空间风险(将远离训练/正例样本的样本标记为正例的风险,这种风险很难直接计算),可以通过非显式计算来实现2)举例开放集问题的自然倾向是在分类中尽可能利用已知的负例数据来构造决策边界 3)核和参数会影响性能,并指出线性核比非线性核在开放集中更好,因为这些改变了特征的映射方式,可能使开放性空间没有限制在有限空间内.4)理想情况下可测函数的目标最小化上述(3)中的理想风险,传统方案中作了标签空间至少是局部平滑假设,其次用经验概率密度函数来近似P(x,y),最小化的误差是经验误差(或经验风险)。开放集识别仍作平滑假设,但不用经验概率密度函数来完全替代P(x,y),即仍然考虑最小化平滑后的经验空间以外的空间。

 

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

开放集识别 的相关文章

  • Go-新手速成-流程语句

    1if Go的if不建议写 over if条件判断 age 16 if age lt 18 fmt Println 未成年 2for循环 Go摈弃了while和do while 循环 因为他做到了极简 也不要括号 这么写可以 total 0
  • Pandas知识点-reset_index,reindex,reindex_like,你分得清吗?

    Pandas知识点 reset index reindex reindex like 你分得清吗 reset index 用法详解 reset index 是pandas中将索引重置成自然数的方法 不会改变原始数据的内容和排列顺序 Data
  • 2023年第五届清洁能源与智能电网国际会议(CCESG 2023)

    2023年第五届清洁能源与智能电网国际会议 CCESG 2023 重要信息 会议网址 www ccesg org 会议时间 2023年11月3 5日 召开地点 广西 南宁 截稿时间 2023年10月3日 录用通知 投稿后2周内 收录检索 E
  • Python3基础入门

    文章目录 前言 基础说明 Python安装 Windows Ubuntu 开发环境 程序编写 模块和包 模块 module 包 package pip和换源 总结 前言 Python是目前非常流行的编程语言 这篇文章将对其相关入门内容进行说
  • JS判断数据类型的5种方法

    我们先来了解一下JS中数据类型有哪些 基本数据类型 值类型 String Number boolean null undefined symbol es6新增的 引用数据类型 引用类型 object 包含 Function Array Da
  • CSS line-height概念与举例

    本文同时发表在https github com zhangyachen zhangyachen github io issues 37 定义 两行文字基线之间的距离 基线的大体位置 基线的位置可以看成x字母下边缘的位置 不同字体的基线位置会
  • 微信公众号H5音频视频自动播放(安卓,苹果)

    我们都知道音频视频的自动播放被浏览器或者微信给限制了 必须用户跟页面交互才可以播放音视频 解决办法就是引入微信的jssdk 然后监听 WeixinJSBridgeReady 来实现自动播放 引入jssdk 音频或视频自动播放 documen
  • 查看运行的java程序的几种方式

    windows 任务管理器可以查看进程和线程数 也可以用来杀死进程 tasklist 查看进程 tasklist 杀死进程 linux ps ef 查看所有进程 ps ft p 查看某个进程 PID 的所有线程 kill 杀死进程 top
  • 【转载】手把手教你用 “三步法” 快速实现 4K+ 超高分辨率满细节出图

    手把手教你用 三步法 快速实现 4K 超高分辨率满细节出图 https ngabbs com read php tid 35888357 rand 488 准备工作 如果你的显存不足以直出你期望的最终分辨率 请先按照你习惯的方式安装 切片扩
  • uniapp - Map地图组件属性示例

    目录 1 markers 点标记 用于在地图上显示标记的位置 2 点聚合 3 polygons 4 include points 可以实现自动缩放展示视图内所有的点标记 5 polyline 线 map uni app官网 1 marker
  • littleVGL学习笔记5——lv_obj 基础对象

    1 介绍 littleVGL 是以对象为概念的 而其最核心的基础对象是 lv obj 控件 其他的所有专用控件 比如按钮 标签 列表等 都是在此 lv obj 对象的基础上衍生出来的 所有的控件对象都具有一些共同的属性 如下所示 位置 Po
  • JUC 十二. ReentrantReadWriteLock 与 StampedLock

    目录 一 基础 二 ReentrantReadWriteLock 的锁降级 三 StampedLock 邮戳票据锁 一 基础 ReentrantReadWriteLock 可以看为读读共享 读写 写写依然互斥 总结一句话 读写互斥 读读共享
  • 数字化时代-26:不要做数字空间的难民

    网络是人们新的生存空间 年轻人出生后就存在的空间 与人类社会原先的现实空间并存的人与人交流的空间 在这个空间中 没有自己位置的人 将成为未来社会的难民 年轻人 特别是毕业后的年轻人 需要思考 个人在数字空间中的落脚点和位置 数字原住民 在数
  • Ubuntu 20.04-NVIDIA显卡驱动-安装和卸载-解决黑屏问题

    这一步很重要 202300704更新 黑屏问题主要由linux内核更新导致 一定要保持当前的内核 也就是安装 NVIDIA 驱动时用的内核 sudo apt mark hold linux image generic linux heade
  • Cuda矩阵运算库cuBLAS介绍

    文章目录 简介 cuBLAS库新特性 cuBLAS代码热身 cublasSetMatrix cudaMalloc cublasSscal 源代码 cuBLAS 辅助函数 上下文管理 复制矩阵 数据类型标示 cuBLAS 运算函数 矩阵相乘
  • 有趣的 Async hooks 模块

    在 Node js 中 Async hooks 是一个非常有意思且强大的模块 虽然性能上存在一些问题 在 APM 中 我们可以借助这个模块做很多事情 本文介绍两个有趣的用法 AsyncLocalStorage 在 Node js 中 上下文

随机推荐

  • PaddlePaddle Hackathon 飞桨黑客马拉松热身赛上线!

    挑战自我 拓展技能 激发创新 挑战极限 再次相遇黑客松 我们期待你的加入 第五期 PaddlePaddle Hackathon 飞桨黑客马拉松热身赛上线 本次活动是面向全球开发者的深度学习领域编程活动 鼓励开发者了解和参与飞桨深度学习开源项
  • 如何制作一个简单的网页

    先创建一个文本文档 将后缀名改为 html 然后右击这个 选择打开方式 用记事本打开 开头与结尾要用来写 后一个要加 头部用head 中间部分用body 背景颜色用bgcolor 填一种颜色 字体颜色用text 填一种颜色 切记用英文 你如
  • ubuntu16.04 安装交叉编译工具aarch64-linux-gnu-gcc/g++

    前言 最近需要把人脸识别代码放到RK3399Pro的嵌入式板子上 所以编写好的c 代码要放到板子上编译 或者在ubuntu系统上使用交叉编译工具 编译好可执行文件在放到板子里运行 为了在能在ubuntu系统上能交叉编译 安装aarch64
  • 复杂场景下智能汽车目标检测心得体会

    提示 文章写完后 目录可以自动生成 如何生成可参考右边的帮助文档 文章目录 引言 一 复杂背景目标检测的复杂是什么 二 目标检测环境的复杂性包含哪些 三 复杂场景目标检测的目标复杂性包含哪些 四 复杂场景目标检测的算法复杂性包含什么 五 总
  • 微信小程序使用face++实现人脸识别登录注册

    Face 是一个 人工智能开放平台 要使用它我们得先注册并进入控制台创建API Key 这是前提 平台网址 https www faceplusplus com cn 整个项目代码我已经上传到网盘 链接 https pan baidu co
  • 高频面试题:服务器CPU占用过高怎么办?搞定只需简单7步

    一 前言 在Java开发岗位的面试中 时不时会出现一些运维类的题目 其实这也反映了后端面试的一种趋势 现在企业对后端开发的要求越来越全面 不仅要求我们会写代码 还要我们能够进行部署和运维 今天九哥就结合一个真实的项目案例 来给大家讲解一道关
  • C语言中局部变量和全局变量在内存中的存放位置

    C语言中局部变量和全局变量变量的存储类别 static extern auto register 1 局部变量和全局变量 在讨论函数的形参变量时曾经提到 形参变量只在被调用期间才分配内存单元 调用结束立即释放 这一点表明形参变量只有在函数内
  • 信号是如何传输的

    一 信号 信息 人对现实世界事物存在方式或运动状态的某种认识 数据 用于描述事物的某些属性的具体量值 信号 信息传递的媒介 一 信号的分类 1 模拟信号 模拟信号是信号参数 幅度 频率等 大小连续变化的电磁波 可以以不同的频率在媒体上传输
  • springboot + vue 前端时间字符串,后台LocalDateTime 参数接收方法

    前端格式以 2020 05 09 10 55 22 这样的格式传值 后台实体类LocalDateTime 添加注解 即可接收到值 DateTimeFormat pattern yyyy MM dd HH mm ss JsonFormat p
  • day4:最长回文子串

    文章目录 问题描述 思路 实现代码 问题描述 给定一个字符串 s 找到 s 中最长的回文子串 你可以假设 s 的最大长度为 1000 示例 1 输入 babad 输出 bab 注意 aba 也是一个有效答案 示例 2 输入 cbbd 输出
  • [医疗相关任务]

    药物研发 GLAM
  • 【Linux】IO多路复用--poll函数基本处理流程

    poll 函数在服务端流程图 当我们的已连接套接字时间就绪 也就是connfd已连接套接字读事件就绪时候 那么我们就要读取接受缓冲区的数据 但是我们不能保证我们一次读取就能够读完 所以我们需要循环读取 那么就需要在应用层设置一个该connf
  • c:Bubble Sort

    file SortAlgorithm h brief 业务操作方法 VSCODE c11 author geovindu Geovin Du date 2023 09 19 ifndef SORTALGORITHM H define SOR
  • Opencv dft & idft

    Load an image cv Mat inputImage cv imread argv argc 1 0 Go float cv Mat fImage inputImage convertTo fImage CV 32F FFT st
  • HTML的无序列表、有序列表、自定义列表

    HTML的无序列表 1 无序列表是一个项目的列表 此列项目使用粗体圆点 典型的小黑圆圈 进行标记 无序列表始于 ul 无序列表 ul type disc li HTML li li CSS li li li ul ul
  • 函数的传递方式&不定长参数&参数解包

    文章目录 1 函数简介 2 函数的参数 2 1 形参和实参 2 2 函数的传递方式 2 2 1 位置传参 2 2 2 关键字传参 2 3 函数的实参类型 2 4 不定长参数 2 5 参数的解包 1 函数简介 函数也是一个对象 函数用来保存一
  • C++ 模板特例化

    文章目录 介绍 函数模板特例化 类模板特例化 介绍 模板作为C 泛型编程的基础十分重要 其使得一份代码能用于处理多种数据类型 而有些时候 我们会希望对一些特定的数据类型执行不同的代码 这时就需要使用模板特例化 template specia
  • Echarts 渐变色

    series i line itemStyle normal color Color Function default 自适应 图形的颜色 默认从全局调色盘 option color 获取颜色 颜色可以使用 RGB 表示 比如 rgb 12
  • Java技术栈,从入门到放弃,废了废了

    Java技术路线 应用框架 后端 Spring家族 Spring IoC AOP Spring MVC Spring Boot 自动配置 开箱即用 整合Web 整合数据库 事务问题 整合权限 Shiro Spring Security 整合
  • 开放集识别

    0 摘要 1 到目前为止 在计算机视觉中 几乎所有基于机器学习的识别算法的实验评估都采用了封闭集识别的形式 即在训练时已知所有测试类 对于视觉应用来说 一个更现实的场景是开放集识别 在训练时存在不完整的世界知识 在测试时未知的类可以提交给算