【今日CV 计算机视觉论文速览 第96期】 8 Apr 2019

2023-05-16

今日CS.CV 计算机视觉论文速览
Mon, 8 Apr 2019
Totally 49 papers
?上期速览 ✈更多精彩请移步主页

在这里插入图片描述

Interesting:

?单图像修饰去除, 通过估计图像中含有干扰的像素(水印、涂鸦和变形,并合成对应的像素来实现图像修饰的去除。(from 特拉维夫大学 )
在这里插入图片描述
分为了原图预测、mask预测,装饰物预测三个分支,并在最后校正图像。
在这里插入图片描述
结果如下:
在这里插入图片描述


?任务驱动的目标检测COCO-Task, 为了对场景中最适用于任务的目标进行检测,研究人员提出了COCO-Tasks,40000张图像包含了14个任务相关的标注,每张图片中都标注出了与任务最相关的目标。并基于门控图网络,提出了对于给定任务检测最合适目标的方法。(from 波恩大学)
对于不同的任务,有着最合适的目标:
在这里插入图片描述
检测出目标并将其隐藏状态放到图的节点中,利用状态转移寻找最合适的目标:
在这里插入图片描述
COCO-Task:https://coco-tasks.github.io/

?Dense-Haze ,图像去雾数据集,包含了33对真实的配对场景。 (from Universitatea Politehnica Timisoara )
评测了多种去雾算法,发现对于均匀的雾(造雾机生成)表现不好:
在这里插入图片描述
相关: O-HAZE D-HAZY HazeRD FRIDA

?HomebrewedDB, 用于三维物体6D位姿估计的RGB-D数据集,包含了33个物体13个场景(*1340),以及一系列基准测评(from TUM )
在这里插入图片描述
在这里插入图片描述
相关数据集:LineMOD Dataset. T-LESS Dataset. YCB-Video dataset.
扫描仪:https://www.artec3d.com/

?Single-Path NAS基于单路径的自然架构搜索,用于硬件高效卷积模型的设计,加速移动端卷积模型设计。 (from )
在这里插入图片描述
code:https://github.com/dstamoulis/single-path-nas

?基于精确点扩散函数和圆一致CNN实现盲解卷积显微镜, (from KAIST)。
利用基于圆连续的CNN和PSF建模层实现了盲解卷积的非监督网络。
在这里插入图片描述
Deconvolution Microscopy:http://www2.ujf-grenoble.fr/medecine/iab/clientzone/plforme9/fichiers/DeconvolutionMicroscopy_Sibarita_Springer.pdf


?CTN:Crowd Transformer Network, 探索了局域和非局域特征用于人群密度估计,利用卷积抽取局域特征,利用自注意力抽取非局域特征,结合两者估计人群密度图。(from 石溪分校)
在这里插入图片描述
加入非局域特征的效果提升:
在这里插入图片描述
与相关方法比较:
在这里插入图片描述在这里插入图片描述
相关数据集: UCF-QNRF dataset UCF-CC dataset Shanghaitech

?基于多阶水平集方法的半监督/无监督分割 , (from KAIST)
在这里插入图片描述
通过最小化水平集损失来实现分割:
在这里插入图片描述
提出方法的一些结果:
在这里插入图片描述

?SDC – Stacked Dilated Convolution:稠密匹配任务的通用描述网络, (from DFKI - German Research Center for Artificial Intelligence)
膨胀卷积层:
在这里插入图片描述

?提高医学神经网络的可解释性, (from TUM)
在这里插入图片描述
在这里插入图片描述


Daily Computer Vision Papers

Detecting Human-Object Interactions via Functional Generalization
Authors Ankan Bansal, Sai Saketh Rambhatla, Abhinav Shrivastava, Rama Chellappa
我们提出了一种方法,用于检测图像中的人体对象交互HOI,基于人类以类似方式与功能相似的对象进行交互的想法。所提出的模型是简单的并且使用人的视觉特征,人和对象的相对空间定向,以及功能相似的对象参与与人类的类似交互的知识。我们为我们的方法提供了广泛的实验验证,并展示了HOI检测的最新结果。在HICO Det数据集上,我们的方法在已发表的文献中平均精度mAP获得超过7个绝对点的增益,甚至比当代工作获得超过2.5个绝对mAP。我们还表明,我们的方法可以在看到的对象设置中为零射击HOI检测带来显着的性能提升。我们进一步证明,使用通用对象检测器,我们的模型可以推广到涉及以前看不见的对象的交互。

Moving Object Detection under Discontinuous Change in Illumination Using Tensor Low-Rank and Invariant Sparse Decomposition
Authors Moein Shakeri, Hong Zhang
尽管基于低秩和稀疏分解的方法已经成功地应用于使用结构化稀疏诱导规范的运动物体检测的问题,但是它们仍然易受在某些应用中出现的显着照明变化的影响。我们感兴趣的是在涉及时间推移图像序列的应用中移动物体检测,当前方法错误地将移动物体和照明变成前景。我们的方法依赖于多线性张量数据低秩和稀疏分解框架来解决现有方法的弱点。我们提出的方法的关键是首先创建一组先前的映射,其可以表征由于照明而导致的图像序列的变化。我们表明它们可以被k支持规范检测到。为了处理并发的两种类型的变化,我们采用两个正则化项,一个用于检测运动物体,另一个用于计算光照变化,在张量低秩和稀疏分解公式中。通过使用具有挑战性的数据集的综合实验,我们表明我们的方法展示了在不连续的照明变化下检测移动物体的显着能力,并且优于现有技术解决这一具有挑战性的问题的解决方案。

HomebrewedDB: RGB-D Dataset for 6D Pose Estimation of 3D Objects
Authors Roman Kaskman, Sergey Zakharov, Ivan Shugurov, Slobodan Ilic
创建和评估6D对象姿势检测器的最重要的先决条件之一是具有标记为6D姿势的数据集。随着深度学习方法的出现,对这些数据集的需求也在不断涌现。尽管其中一些存在,但它们很少并且通常具有受限制的设置,例如,每个序列单个对象,或专注于特定对象类型,例如无纹理工业零件。此外,通常仅从可用的3D模型而不是实际数据和可伸缩性来训练两个重要组件,即训练一种方法来检测所有对象而不是每个对象训练一个检测器。其他挑战,例如遮挡,改变光照条件和物体外观变化,以及精确定义的基准,要么不存在,要么分散在不同的数据集中。

Unsupervised Image Matching and Object Discovery as Optimization
Authors Huy V. Vo, Francis Bach, Minsu Cho, Kai Han, Yann LeCun, Patrick Perez, Jean Ponce
完全或部分监督学习是有力的,但依赖于不断增长的人类注释努力。作为缓解这一严重问题以及服务于特定应用的一种方式,无监督学习已经成为一个重要的研究领域。在计算机视觉中,无监督学习有各种各样的形式。在Cho等人的工作之后,我们将重点放在集合中图像之间的无监督发现和对象类别的匹配上。 2015.我们表明原始方法可以重新制定并解决为适当的优化问题。几个基准测试的实验证明了我们的方法的优点。

Spatial Shortcut Network for Human Pose Estimation
Authors Te Qi 1 , Bayram Bayramli 1 , Usman Ali 1 , Qinchuan Zhang 1 , Hongtao Lu 1 1 Shanghai Jiao Tong University
像许多计算机视觉问题一样,人体姿势估计是一个具有挑战性的问题,因为识别身体部位不仅需要来自局部区域的信息,还需要来自具有大空间距离的区域的信息。为了在空间上传递信息,通常使用大的卷积核和深层,引入高计算成本和大参数空间。幸运的是,对于姿势估计,人体在图像中几何结构化,使得能够建模空间依赖性。在本文中,我们提出了一种用于姿势估计任务的空间快捷网络,其中信息更容易在空间上流动。我们通过详细分析评估我们的模型,并以更小的结构展示其出色的性能。

Deep Learning Under the Microscope: Improving the Interpretability of Medical Imaging Neural Networks
Authors Magdalini Paschali, Muhammad Ferjad Naeem, Walter Simson, Katja Steiger, Martin Mollenhauer, Nassir Navab
在本文中,我们提出了一种新的解释方法,适用于组织学整体幻灯片图像WSI处理。深度神经网络DNN受Bag of Features模型的启发,配备了多实例学习MIL分支,并且在WSI分类的监督下受到严格监控。 MIL避免了标签歧义,并在不引起注意的情况下增强了我们模型的表现力。我们利用模型激活的细粒度logit热图来解释其决策过程。所提出的方法在两个具有挑战性的组织学数据集上进行定量和定性评估,优于各种基线。此外,我们咨询了两位专家病理学家关于我们的方法提供的可解释性,并承认其可以整合到几个临床应用中。

Leaf segmentation through the classification of edges
Authors Jonathan Bell, Hannah M. Dee
我们提出了一种基于检测到的边缘对拟南芥植物的叶片水平分割的方法。我们引入了一种新的边缘分类方法,该方法形成了一种方法的重要组成部分,该方法既可以从高通量表型系统中获得的图像中计算叶子并建立生长植物的叶面积。我们的技术使用相对浅的卷积神经网络将图像边缘分类为背景,植物边缘,叶缘上的叶子或内部叶子噪声。使用Canny边缘检测器找到边缘本身,并且分类的边缘可以与简单的图像处理技术一起使用以生成基于区域的分割,其中叶子是不同的。这种方法很有效地区分了一片叶子大部分隐藏的遮挡叶片,这种情况在过去已被证明对于植物图像分析系统来说是麻烦的。此外,我们还介绍了用于此项工作的公开可用的植物图像数据集。

Weakly Supervised Action Segmentation Using Mutual Consistency
Authors Yaser Souri, Mohsen Fayyaz, Juergen Gall
动作分段是预测视频的每个帧中的动作的任务。由于在完全监督行动分割的情况下准备培训视频的成本很高,因此只能从成绩单中学习的弱监督方法非常有吸引力。在本文中,我们提出了一种基于双分支网络的弱监督动作分割的新方法。我们网络的两个分支预测了两个冗余但不同的动作分割表示。在培训期间,我们引入了一种新的相互一致性损失MuCon,强制执行这两种表示是一致的。使用MuCon和成绩单预测损失,我们的网络实现了动作分割和动作对齐的最先进结果,同时完全可区分且训练更快,因为它在训练期间不需要昂贵的对齐步骤。

3DQ: Compact Quantized Neural Networks for Volumetric Whole Brain Segmentation
Authors Magdalini Paschali, Stefano Gasperini, Abhijit Guha Roy, Michael Y. S. Fang, Nassir Navab
模型体系结构的规模急剧增加,以牺牲资源需求为代价提高了性能。在本文中,我们提出3DQ,一种三元量化方法,首次应用于3D全卷积神经网络F CNN,实现16x模型压缩,同时保持与全精度模型相当的性能。我们在两个数据集上广泛评估3DQ,以完成全脑分割的挑战性任务。此外,我们展示了我们的方法能够概括两种常见的3D架构,即3D U Net和V Net。该方法的性能优于各种基线,能够将大型3D模型压缩到几MB,从而减轻了空间关键应用中的存储需求。

Radiotherapy Target Contouring with Convolutional Gated Graph Neural Network
Authors Chun Hung Chao, Yen Chi Cheng, Hsien Tzu Cheng, Chi Wen Huang, Tsung Ying Ho, Chen Kan Tseng, Le Lu, Min Sun
层析成像医学成像在现代癌症放射治疗的临床工作流程中是必不可少的。放射肿瘤学家识别癌组织,在所有图像切片的治疗区域上应用描绘。这种任务通常通过具有相当大计算成本的3D卷积网络公式化为体积分割任务。相反,受到跨切片考虑有意义信息的处理方法的启发,我们使用门控图形神经网络来更有效地构建此问题。更具体地,我们提出卷积递归门控图传播器GGP通过图像切片传播高级信息,具有可学习的邻接加权矩阵。此外,由于医生经常研究一些特定切片来改进他们的决策,我们对这种切片式交互过程进行建模,以进一步改善我们的分割结果。这可以通过毫不费力地编辑任何切片来设置,以使用GGP更新其他切片的预测。为了评估我们的方法,我们收集了81名患者的食道癌放射治疗目标治疗轮廓数据集,其中包括具有放射治疗目标的断层扫描图像。在这个数据集上,我们的卷积图网络产生了最先进的结果,并且优于基线。通过添加交互式设置,性能得到进一步提升。我们的方法可以很容易地应用于具有体积图像的各种医疗任务。结合能够进行可行预测和考虑人类交互输入的能力,所提出的方法适用于临床场景。

SDC - Stacked Dilated Convolution: A Unified Descriptor Network for Dense Matching Tasks
Authors Ren Schuster, Oliver Wasenm ller, Christian Unger, Didier Stricker
密集像素匹配对于诸如视差和流量估计的许多计算机视觉任务是重要的。我们提出了一个健壮的统一描述符网络,它考虑了具有高空间方差的大型上下文区域。我们的网络具有非常大的感受野,避免跨步层以保持空间分辨率。通过创建由多个平行堆叠的扩张卷积SDC组成的新型神经网络层来实现这些特性。这些层中的几个被组合以形成我们的SDC描述符网络。在我们的实验中,我们表明我们的SDC功能在精度和鲁棒性方面优于最先进的特征描述符。此外,我们在几个着名的公共基准测试中展示了SDC在最先进的立体匹配,光流和场景流算法方面的卓越性能。

Comparative Analysis of Automatic Skin Lesion Segmentation with Two Different Implementations
Authors Md. Kamrul Hasan, Basel Alyafi, Fakrul Islam Tushar
来自周围皮肤的病变分割是开发皮肤癌的自动计算机辅助诊断的首要任务。病变的变化特征如颜色的不均匀分布,不规则的形状,边界和纹理使这项任务具有挑战性。本文的贡献是提出和比较皮肤病变分割的两种不同方法。第一种方法使用分水岭,而第二种方法使用均值漂移。在两种方法中进行预处理步骤以去除毛发和显微图像的暗边界。使用Jaccard Index Intersection over Union或IoU进行所提出方法的评估。本文的另一个贡献是使用现有的分割和形态算法来呈现用于执行预处理和分割的管道,这导致了有希望的结果。平均而言,第一种方法表现出比第二种方法更好的表现,平均Jaccard指数超过200 ISIC 2017挑战图像分别为89.16和76.94。

Automatic detection of lesion load change in Multiple Sclerosis using convolutional neural networks with segmentation confidence
Authors Richard McKinley, Lorenz Grunder, Rik Wepfer, Fabian Aschwanden, Tim Fischer, Christoph Friedli, Raphaela Muri, Christian Rummel, Rajeev Verma, Christian Weisstanner, Mauricio Reyes, Anke Salmen, Andrew Chan, Roland Wiest, Franca Wagner
检测多发性硬化症中新的或扩大的白质病变是监测接受多发性硬化症疾病改善治疗的患者的重要任务。然而,新的或扩大的定义并不固定,并且已知病变计数是高度主观的,具有高度的内部和内部评估者可变性。用于病变量化的自动化方法具有使新的和扩大的病变的检测一致且可重复的潜力。然而,尽管这是一个紧迫的临床用例,但大多数病变分割算法并未评估其分离进展型和稳定型患者的能力。在本文中,我们表明,即使对于高性能的分割方法,单独的病变负荷的体积测量的变化也不是执行该分离的好方法。相反,我们提出了一种识别高确定性病变的方法,并在纵向多发性硬化病例的数据集上建立该方法能够将进展与稳定时间点分离,具有非常高的鉴别水平AUC 0.99,而病变体积的变化更不能执行这种分离AUC 0.71。在第二个外部数据集上验证该方法证实该方法能够超出其训练的设置,在分离稳定和渐进时间点时达到83的准确度。先前已经显示病变体积和计数都是人群中疾病过程的强预测因子。然而,我们证明,对于个体患者,这些措施的变化并不是建立疾病活动证据的充分手段。同时,直接检测从非病变到病变的高可信度变化的组织是用于识别放射学活跃患者的可行方法。

Learning Task Relatedness in Multi-Task Learning for Images in Context
Authors Gjorgji Strezoski, Nanne van Noord, Marcel Worring
多媒体应用通常需要多个任务的并发解决方案这些任务为每个其他解决方案提供了线索,但由于这些关系可能很复杂,因此这仍然是一个很少使用的财产。当基于领域知识明确定义任务关系时,多任务学习MTL提供这样的并发解决方案,同时利用在同一数据集上执行的多个任务之间的相关性。但是,在大多数情况下,没有明确定义此相关性,并且无法定义定义它的领域专家知识。为了解决这个问题,我们介绍了选择性共享,这是一种在模型训练时从二级潜在特征中学习相互作用关系的方法。利用这种洞察力,我们可以自动对任务进行分组,并允许他们以互利的方式分享知识。我们通过对分类,回归和排序任务中的5个数据集进行实验来支持我们的方法,并与强基线和现有技术方法进行比较,从而显示出在准确性和参数计数方面的持续改进。此外,我们执行激活区域分析,显示选择性共享如何影响学习表示。

What Object Should I Use? - Task Driven Object Detection
Authors Johann Sawatzky, Yaser Souri, Christian Grund, Juergen Gall
当人类必须解决日常任务时,他们只需选择最合适的物体。虽然对于特定任务应该使用哪个对象的问题听起来对人类来说是微不足道的,但对于机器人或其他自治系统来说很难回答。然而,当前基于检测对象类别的对象检测基准并未解决该问题。因此,我们介绍了COCO Tasks数据集,该数据集包含大约40,000个图像,其中14个任务的最合适的对象已被注释。我们还提出了一种方法,可以检测给定任务的最合适的对象。该方法建立在门控图形神经网络的基础上,以利用每个对象的外观以及场景中所有当前对象的全局上下文。在我们的实验中,我们表明所提出的方法优于在数据集上评估的其他方法,如分类或排序方法。

Relation-Aware Global Attention
Authors Zhizheng Zhang, Cuiling Lan, Wenjun Zeng, Xin Jin, Zhibo Chen
注意机制旨在通过关注重要特征和抑制不必要的特征来增加代表权。对于卷积神经网络CNN,通常通过局部卷积来学习注意力,其忽略全局信息和隐藏关系。如何有效地利用长距离背景来全球学习注意力尚未得到充分发掘。在本文中,我们提出了一个有效的关系感知全局注意RGA模块,用于CNN充分利用全局相关性来推断注意力。具体地,当计算特征位置处的注意力时,为了掌握全局范围的信息,我们建议将关系(即,其成对相关性关系)与所有特征位置以及特征本身一起堆叠以用卷积学习学习注意力。操作。给定中间特征图,我们已经在空间和通道维度上验证了该设计的有效性。当应用于人物识别任务时,我们的模型达到了最先进的性能。广泛的消融研究表明,我们的RGA可以显着增强特征表示能力。我们通过将RGA应用于场景分割和图像分类任务来进一步证明RGA对视觉任务的一般适用性,从而实现一致的性能改进。

Semantic Attribute Matching Networks
Authors Seungryong Kim, Dongbo Min, Somi Jeong, Sunok Kim, Sangryul Jeon, Kwanghoon Sohn
我们提出了语义属性匹配网络SAM Net,用于在语义相似的图像上共同建立对应关系和传递属性,在克服其局限性的同时智能地编织两个任务的优点。 SAM Net通过减少图像之间的属性差异并使用学习的对应关系合成属性转移图像来建立可靠对应的迭代过程来实现这一点。为了使用图像对形式的弱监督来学习网络,我们基于属性转移源特征和扭曲目标特征之间的匹配相似性来呈现语义属性匹配损失。使用SAM Net,可以在语义匹配和属性转移的几个基准上实现最先进的性能。

Learning to Adapt for Stereo
Authors Alessio Tonioni, Oscar Rahnama, Thomas Joy, Luigi Di Stefano, Thalaiyasingam Ajanthan, Philip H. S. Torr
立体深度估计的真实世界应用需要对环境中的动态变化具有鲁棒性的模型。尽管基于深度学习的立体声方法是成功的,但它们通常不能概括为环境中看不见的变化,使得它们不太适合于诸如自动驾驶的实际应用。在这项工作中,我们引入了一个学习适应框架,使深度立体方法能够以无人监督的方式不断适应新的目标域。具体而言,我们的方法将适应程序纳入学习目标,以获得更适合无监督在线适应的基本参数集。为了进一步提高自适应的质量,我们学习了一种置信度量,有效地掩盖了无监督自适应期间引入的误差。我们在合成和现实世界的立体数据集上评估我们的方法,并且我们的实验证明,学习适应对于在非常不同的领域进行在线适应确实是有益的。

High-level Semantic Feature Detection:A New Perspective for Pedestrian Detection
Authors Wei Liu, Shengcai Liao, Weiqiang Ren, Weidong Hu, Yinan Yu
对象检测通常需要传统的滑动窗口分类器或现代深度学习方法中基于锚的预测。但是,这些方法中的任何一种都需要在窗口或锚点中进行繁琐的配置。在本文中,以行人检测为例,我们提供了一种新的视角,其中检测对象被激发为高级语义特征检测任务。像边缘,角落,斑点和其他特征检测器一样,所提出的检测器扫描整个图像上的特征点,卷积自然适合这些特征点。然而,与传统的低级特征不同,所提出的探测器用于更高级别的抽象,即,我们正在寻找存在行人的中心点,并且现代深度模型已经能够进行如此高级别的语义抽象。此外,与斑点检测一样,我们也预测行人点的比例,这也是一个简单的卷积。因此,在本文中,行人检测通过卷积简化为直接的中心和尺度预测任务。这样,所提出的方法享有无锚设置。虽然结构简单,但它在具有挑战性的行人检测基准上具有竞争力的准确性和良好的速度,因此导致新的有吸引力的行人探测器。代码和模型将在网址上提供

Branched Multi-Task Networks: Deciding What Layers To Share
Authors Simon Vandenhende, Bert De Brabandere, Luc Van Gool
在深度学习的背景下,已经使用具有多个分支的神经网络,每个分支都解决不同的任务。这种分支网络通常以许多共享层开始,之后不同的任务分支到它们自己的层序列中。由于可能的网络配置的数量是组合大的,因此先前的工作通常依赖于特殊方法来确定层共享的级别。

3D LiDAR and Stereo Fusion using Stereo Matching Network with Conditional Cost Volume Normalization
Authors Tsun Hsuan Wang, Hou Ning Hu, Chieh Hubert Lin, Yi Hsuan Tsai, Wei Chen Chiu, Min Sun
主动和被动深度感测技术的互补特性激发了Li DAR传感器和立体相机的融合,以改善深度感知。我们利用立体匹配网络,利用LiDAR信息上的两种增强技术输入融合和条件成本量标准化CCVNorm,而不是直接融合LiDAR和立体模态的估计深度。所提出的框架是通用的并且与立体匹配神经网络中通常使用的成本量组件紧密集成。我们通过实验验证了我们的方法对KITTI立体和深度完成数据集的有效性和稳健性,获得了针对各种融合策略的有利性能。此外,我们证明,通过CCVNorm的分层扩展,所提出的方法在计算时间和模型大小方面仅给立体匹配网络带来轻微的开销。对于项目页面,请参阅

Point-to-Point Video Generation
Authors Tsun Hsuan Wang, Yen Chi Cheng, Chieh Hubert Lin, Hwann Tzong Chen, Min Sun
虽然图像处理实现了巨大的突破,例如,近年来产生逼真的面孔,但是视频生成的探索更少且难以控制,这限制了其在现实世界中的应用。例如,视频编辑需要跨多个剪辑的时间一致性,因此在视频序列内构成开始和结束约束。我们介绍了控制生成过程的点对点视频生成,其中两个控制点是目标开始和结束帧。该任务具有挑战性,因为该模型不仅生成帧的平滑过渡,而且还提前计划以确保生成的结束帧符合各种长度的视频的目标结束帧。我们建议在跳帧训练策略下最大化条件数据似然的修正变分下界。我们的模型可以生成序列,使得它们的结束帧与目标结束帧一致,而不会损失质量和多样性。在Stochastic Moving MNIST,Weizmann Human Action和Human3.6M上进行了大量实验,以评估所提方法的有效性。我们在一系列场景下演示了我们的方法,例如,动态长度生成和定性结果展示了点到点生成的潜力和优点。对于项目页面,请参阅

Deep Predictive Video Compression with Bi-directional Prediction
Authors Woonsung Park, Munchurl Kim
最近,深度图像压缩在编码效率和图像质量改进方面已经显示出很大的进步。然而,使用深度学习网络对视频压缩的关注相对较少。在本文中,我们首先提出了一种基于深度学习的双向预测编码网络,称为BP DVC Net,用于视频压缩。从传统视频编码的教训中了解到,B帧编码结构被纳入我们的BP DVC网络中。虽然传统视频编解码器中的双向预测编码需要向解码器侧发送用于块运动的运动矢量和来自预测的残差,但是我们的BP DVC网络在编码器和解码器侧都包含光流估计网络,以便不传输运动。信息到解码器侧以提高编码效率。此外,BP DVC网络中的双向预测网络被提出并用于精确预测当前帧并使得到的残留物尽可能小。此外,我们的BP DVC网络允许使用相邻帧的特征图之间的时间上下文对压缩特征图进行熵编码。 BP DVC Net具有端到端视频压缩架构,具有新设计的流量和预测损耗。实验结果表明,我们提出的方法的压缩性能与H.264,HEVC在PSNR和MS SSIM方面的压缩性能相当。

Dense Haze: A benchmark for image dehazing with dense-haze and haze-free images
Authors Codruta O. Ancuti, Cosmin Ancuti, Mateu Sbert, Radu Timofte
单一图像去雾是一个不适合的问题,最近引起了重视。尽管在过去几年中对去雾的兴趣显着增加,但由于缺乏成对的真实模糊和相应的无雾度参考图像,所以去雾方法的验证仍然很不令人满意。为了解决这个限制,我们向Dense Haze介绍了一种新颖的去雾数据集。 Dense Haze的特点是密集而均匀的朦胧场景,包含33对真实的朦胧和相应的各种户外场景的无阴影图像。通过引入由专业雾霾机器产生的真实雾度来记录朦胧的场景。无朦胧和无雾度的相应场景包含在相同照明参数下捕获的相同视觉内容。密集雾度数据集旨在通过促进真实和各种模糊场景的稳健方法,显着推动单图像去雾的艺术水平。我们还基于Dense Haze数据集提供了对最先进的单图像去雾技术的全面定性和定量评估。毫不奇怪,我们的研究表明,现有的去雾技术对于密集均匀的朦胧场景表现不佳,并且仍有很大的改进空间。

Snap and Find: Deep Discrete Cross-domain Garment Image Retrieval
Authors Yadan Luo, Ziwei Wang, Zi Huang, Yang Yang, Huimin Lu
随着在线商店数量的增加,迫切需要智能搜索系统来理解客户拍摄的项目照片,并搜索大型产品数据库以找到他们想要的项目。然而,传统检索系统难以匹配顾客拍摄的物品照片和商店正式发布的物品照片,尤其是服装图像。为了桥接顾客和商店提供的服装照片,现有的研究已经广泛地利用服装属性文本,例如黑色和地标文本,例如衣领,以学习用于服装表示的共同嵌入空间。不幸的是,它们省略了属性的顺序关联,并消耗大量的人工来标记地标。在本文中,我们提出了一个深度多任务跨域散列称为textit DMCH,其中跨域嵌入和顺序属性学习同时建模。顺序属性学习不仅提供嵌入的语义指导,而且还产生对判别性局部细节文本的丰富关注,例如衣服项目的黑色按钮,而不需要额外的地标标签。与现有技术模型相比,这可以带来有前途的性能和306倍的效率提升,通过对两个公共时尚数据集的严格实验证明了这一点。

Evading Defenses to Transferable Adversarial Examples by Translation-Invariant Attacks
Authors Yinpeng Dong, Tianyu Pang, Hang Su, Jun Zhu
深度神经网络容易受到对抗性的例子的影响,这些例子可能通过添加难以察觉的扰动来误导分类器。对抗性示例的一个有趣的特性是它们良好的可转移性,使黑盒攻击在现实世界的应用程序中可行。由于对抗性攻击的威胁,已经提出了许多方法来提高鲁棒性。对于可转移的对抗性示例,几种最先进的防御被证明是强有力的。在本文中,我们提出了一种平移不变攻击方法,以针对防御模型生成更多可转移的对抗性示例。通过优化翻译图像集合上的扰动,所生成的对抗性示例对被攻击的白盒模型不太敏感并且具有更好的可转移性。为了提高攻击效率,我们进一步表明,我们的方法可以通过将未翻译图像的梯度与预定义的内核进行卷积来实现。我们的方法通常适用于任何基于梯度的攻击方法。 ImageNet数据集上的大量实验验证了所提方法的有效性。我们最好的攻击愚弄八种最先进的防御技术,平均成功率仅为82%,仅基于可转移性,证明了当前防御技术的不安全性。

Multiphase Level-Set Loss for Semi-Supervised and Unsupervised Segmentation with Deep Learning
Authors Boah Kim, Jong Chul Ye
由于其高性能和快速计算时间,最新的现有图像分割算法大多基于深度神经网络。然而,这些方法通常以监督方式训练,这需要大量高质量的地面真实分割掩模。另一方面,诸如水平集方法之类的经典图像分割方法对于帮助生成没有标签的分割掩模仍然是有用的,但是这些算法通常在计算上是昂贵的并且通常在语义分割中具有局限性。在本文中,我们提出了一种新的多阶段水平集损失函数,用于基于深度学习的语义图像分割,不带或带有小标记数据。该损失函数基于以下观察:深度神经网络的softmax层与经典多相水平集算法中的特征函数具有惊人的相似性。我们证明了多阶段水平集损失函数能够实现半监督甚至无监督的语义分割。此外,我们的损失函数还可以用作正则化函数来增强监督语义分割算法。多个数据集的实验结果证明了该方法的有效性。

Fast Spatio-Temporal Residual Network for Video Super-Resolution
Authors Sheng Li, Fengxiang He, Bo Du, Lefei Zhang, Yonghao Xu, Dacheng Tao
最近,基于深度学习的视频超分辨率SR方法已经取得了很好的性能。为了同时利用视频的空间和时间信息,采用三维3D卷积是一种自然的方法。然而,直接利用3D卷积可能导致过高的计算复杂度,这限制了视频SR模型的深度并因此破坏了性能。在本文中,我们提出了一种新颖的快速时空残留网络FSTRN,用于视频SR任务的3D卷积,以便在保持低计算负荷的同时提高性能。具体来说,我们提出了一种快速空间时间残差块FRB,它将每个3D滤波器划分为两个3D滤波器的乘积,这两个滤波器具有相当低的尺寸。此外,我们设计了一个跨空间残差学习,直接链接低分辨率空间和高分辨率空间,这可以大大减轻特征融合和向上缩放部分的计算负担。对基准数据集的广泛评估和比较验证了所提出方法的优势,并证明所提出的网络明显优于当前的现有技术方法。

Actively Seeking and Learning from Live Data
Authors Damien Teney, Anton van den Hengel
传统机器学习方法的一个关键限制是它们需要训练数据,这些数据例证了所有要学习的信息。这是视觉问答方法的一个特殊问题,可能会被问到几乎任何问题。我们提出的方法是通过搜索测试时所需的信息来克服此限制的一步。生成的方法动态地利用来自外部源的数据,例如大量问题答案或图像标题。具体地说,我们学习了一组简单VQA模型的基本权重,它们特别适用于给定问题,并具有针对该问题专门检索的信息。适应过程利用基于梯度的元学习的最新进展以及对有效检索和跨域适应的贡献。我们超越了VQA CP v2基准测试的最新技术水平,并证明了我们的方法对于分发测试数据本质上更加健壮。我们演示了使用MS COCO字幕数据集来使用外部非VQA数据来支持应答过程。这种方法为开放域VQA系统开辟了一条新途径,该系统可与各种数据源进行交互。

Deep Tree Learning for Zero-shot Face Anti-Spoofing
Authors Yaojie Liu, Joel Stehouwer, Amin Jourabloo, Xiaoming Liu
面部反欺骗旨在使面部识别系统不会将假面部识别为真正的用户。虽然开发了先进的面部反欺骗方法,但也正在创建新类型的欺骗攻击并且对所有现有系统构成威胁。我们将未知欺骗攻击的检测定义为Zero Shot Face Anti spoofing ZSFA。以前ZSFA的作品只研究了1种类型的恶搞攻击,例如打印重放攻击,这限制了这个问题的洞察力。在这项工作中,我们将ZSFA问题扩展到13种类型的欺骗攻击,包括打印攻击,重放攻击,3D掩码攻击等。提出了一种新的深树网络DTN来解决ZSFA问题。学习树以无人监督的方式将欺骗样本划分为语义子组。当数据样本到达时,知道或未知的攻击,DTN将其路由到最相似的欺骗群集,并做出二元决策。此外,为了研究ZSFA,我们引入了第一个面部反欺骗数据库,其中包含各种类型的恶搞攻击。实验表明,我们提出的方法达到了ZSFA多种测试协议的最新技术水平。

FLightNNs: Lightweight Quantized Deep Neural Networks for Fast and Accurate Inference
Authors Ruizhou Ding, Zeye Liu, Ting Wu Chin, Diana Marculescu, R. D. Shawn Blanton
为了提高深度神经网络DNN在定制硬件上的吞吐量和能量效率,轻量级神经网络将DNN的权重约束为有限组合,表示为2的2的幂中的k。在这样的网络中,乘法累加运算可以可以用单个换档操作,或两个换档和一个添加操作来替换。为了提供更多的设计灵活性,可以最佳地选择每个卷积滤波器的k而不是为每个滤波器固定。在本文中,我们将k的选择制定为可微分,并描述用于基于每个滤波器确定基于k的权重的模型训练。超过46个涉及8个配置和4个数据集的FPGA设计实验表明,具有灵活k值的轻量级神经网络(称为FLightNN)充分利用了现场可编程门阵列FPGA上的硬件资源,我们的实验结果表明,与之相比,FLightNN可以实现2倍的加速。带有k 2的轻质NN,精度降低仅为0.1。与4位定点量化相比,FLightNN由于其轻量化的换档操作而实现更高的精度和高达2倍的推理加速。此外,我们的实验还证明了FLightNN可以实现更高的ASIC实现计算能效。

A Regularization Approach for Instance-Based Superset Label Learning
Authors Chen Gong, Tongliang Liu, Yuanyan Tang, Jian Yang, Jie Yang, Dacheng Tao
与传统的监督学习不同,其中每个训练示例仅具有一个显式标签,超集标签学习SLL指的是训练示例可以与一组候选标签相关联的问题,并且其中只有一个是正确的。现有的SLL方法是基于正则化的或基于实例的,并且后者已经实现了最先进的性能。这是因为最新的基于实例的方法包含明确的消歧操作,该操作准确地从其模糊的候选标签中获取每个训练示例的groundtruth标签。然而,这种消歧操作并未充分考虑不同候选标签之间的互斥关系,因此消歧标签通常以非歧视方式生成,这对于基于实例的方法不利于获得令人满意的性能。为了解决这个缺陷,我们开发了一种新的正则化方法,例如基于超集标签RegISL学习,因此我们的基于实例的方法也继承了正则化方案所具有的良好判别能力。具体来说,我们使用图表来表示训练集,并要求图表上相邻的示例获得类似的标签。更重要的是,提出了一个歧视术语,以扩大可能标签之间的价值差距,并为每个培训示例提供不太可能的标签。结果,部署了不同候选标签之间的固有约束,并且由RegISL生成的消歧标签比现有基于实例的算法输出的标签更具辨别性和准确性。各种任务的实验结果令人信服地证明了我们的RegISL在训练精度和测试精度方面对其他典型SLL方法的优越性。

Regularizing Activation Distribution for Training Binarized Deep Networks
Authors Ruizhou Ding, Ting Wu Chin, Zeye Liu, Diana Marculescu
二值化神经网络BNN可以显着减少资源受限设备中的推理延迟和能量消耗,因为它们具有纯逻辑计算和较少的内存访问。然而,训练BNN是困难的,因为激活流遇到退化,饱和和梯度失配问题。先前的工作通过增加激活位和增加浮点缩放因子来缓解这些问题,从而牺牲了BNN的能量效率。在本文中,我们建议使用分布损失来明确地规范激活流程,并建立一个系统地制定损失的框架。我们的实验表明,分布损失可以持续提高BNN的准确性,而不会失去其能量效益。此外,配备所提出的正则化,BNN训练被证明对于包括优化器和学习速率的超参数的选择是鲁棒的。

Video Classification with Channel-Separated Convolutional Networks
Authors Du Tran, Heng Wang, Lorenzo Torresani, Matt Feiszli
已经表明,组卷积在用于图像分类的各种2D卷积体系结构中提供了显着的计算节省。很自然地问1组卷积是否有助于减轻视频分类网络的高计算成本2哪些因素在3D组卷积网络中最重要,3什么是良好的计算精度与3D组卷积网络的权衡。

Assessment of Faster R-CNN in Man-Machine collaborative search
Authors Arturo Deza, Amit Surana, Miguel P. Eckstein
随着由深度学习驱动的现代专家系统的出现,补充人类专家,例如放射科医师,皮肤科医生,监视扫描仪,我们分析这些专家系统如何以及何时在细粒度小目标视觉搜索任务中提高人类表现。我们建立了一个2会话阶乘实验设计,人们可以在视觉上搜索有和没有深度学习DL专家系统的目标。我们在DL系统存在的情况下评估目标检测性能和眼睛运动的人体变化。我们发现通过具有VGG16的更快R CNN计算的DL系统的性能改进与观察者的感知能力(例如,灵敏度)相互作用。主要结果包括1 DL系统降低了高灵敏度的观察者组平均每个图像的误报率2只有高灵敏度的人类观察者比DL系统表现更好,而低灵敏度组不超过单个DL系统性能,即使在DL系统本身的帮助下3试验次数的增加和观察时间的减少主要是由DL系统仅针对低灵敏度组驱动的。 4 DL系统帮助人类观察者通过第3次固定固定在目标上。这些结果提供了与人类协作或竞争的深度学习系统的益处和局限性的见解。

VQD: Visual Query Detection in Natural Scenes
Authors Manoj Acharya, Karan Jariwala, Christopher Kanan
我们提出了Visual Query Detection VQD,一种新的视觉接地任务。在VQD中,系统由自然语言引导以在图像中定位可变数量的对象。 VQD与视觉引用表达识别有关,其中任务是仅对一个对象进行本地化。我们描述了VQD的第一个数据集,我们提出了基准算法,证明了与引用表达识别相比较的任务难度。

Crowd Transformer Network
Authors Viresh Ranjan, Mubarak Shah, Minh Hoai Nguyen
在本文中,我们解决了人群计数问题,并提出了一种基于人群密度估计的方法来获取人群数量。大多数现有的人群计数方法依赖于局部特征来估计人群密度图。在这项工作中,我们研究了将本地和非本地特征结合起来进行人群统计的有用性。我们使用卷积层来提取局部特征,以及一种用于提取非局部特征的自我注意机制。我们结合了本地和非本地特征,并将其用于估计人群密度图。我们对三个公开的Crowd Counting数据集进行了实验,并且比以前的方法取得了显着的改进。

Biometric Fish Classification of Temperate Species Using Convolutional Neural Network with Squeeze-and-Excitation
Authors Erlend Olsvik, Christian M. D. Trinh, Kristian Muri Knausg rd, Arne Wiklund, Tonje Knutsen S rdalen, Alf Ring Kleiven, Lei Jiao, Morten Goodwin
我们对有效监测和管理沿海生态系统的理解和能力受到观察方法的严重限制。在自然环境中自动识别物种是一种很有前途的工具,它将彻底改变视频和图像分析,以适应海洋生态学的广泛应用。然而,由于水中的噪声和光照变化,从水下相机捕获的图像中对鱼进行分类通常是非常具有挑战性的。文献中的先前分类方法依赖于过滤图像以将鱼与背景分离或通过去除背景噪声来锐化图像。该预过滤过程可能对分类准确性产生负面影响。在这项工作中,我们提出了一种卷积神经网络CNN,它使用挤压和激励SE架构对鱼类图像进行分类而无需预先过滤。与传统方案不同,该方案分为两个步骤。第一步是通过公共数据集(即Fish4Knowledge)训练鱼类分类器,而不使用图像增强,称为预训练。第二步是基于由我们感兴趣的物种组成的新数据集训练分类器,命名为后训练。从训练前获得的权重作为先验应用于训练后。这也称为转学习。我们的解决方案在预训练中实现了99.27精度的最新精度。培训后的准确率为83.68。使用图像增强进行后训练的实验产生了87.74的准确度,表明该解决方案对于更大的数据集是可行的。

Learning Implicit Generative Models by Matching Perceptual Features
Authors Cicero Nogueira dos Santos, Youssef Mroueh, Inkit Padhi, Pierre Dognin
感知功能PF已经在转学习,风格转移和超分辨率等任务中取得了巨大成功。然而,PFs作为学习生成模型的关键信息来源的功效尚未得到很好的研究。我们在此研究PF在通过矩匹配MM学习隐式生成模型的背景下的使用。更具体地说,我们提出了一种新的有效MM方法,通过对从预训练的ConvNets中提取的特征进行均值和协方差匹配来学习隐式生成模型。我们提出的方法改进了现有的MM方法,从而摆脱了对抗性学习的有问题的最大游戏2,避免了内核函数的在线学习,并且3对于使用的时刻和所需的小批量大小都是有效的。我们的实验结果表明,由于来自预训练深度ConvNets的PF的表现力,我们的方法实现了具有挑战性基准的最先进结果。

Blind Visual Motif Removal from a Single Image
Authors Amir Hertz, Sharon Fogel, Rana Hanocka, Raja Giryes, Daniel Cohen Or
在网络上共享的许多图像包括重叠的对象,或视觉图案,例如文本,符号或绘图,其向图像添加描述或装饰。例如,指定图像拍摄位置的装饰性文本会在各种不同的图像中重复出现。通常,重复出现的视觉主题在语义上相似,但在位置,风格和内容方面不同,例如,文字放置,字体和字母。这项工作提出了一种基于深度学习的技术,用于盲目去除这些物体。在盲区中,图案的位置和精确几何形状是未知的。我们的方法同时估计哪些像素包含视觉主题,并合成潜在的潜在图像。它被应用于单个输入图像,在指定图案的位置时没有任何用户帮助,实现了用于盲目去除不透明和半透明视觉图案的现有技术结果。

DeceptionNet: Network-Driven Domain Randomization
Authors Sergey Zakharov, Wadim Kehl, Slobodan Ilic
我们提出了一种新方法来解决合成数据和实际数据之间的域适应问题。我们不是采用盲域随机化,即增加具有随机背景或改变照明和着色的合成渲染,而是利用任务网络作为其自身的对抗指南,以实现有用的增强,从而最大化输出的不确定性。为此,我们设计了一个最小最大优化方案,其中给定任务与特殊欺骗网络竞争,目标是根据欺骗者强制执行的特定约束最小化任务错误。欺骗网络从一系列可微分像素级扰动中采样,并利用任务架构来找到最具破坏性的增强。与需要来自目标域的未标记数据的基于GAN的方法不同,我们的方法实现了强大的映射,可以很好地从源数据单独扩展到多个目标分布。我们将我们的框架应用于增强的MNIST变体上的数字识别任务以及Cropped LineMOD数据集上的分类和对象姿态估计,并与许多域自适应方法进行比较,展示具有优异泛化能力的类似结果。

Learning to Cluster Faces on an Affinity Graph
Authors Lei Yang, Xiaohang Zhan, Dapeng Chen, Junjie Yan, Chen Change Loy, Dahua Lin
面部识别近年来取得了显着进步,其表现达到了很高的水平。将其提升到一个新的水平需要更大的数据,这将涉及过高的注释成本。因此,利用未标记的数据成为一种有吸引力的选择。最近的工作表明,聚集未标记的面是一种很有前景的方法,通常会带来显着的性能提升。然而,如何有效地聚类,特别是在大规模,即百万级或更高级别的数据集上,仍然是一个悬而未决的问题。一个关键的挑战在于群集模式的复杂变化,这使得传统的聚类方法难以满足所需的准确性。这项工作探索了一种新颖的方法,即学习集群而不是依靠手工制作的标准。具体来说,我们提出了一个基于图卷积网络的框架,它结合了检测和分割模块来精确定位面部聚类。实验表明,我们的方法可以产生更精确的面部聚类,从而也可以在人脸识别中获得进一步的性能提升。

Learning to Remember: A Synaptic Plasticity Driven Framework for Continual Learning
Authors Oleksiy Ostapenko, Mihai Puscas, Tassilo Klein, Patrick J hnichen, Moin Nabi
在持续学习CL的背景下训练的模型应该能够在不确定的时间段内从数据流中学习。这里面临的主要挑战是保持旧知识,同时在学习新任务时从中受益,2保证模型可扩展性,并且需要学习越来越多的数据。为了应对这些挑战,我们引入了动态生成记忆DGM,这是一种用于持续学习的突触可塑性驱动框架。 DGM依赖于条件生成对抗网络,通过神经掩蔽实现可学习的连接可塑性。具体来说,我们评估应用于i层激活的两种神经掩蔽变体,以及ii直接连接权重。此外,我们提出了一种动态网络扩展机制,可确保足够的模型容量以适应不断传入的任务。增加的容量是从学习的二进制掩码动态确定的。我们在视觉分类任务的连续类增量设置中评估DGM。

Controlling Neural Networks via Energy Dissipation
Authors Michael Moeller, Thomas M llenhoff, Daniel Cremers
过去十年在借助深度学习技术解决各种计算机视觉问题方面取得了巨大成功。最近,许多作品已经证明,具有合适的网络架构的基于学习的方法甚至表现出用于解决诸如去模糊,超分辨率或医学图像重建之类的病态图像重建问题的优越性能。然而,纯粹基于学习的方法的缺点是它们不能为训练的网络在推理期间遵循给定的数据形成过程提供可证实的保证。在这项工作中,我们提出了能量消散网络,它迭代地计算相对于当前估计重建的给定成本函数或能量的下降方向。因此,诸如线搜索的自适应步长规则以及适当数量的迭代可以保证重建遵循以能量编码的给定数据形成模型到任意精度,并因此即使在测试时间期间也控制模型的行为。我们证明,在标准假设下,使用网络预测的方向下降线性收敛到全球最小能量。我们在单图像超分辨率和计算机断层扫描CT重建的实验中说明了所提出的方法的有效性,并进一步说明了凸可行性问题的扩展。

A Hybrid Approach with Optimization and Metric-based Meta-Learner for Few-Shot Learning
Authors Duo Wang, Yu Cheng, Mo Yu, Xiaoxiao Guo, Tao Zhang
几乎没有镜头学习的目的是学习新课程的分类器,每班只有一些训练样例。大多数现有的几种镜头学习方法属于基于度量的元学习或基于优化的元学习类别,两者都在简化的k shot N way图像分类设置中取得了成功。具体地,基于优化的方法训练元学习器以预测任务特定分类器的参数。特定于任务的分类器需要是同构的,以便于参数预测,因此元学习方法只能处理几个镜头学习问题,其中任务共享统一数量的类。基于度量的方法为所有任务学习一个任务不变度量。即使度量学习方法允许不同数量的类,它们也要求所有来自类似域的任务,以便存在可以跨任务工作的统一度量。在这项工作中,我们提出了一个名为Meta Metric Learner的混合元学习模型,它结合了优化和基于度量的方法的优点。我们的元度量学习方法包括两个组件,一个基于任务特定度量的学习者作为基础模型,以及一个学习和指定基础模型的元学习器。因此,我们的模型能够处理灵活数量的类,并为任务之间的分类生成更通用的度量标准。我们在标准k镜头N方式测试我们的方法以前的工作之后的几个镜头学习设置和在单一源形式和多源形式中具有灵活类别编号的新的实际几个镜头设置。实验表明,我们的方法可以在所有设置中获得卓越的性能。

Blind Deconvolution Microscopy Using Cycle Consistent CNN with Explicit PSF Layer
Authors Sungjun Lim, Sang Eun Lee, Sunghoe Chang, Jong Chul Ye
反卷积显微镜已被广泛用于改善宽场荧光显微镜的分辨率。然而,通常需要点扩散函数PSF测量或盲估计的常规方法在计算上是昂贵的。最近,基于CNN的方法已被探索为快速和高性能的替代方案。在本文中,我们提出了一种新的无监督深度神经网络,用于基于循环一致性和PSF建模层的盲反褶积。与最近针对类似问题的CNN方法相比,显式PSF建模层提高了算法的鲁棒性。实验结果证实了该算法的有效性。

Single-Path NAS: Designing Hardware-Efficient ConvNets in less than 4 Hours
Authors Dimitrios Stamoulis, Ruizhou Ding, Di Wang, Dimitrios Lymberopoulos, Bodhi Priyantha, Jie Liu, Diana Marculescu
我们能否在移动设备的运行时约束下自动设计具有最高图像分类精度的卷积网络ConvNet神经架构搜索NAS通过自动化此过程彻底改变了硬件高效ConvNets的设计。然而,由于组合大的设计空间,NAS问题仍然具有挑战性,导致至少200个GPU小时的显着搜索时间。为了减轻这种复杂性,我们提出了单路径NAS,这是一种新颖的可区分NAS方法,可在不到4小时内设计出硬件高效的ConvNets。我们的研究成果如下1.单路径搜索空间相比前微NAS方法,单路径NAS使用一个单一的路径,通过参数ConvNet编码所有架构决策与共享卷积内核参数,从而极大地降低训练的参数和搜索的数量成本低至几个时代。 2.硬件高效的ImageNet分类单路径NAS在ImageNet上实现了74.96的前1精度,在Pixel 1手机上具有79ms的延迟,与具有类似约束80ms的NAS方法相比,这是最先进的精度。 3. NAS效率单路径NAS搜索成本仅为8个时段30 TPU小时,与之前的工作相比,速度提高了5,000倍。 4.再现性与最近只发布预训练模型的所有移动高效NAS方法不同,我们开源整个代码库

Deep Learning-based Universal Beamformer for Ultrasound Imaging
Authors Shujaat Khan, Jaeyoung Huh, Jong Chul Ye
在超声US成像中,在应用特定延迟之后,各个通道RF测量被反向传播和累积以形成图像。虽然这种时间反转通常使用基于硬件或软件的延迟和求和DAS波束形成器来实现,但是在数据采集不理想的情况下,DAS的性能迅速降低。在这里,我们首次证明了设计为深度神经网络的单个数据驱动波束形成器可以直接处理以不同采样率采集的子采样RF数据,以生成高质量的US图像。特别地,所提出的深波束形成器被评估用于聚焦超声成像和平面波成像的两种不同采集方案。

Neural Models of the Psychosemantics of `Most'
Authors Lewis O Sullivan, Shane Steinert Threlkeld
语言表达的含义与它们在具体认知任务中的使用有何关联视觉识别任务表明,人类说话者在理解,表达和验证某些量词方面可能表现出相当大的差异。本文开始研究这些心理语义任务的神经模型。我们在citet Pietroski2009的最大验证任务中训练了两种类型的网络卷积神经网络CNN模型和视觉注意RAM的循环模型,操纵视觉场景和任务持续时间的新概念。我们的结果定性地反映了人类表现的某些特征,例如对设定大小的比率的敏感性,表明依赖于近似数字,同时以有趣的方式不同,例如对于图像类型的效果呈现微妙不同的图案。最后,我们讨论了使用神经模型作为这个和其他心理学任务的认知模型的前景。

Chinese Abs From Machine Translation

Papers from arxiv.org

更多精彩请移步主页


在这里插入图片描述
pic from pixels.com

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

【今日CV 计算机视觉论文速览 第96期】 8 Apr 2019 的相关文章

随机推荐