嘉兴房地产网站建设,优化教程网,上海商标设计,小程序开发教程个人0.摘要 我们研究了一种逐步挖掘具有鉴别性的物体区域的原则方法#xff0c;使用分类网络来解决弱监督语义分割问题。分类网络只对感兴趣对象中的小而稀疏的鉴别性区域有响应#xff0c;这与分割任务的要求相背离#xff0c;分割任务需要定位密集、内部和完整的区域以进行像素…0.摘要 我们研究了一种逐步挖掘具有鉴别性的物体区域的原则方法使用分类网络来解决弱监督语义分割问题。分类网络只对感兴趣对象中的小而稀疏的鉴别性区域有响应这与分割任务的要求相背离分割任务需要定位密集、内部和完整的区域以进行像素级推理。为了缓解这种差距我们提出了一种新的对抗擦除方法逐步定位和扩展物体区域。从一个小的物体区域开始我们的方法通过以对抗性的方式擦除当前挖掘的区域驱动分类网络依次发现新的和补充的物体区域。这些定位的区域最终构成了用于学习语义分割的密集而完整的物体区域。为了进一步提升通过对抗擦除发现的区域的质量我们开发了一种在线禁止分割学习方法通过提供由更可靠的分类分数调节的辅助分割监督与对抗擦除相协作。尽管看起来很简单但是提出的方法在PASCAL VOC 2012验证集和测试集上分别达到了55.0%和55.7%的平均交并比(mIoU)得分成为了新的最先进方法。
1.引言 深度神经网络(DNNs)在语义分割任务上取得了显著的成功[2,13,15,33]可以说这要归功于可用的像素级注释掩码资源。然而为了在新的图像集上训练语义分割网络收集大量精确的像素级注释是一项劳动密集型工作不可避免地需要大量的财务投入。为了减轻对昂贵的像素级图像注释的需求弱监督方法[10,12,14,16–20,22–24,28,29]提供了一些有希望的解决方案。 在各种程度的弱监督信息中可以用于训练语义分割模型的最简单和最有效的是图像级注释[30,32]。然而仅凭这样的图像级注释训练一个性能良好的语义分割模型是相当具有挑战性的——一个障碍是如何准确地将图像级标签分配给相应的训练图像像素以使基于DNN的方法能够学习端到端地进行图像分割。为了建立所需的标签-像素对应关系一些方法被开发出来可以分为基于提议和基于分类的方法。基于提议的方法[20,28]经常详尽地检查每个提议以生成像素级的掩码这非常耗时。相比之下基于分类的方法[10,16–19,24]提供了更高效的替代方案。这些方法利用分类模型选择最具鉴别性的区域作为像素级语义分割学习的监督。然而对象分类模型通常只能识别和依赖于对象中一个小而稀疏的鉴别性区域如图1(a)中分类网络生成的热图所示。这与分割任务需要定位密集、内部和完整的区域以进行像素级推理的要求背离。这种偏离是适应分类模型解决分割问题的主要障碍并且会影响到分割结果。为了解决这个问题我们提出了一种新的对抗擦除AE方法能够逐步驱动分类网络学习完整的对象区域。AE方法可以看作是建立了一系列竞争者试图挑战分类网络直到没有可支持的证据为止发现某个特定类别的证据。 具体而言我们首先使用图像级的弱监督信息即对象类别注释训练一个图像分类网络。该分类网络用于定位图像中最具区分性的区域以推断对象的类别。然后我们从图像中擦除发现的区域以破坏分类网络的性能。为了弥补性能下降分类网络需要定位另一个区分性区域以正确分类图像。通过这种重复的对抗擦除操作分类网络能够挖掘出属于感兴趣对象的其他区分性区域。这个过程在图1(a)的示例中进行了说明其中头部是分类dog图像最具区分性的部分。擦除头部并重新训练分类网络后另一个具有区分性的部位身体会出现。重复这样的对抗擦除可以定位出越来越具有诊断图像类别的区域直到没有更多的信息区域为止。最后擦除的区域被合并形成像素级的语义分割掩码可用于训练分割模型。图1(b)中展示了更多的可视化示例。 然而AE方法可能会错过一些与对象相关的区域并且由于对边界的注意力较少可能会引入一些噪声。为了利用这些被忽视的与对象相关的区域并减轻噪声我们进一步提出了一种补充的在线禁止分割学习PSL方法与AE一起工作以发现更完整的对象区域并学习更好的语义分割模型。 具体而言PSL利用预测的图像级分类置信度来调节相应的类别特定响应图并将其形成辅助分割掩码该掩码可以以在线方式更新。那些具有低分类置信度的类别特定分割图被禁止对形成的监督掩码做出贡献因此可以有效减少噪声。 总之我们的主要贡献有三个 • 我们提出了一种新的AE方法可以有效地使图像分类网络不断挖掘和扩展目标对象区域并最终生成可用于训练分割模型的连续对象分割掩码。 • 我们提出了一种在线PSL方法利用图像级分类置信度来减少监督掩码内的噪声并实现分割网络的更好训练与AE协作。 • 我们的工作在PASCAL VOC分割基准的验证集和测试集上分别达到了55.0和55.7的mIoU值这是新的最先进水平。 图1.(a)所示为提出的AE方法的示意图。使用AE方法一个分类网络首先挖掘出对于图像类别标签dog最具区分性的区域。然后AE擦除该挖掘到的区域头部并重新训练分类网络以发现一个新的目标区域身体进行分类而不会导致性能下降。我们重复这样的对抗擦除过程多次并将擦除的区域合并成一个完整的前景分割掩码。
(b)显示了AE在不同步骤中挖掘的具有区分性的对象区域的示例以及最终得到的前景分割掩码。
2.相关工作 为了减少像素级注释的负担已经提出了各种弱监督方法来使用更粗糙的注释进行语义分割的学习。例如Papandreou等人[16]和Dai等人[3]提出使用标注的边界框来估计分割。最近Lin等人[12]使用涂鸦作为语义分割的监督。在[22]中所需的监督信息进一步放宽为实例点。所有这些注释都可以被认为比像素级注释要简单得多。 一些研究[16-19,27,31]提出了只使用图像级标签来训练分割模型的方法这是训练语义分割模型最简单的监督方式。在这些方法中Pinheiro等人[19]和Pathak等人[18]提出利用多实例学习MIL来训练分割模型。Pathak等人[17]引入了一种约束的卷积神经网络模型来解决这个问题。Papandreou等人[16]采用基于期望最大化算法的替代训练过程动态预测语义前景和背景像素。然而这些方法的性能并不令人满意。最近一些新的方法[10,20,23,24,28,29]被提出来进一步改善这个具有挑战性的任务的性能。特别地Wei等人[29]提出了一种从简单到复杂的学习方法其中使用显著性图作为监督在简单图像上训练初始分割模型然后逐渐引入越来越复杂的样本以进一步增强分割模型的能力。在[10]中提出了三种损失函数即种子、扩展和约束边界将它们集成到统一的框架中来训练分割网络。[10]和我们的工作都提出了根据分类网络定位对象线索的方法。然而Kolesnikov等人[10]只能获得小而稀疏的与对象相关的种子用于监督。相比之下我们提出的AE方法能够挖掘密集的与对象相关的区域为学习语义分割提供更丰富的监督信息。此外Qi等人[20]提出了一种增强反馈方法使用GrabCut [21]和对象提议来生成像素级注释以进行监督。据我们所知Qi等人[20]在PASCAL VOC基准测试中使用了Selective Search [26]52.7%和MCG [1]55.5%分割提议取得了最先进的mIoU分数。然而需要注意的是MCG是使用PASCAL训练图像的像素级注释进行训练的因此[20]的结果本质上是使用更强的监督获得的。 图2.提出的对抗擦除方法的概述。在第t步我们首先使用当前处理的图像It训练分类网络然后使用分类激活方法例如CAM [34]生成类别特定的响应热图Ht。对热图Ht进行硬阈值处理可以得到具有区分性的区域Ft。然后我们从It中擦除Ft并生成It1。接着将这个图像输入分类网络学习定位一个新的具有区分性的区域。底部显示了学习到的热图和相应进行擦除的训练图像。多个步骤中挖掘到的区域共同构成了预测的对象区域作为输出用于后续训练分割网络。
3.从分类到语义分割 所提出的分类到语义分割的方法包括两个新颖的组成部分即基于AE的对象区域挖掘和在线PSL用于语义分割。
3.1.使用AE的目标区域挖掘 为了解决分类网络只对小而稀疏的区域具有响应的问题我们提出了AE方法逐步定位和扩展对象区域。如图2所示AE方法分为两个操作学习分类网络以定位对象区域和对发现的区域进行对抗擦除。具体而言分类网络是基于DeepLab-CRF-LargeFOV [2]模型进行初始化的。在conv7上应用全局平均池化并通过全连接层生成表示用于预测分类。在第一个操作中我们通过最小化平方标签预测损失来训练分类网络这是根据[30]的建议。在第二个擦除操作中我们使用分类激活映射CAM方法[34]为每个图像级标签生成热图。然后通过对热图应用硬阈值获得具有区分性的对象区域。我们通过用所有训练图像的均值像素值替换其内部像素来从训练图像中擦除挖掘到的区域。经过擦除的处理图像随后被送入下一个分类学习迭代中。 由于区分性区域已被移除不再对分类预测有贡献分类网络自然地被驱使去发现新的对象区别性区域以维持其分类准确性水平。我们重复进行分类学习和AE过程多次直到网络无法在生成的训练图像上很好地收敛即没有更多的区分性区域可用于进行合理的分类。 现在我们更正式地解释AE过程。假设训练集I {(Ii, Oi)}Ni1包含N个图像F {Fi}Ni1表示AE挖掘出的对象区域。我们使用分类模型Mt在第t个学习步骤中对每个训练图像Ii,t生成对象区域Fi,t。记C为对象类别集合CAM(·)表示热图生成操作。因此对于Ii,t的第c个热图Hi,t c其中c ∈ Oi且Oi ⊆ C是Ii,t的图像级标签集合可以根据CAM(Ii,t, Mt, c)获得。为了使分类网络从Ii,t中扩展对象区域我们擦除H c i H c i,t上值大于δ的像素。然后通过Algorithm 1中总结的过程获得F。 除了挖掘前景对象区域外找到背景定位线索对于训练分割网络也至关重要。受[10,29]的启发我们使用显著性检测技术[9]生成训练图像的显著性图。基于生成的显著性图选择像素具有低显著性值的区域作为背景。假设Bi表示Ii的选定的背景区域。我们可以获得分割掩码S {Si}Ni1其中Si Fi ∪ Bi。在生成S时我们忽略三种像素 1不同类别之间冲突的被擦除的前景区域 2位于AE识别的对象区域内部的低显著性像素 3未被分配语义标签的像素。
图3a展示了一种分割掩码生成过程的示例。“黑色”和“紫色”区域分别指背景和对象。
3.2.用于语义分割的在线PSL 所提出的AE方法为每个训练图像提供了初始的分割掩码可以用于训练分割网络。然而一些与对象相关或背景相关的像素可能会被遗漏如图3a中AE输出中的“蓝色”像素。此外由于AE在捕捉边界细节方面的限制一些标记像素的语义标签可能存在噪声。为了利用AE未标记的像素进行训练并对错误标记的像素具有鲁棒性我们提出了一种在线禁止分割学习PSL方法以进一步学习在AE提供的掩码上执行语义分割。在线PSL利用图像分类结果来识别可靠的类别特定分割图并将它们形成一个噪声较小的辅助监督图为AE输出提供辅助信息。PSL以在线方式更新生成的辅助分割图同时训练分割网络并产生越来越可靠的辅助监督。如图3b所示提出的PSL构建了一个框架包括一个用于分类的分支和一个用于语义分割的分支。特别地PSL使用平方损失作为分类分支的优化目标其生成的分类置信度被PSL用于加权对应的类别特定分割得分图。借助分类结果在线PSL能够将多类别分割图集成到辅助分割掩码中并提供额外的监督信息。通过PSL与低分类置信度的类别相对应的分割图被禁止对辅助分割图做出贡献。因此可以有效减轻来自不相关类别的噪声。 形式上将分割任务的语义标签集合表示为Cseg给定图像I的图像特定标签集合表示为Oseg其中包括背景类别。在每个训练时期将分类分支的图像级预测表示为v。假设S是AE生成的分割掩码。在线PSL利用Cseg上的图像预测来训练由θ参数化的分割网络f(I;θ)该网络在图像平面的每个位置u预测每个标签c ∈ Cseg的像素级概率fu,c(I,θ)。为了生成用于训练分割网络的附加分割掩码SˆPSL使用v来加权前景类别的分割得分图如图3b所示。通过这种禁止操作可以通过乘以一个小的分类类别得分来抑制负分数图中的大响应值。同时主导类别即占据图像大面积的相应对象的得分图也可以增强。将加权操作符表示为⊗然后通过以下方式生成Sˆ
通过在线训练网络的分割能力逐渐提高可以产生越来越准确的Sˆ用于监督后续的训练过程。在测试过程中对于那些具有低分类置信度的类别我们采用更严格的禁止策略。具体来说我们将那些小于p的分类置信度设为零保持其他不变并将它们应用于加权预测的分割得分图从而产生最终的分割结果。 图3.(a)分割掩码生成的过程。
(b)提出的用于语义分割的在线PSL方法。
分类得分用于在线加权“分割得分图”产生“加权图”。那些具有低分类置信度的类别被禁止产生分割掩码。然后挖掘得到的掩码和在线生成的掩码都用于优化网络。
4.实验
4.1.数据集和实验设置
数据集和评估指标 我们在PASCAL VOC 2012分割基准数据集[5]上评估我们提出的方法该数据集有20个目标类别和一个背景类别。该数据集被分为三个子集训练集train1,464张图像、验证集val1,449张图像和测试集test1,456张图像。按照常见的做法[2,6,19]我们通过图像增强将训练图像数量增加到10,582张。在我们的实验中只使用图像级别标签进行训练。性能以在21个类别上平均的像素IoU进行评估。我们在val集上将我们的方法与其他最先进的方法进行比较。在val和test集上的结果是通过将预测结果提交到官方的PASCAL VOC评估服务器获得的。
训练/测试设置 我们采用来自[2]的DeepLab-CRF LargeFOV作为AE和PSL中的分类网络和分割网络的基本网络其参数由在ImageNet[4]上预训练的VGG-16[25]进行初始化。我们使用一个小批量大小为30张图像从图像中随机裁剪出大小为321×321像素的补丁来训练网络。在这个阶段我们遵循[2]中的训练过程。初始学习率为0.001最后一层为0.01经过6个时期后降低10倍。训练在15个时期后终止。两个网络都在具有12GB内存的NVIDIA GeForce TITAN X GPU上进行训练。在我们的实验中我们使用了基于公开可用的Caffe框架[8]实现的DeepLab代码[2]。 在AE的每个步骤中根据热图中最大值的前20%的像素这是根据[10,34]建议的比例将其擦除并将其视为前景对象区域。我们使用[9]中的显著图来产生背景定位线索。对于属于室内场景例如沙发或桌子的图像我们采用归一化的显著值0.06作为阈值来获取背景定位线索即显著值小于0.06的像素被视为背景以防一些对象被错误地归类为背景。对于其他类别的图像阈值设置为0.12。在语义分割的测试阶段禁止阈值p经验性地设置为0.1并使用CRF [11]进行后处理。
4.2.与当下主流方法的对比 我们与使用不同级别注释的最先进的弱监督语义分割解决方案进行了广泛的比较包括涂鸦、边界框、斑点和图像级别标签。这些方法以及我们在PASCAL VOC验证集上的结果总结在表1中。在基线方法中MIL-*[19]、STC [29]和TransferNet [7]使用了更多的图像分别为700K、50K和70K进行训练。所有其他方法都基于10K个训练图像并建立在VGG16 [25]模型的基础上。 从结果可以看出我们提出的方法在使用图像级别标签和点注释进行弱监督时优于所有其他方法。特别是在仅使用图像级别标签的基线方法中AF-MCG [20]取得了第二好的性能。然而MCG生成器是在PASCAL VOC上以全监督的方式训练的因此相应的结果即AF MCG [20]隐含地利用了更强的监督。 因此使用选择性搜索段AF-SS [20]的性能下降了1.7%。此外AF-*[20]还使用GrabCut [21]来对分割掩码进行细化这通常在训练过程中耗时较长。相比之下所提出的AE方法非常简单方便用于目标区域挖掘。此外在线PSL对于训练语义分割网络也是有效且高效的。与使用图像级别标签进行监督的方法相比所提出的AE-PSL在最佳性能上提升了2.4%以上。此外我们的方法在超过0.7%的像素级监督下也优于那些隐式使用的方法。在PASCAL VOC测试中这些方法的额外比较结果如表2所示。可以看出我们的方法在竞争性基准测试中实现了这一具有挑战性任务的最新技术水平。 图4显示了一些成功的分割结果表明我们的方法即使对于一些复杂的图像也能产生准确的结果。图4底部一行给出了一个典型的失败案例。这种情况可能可以通过使用低级视觉特征例如颜色和纹理来改进和扩展擦除区域来解决。
表1.在VOC 2012验证集上对弱监督语义分割方法的比较。 表2.在VOC 2012测试集上对弱监督语义分割方法的比较。 图4.在VOC 2012验证集上的定性分割结果。最后一行显示了一个失败案例。
4.3.消融分析
4.3.1.使用AE的目标区域挖掘 使用AE方法辨别性的物体区域被逐步对抗性地擦除。因此预计在训练的收敛点处通过不同AE步骤进行的分类网络的损失值将随着更多辨别性区域的缺失而逐渐增加。图5(a)显示了不同AE步骤下分类训练损失曲线的比较。可以观察到原始图像训练收敛时的损失值约为0.05。通过进行多个AE步骤收敛的损失值略微增加AE-step2:∼0.08AE-step3:∼0.1与AE-step1相比。这表明AE移除了具有下降辨别能力的区域。继续进行更多步骤的AE以移除更多区域时分类网络收敛到一个训练损失值约为0.15的网络。这表明没有更多有用的区域可用于获得良好的分类网络因为过度擦除引入了许多真负区域到挖掘的前景对象区域中阻碍了分割的学习。图5(b)展示了过度擦除导致的一些失败案例。在大多数物体区域从训练图像中被移除的情况下分类网络必须依赖于一些上下文区域来识别类别。这些区域是真负区域对分割网络的训练有害。为了防止负面区域的污染我们只将从前三个步骤中挖掘出的具有辨别性的区域集成到最终的分割掩码中。 为了定量理解每个AE步骤的贡献表3显示了基于DeepLab-CRF-LargeFOV的分割网络训练中合并自不同kk 1,2,3,4AE步骤的前景区域的mIoU分数的比较。我们可以观察到随着添加更多前景对象区域性能确实会提高因为分割网络获得了更密集的监督。然而在进行了四个AE步骤之后由于如上所述的过度擦除性能下降了2.1%。图6展示了一些可视化示例包括训练图像顶部一行不同AE步骤生成的热图和最终擦除的区域底部一行。我们可以观察到AE方法有效地驱使分类网络定位不同的辨别性物体区域。例如最后一列中显示的“cow”的最右侧实例的身体覆盖区域首先被定位。通过擦除这个实例左侧的另外两个实例被发现。我们还在VOC 2012测试集上使用从前三个AE步骤合并的物体区域进行了实验。mIoU得分为52.8%优于仅使用图像级标签进行监督的所有方法如表2所示。
表3.在VOC 2012验证集上使用来自不同AE步骤的物体区域的分割mIoU得分的比较。 图5.(a)不同AE步骤下分类网络对不同训练时期数的损失曲线。(b)使用四个AE步骤过度擦除样本的失败案例。
4.3.2.用于语义分割的在线PSL 我们现在进行在线PSL的评估并研究它如何通过发现辅助信息来改进AE方法。我们在表4中报告了在线PSL的性能其中“w/o PSL”和“w/PSL”分别表示原始的DeepLab-CRF-LargeFOV和提出的用于训练的PSL方法的结果。我们可以观察到与“w/o PSL”相比“w/PSL”提高了3.2%的性能证明了PSL提供了额外有用的分割监督的显著有效性。 另外我们对PSL进行了一次迭代训练步骤以改善分割结果。具体而言我们首先使用来自AE和PSL的训练分割模型对训练图像进行分割。然后预测的分割掩码用作训练分割网络的监督进行另一轮训练。如表4所示通过这一额外的训练表示为w/PSL性能进一步从54.1%提高到55.0%。这一改进得益于对训练图像的预测分割掩码进行CRF操作。在CRF结果上进行一轮训练后分割网络已经得到了很好的训练。我们没有观察到进一步的性能提升因为没有提供新的监督信息。 此外我们还检验了我们的测试策略的有效性其中禁止阈值被经验地设为0.1。我们利用地面真实的图像级标签作为分类置信度对预测的分割得分图进行加权请注意这与训练阶段的禁止信息不同。结果为56.1%“w/PSL GT”比“w/PSL ”仅好1.1%。需要注意的是“w/PSL GT”实际上提供了可实现性能的上限因为分数图是通过地面真实的类别注释进行过滤的“w/PSL ”非常接近这个上限。 PSL采用分类网络的即时输出来重新加权分割得分图。另一种选择是使用地面真实注释作为分类信息。我们还考虑在训练阶段使用地面真实图像级标签进行禁止并评估性能。然而与我们提出的PSL设计相比使用地面真实信息会导致性能下降0.6%。这是因为PSL有效地利用了有关物体尺度的信息有助于生成更准确的分割掩码即相比小物体的分类分数大物体的类别更受偏爱。简单地使用0-1的地面真实注释忽略了尺度并且表现更差。我们还研究了在不使用图像级分类置信度的情况下PSL的性能表现并发现性能下降了1%。这清楚地证明了所提出的使用图像级分类信息的在线PSL方法的有效性。
表4.在VOC 2012验证集上根据不同的训练策略进行的分割mIoU得分比较。 图6.所提出的对抗擦除方法产生的挖掘对象区域示例。第二至第四行显示了生成的热图其中突出显示了有辨识力的区域。擦除区域的图像以灰色显示在最后一行。
5.总结 我们提出了一种对抗性擦除方法可以有效地使分类网络逐步发现和扩展物体辨识区域。发现的区域被用作像素级监督来训练分割网络。这种方法为弱监督分割问题提供了一种简单而有效的解决方案。此外我们提出了一种在线禁止分割学习方法该方法对于挖掘辅助信息对自动编码器AE非常有效。实际上PSL方法可以帮助任何其他弱监督方法。本研究为实现弱监督语义分割的对抗性擦除开辟了新的方向。在未来我们计划开发更有效的策略来改进对抗性擦除例如使用自适应步骤对每个训练图像进行擦除或者将对抗性擦除和PSL集成到更统一的框架中。