真实场景中的玻璃检测,有趣的应用|CVPR2020

频道:生活应用 日期: 浏览:30

加入Jishi Professional CV交流小组,与来自著名大学和企业的10,000多名视觉开发人员进行互动企业!

同时,它提供了每月的实时广播共享大知名人士,真正的项目需求对接,干燥信息摘要和行业技术交易所。遵循Jishi平台的官方帐户,回复加入该小组,并立即申请加入该小组〜

来源| AI算法培养营

卷积在生活中的应用_卷积在生活应用_卷积的应用案例

本文是一篇有趣的文章,内容是我在浏览CVPR2020文章中发现的玻璃检测文章。通常很少有人注意与玻璃检测有关的任务。可以说是打开一个新的方向,具有巨大的应用值,准确识别和细分。导出场景中的玻璃不仅可以消除玻璃透明度引起的场景的误解,还可以帮助其他计算机视觉任务(例如深度估计,对象检测,图像反射删除等)来提高鲁棒性。因此,本文的方法可以广泛用于机器人的知觉和导航,无人机跟踪等,以为其智能决策提供强大的保证。让我们看一下本文的完成方式。

纸张地址:

项目地址:

玻璃在我们的日常生活中非常普遍。但是,今天的计算机视觉任务通常会忽略它。检测玻璃的存在并不容易,关键的挑战是任何物体/场景都可能出现在玻璃后面,并且玻璃区域内的内容通常与玻璃后面的内容相似。在本文中,从单个RGB图像中检测玻璃提出了一个重要问题。为了解决此问题,构建了一个大规模的玻璃检测数据集(GDD),并设计了一个称为GDNET的玻璃检测网络,该网络探索了大量上下文线索,以利用新颖的大型视图上下文集成(LCFI)模块表演玻璃检查。大量实验表明,与微调玻璃检测的最新方法相比,该方法可以在GDD测试仪上获得更好的玻璃检测结果。

介绍

玻璃对象可能对图1所示的现有视觉系统(例如,深度预测和实例细分)产生重大影响,并且可以进一步影响许多应用程序中的智能决策,例如机器人导航和无人机跟踪,即机器人/无人机可能会击中机器人/无人机玻璃。因此,视觉系统必须能够从输入图像中检测玻璃并进行分割。

对于某些小玻璃物体(例如杯子和酒杯),由于它们具有相对固定的图案,因此可以通过现有方法对其进行很好的检测。但是,从图1(a)中所示的图像中自动检测玻璃是一项非常具有挑战性的任务。任何物体/场景都出现在玻璃后面,玻璃区域中显示的物体通常与玻璃后面的物体相似。这使玻璃与其他常见对象根本不同,这些对象通过最新的分裂方法很好地解决了。同时,直接应用现有的重要对象检测方法来检测玻璃是不合适的,因为并非所有玻璃面积都很重要。

卷积在生活应用_卷积在生活中的应用_卷积的应用案例

图1。现有视觉任务中的玻璃问题。从深度预测中,现有方法错误地预测了玻璃后面的场景深度,而不是玻璃深度((b)的步骤1)。例如,分割方法掩盖rcnn仅分割的实例在玻璃后面,而算法实际上并不知道它们在玻璃后面((b)的第二行)。此外,如果我们将现有的单个图像反射消除(SIRR)方法直接应用于仅被玻璃部分覆盖的图像,则非玻璃面积可能会损坏((b)第3行)。 GDNET可以检测玻璃(C),然后纠正这些故障条件(D)。

为了解决玻璃检测问题,一个简单的解决方案是应用反射/边界检测器。但是,如果玻璃在某些复杂场景中仅具有弱/部分反射或模糊边界(例如图1(a)中的第二张图像,它可能会失败。不仅低级及时信息(例如,玻璃内部和外部之间的色差,是由反射引起的模糊/高光/幽灵),还包括高级上下文信息(例如,之间的关系,不同的对象),因此可以使用丰富的上下文信息用于玻璃检测。

本文从两个方面解决了玻璃检测问题。首先,构建了一个大型玻璃检测数据集(GDD),其中包含3,916张高质量的图像,带有玻璃和相应的玻璃口罩,涵盖了各种日常生活场景。其次,提出了一个玻璃检测网络(GDNET),其中嵌入了多个大规模上下文特征集成(LCFI)模块以收集大量的低水平和高级环境,从大型接收领域准确地检测不同的场景。大小不同的杯子。

用于玻璃检测的新数据集-GDD

数据集构造

使用一些最新的摄像头和智能手机捕获玻璃图像,以及带有专业注释工具的标记像素级玻璃口罩。构造的玻璃检测数据集GDD涵盖了各种日常生活场景(例如,浴室,办公室,街道和购物中心),从室内场景拍摄了2827张图像,并从户外场景拍摄了1089张图像。图2显示了GDD中的一些示例玻璃和玻璃口罩图像。对于数据集拆分,随机选择了2,980张图像进行训练,其余936张图像用于测试。

卷积在生活中的应用_卷积在生活应用_卷积的应用案例

数据集分析

为了验证GDD的多样性及其挑战,其统计数据如下显示:

卷积的应用案例_卷积在生活应用_卷积在生活中的应用

•玻璃类型。如图3(a)所示,GDD中有各种类型的普通玻璃(例如,窗户,玻璃墙,玻璃门,玻璃护栏以及玻璃窗和橱柜)。还包括其他相对较小的玻璃物体,例如玻璃灯泡和玻璃时钟。这样的玻璃对象仅占GDD的一小部分的原因是,在这项工作中kaiyun.ccm,我们旨在检测相对较大的透明玻璃,这可能在场景理解中起关键作用。小玻璃物体主要用于增加多样性。

•玻璃位置。我们的GDD中的玻璃位于图像中的不同位置,如图3(b)所示。我们进一步计算了概率图,该图表明,每个像素在玻璃区域中分布的概率显示了GDD中玻璃的位置分布。整体空间分布往往居中,因为玻璃通常更大并覆盖中心。此外,训练/测试分割的玻璃空间分布与整个数据集的玻璃空间分布一致。

•玻璃区域。将玻璃面积的大小定义为图像中像素的比例。在图3(c)中,我们可以看到GDD中的玻璃大小差异很大开元棋官方正版下载,并且大多数在范围内[0.2,0.8]。落在范围内的玻璃(0,0.2)表示较小的玻璃物体或玻璃角。如此小的玻璃区域很容易被各种背景物体/场景弄乱。玻璃落在范围内(0.8,1.0)通常位于相机附近在这种情况下,图像的内容由玻璃后面的复杂场景控制。 (图3(d)),GDD中的玻璃通常在区域更大,这意味着更多的物体/场景将出现在玻璃内部,这使GDD更具挑战性。

本文的方法

卷积在生活中的应用_卷积在生活应用_卷积的应用案例

图4。gdnet的结构流。首先,预训练的Resnext101用作多级特征提取器(MFE),以获得不同级别的特征。第二,将四个LCFI模块嵌入了MFE的最后四层中,以学习不同级别的大规模上下文特征。第三,最后三个LCFI模块的输出通过注意模块连接并融合,以生成先进的大规模上下文特征。然后从这些高级大型场景特征中获取注意力图,并用于引导低级上下文特征(即第一个LCFI模块的输出),以将更多的关注集中在玻璃区域上。最后,通过级联和注意操作结合了高级和低级大型上下文特征,以生成最终的玻璃图。

1。总体结构

图4显示了玻璃检测网络(GDNET)的结构。它使用LCFI模块(图5)学习了广泛的上下文功能。鉴于单个RGB图像,它首先输入到多级特征提取器(MFE)中,以收集不同级别的特征,然后将其进一步将其馈送到四个LCFI模块中,以学习大型接受田间上下文特征。最后三个LCFI模块的输出融合在一起,以生成高级大型上下文功能,该功能将用于指导第一个LCFI模块提取的低级上下文功能,从而将更多的注意力集中在玻璃上。在该地区。最后,高级大型接收场环境特征和细粒的低级上下文特征被融合以产生最终的玻璃检测结果。

2。大规模上下文特征融合-LCFI模块

图5显示了LCFI模块的结构。 LCFI模块能够有效提取和融合多尺度的大型上下文特征,以检测不同尺寸的玻璃。

卷积在生活应用_卷积的应用案例_卷积在生活中的应用

图5。LCFI模块的结构。输入功能通过四个平行的LCFI块传递,所有LCFI块的输出均融合在一起,以生成多尺度的大型视野上下文元素。在每个LCFI块(红色虚线框)中,输入特征被馈入两个平行的空间可分离卷积,并具有相反的卷积顺序,以获得具有不同特征的大型视野上下文特征。然后,将当前LCFI块的输出馈送到下一个LCFI块中,以在更大的视野中进行进一步处理。

1。LCFI块。 LCFI可以从大型接受场中有效提取大量上下文信息,以执行上下文推断和位置玻璃。获得较大上下文信息的一种常见做法是使用大量卷积内核使用卷积或空心卷积。但是,大型卷积内核将导致大量计算,而较大的空隙速率将导致稀疏采样。非本地网络可以提供长距离依赖性,但也需要大量计算。在这里,本文提出了使用空间可分离卷积有效从大型接受场中提取丰富背景的目标:

其中,F表示输入特征,Convv和Convh代表具有卷积内核大小K×1和水平卷积的垂直卷积,分别具有1×K的卷积内核。 א表示分批归一化(BN)和Relu操作。 FC表示提取的大型上下文特征。

由于玻璃区域内的内容通常很复杂,因此需要使用具有不同功能的上下文特征来消除歧义。因此,使用了另一种具有可逆卷积顺序的空间可分离卷积,א(Convv(Convh(f))),提取互补的大型接受场环境特征。此外,采用了具有空心卷积的空间可分离卷积,以确保在较大地区可以探索更多背景。最后,从两个平行路径提取的大视野上下文特征通过3×3卷积融合,然后是BN和Relu。

卷积在生活应用_卷积在生活中的应用_卷积的应用案例

2。LCFI模块。图像中捕获的玻璃的大小可能会有所不同(图3(a))。考虑到卷积内核的大小和空隙速率,LCFI块从固定尺寸的大字段中提取上下文特征。一方面,如果接受场不足以覆盖整个玻璃区域,则可能发生不完整的检测。另一方面,如果对较小的玻璃区域的接收场太大,将引入过多的噪音,并引起虚假警报。

为了解决此问题,提出了基于LCFI块的LCFI模块,以从不同尺度的大字段中获得上下文特征。具体而言,输入特征将输入四个平行的LCFI块,并且使用注意模块将其输出融合。为了进一步探索更多上下文功能kaiyun官方网站登录入口,在相邻的LCFI块之间添加了信息流,即,当前LCFI块的输出被馈送到下一个LCFI块。实际上,对于四个LCFI块中的空间可分离卷积,卷积内核大小设置为3、5、7和9,空隙率分别设置为1、2、3和4。

2。损失功能

在训练过程中,使用三种类型的损失功能,即二进制跨熵(BCE)损失,边缘损失和IOU损失,用于优化网络。

具体而言,对于先进的大型接收场环境特征,BCE损失和IOU损失,即LH = LBCE + LIOU,迫使网络探索高级线索以进行完整的玻璃检测。

对于具有丰富细节的低级上下文功能,希望它们提供低级线索来预测具有清晰边界的玻璃地图。因此,BCE损失和边缘损失合并,即LL = LBCE +壁架。边缘损失将帮助网络找到属于玻璃的边界。

对于最终输出,需要进行清晰的玻璃边界进行完整的检查。因此,将BCE损失,IOU损失和边缘损失组合在一起,即LF = LBCE + LIOU + LEDGE。

实验和结果

数据集:GDD

评估指标:使用五个指标来定量评估玻璃检测性能。前两个指标是IOU和像素精度(PA),并且从重要的对象检测中也使用了F度量和平均绝对误差(MAE)度量。最后一个指标是平衡错误率(BER),它是阴影检测领域中的标准指标。与MAE和BER的前三个指标不同,值越低,检测结果越好。

实验配置:对于训练,将输入图像调整为416×416的分辨率,并通过水平随机翻转增强。该网络大约需要22个小时才能在单个NVIDIA GTX 1080TI上训练。为了进行测试,将图像调整为416×416的分辨率进行推理,而无需进行后处理链接。

1。比较实验

卷积在生活应用_卷积的应用案例_卷积在生活中的应用

2。定性评估

卷积的应用案例_卷积在生活应用_卷积在生活中的应用

卷积在生活中的应用_卷积的应用案例_卷积在生活应用

3。消融实验

卷积的应用案例_卷积在生活中的应用_卷积在生活应用

表2。“基础”表示网络已删除了所有LCFI模块。 “一个比例尺”和“两个比例”意味着LCFI模块中有一个LCFI模块和两个LCFI模块。 “局部”是指用局部卷积替换LCFI中的空间可分离卷积,并使参数大致相同。 “稀疏”使用空心卷积实现类似于空间可分离卷积的接收场。 “一个路径”是指每个LCFI块中只有一个空间可分离的卷积路径。 LCFI模块包含四个LCFI模块,每个模块包含两个平行路径。

卷积在生活应用_卷积的应用案例_卷积在生活中的应用

网友留言(0)

评论

◎欢迎参与讨论,请在这里发表您的看法、交流您的观点。