【背景】

        毫无疑问,数据集在任何机器学习系统中是最重要的组成部分。其重要性尤其体现于训练一个深度学习网络。因此,任何基于深度学习技术的分割系统都需要一个收集了充足数据的数据集。若自己收集并建立一个适用于需求(数据量足够大、在领域内有足够的说服力)的数据集需要大量的时间、专业领域相关的信息、以及将信息转换为计算机可识别信息流(Vetor?Binary?)的设备。相对于复杂的神经网络系统定义,建立数据集的任务显得相对简单,但也是最困难的问题。因此,大多数机智的深度学习调参师经常使用现有的标准数据集针对各自的领域进行深度学习网络的训练。除了能偷懒以外,这些标准数据集也提供了一个衡量自己设计的深度学习模型性能的优劣标准。现有的数据集一般是基于某些具体领域、某些具体算法的提出而产生的。大多数数据集能提供给调参师一个公平的算法排名平台。本文就针对笔者在综述阅读过程中了解并实践体会到的所有数据集。篇幅较长,故分章节、分类型进行叙述。

【类别】

        本文从数据集维度进行分类叙述,分别有2D(Dimension)、2.5D、3D进行叙述。

【2D】

        纵观这几年的语义分割进程,我们可以了解到二维图像处理是大多数科研者的研究对象。因此,在所有类别的数据集中,二维图像数据集是最充足的一类。下文依次对现在流行的二维图像数据集进行叙述。

Pascal Visual Object Classes (Pascal VOC)

       The Pascal Visual Object Classes 是一个由图像正确标注的数据集和五类不同竞赛(分类、检测、分割、动作分类、人员分布)组成的挑战。其中图像分割的目标是预测图像中每个像素类属于每个具体的类别(Object)。这给很多科研人员带来了兴趣点。在Pascal VOC数据集中包含了汽车、建筑、动物、飞机、火车、等21种类别的物体像素标注,其中背景也被标注于数据集中,但其不属于这先前提及的21种类别。整个数据集被划分为两个子集:1464条训练集、1449条验证集。整个挑战还有一部分专用的测试数据集用以衡量一个网络在该数据集上的表现。毫无疑问,Pascal VOC是当下衡量一个语义分割模型/网络最流行的数据集。几乎所有牛逼的分割模型都会在文章内提交自己的模型在Pascal VOC挑战的分数以及排名。(Pascal VOC有自己的对模型的评估系统,并且有一个实时更新的排行榜供学术界、工业界对这些领先函数进行对比)。

Pascal Context

        The Pascal Context 数据集是一个基于Pascal VOC 2010 检测任务挑战进一步扩展的数据集,该数据集包含了10103幅图片组成的训练集(每幅图片都打有像素级的标签),它总共包含了540种分类(其中包括了Pascal VOC 2010数据集中包含的20种分类加上背景类)。这540种分类又被划分为三种类别(Objects, stuff, hybrids)。尽管这个数据集含有大量的类别,但也仅有59种是被研究者(调参师)们用得最多的。因为这些类别服从幂律分布关系。导致这里边的大多数类别数据表现得太稀疏(too sparse throughout)。所以研究者们常选用这59种分类单独挑选出来,而将其余的分类全部当成背景(relabeling the rest of them as background)进行处理。

Pascal Part

        The Pascal Part 数据集也是Pascal VOC 2010检测任务挑战进一步扩展的数据集,其提供了对每个目标(Objects)的各个部分(part)的像素级的分割(如果原数据集中的目标未被标注出来,则至少为这些目标进行轮廓标注)。这个数据集保留了Pascal VOC的原始类别,但在此基础上对物体进行进一步的切分。如:对摩托车的分割不单单是对整个车进行标注,还对车的后轮,链轮,前轮,车把手,前灯,鞍座进行了单独的语义标注。整个数据集包含了来自Pascal VOC的验证集和数据集以及9637组测试集图像

Semantic Boundaries Dataset(SBD)

        该数据集也是之前提及的VOC数据集的一个扩展,它提供了VOC没有标注出来的语义分割所需要的正确标注标签、还包含了11355组从PASCAL VOC 2011遗传下来的标签。除了每个目标(Object)的边界(轮廓)信息之外,这些标签不仅提供了类级(Category-level)信息还提供了实例级(instance-level)信息。因为SBD的图像是从整个Pascal VOC上获取得到的(不仅仅是Pascal VOC 分割挑战)。所以,他们的训练集、验证集的划分还存在歧义。但实际上,SBD提供了它自己的训练集(8498组图像)和验证集(2857组图像)的划分方式来解决。也正由于整个数据集增长的训练集数据,整个SBD也被当做Pascal VOC在深度学习领域的替代品。

Microsoft Common Objects in Context(COCO)

        COCO是另一个图像识别、分割、captioning的大规模数据集,它具有各种各样的挑战。作为与该领域联系最紧密的检测方法之一。它的一个重要的组成部分就是分割。在这个挑战中,它需要对超过80个类别进行标注,整个数据集提供了超过82783组图像组成的训练集、40504组图像组成的验证集以及超过80000组图像组成的测试集。通常,测试集被分成四个不同的子集:开发用测试集(20000组图像)用以做验证(可选),调试工作,标准测试集是默认为比赛和用以衡量最先进模型的测试数据。挑战测试集是被分来用以提供排名服务的测试集。保留测试集用来测试在比赛中可能出现的过拟合模型。由于其规模庞大,自问世以来,其受欢迎程度和重要性不断提高。而这项挑战的结果每年都会在欧洲计算机视觉会议的联合研讨会上公布(ECCV)7和ImageNet的。

SYNTHetic Collection of Imagery and Annotations(SYNTHIA)

        SYNTHIA是一个大型的虚拟城市真实感效果图集合,语义分段,其目的是在驾驶或城市场景的背景下理解场景,这个数据集提供了11类(空,天空,建筑,路,人行道,围栏、植被、电线杆、汽车、交通标志、行人和骑自行车的人)像素级标注,它具有来自渲染视频流的13407个训练图像, 它的特点还包括景观(城镇、城市、高速公路)、动态对象、季节和天气的多样性。

Cityscapes

        Cityscapes拥有5000张在城市环境中驾驶场景的图像(2975train,500 val,1525test)。它具有19个类别的密集像素标注(97%coverage),其中8个具有实例级分割。Cityscapes数据集,即城市景观数据集,这是一个新的大规模数据集,其中包含一组不同的立体视频序列,记录在50个不同城市的街道场景。

       城市景观数据集中于对城市街道场景的语义理解图片数据集,该大型数据集包含来自50个不同城市的街道场景中记录的多种立体视频序列,除了20000个弱注释帧以外,还包含5000帧高质量像素级注释。因此,数据集的数量级要比以前的数据集大的多。Cityscapes数据集共有fine和coarse两套评测标准,前者提供5000张精细标注的图像,后者提供5000张精细标注外加20000张粗糙标注的图像。

       Cityscapes数据集包含2975张图片。包含了街景图片和对应的标签。大小为113MB。Cityscapes数据集,包含戴姆勒在内的三家德国单位联合提供,包含50多个城市的立体视觉数据。

Camvid

        这是最早用于自动驾驶领域的语义分割数据集,发布于2007年末。他们应用自己的图像标注软件在一段10分钟的视频中连续标注了700张图片,这些视频是由安装在汽车仪表盘的摄像机拍摄的,拍摄视角和司机的视角基本一致

KITTI

        KITTI数据集发布于2012年,但是他们起初不标注好的语义分割图像,而是后来由另外的团队标注而成。然而这个数据集没有包括对道路的标注。这个小数据集是由安装在车顶部的一系列传感器包括灰度传感器,彩色相机,雷达扫描仪和GPS/IMU单元拍摄而成

Youtube-Objects

        Youtube-Objects是一个从Yotube内的视频选取下来的数据集,他包含了来自Pascal VOC的十种类别的目标。(飞机、鸟、船、车、毛、公牛、狗、房子、摩托车和火车)。虽然这个数据集并没有包含像素级的语义标注,但是Jain等人手动标注了126个序列的子集,他们每十帧对这些序列进行人工语义标注。这样、在这个子集中总共就有10167个分辨率为480X360带语义标注的帧。

Adobe's Portrait Segmentation

        Adobe's Portrait Segmentation是一个从Flicker上收集的一组800X600像素的头像图片数据集。这些图像主要是从收集的前置摄像头上获取的。这组数据又1500组训练集和300组保留测试集。这两组数据斗殴进行了全二进制语义标注。(在图像中只有人和背景)。这些图像用半自动标注方法进行:首先使用Adobe face detector将图像裁剪成600X800像素的图片,然后人们利用Photoshop quick selection软件手动对这些图片进行标注。因为他专门的使用目的。由于其适用的特殊目的也将这个数据集推向了大众视野。尤其是从事前景分割的研究人员。

Materials in Context(MINC)

        MINC是为了完善材料分类和全景材料分割而提供的数据集,这个数据集提供了23类分割标签(wood, painted,
fabric, glass, metal, tile, sky, foliage, polished stone,
carpet, leather, mirror, brick, water, other, plastic,
skin, stone, ceramic, hair, food, paper, and wallpaper.)它包含用于训练的7061个数据,用于测试的5000个,用于验证的2500个,这个数据集的主要数据来源是Opensurfaces数据集,它是用了来自Flicker、Houzz等其他来源的图像对数据集进行了扩展,因此。这个数据集的图像分辨率是不固定的。平均来看,这个数据集中图像分辨率大约是800×500或者是500×800.

Densely-Annotated Video Segmentation(DAVIS)

        这一挑战是为了对视频文件进行分割,它的数据集由50组高清晰序列组成。该序列总共有4219组训练集,和2023组验证集组成。帧的分辨率是随着时间序列会发生改变的,但所有的帧都会经过下采用处理成480p的帧以解决这个挑战。这个数据集也为不同帧提供了四类像素级的标注:人,动物,车辆,物体。该数据集的另一个特性是,每个序列中至少存在一个目标前台对象。此外,它被设计成没有很多不同的对象与重要的动作。对于那些具有来自同一个类的多个目标前景对象的场景,它们为每个对象提供独立的正确标注,以允许实例分割。

Stanford background

        它从现有公共数据集导入户外场景图像的数据集:LabelMe, MSRC, PASCAL VOC和几何上下文。数据集包含715张图像(尺寸为320×)至少有一个前景对象,并且在图像中具有地平线位置。该数据集采用像素级标注(地平线位置、像素语义类、像素几何类和图像区域),用于评估用于语义场景理解的方法。

SiftFlow

        它包含2688个完全带注释的图像,它们是LabelMe数据库的子集。大多数图片都是基于8个不同的户外场景,包括街道、山脉、田野、海滩和建筑物。图像为256×256,属于33个语义类之一。未标记像素,或标记为不同语义类的像素被视为未标记像素。

参考文献

  • A. Garcia-Garcia, S. Orts-Escolano, S.O. Oprea, V. Villena-Martinez, and J. Garcia-Rodriguez.A Review on Deep Learning Techniques
    Applied to Semantic Segmentation[J].arXiv:1704.06857v1 [cs.CV] 22 Apr 2017

作者 WellLee

在 “【综述系列】语义分割研究要用到的数据集介绍(一)” 有 1 条评论

发表回复

您的电子邮箱地址不会被公开。 必填项已用 * 标注