前言
在人工智能模型的建构过程中,数据作为人工智能发展三大基石之一,处于至关重要的地位。人工智能仰赖大量的数据来进行训练和学习,以便识别模式、做出预测和决策。高质量的数据集依靠的是高效高质的数据标注。在数据标注的过程中,我们往往把更多的关注点放在对标注数据本身的需求描述上,即“我要对xx内容进行标注”,而忽略了另一个重要的问题,即我们想要成品数据集以什么形式呈现,从而有效服务于最终需求。因此,在进行数据标注任务时,根据最终需求确定数据导出格式至关重要。明确数据标注导出的格式,有利于数据需求者更加清晰地传达数据标注要求,也能够让数据标注员更好地完成标注任务,进行高质量的数据交付,起到数据集保质、标注过程提效的作用。
下文将全面总结所有现行的数据标注格式,以及各自的应用场景,希望能给予具有数据标注需求和想要了解人工智能相关知识的朋友们一些帮助。
1. 数据导出格式一览
在开始介绍之前,我们为大家总结了不同数据标注任务可供选择的导出数据格式,大家可以根据自己的数据标注需求有的放矢地了解不同数据导出格式的区别。
|
可以选择的导出数据格式 |
图像目标检测 |
|
图像语义分割 |
|
图像关键点标注 |
|
点云目标检测 |
|
点云语义分割 |
|
OCR |
|
2.1. YOLO
YOLO
允许用户定义数据集根目录、训练/验证/测试图像目录,或包含图像路径的txt
文件的相对路径,以及类名字典。
YOLO
只用于目标检测
基本结构类型
YOLO
使用的标注文件是txt
格式,它位于图片的上级目录labels
目录下。YOLO格式中每个图像对应一个txt
文件,如果图像中没有对象,则不需要txt
文件。
标注文件中标签的数据格式如下:
图1中左边的人的标注格式示例:
0 0.48 0.63 0.69 0.71
每个对象一行,方框坐标采用统一的xywh(x_center y_center Width Height) 格式,四个参数均为百分比形式;
类号为零索引。
2.2. VOC
可用场景
1.目标检测:使用边界框和类别标签对目标进行标注。
目标检测
2.图像分割:使用掩码对目标进行标注,分为语义分割和实例分割。
语义分割:通过标注每个像素的掩模,可以为计算机视觉模型提供更多的语义信息,帮助模型更好地理解图像。
实例分割:与语义分割类似,但是可以区分出同一类别中不同的实例,例如标注一个图片中多个人的掩模。

从左到右依次为原图、实例分割、语义分割
3.动作识别:对图像中目标行为进行标注。
动作识别
人体布局
基本结构类型
基本的xml
结构类型:标注信息是放置于Annotation
文件夹中的xml
文件,与JPEGImage
文件中的图片一一对应。
VOC文件夹结构组成:
Annotations 进行detection任务时的标签文件,xml形式,文件名与图片名一一对应。
ImageSets 包含三个子文件夹Layout、Main、Segmentation,其中Main存放的是分类和检测的数据集分割文件。
JPEGImages 存放.jpg格式的图片文件,主要提供的是PASCAL VOC所提供的所有的图片信息,包括训练图片,测试图片。这些图像就是用来进行训练和测试验证的图像数据。
SegmentationClass 存放按照class分割的图片。
SegmentationObject 存放按照object分割的图片。
VOC数据结构示例:
<annotation>
<folder>VOC2007</folder>
<filename>000001.jpg</filename>
<source>
<database>The VOC2007 Database</database>
<annotation>PASCAL VOC2007</annotation>
<image>flickr
原创文章,作者:整数智能,如若转载,请注明出处:https://www.agent-universe.cn/2024/06/8363.html