整数干货 | 数据标注的导出格式有哪些？

整数智能 • 2024-06-06 17:55 • 产品 • 252 views

前言

在人工智能模型的建构过程中，数据作为人工智能发展三大基石之一，处于至关重要的地位。人工智能仰赖大量的数据来进行训练和学习，以便识别模式、做出预测和决策。高质量的数据集依靠的是高效高质的数据标注。在数据标注的过程中，我们往往把更多的关注点放在对标注数据本身的需求描述上，即“我要对xx内容进行标注”，而忽略了另一个重要的问题，即我们想要成品数据集以什么形式呈现，从而有效服务于最终需求。因此，在进行数据标注任务时，根据最终需求确定数据导出格式至关重要。明确数据标注导出的格式，有利于数据需求者更加清晰地传达数据标注要求，也能够让数据标注员更好地完成标注任务，进行高质量的数据交付，起到数据集保质、标注过程提效的作用。

下文将全面总结所有现行的数据标注格式，以及各自的应用场景，希望能给予具有数据标注需求和想要了解人工智能相关知识的朋友们一些帮助。

1. 数据导出格式一览

在开始介绍之前，我们为大家总结了不同数据标注任务可供选择的导出数据格式，大家可以根据自己的数据标注需求有的放矢地了解不同数据导出格式的区别。

标注任务	可以选择的导出数据格式
图像目标检测	`YOLO` `VOC` `COCO` `labelme`
图像语义分割	`VOC` `COCO` `labelme` `mask`
图像关键点标注	`VOC` `COCO`
点云目标检测	`KITTI` `NuScenes` `Waymo`
点云语义分割	`KITTI` `NuScenes`
OCR	`SimpleDataSet`

2. 数据标注导出格式详解

2.1. YOLO

YOLO允许用户定义数据集根目录、训练/验证/测试图像目录，或包含图像路径的txt文件的相对路径，以及类名字典。

可用场景：YOLO只用于目标检测

整数干货 | 数据标注的导出格式有哪些？

图像对应的标签文件包含两个人和一条领带

基本结构类型

YOLO使用的标注文件是txt格式，它位于图片的上级目录labels目录下。YOLO格式中每个图像对应一个txt文件，如果图像中没有对象，则不需要txt文件。

标注文件中标签的数据格式如下：

图1中左边的人的标注格式示例：

0 0.48 0.63 0.69 0.71

每个对象一行，方框坐标采用统一的xywh（x_center y_center Width Height）格式，四个参数均为百分比形式；

类号为零索引。

2.2. VOC

可用场景

1.目标检测：使用边界框和类别标签对目标进行标注。

整数干货 | 数据标注的导出格式有哪些？

目标检测

2.图像分割：使用掩码对目标进行标注，分为语义分割和实例分割。

语义分割：通过标注每个像素的掩模，可以为计算机视觉模型提供更多的语义信息，帮助模型更好地理解图像。

实例分割：与语义分割类似，但是可以区分出同一类别中不同的实例，例如标注一个图片中多个人的掩模。

整数干货 | 数据标注的导出格式有哪些？

从左到右依次为原图、实例分割、语义分割

3.动作识别：对图像中目标行为进行标注。

整数干货 | 数据标注的导出格式有哪些？

动作识别

4.人体布局：使用标注框以及标签对人体不同部分进行标注。

整数干货 | 数据标注的导出格式有哪些？

人体布局

基本结构类型

基本的xml结构类型：标注信息是放置于Annotation文件夹中的xml文件，与JPEGImage文件中的图片一一对应。

VOC文件夹结构组成：

Annotations 进行detection任务时的标签文件，xml形式，文件名与图片名一一对应。

ImageSets 包含三个子文件夹Layout、Main、Segmentation，其中Main存放的是分类和检测的数据集分割文件。

JPEGImages 存放.jpg格式的图片文件，主要提供的是PASCAL VOC所提供的所有的图片信息，包括训练图片，测试图片。这些图像就是用来进行训练和测试验证的图像数据。

SegmentationClass 存放按照class分割的图片。

SegmentationObject 存放按照object分割的图片。

VOC数据结构示例：

<annotation>    <folder>VOC2007</folder>    <filename>000001.jpg</filename>     <source>        <database>The VOC2007 Database</database>        <annotation>PASCAL VOC2007</annotation>        <image>flickr
                                                        原创文章，作者：整数智能，如若转载，请注明出处：https://www.agent-universe.cn/2024/06/8363.html



                        
                        
                             Like (0)
                                                    

                        
                            
                                                                
                                    
                                                                                 0                                                                            
                                    
                                         Generate poster


                    
    关于作者
    
        
            
        
        
            
                
                    整数智能
                
                
                                    
            
                        整数智能作为AI行业的数据合伙人，我们提供专家级的数据标注工程平台与数据集解决方案(数据采集、数据清洗与数据标注)
        
    
                        
                    
                
                    来真格实习，开启一场关于未来的创新实验｜Z Circle
                
                
                     Previous
                    2024-06-06 12:07
                
            
                            
                
                    大模型日报（6月6日 资讯篇）
                
                
                    Next 
                    2024-06-06 20:37
                
            
            
                                                                
                            相关推荐

        
        
                    
                产品
            
        
                
            
                                 智能体：太好了是语音交互新功能，我们说话有救了！            
        
        
            你是否经历过，给客服打电话总是遇到让人高血压的 AI？ 买的智能音箱对话时总是被错误识别？ 以及，最新的 AI 陪伴机器人总是感觉有点呆板？ 提效不明显，也提供不了足够的情绪价值&…
        
        
                                    2024-11-15
            
                2120            
        
    


        
        
                    
                产品
            
        
                
            
                                 大模型日报（2月21日 资讯篇）            
        
        
            我们希望能够搭建一个AI学习社群，让大家能够学习到最前沿的知识，大家共建一个更好的社区生态。 「奇绩大模型日报」知识库现已登陆飞书官方社区： https://www.feishu.…
        
        
                                    2025-02-21
            
                750            
        
    


        
        
                    
                产品
            
        
                
            
                                 Gemini背后Google AI演变的历史梳理            
        
        
            本篇是我和Google Bard（目前融合了Gemini pro版本）联合制作，昨天Google发布的Gemini，绝非是一蹴而就的成果，事实上，Google的AI产品进化到今天，…
        
        
                                    2023-12-08
            
                3680            
        
    


        
        
                    
                产品
            
        
                
            
                                 到底什么是踏马的 Agentic Workflows？            
        
        
            封面设计 by GPT-4o，标题灵感来源@庄明浩。 内容丨weaviate 翻译丨特工十五 AI Agents，Agentic AI，Agentic Architectures，…
        
        
                                    2025-03-27
            
                1481            
        
    


        
        
                    
                产品
            
        
                
            
                                 真格天使项目「海德氢能」宣布完成新一轮融资｜Z News            
        
        
            更多被投新闻 依图科技 | Momenta | Nuro | 云天励飞 禾赛科技 | 晶泰科技&nb…
        
        
                                    2024-08-28
            
                2250            
        
    


        
        
                    
                产品
            
        
                
            
                                 大模型日报（12月28-29日 学术篇）            
        
        
            我们希望能够搭建一个AI学习社群，让大家能够学习到最前沿的知识，大家共建一个更好的社区生态。 「奇绩大模型日报」知识库现已登陆飞书官方社区： https://www.feishu.…
        
        
                                    2024-12-29
            
                680            
        
    


        
        
                    
                产品
            
        
                
            
                                 AgentMarket，一款来自清华的 AI 社交游戏            
        
        
            国产 3A 大作属实让人热血沸腾，但 AI Native 游戏也同样让人着迷。 这不，清华大学深圳国际研究生院的 Agentland 实验室，最近就搞了个 AgentMarket。…
        
        
                                    2024-08-21
            
                6570            
        
    


        
        
                    
                产品
            
        
                
            
                                 浙江大学DeepSeek公开课第三期: 解码DeepSeek“破圈”之力，探索人工智能明日世界(附PPT课件)            
        
        
            浙江大学DeepSeek公开课第三期: 解码DeepSeek“破圈”之力，探索人工智能明日世界。总结下来，就是我们已经上了AI这趟车，乐观也好，谨慎也罢，专注当下，真理太过复杂，人…
        
        
                                    2025-03-03
            
                1050            
        
    


        
        
                    
                产品
            
        
                
            
                                 MolarData| AI领域资讯速递            
        
        
            MOLAR FRESH   2021年第11期 人工智能新鲜趣闻    每周一更新 IBM华人研究员多角度分析鲁棒性，发现Transformer比谷歌BiT效果高4.3倍 为什么T…
        
        
                                    2021-05-24
            
                1910            
        
    


        
        
                    
                产品
            
        
                
            
                                 真格天使项目「奥创光年」获 1500 万美元 A+ 轮融资｜Z News            
        
        
            更多被投新闻 依图科技 | Momenta | Nuro | 云天励飞 禾赛科技 | 晶泰科技&nb…
        
        
                                    2024-01-28
            
                1500


            
        近期文章
直播回顾｜全向高分辨多模态数据集OmniHD-Scenes技术分享会
浙江大学DeepSeek公开课第二季(三): AI司法和医疗，大模型生态下AI+X产业新触角 (附PPT)
真格基金戴雨森：长聊 AI Agent，各行业都会遭遇「李世石时刻」（下）
整数智能4D数据标注工具亮相成都“第三次数据标注产业供需对接会”
刘烈宏主持召开数据标注领域民营企业座谈会，整数智能受邀出席
近期评论
微信用户 发表在 这个国庆，智谱悄咪咪打起了第二轮价格战
溪河 发表在 让Agent从Chat走向Act — 我在亚马逊云AI初创活动上的分享(附ppt)
溪河 发表在 苹果的Camera Control，不止AI入口，要做人机“共生”
溪河 发表在 对话庄明浩：AI 游戏还是游戏 AI，似乎都踏马很难
溪河 发表在 芦义：AI 吞噬软件，Agent 就是新 Saas



    
        
                        
                产品
模型
论文
硬件
招聘
活动
关于我们
联系我们
快讯
                
                    Copyright © 2024 特工宇宙 版权所有 丨浙ICP备2024107375号