文本描述
编辑导语:图像标注是机器视觉(Computer Vision, 下面将简称为“CV”)模型开发流 程中的重要一环,也是十分耗时的一环。随着深度学习的兴起,企业对于图像标注工具的 需求也愈演愈烈。据知名行研机构估算,2025 年全球标注工具的市场规模将达到 16 亿美 元。本文选取了 3 款行业中较有代表性的产品:CVAT、ModelArts、 Supervisely,从 产品视角来试图探究标注工具行业现状及未来趋势。 1. 什么是图像标注 图像标注是在原始图像打上标签的行为。在训练深度学习模型前,需要准备足量的,已被 标注的样本用于训练。而图像标注就是样本准备中的一个步骤,如图 1: 图 1:Supervisely 中的图片标注 原始图像类型包括:二维图片、三维图片、视频等。 标注形式包括:标签、包围框(二维和三维形式)、点、线、多边形、像素图(Bitmap )。 根据不同的标注形式,图像标注类型可分为: 分类 (Classification):识别出图片中有什么物体,如上图中的 1 号箭头,表示整张图片 中有 people,通过标签进行标注。 检测 (Detection):比图片分类再进一步,不仅知道 图片里有什么,还检测出物体大概位置,即物体所属包围框(Bounding Box)的位置, 如上图中的 2 号用包围框标注了一个行人。通过包围框/线+标签进行标注。 分割 (Segmentation):比目标检测再进一步,知道每个像素属于哪个标签,如上图中的 3 号 描绘出了行人像素级别的轮廓。具体还可细分成语义分割 (Semantic Segmentation)和 实例分割 (Instance Segmentation)两类,语义分割用于识别不同种类的物体,而实例 分割在语义分割的基础上进一步区分了同类物体中的不同实例。通过多边形/像素图+标签 进行标注。 姿态估计 (Pose Estimation):又称关键点检测,主要用于识别图像内的关 键区域,例如表情识别,运动姿势检测等。通过点/线+标签进行标注。 视频行为识别 (Video Action Recognition):识别目标的意图,例如识别打架行为,这种场景很难仅 凭单张图片判断(比如在单张图片下打架和拥抱是类似的),通常需要识别一段视频才能 判断目标意图。仅通常使用包围框/点/线+标签的在插值模式下进行标注。 下图为各个标注类型的示例: 图 2:各类标注类型的示例,来源:https://gluon-cv.mxnet.io/contents.html 通常,企业会有各式各样的标注需求,作为一款通用的标注产品,产品功能(如支持各种 输入格式,各种标注类型,各种标注形式,以及额外功能)会是我们关注的一个重点。 另一方面,实际情况中标注是一件十分费时费力的工作,例如需要标出上图中的大部分行 人,而这样的图片至少得有几百上千张。由此可见,因此用户体验是我们需要关注的另一 个重点。 综上,本文将主要从产品功能和用户体验这两个维度来分析行业中的代表性产品。 2. 核心业务流程 完成图片标注训练的整个工作流程,通常需要经历”数据准备”、”数据标注”、“数据 进化”三个环节。具体业务流程如下图所示: 图 3:图像标注通用业务流程 2.1 数据准备 数据准备包含:数据采集、数据预处理两步。 1. 数据采集:采集途径很多如:本地上传,调用其他数据集数据,摄像头数据导入,从云 服务调用获取数据等。 2. 数据预处理:数据清洗是获取高质量训练数据的前提,并且通过清洗不合格的数据也可 以减少无意义的标注工作,提高标注效率。数据清洗通常的操作包括:清洗模糊数据,清 洗相似数据,裁剪,旋转,镜像,图片亮度,图片对比度,图片锐化等。 2.2 数据标注 数据标注包括:建立标注集、数据标注、标注审核。 2.2.1 建立标注集 标注集是标注工作的基本任务管理单元,在此不做过多赘述。 2.2.2 数据标注 具体方式见表 1: 表 1:数据标注具体方式 2.2.3 标注审核 针对“任务标注”,标注审核是对下发的标注任务进行管理并对标注结果审核,一般审核 维度包括:标注进度、验收情况、标签数量、难例、标注质量等。