LabelMe[24]是MIT计算机系人工智能实验室创建的一个允许在线标记和图像资源共享的通用注释工具。注释的结果保存在XML文件格式中,这样的注释可植入并容易扩展。LabelMe是一个不断拓展的标记图像库,有11845幅静态图片,18524组图像序列。图像库中包含111490个多边形组成的目标区域,其中44059个是用在线工具标注的,67431个是离线标注的。其一个重要优势在于包含WordNet,可以在WordNet树的不同级别查询目标。......
2023-06-28
上述图像库局限于仅仅标记了目标的粗糙边界,并不适合精细的区域分割或语义分解。因此在LabelMe图像库的基础上,出现了另一种包含更为详尽的视觉知识的图像库——莲花山图像库(Lotus Hill Research Institute Image Cor-pus)[25]。该图像库是由中国莲花山计算机视觉和信息科学研究院创建的,由全职标注人员用解释图(Parse Graph)的方式对每个图像或目标进行了标注,并按照WordNet的标准表示目标、部件的名字和关系。
莲花山图像库到2008年为止有3927130个位置点,636748幅图像(视频),而且数目还在不断增加,其中13个子集一般作为算法评估的基准,如一般场景、事件和活动、航拍图像、热门目标、一般目标、人脸和姿态、视频剪辑、文字、自然图像的2.1D分层表示等。
莲花山图像库不单纯是图像数据的存储管理和查询检索,而且是基于通用需求标记信息的标识法和组织法,构建的一种新的大型的、通用的、真实的图像数据集,实现了图像理解中信息组织和信息运用的两大基本任务。该图像库通过适当组合注释工具的功能模块,可以完成对图像的任何标记和注释工作,并利用知识库的引导加速这一过程。
随着目标种类的增加、同一类目标之间视觉差别的增大,目标识别研究对图像数据的数量和种类有着更为严格的要求。而大多数图像库都是人工收集并加以标注的,这耗费了大量的人力和物力。近些年,不少科研人员在尝试让计算机自动完成这项任务。Fergus等人[26,27]使用视觉信息对从网上获得的大量图像数据进行标注;Berg等人[28]则专注于建立几种动物类的图像数据库,他们使用搜索工具从网上搜索图像,通过狄雷克勒分配技术发掘一系列潜在主题和对应的图像样例;Schro等人[29]利用贝叶斯理论和支持向量机技术实现了图像数据库的自动收集;Collins等人[30]为了获得精确和大规模的图像数据集,设计了一种判别性学习方法,能主动在线学习快速分类对象并实现数据库的自动构建。随着目标识别系统的发展,相信会出现更多更好的图像库和图像数据收集算法。
从模式识别的角度来说,数据集在系统性能评估中的应用方式主要有三种[31]:重替代法,就是使用相同的数据集,先进行训练再进行测试,这种方法非常简便,但测试结果通常是偏于乐观的;坚持把可用的数据集被分成两个子集,一个用于训练,一个用于测试,这种方法最为常用,但缺点是划分子集减少了训练和测试数据集的大小,而且需要人为决定用于训练集和测试集中的样本数目;留一法,循环地以每一个样本为测试对象,而数据集中的其他样本作为训练样本,该方法使用了所有样本的同时维持了训练数据集和测试数据集之间的独立性,但缺点是有很高的计算复杂度。本书的实验中在对图像库的使用上采取第二种方案,即划分出两个独立的子集作为训练集和测试集,它们包含的样本数量比例一般为8∶2或7∶3。
有关图像目标的表示与识别的文章
LabelMe[24]是MIT计算机系人工智能实验室创建的一个允许在线标记和图像资源共享的通用注释工具。注释的结果保存在XML文件格式中,这样的注释可植入并容易扩展。LabelMe是一个不断拓展的标记图像库,有11845幅静态图片,18524组图像序列。图像库中包含111490个多边形组成的目标区域,其中44059个是用在线工具标注的,67431个是离线标注的。其一个重要优势在于包含WordNet,可以在WordNet树的不同级别查询目标。......
2023-06-28
Corel-10K数据库含有100个图像类别,包括桥梁、瀑布、草原、国旗、邮票、食物、汽车、灯塔等,图7-6展示了Corel-10K数据库的一些图像类别,从图7-6也可以看出纹理特征广泛存在于自然界和日常生活中。Corel-10K数据库的每个类别有100个样本图像,因此该数据库一共有100×100=10 000个样本图像,大部分图像的分辨率为187×126或192×128。......
2023-06-29
PASCAL视觉目标识别竞赛也采用该图像库,这个图像库包含标注信息,是目前识别难度最大的数据集之一,而且每年都进行类别和数量的扩充,并做相应的技术统计报告。PASCAL图像库对每幅图像中目标的位置及类别的标注,使得在测试过程中可以分别检验图像分类和目标定位的效果。......
2023-06-28
为了评估本章所提出方法的性能,本节在标准的CUReT彩色纹理图像数据库和KTH-TIPS彩色纹理图像数据库上开展实验。因此,KTH-TIPS纹理库一共含有810个样本图像。在开展实验时,对CUReT和KTH-TIPS这两个彩色纹理图像数据库的实验设置如下:在CUReT纹理库上进行实验时,从每个纹理类别随机挑选N2=46个样本作为训练数据,每个纹理类别剩下的92-N2=46个样本作为测试数据。......
2023-06-29
灰度图像灰度图像按照灰度级的数目来划分。只有黑白两种颜色的图像称为单色图像,如图5.3所示的即为标准单色图像。图5.3标准单色图像图5.4标准灰度图像图5.4是一幅标准灰度图像。图5.5 256色标准彩色图像转换成256级灰度图像图5.6 24位真彩色图像转换成256级灰度图像许多24位真彩色图像是用32位存储的,这个附加的8位叫做“Alpha通道”,它所表示的Alpha值常用来表示像素产生的特技效果。......
2023-10-22
而Richard Szeliski也成为了图像拼接领域的奠基人,这套理论已经成为了一个经典理论体系,现在许多人依然在这套理论基础上做进一步研究。因此M.Brown提出的理论大大地推动了图像拼接技术的发展,也将全景图拼接技术研究推向高潮。......
2023-06-28
相应地,世界图像也可以说是一幅关于整体的绘画。不过,“世界图像”意指的东西不仅是这些。我们用Dasign这个词来强调媒介的特殊重要性:媒介就是技术对此在的历史性削弱在当下所达到的巅峰。[9]海德格尔在《世界图像的时代》中探讨了人类这种不断加深的主观化体验。对于这种境况,海德格尔借助世界图像的概念进行了深入探讨。因此,从本质上讲,世界图像并不是指世界的一个图像,而是指被设想、被把握为图像的世界。......
2023-10-30
相关推荐