Analytics India杂志
现在读书
Pix2Seq的指南:对象检测语言建模框架
Analytics India杂志

Pix2Seq的指南:对象检测语言建模框架


大多数对象检测模型旨在识别在预定义类别中呈现的所有对象。其中检测到的对象的结果通过一组边界框和与框或类别相关联的类标签示出。利用现有架构和损失功能的知识,这些模型仔细设计,其中一些模型具有相同的知识。例如,许多模型用于使用边界框,并且建模许多模型以使用对象绑定的对象查询。在本文中,我们将看到一个名为Pix2Seq的模型如何使用对象检测中的语言建模方法。本文中讨论的主要要点在下面列出。

目录

数据和分析结论。免费录音>>
  1. 什么是pix2seq?
  2. PIX2SEQ框架
    1. 从对象描述的序列构造
    2. 建筑与目标
    3. 序列增强以集成任务前导者
  3. 改变的序列结构和改变的推断
  4. 与其他模型的比较

什么是pix2seq.

Pix2seq是一种新的方法或模型对象检测这是在直觉中设计的,这使得如果神经网络已经训练了关于对象的何处和内容。我们只需要培训网络阅读它们。当模型正在学习如何描述对象时,该模型还可以在像素观察上学习语言,这可以引导我们对象的表示。要遵循此直觉,请将PIX2Seq从给定图像中生成令牌的序列作为输入。T.

这些令牌是离散的,使它们可以导致对象描述让人想起图像标题系统。我们可以说Pix2Seq模型是一种方法,使物体检测系统如语言建模系统,基本上可以通过在像素上调节来实现。该模型的架构和丢失功能相对简单,我们还可以使用此框架解决不同域的问题。

正如我们在对象检测的上部讨论的那样,Pix2Seq模型从给定图像产生令牌的曲目序列,因为该模型具有量化和序列化方案。我们可以说模型没有专门为检测任务设计。使用该方案,它将边界框中的边界框和类标签转换为离散令牌中,这些标记以比使用的顺序方式排列顺序模型S'编码器 - 解码器方案它从像素输入生成目标序列。这最大似然测序令牌是在像素值和下一个标记上调节模型的目标函数。由于模型的架构和丢失功能,我们不需要有关对象检测的先验知识,因为它们是任务不可知的损失。在模型中,它在训练时改变输入和序列。

PIX2SEQ框架

由于Pix2Seq模型是在语言建模方面投用对象检测任务的方法,我们可以大致将框架划分为以下图像中提到的4个主要组件。

图像源码

  • 图像增强- 在模型中,Pix2Seq图像增强任务由公共模型执行。由于它是任何计算机视觉模型的基本过程,PIX2SEQ使用增强图像来制作富有数据的一组培训示例。
  • 序列构造和增强 - 通过将像素转换为一个离散令牌来完成任何图像中的对象,其中它们通常用一组边界框和类标签来比较它们通常代表对象的这些标签。
  • 架构 - 在Pix2Seq模型的体系结构组件中,模型使用编码器解码器方案;由编码器编码和接收的像素输入生成目标序列的语言建模。
  • 目标函数 - 我们可以将其视为在图像上调节的损失函数标记以及用于培训模型的最大令牌的下一个令牌。

从对象描述的序列构造

Pix2Seq的框架被设计为检测到的对象类标签的形式的结果可以表示为离散令牌的序列。该模型为检测到的对象提供了框,其中框的边界通过使用离散连续号码来固定在对象的左上角,右上角,左下角,类索引和对象的右下角,指定的坐标边界。通过上述情况,我们可以说检测到的对象是分离子化的五个令牌的序列的表示。如果[Y., X,Y.最大限度, X最大限度,C]是边界的令牌,那么这些角坐标是[1,nbins]之间的离散整数,而c是类索引。该模型使用所有代币的词汇表,其中词汇量的大小等于添加箱数和类的数量。我们可以将其视为限定框的量化方案,这有助于通过使用这种小词汇来实现高精度。传统的NLP模型使用非常大的词汇量,其尺寸约为32k或更高。这些模型的所有过程都可以通过以下图像解释。

图像源码

使用任何给定图像的单个序列,我们可以序列化多个对象的描述。为此目的,当每次模型都可以使用策略随机化对象订单时,使用该策略使用该策略的随机排序策略。在任何图像中呈现的对象数量的生成序列可以是不同的长度,因此具有EOS令牌以指示序列的结尾。以下图像是具有不同订购策略的序列结构的表示。

nbins = 10 nbins = 50

图像源码

建筑与目标

来自对象描述的构造序列用于这种架构和目标或损耗功能,该域在域NLP建模中已经是更高的精度。

体系结构 - 模型使用编码器解码器架构。其中编码器将感知像素分成隐藏表示,并且解码器一次生成一个令牌。令牌的生成在下一个令牌上调节,该令牌将生成和由编码器编码的图像表示。编码器可以是卷积网络或任何变压器,或者它也可以是解码器通常是变压器模型的组合,该模型主要用于现代NLP建模域。

目标 - 目标或框架中的损失函数类似于NLP建模中使用的最大似然损耗。在数学上,可以写入最大似然函数的公式。

在哪里,

  • X是给定的图像。
  • Y相关联输入,〜y是目标序列
  • l是最大的序列长度
  • w是预先评估的重量

序列增强以集成任务前导者

模型中的生成终止由上述讨论的EOF令牌决定。通常,该模型显示未检测到图像中呈现的所有对象的错误;这是因为在识别和本地化图像对象时的不确定性而发生。为了在结果中获得更高的召回速率,模型使用它在模型工作时延迟EOS令牌采样的技巧。通过减少可能性来完成EOS令牌采样的延迟。最小化可能性有时有时倾向于预测嘈杂和重复的预测的模型。

由于上述权衡,Pix2Seq模型是任务不可知论者。为了解决模型的框架中的上述问题,通过这种技术引入了序列增强技术,模型增强了输入序列并为真实和合成标记进行了列车本身,并且还在目标序列中执行增强,这导致模型来学习模型嘈杂的令牌而不是离开它们。这就是当EOS的采样延迟时,模型如何改善其对噪声和重复预测的预测。以下图像是此过程的表示。

图像源码

也可以看看

改变的序列结构和改变的推断

上述过程导致构建合成噪声对象,这有助于以两种方式增强输入序列:

  • 在真实对象中添加噪声
  • 使用随机相关标签生成随机框

图像源码

上述图像是随机生成的框和在真实对象上生成的框的示例。这就是通过改变序列结构来提高物体检测精度的方式。

在序列中更改允许我们使EOS采样在改善召回时延迟。使用这些修改允许模型预测对象的最大长度。模型的框架从生成的序列中提取类标签的列表,并将噪声类标签与所有类中具有最大可能性的真实标签替换。

与其他模型的比较

下表是在多个对象大小和阈值上的平均精度方面的不同模型和PIX2Seq模型的表示。MS-Coco 2017检测数据集

图像源码

在比较中,我们可以看到Pix2Seq模型为更快的R-CNN和DERT模型提供竞争力的结果。

最后的话

在本文中,我们已经看到了Pix2Seq模型如何在对象检测任务中帮助我们,以非常新的方法在其中借助顺序模型技术投射对象检测。顺序模型基本上设计为NLP任务并且Pix2Seq模型使用顺序建模方法提供对象检测中的竞争结果。

参考

你怎么看?

订阅我们的新闻

通过分享您的电子邮件获取最新的更新和相关优惠。
加入我们的电报组。成为有趣的社区的一部分

188BET网页

滚动到顶部
Baidu