End-to-End Object Detection with Transformers(DETR论文解析)
DETR:End-to-End Object Detection with Transformers
摘要
我们提出了一种将目标检测视为直接集合预测问题的新方法。我们的方法简化了检测流程,有效地消除了许多手工设计的组件,如非极大值抑制程序或锚点生成,这些组件通常明确地编码了我们对任务的先验知识。新框架 DETR(DEtection TRansformer)的主要组成部分是一种基于集合的全局损失,通过二分图匹配强制进行唯一预测,以及一种 Transformer 编码器-解码器架构。在给定一组学到的固定小目标查询的情况下,DETR通过推理对象之间的关系和全局图像上下文直接并行输出最终的预测。这个新模型在概念上很简单,不需要专门的库,与许多其他现代检测器不同。DETR在具有挑战性的 COCO 目标检测数据集上展示了与经过充分优化的 Faster R-CNN 基线相当的准确性和运行时性能。此外,DETR可以轻松推广到以统一的方式生成全景分割。我们展示了它明显优于竞争基线。训练代码和预训练模型可在 https://github.com/facebookresearch/detr 获取。
引言
目标检测的目标是预测每个感兴趣对象的一组边界框和类别标签。现代检测器以一种间接的方式解决这个集合预测任务,通过在大量提议[37,5]、锚点[23]或窗口中心[53,46]上定义替代回归和分类问题。它们的性能受后处理步骤的影响,以折叠近似重复的预测,受锚点集设计和启发式方法的影响,这些启发式方法将目标框分配给锚点[52]。为了简化这些流程,我们提出了一种直接的集合预测方法,绕过了替代任务。这种端到端的思想在复杂的结构化预测任务中取得了显著的进展,比如机器翻译或语音识别,但在目标检测中尚未取得成功:先前的尝试[43,16,4,39]要么增加其他形式的先验知识,要么在具有挑战性的基准测试中未能与强基线竞争。本文旨在填补这一差距。
本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。 如若内容造成侵权/违法违规/事实不符,请联系我的编程经验分享网邮箱:veading@qq.com进行投诉反馈,一经查实,立即删除!