服务粉丝

我们一直在努力
当前位置:首页 > 财经 >

YOLO系列的演进,从v1到v7(三)

日期: 来源:新机器视觉收集编辑:

点击下方卡片,关注“新机器视觉”公众号

重磅干货,第一时间送达

作者:Maxim Ivanov

编译:ronghuaiyang

转自:AI公园

导读

在本文的前几部分中,我们回顾了 YOLO 家族的前 9 种架构。在最后一篇文章中,我们将介绍目前 3 种最新架构。


YOLOR

作者

Chien-Yao Wang, I-Hau Yeh, Hong-Yuan Mark Liao (Taiwan).

主要论文

“You Only Learn One Representation: Unified Network for Multiple Tasks”, https://arxiv.org/pdf/2105.04206.pdf, published date 2021/05.

代码仓库

https://github.com/WongKinYiu/yolor, 502/1.8k, GPL-3.0 license.

性能比较

这次这个名字的解释方式有点不同,你只学习一种表示。作者与YOLO的先前版本无关,在YOLOR中,概念也与YOLO有些不同。

知识有隐性知识(对先前经验的概括)和显性知识(通过感官感知)。因此,理解图片中显示的内容的人要比不理解的这些的普通神经网络对图像的处理要好得多。

卷积神经网络通常执行一项特定任务,同时可以训练它们同时解决多项任务,这是YOLOR的目标。卷积网络通常是为了解决单个问题而创建的。当他们学习解析输入以获得输出时,YOLOR试图迫使卷积网络做两件事:

  1. 了解如何获取输出
  2. 尝试确定所有不同的输出可能是什么。

它可能有一个出口,而不是只有一个出口。

YOLOR试图结合显性和隐性知识。关于神经网络,它们的显性知识存储在靠近输入的层中,而隐性知识存储在更远的层中。因此,YOLOR成为一个统一的神经网络。

结构特点

YOLOR的结构

本文描述了在神经网络中整合隐性和显性知识的过程的关键点。

  1. 在学习隐知识的过程中引入了内核空间对齐、预测细化和多任务学习。
  2. 向量、神经网络和矩阵分解是用于对隐知识进行建模并分析其有效性的方法。

优点

  • 发布时的检测精度高于竞争对手
  • 发布时的检测率高于竞争对手

局限性

  • GPL-3.0 许可证有义务公开源代码

YOLOv6 aka MT-YOLOv6

作者

来自美团的团队。

主要论文

最初,只有美团的博客上有一篇官方文章:

https://tech.meituan.com/2022/06/23/yolov6-a-fast-and-accurate-target-detection-framework-is-opening-source.html, publication date 2022/06

“YOLOv6: A Single-Stage Object Detection Framework for Industrial Applications”, https://arxiv.org/pdf/2209.02976.pdf, publication date 2022/09.

代码仓库

https://github.com/meituan/YOLOv6, 550/3.8k, GPL-3.0 license.

性能对比

结构特点

v6 的改进集中在三个主要方面:

1、Backbone和Neck部分的设计针对硬件进行了优化

2、解耦的head,精度更高

3、有效的训练策略

Backbone 和 neck 的设计

这个想法是利用硬件,如处理器内核的计算特性、内存带宽等。进行有效推理。

EfficientRep Backbone

neck中用到的Rep-Pan

为此,作者分别使用Rep-Pan和EfficientRep模块重新设计了架构的neck部分和backbone。

美团团队进行的实验表明,计算延迟显著降低和检测精度显著提升。特别是,与YOLOv5-nano模型相比,YOLOv6-nano的速度提高了21%,精度提高了3.6%。

解耦head

分叉的head首次出现在 v5 中。它旨在单独计算网络的分类部分和回归部分。在 v6 中,此方法已得到改进。

有效的 Decoupled Head

高效的训练策略

这些训练策略包括:

  • 无anchor模式
  • SimOTA标签分配策略
  • SIoU框回归损失

消融实验

优点

  • 发布时的检测精度高于竞争对手
  • 发布时的检测率高于竞争对手
  • 使用标准的 PyTorch 框架

局限性

  • GPL-3.0 许可证有义务公开源代码

YOLOv7

作者

Chien-Yao Wang, Alexey Bochkovskiy, Hong-Yuan Mark Liao.

作者团队与YOLOv4相同。

主要论文

“YOLOv7: Trainable bag-of-freebies sets new state-of-the-art for real-time object detectors”, https://arxiv.org/pdf/2207.02696.pdf, publication date 2022/07.

代码仓库

https://github.com/wongkinyiu/yolov7, 870/4.6k, GPL-3.0 license.

性能比较

与其他实时目标检测器相比,所提出的方法实现了最先进的性能。

![img](The evolution of the YOLO neural networks family from v1 to v7-3.assets/12dc5vf34BvTE4axKRJzk7g.png)

结构特点

Backbone的主要计算单元是E-ELAN(扩展高效层聚合网络)

它的设计考虑了以下影响计算准确性和速度的因素:

  • 内存访问成本
  • I/O 比率
  • 元素操作
  • 激活
  • 梯度路径

模型尺度,不同的应用需要不同大小的模型。在某些情况下,检测精度更重要 —— 那么模型应该有更多的可训练参数。在其他情况下,速度更重要,然后模型应该更小,以便推理得更快。

在缩放 v7 模型 时,将考虑以下超参数:

  • 输入分辨率
  • 宽度(通道数)
  • 深度(层数)
  • 级联(特征金字塔的数量)

下图显示了模型缩放的示例。

训练的细微差别

本文讨论了一组方法,这些方法可以在不增加模型训练成本的情况下提高模型的性能。

重新参数化是一种在训练后应用于改进模型的技术。它增加了训练时间,但改善了推理结果。有两种类型的重参数化,模型级别和模块级别。

Lead head生成精细的损失,Aux head生成粗略的损失。

可以通过两种方式完成模型重新参数化:

  • 使用不同的训练数据但相同的设置,训练多个模型。然后平均它们的权重以获得最终模型。
  • 不同时期模型权重的平均。

模块化重参数化更常用于研究。在这种方法中,模型训练过程被划分为大量的模块。将输出集成以获得最终模型。

在 v7 架构中,可以有多个head来执行不同的任务。因此,每个head都有自己的损失。标签分配器是一种将网络的预测与GT预测一起考虑并分配软标签的机制。它生成soft标签,而不是生成hard标签。

Lead 分配器(left) 和 由粗到细引导的分配器 (right)

优点

  • 发布时的检测精度高于竞争对手
  • 发布时的检测率高于竞争对手
  • 使用标准的 PyTorch 框架

局限性

  • GPL-3.0 许可证有义务公开源代码

总结

如果我们将YOLO家族的演变简化为一个表,我们会得到以下结果:

当然,该表并未提及提高性能的所有改进和发现。但是,随着家庭的发展,可以看到一些模式。

Backbone 最初由一个分支(GoogLeNet,VGG,Darknet)组成,然后过渡到包含跳跃连接(跨阶段部分连接CSPDarknet,CSPRepResNet,Extended-ELAN)的架构。显然,这种联系的存在比没有这种联系提供了优势。

Neck 最初也由一个分支组成,然后以特征金字塔网络的各种修改形式分支出来,这允许在不同尺度上保持物体检测的准确性。

Head 在早期版本中只有一个head,它包含在网络的一个分支中所有输出参数:class,objectness,bbox的坐标。将来,事实证明将它们分成单独的head会更有效。也从基于anchor的范式转变为无anchor的范式(v7 除外, 由于某种原因,其中仍然存在anchor,实现无anchor的 v7 并将结果与有anchor的结果进行比较会很有趣)。

增强:早期增强,如仿射变换,HSV抖动和曝光变化非常简单,不会改变物体的背景或环境。最近的:Mixup,Mosaic,Cutout等,更加智能,因为它们改变了图像的内容,而不仅仅是它的形式。似乎平衡比例的增强的两个方向(经典和现代)对于神经网络的有效训练很重要。

最后,我想给出一个完整的演变图:


英文原文:

https://medium.com/deelvin-machine-learning/the-evolution-of-the-yolo-neural-networks-family-from-v1-to-v7-4d4fab3c4db7


声明:部分内容来源于网络,仅供读者学习、交流之目的。文章版权归原作者所有。如有不妥,请联系删除。

—THE END—

相关阅读

  • 明天气温仍较低,周末阳光上线,升温正酝酿!

  • 征集启事地铁风光上海地铁,每天千万人次客流量,纵横交错的线路构成了城市的“第二空间”。它是承载奔波身影的一列车厢,是穿梭于城市间的载具。你有没有因为步履匆匆而错过风景
  • 欢迎加入中国电科27所丨青春启航・电科有你

  • ▲ 点击蓝字“中国电科”,关注CETC品牌微刊中国电科2023校园招聘正式开启作为军工电子主力军网信事业国家队国家战略科技力量中国电科在电子装备、网信体系、产业基础网络安
  • 欢迎加入中国电科16所 | 青春启航·电科有你

  • ▲ 点击蓝字“中国电科”,关注CETC品牌微刊中国电科2023校园招聘正式开启作为军工电子主力军网信事业国家队国家战略科技力量中国电科在电子装备、网信体系、产业基础网络安
  • 【夜读】为什么有些人不会好好说话?

  • 想要表达关心,话说出口却成了责备;想要请求帮助,却忍不住先抱怨两句对方的不是;明明可以温和地讲述,张口却是咄咄逼人的反问、抬杠……原本好好的交流,因为没有好好说话,就这样变了
  • 农业农村部农机化总站副站长姚春生到五征调研

  • 3月23日上午,农业农村部农机化总站副站长姚春生到五征集团调研。山东省农业农村厅党组成员、副厅长马常春,日照市委副书记王新生,五莲县委副书记王军,五莲县政府副县长张辉等省

热门文章

  • “复活”半年后 京东拍拍二手杀入公益事业

  • 京东拍拍二手“复活”半年后,杀入公益事业,试图让企业捐的赠品、家庭闲置品变成实实在在的“爱心”。 把“闲置品”变爱心 6月12日,“益心一益·守护梦想每一步”2018年四

最新文章

  • 我办了400个劳动仲裁案,看见员工和公司的战争

  • 扫码添加麦读君个人微信回复 书单领取100+份优质法律书单麦读君按:法律不应当仅仅是一把冰冷的利剑,它还应当是给我们无限温暖的抵御寒冷的冬衣。作者=巴九灵来源=微信公众号
  • 2023.3.24法律人日签:荒诞

  • 3月24日:荒诞,就是确认自己的界限的清醒的理性。——《异乡人》 [法] 加缪麦读日历2023点击图片 ↓ 立即购买这是麦读日历的第五年。每年,我们从上百部律政电影、文学作品中,精
  • YOLO系列的演进,从v1到v7(三)

  • 点击下方卡片,关注“新机器视觉”公众号重磅干货,第一时间送达作者:Maxim Ivanov编译:ronghuaiyang转自:AI公园导读在本文的前几部分中,我们回顾了 YOLO 家族的前 9 种架构。在最
  • 不要指望买黄金发大财

  • 之前说要写写黄金,如约。老规矩,只分析形势,不做任何投资建议。为什么不鼓励普通人做金融类投资,因为追涨杀跌是大多数人基因,结局也相似:买什么,赔什么。看见现在黄金暴涨,就想杀进