网站开发技术方案网上商城开发费用
- 作者: 五速梦信息网
- 时间: 2026年03月21日 07:35
当前位置: 首页 > news >正文
网站开发技术方案,网上商城开发费用,广州安全教育平台注册,wordpress不能登录界面代码#xff1a;https://github.com/WongKinYiu/yolov9论文#xff1a;https://arxiv.org/abs/2402.1361本文提出可编程梯度信息(PGI)和基于梯度路径规划的通用高效层聚合网络(GELAN)#xff0c;最终铸成YOLOv9目标检测全新工作#xff01;性能表现SOTA#xff01;在各个方…代码https://github.com/WongKinYiu/yolov9论文https://arxiv.org/abs/2402.1361本文提出可编程梯度信息(PGI)和基于梯度路径规划的通用高效层聚合网络(GELAN)最终铸成YOLOv9目标检测全新工作性能表现SOTA在各个方面都大大超过了现有的实时目标检测器优于RT DETR、YOLOv8等网络代码刚刚开源
一、性能对比概况
可以看出在是目前主流目标检测中的SOTA。
二、详细性能数值对比
现有方法中性能最好是用于轻量级模型的YOLO MS-S用于中等模型的YOLO MS用于通用模型的YOLOv7 AF以及用于大型模型的YOLOv8-X 。与YOLO MS 相比YOLOv9的参数减少了约10%计算量减少了约5∼15%但在AP方面仍提高了0.4∼和0.6%。与YOLOv7 AF相比YOLOv9-C的参数少了42%计算量少了21%但实现了相同的AP53%。与YOLOv8-X相比YOLOv9-X的参数减少了15%计算量减少了25%AP显著提高了1.7%。YOLOv9是以上方法中性能SOTA各方面都有所提升。
三、改进点
分别基于YOLOV7和Dynamic YOLOV7来构建通用版本和扩展版本网络结构 训练时使用PGI网络结构在CSPNet块中GELAN替换了ELAN简化了下采样模块优化了anchor free 预测头 PGI的 auxiliary loss 按照YOLOv7的auxiliary loss 四、为什么提出PGI
目前主流的实时物体探测器是YOLO系列这些模型大多数使用CSPNet或ELAN及其变体作为主要的计算单元。在特征集成方面通常使用改进的PAN或FPN作为模块然后使用改进的YOLOv3 head 或FCOS head 作为预测头。最近也提出了一些实时目标探测器如RT DETR它将其应用于DETR上。然而由于DETR系列中没有相应领域预训练模型的对象检测器很难应用于新的领域目前应用最广泛的实时对象检测器仍然是YOLO系列。本文选择YOLOv7作为基础该方法在各种计算机视觉任务和各种场景中都被证明是有效的。我们使用GELAN来改进所提出的PGI的架构和训练过程。上述新方法使所提出的YOLOv9成为新一代的顶级实时对象检测器。
4.1 可逆架构 Reversible Architectures
可逆架构的计算单元必须保持可逆转换的特性这样才能保证每层计算单元的输出特征图能够保留完整的原始信息。之前RevCol 将传统的可逆单元推广到多个层次这样做可以扩展由不同层单元表示的语义层次。通过对各种神经网络结构的文献综述我们发现有许多具有不同程度可逆性的高性能结构。例如
Res2Net模块以分层的方式将不同的输入分区与下一个分区结合起来并将所有转换后的分区连接起来。CBNet通过复合主干重新引入原始输入数据获得完整的原始信息并通过各种组合方法获得不同层次的多级可逆信息。这些网络架构通常具有良好的参数利用率但是额外的复合层会导致推理速度较慢。DynamicDet 结合了CBNet和高效实时目标探测器YOLOv7在速度、参数数量和精度之间实现了很好的权衡。
本文介绍了动态数据网络体系结构作为设计可逆分支的基础。此外在所提出的PGI中还进一步引入了可逆信息。所提出的新架构在推理过程中不需要额外的连接因此它可以完全保留速度、参数量和精度等方面的优点。
4.2 辅助监督 Auxiliary Supervision
深度监督是最常见的辅助监督方法它通过在中间层插入额外的预测层来进行训练。特别是在基于变压器的方法中引入的多层解码器的应用是最常见的一种。另一种常见的辅助监督方法是利用相关的元信息来引导中间层产生的特征图使其具有目标任务所需的属性。这种类型的例子包括使用分割损失或深度损失来提高目标检测器的准确性。近年来文献[53,67,82]中有很多报道使用不同的标签分配方法来生成不同的辅助监督机制以加快模型的收敛速度同时提高鲁棒性。但是辅助监督机制通常只适用于大型模型所以当应用于轻量级模型时很容易出现欠参数化现象导致性能下降。我们提出的PGI设计了一种重编程多层次语义信息的方法该设计还允许轻量级模型也从辅助监督机制中获益。
五、可编程梯度信息网络结构 PGI 5.1 PGI进化概述
Programmable Gradient InformationPGI进化对比 路径聚合网络Path Aggregation NetworkPAN结构可逆列卷积网络Reversible Columns (RevCol)conventional deep supervision深度监督网络PGI主要由三个部分组成
(1)主要分支用于推理的架构。(2)辅助可逆分支生成可靠的梯度为向后传输提供主分支(3)多级辅助信息分支控制主分支学习可规划的多级语义信息。
推理过程只使用了主分支因此不需要任何额外的推理成本。另外两个分支用于解决或减缓深度学习方法中的几个重要问题。辅助可逆分支为了处理神经网络深化带来的问题。多级辅助信息为了处理由深度监督引起的错误积累问题特别是针对多个预测分支的体系结构和轻量级模型。
5.2 辅助可逆分支 Auxiliary Reversible Branch
网络深化会导致信息瓶颈使损失函数无法产生可靠的梯度。辅助可逆分支来生成可靠的梯度和更新网络参数。通过提供从数据映射到目标的信息损失函数可以提供指导并避免从与目标不太相关的不完全前馈特征中发现错误相关性的可能性。通过引入可逆体系结构来维护完整的信息但在可逆体系结构中添加主分支将消耗大量的推理成本。我们分析了图3 (b)的架构发现当添加从深层到浅层的额外连接时推理时间将增加20%。当我们将输入数据重复添加到网络的高分辨率计算层黄框时推断时间甚至超过了网络计算时间的两倍。由于我们的目标是使用可逆架构来获得可靠的梯度因此“可逆”并不是推理阶段的唯一必要条件。鉴于此我们将可逆分支视为深度监督分支的扩展然后设计辅助可逆分支如图3 (d).所示对于由于信息瓶颈而丢失重要信息的主要分支深度特征它们将能够从辅助可逆分支接收到可靠的梯度信息。这些梯度信息将驱动参数学习以帮助提取正确和重要的信息而上述动作可以使主分支获得对目标任务更有效的特征。此外可逆结构在浅层网络上的表现比一般网络更差因为复杂的任务需要在更深的网络中转换。我们提出的方法并不迫使主分支保留完整的原始信息而是通过辅助监督机制生成有用的梯度来更新这些信息。该设计的优点是该方法也可以应用于较浅的网络。最后由于在推理阶段可以去除辅助可逆分支因此可以保留原始网络的推理能力。我们也可以在PGI中选择任何可逆的架构来扮演辅助可逆分支的作用。
5.3 多级辅助信息 Multi-level Auxiliary Information 在本节中我们将讨论多级辅助信息是如何工作的。包含多个预测分支的深度监督体系结构如图3 ©.所示。对于对象检测可以使用不同的特征金字塔来执行不同的任务例如它们可以一起检测不同大小的对象。因此在连接到深监督分支后将引导浅层特征学习小物体检测所需的特征此时系统将其他大小的物体的位置视为背景。然而上述行为会导致深层特征金字塔丢失预测目标对象所需的大量信息。关于这个问题我们认为每个特征金字塔都需要接收关于所有目标对象的信息以便后续的主分支可以保留完整的信息来学习对不同目标的预测。多级辅助信息的概念是在辅助监督的特征金字塔层次层与主分支之间插入一个集成网络然后利用它将从不同的预测头返回的梯度组合起来如图3 (d).所示。然后多级辅助信息是聚合包含所有目标对象的梯度信息然后传递给主分支然后更新参数。此时主分支的特征金字塔层次结构的特征将不会被某些特定对象的信息所支配。因此我们的方法可以缓解深度监督中的信息中断问题。此外任何集成网络都可以用于多级辅助信息。因此我们可以规划所需的语义级别来指导不同大小的网络架构的学习。
六、GElAN网络结构 Generalized ELAN
在本节中我们将描述所提出的新的网络架构-GELAN。通过结合采用梯度路径规划设计的CSPNet 和ELAN 两种神经网络架构设计了考虑轻量级、推理速度和精度的广义高效层聚合网络GELAN。它的总体架构如图4所示。我们将ELAN 的能力推广到最初只使用卷积层的堆叠到可以使用任何计算块的新架构。模仿CSPNet并将ELAN扩展到可以支持任何计算块的GELAN中。 七、研究 7.1 Generalized ELAN
对于GELAN我们首先对计算块进行替换研究。我们分别使用Res块、Dark块和CSP块进行实验。从表中可以看出不同的计算块替换ELAN中的卷积层后可以保持良好的性能。用户确实可以自由地替换计算块并在他们各自的推理设备上使用它们。在不同的计算块替换中CSP块表现得特别好。它们不仅减少了参数量和计算量而且使AP提高了0.7%。因此我们选择CSPELAN作为YOLOv9中GELAN的组成单元。
接下来我们对不同大小的GELAN进行ELAN块深度和CSP块深度实验结果如表所示。 我们可以看到当ELAN的深度从1增加到2时精度显著提高。但当深度大于或等于2时无论是提高ELAN深度还是CSP深度参数的数量、计算量和精度始终呈线性关系。这意味着GELAN对深度不敏感。换句话说用户可以任意组合GELAN中的组件来设计网络体系结构得到一个没有特殊设计的性能稳定的模型。在表3中对于YOLOv9-{SMC}我们将ELAN深度和CSP深度的配对设置为{{2,3}、{2、1}、{2、1}}。 7.2 Programmable Gradient Information
在PGI方面我们分别对主干和颈部的辅助可逆分支和多级辅助信息进行了消融研究。我们设计了辅助可逆分支ICN利用DHLC链接获取多级可逆信息。在多级辅助信息方面我们使用FPN和PAN进行消融研究PFH的作用等同于传统的深度监督。所有实验结果见表。从表4中可以看出PFH仅在深度模型中有效而我们提出的PGI在不同组合下可以提高精度。特别是在使用ICN时我们得到了稳定和更好的结果。我们还尝试将YOLOv7 中提出的铅头引导分配应用于PGI的辅助监督中取得了更好的性能。
我们进一步实现了PGI的概念和对不同规模的模型的深度监督并对结果进行了比较这些结果如表5所示。正如一开始所分析的那样引入深度监督会导致浅层模型的精度损失。对于一般的模型引入深度监督会导致性能不稳定而深度监督的设计理念只能给极深的模型带来收益。所提出的PGI能够有效地处理信息瓶颈和信息破碎等问题并能够全面提高不同规模模型的准确性。PGI的概念带来了两个有价值的贡献。第一个是使辅助监督方法适用于浅层模型第二种是使深度模型训练过程获得更可靠的梯度。这些梯度使深度模型能够使用更准确的信息来建立数据和目标之间的正确相关性。
最后我们在表中展示了从基线YOLOv7到YOLOv9- E逐渐增加的组件的结果。我们提出的GELAN和PGI给模型带来了全面的改进。 7.3 特征图信息传递可视化研究
本节将探讨信息传递瓶颈问题并将其可视化。在图6中展示了在不同架构下使用随机初始权值作为feedforward所获得的特征图的可视化结果。我们可以看到随着层数的增加所有架构的原始信息都会逐渐减少。例如
PlainNet第50层很难看到物体的位置所有可区分的特征都将在第100层丢失。ResNet在第50层仍然可以看到物体的位置但边界信息已经丢失。当深度达到第100层时整个图像就变得模糊了。CSPNet和GELAN都表现得很好都可以保持清晰识别对象的特性直到第200层GELAN的结果更稳定边界信息更清晰。
图7用于显示PGI是否可以在训练过程中提供更可靠的梯度从而使用于更新的参数能够有效地捕获输入数据与目标之间的关系。图7显示了GELAN和YOLOv9GELAN PGI的PAN特征图偏置预热中1个迭代后的可视化结果。从图7(b)和©的比较中我们可以清楚地看到PGI准确而简洁地捕获了包含目标的区域。
相关文章
-
网站开发技术方案实验报告wordpress承载
网站开发技术方案实验报告wordpress承载
- 技术栈
- 2026年03月21日
-
网站开发技术都有哪些郑州php网站开发培训
网站开发技术都有哪些郑州php网站开发培训
- 技术栈
- 2026年03月21日
-
网站开发技术参数怎么查看网站点击量
网站开发技术参数怎么查看网站点击量
- 技术栈
- 2026年03月21日
-
网站开发技术概况wordpress time
网站开发技术概况wordpress time
- 技术栈
- 2026年03月21日
-
网站开发技术合作协议书如何查看域名服务商
网站开发技术合作协议书如何查看域名服务商
- 技术栈
- 2026年03月21日
-
网站开发技术架构e龙岩官网12345
网站开发技术架构e龙岩官网12345
- 技术栈
- 2026年03月21日
