宁波seo网站东莞非凡网站建设
- 作者: 五速梦信息网
- 时间: 2026年03月21日 10:15
当前位置: 首页 > news >正文
宁波seo网站,东莞非凡网站建设,php网站开发目的,有什么网站可以免费看电影2019在AAAI#xff08;还有一版叫GaitSet: Regarding Gait as a Set for Cross-View Gait Recognition#xff0c;大体上一样#xff09;
摘要 现有的步态识别方法要么利用步态模板#xff0c;难以保存时间信息#xff0c;要么利用保持不必要的顺序约束的步态序列#x…2019在AAAI还有一版叫GaitSet: Regarding Gait as a Set for Cross-View Gait Recognition大体上一样
摘要 现有的步态识别方法要么利用步态模板难以保存时间信息要么利用保持不必要的顺序约束的步态序列从而失去步态识别的灵活性。在本文中我们提出了一种新的视角利用步态作为深度集这意味着一组步态帧由全局局部融合深度网络集成其灵感来自于我们的左右半球处理信息来学习可用于识别的信息。基于这个深度集视角我们的方法不受帧排列的影响可以自然地整合在不同场景下获得的不同视频的帧如不同的视角、不同的衣服或不同的物品承载条件 引言
GEI模式方法尽可能丰富地编码信息但压缩过程忽略了时间信息和细粒度空间信息等重要特征 ↓ 直接从原始步态轮廓序列中提取特征。这些方法保留了更多的时间信息但当输入包含不连续的帧或具有与训练数据集不同的帧速率时会出现显著的退化这些古早算法还那么依赖帧率什么的啊 因为步态是一个周期性的运动所以它可以用一个周期来表示。同时在一个包含多个步态周期的剪影序列中可以观察到每个位置的轮廓都有一个唯一的姿势如图1所示。给定任何人的步态轮廓我们可以通过观察它们的外观轻松地将它们重新排列成正确的顺序。这表明步态周期内姿势的顺序不是将一个人与其他人区分开来的关键信息啊输入的帧序列是无序的总得保证步态的运动顺序吧因为顺序的模式是通用的。基于这样的假设我们可以直接将步态视为一组图像并提取时间信息而无需像视频那样对每一帧进行排序。 gaitset中CNN 用于独立从每个轮廓本地信息中提取帧级特征。其次一种称为 Set Pooling 的操作用于将帧级特征聚合为单个集合级特征全局信息。因为此操作是使用高级特征图而不是原始轮廓进行的所以它比步态模板更好地保留了空间和时间信息所以一开始不是用的3d卷积而是每一帧作为单独的图像来处理然后再池化本质都是下采样但固定的池化确实没有自适应的卷积好 | 但是后面相关工作里提到已经有用3d卷积的了呀 优越性提到说“快速:我们的模型直接学习步态的深度集步态表示而不是测量一对步态模板或序列之间的相似性”那也就是说过去的方法中还有类似孪生网络输入一对样本拟合相似度的做法吗那复杂度有点吓人吧
模型
集合池化
结合基本统计函数最大、平均、中值和求和、拼接的联合函数以及注意力机制公式符号看得头大之后结合代码理解吧
水平金字塔池化
参考自reid的条带分隔和金字塔多尺度 组合最大池化和平均池化
MGP 为了收集不同的水平集信息提出了一种多层全局管道(MGP)它与主管道中的卷积网络具有相似的结构但是独立的参数不共享保留步态细节
训练
Batch All (BA) triplet loss 在标准三元损失中只有最难的负例即具有最大距离的负例被考虑而其他负例被忽略。而在BA三元损失中每个负例都被考虑因此不再忽略其他负例。这意味着对于每个锚样本都会考虑到每个负例的损失而不仅仅是最难的那个。 这种方法的优点是能够更全面地利用负例样本从而更好地推动嵌入空间的学习。然而这也使得BA三元损失的计算更复杂因为需要计算所有正例-负例对之间的距离。这可能会导致训练时间较长但通常可以获得更好的性能尤其在面对大规模数据集时。 ——ChatGPT 好像gaitgl论文里也提到过这个看来之后还得扣一下损失的细节 实验
数据集
CASIA的大中小划分 在ST中前24 名受试者001-024用于训练其余 100 名受试者用于测试。 在 MT 中前 62 个001-062用于训练其余 62 个用于测试。 在 LT 中前 74 个001-074用于训练其余 50 个主题用于测试。代码里的基线设置是这个 对于所有三个设置中的测试集将 NM 条件的前 4 个序列即 NM #1-4保留在图库中其余 6 个序列分为 3 个探针子集即 NM 子集 #5-6、包含 BG #1-2 的 BG 子集和包含 CL #1-2 的 CL 子集。
对比实验
依然是垂直视角好一些正对着摄像头的0或180不好 换装效果有限主要还是因为衣服会对四肢、体型造成干扰并且训练过程中也很少学到换装讲道理也不该学毕竟应用场景中一个人可能会换任何未知的衣服又不是reid
消融
集合化比GEI效果好因为时空信息被保留并且训练时随机从序列中抽帧相当于数据增强了
集合池化 具有像素级注意力的 SP 在 NM 和 BG 子集上的准确率最高当使用 max(·) 时它在 CL 子集上的准确率最高。考虑到 max(·) 的 SP 在 NM 和 BG 子集上也实现了第二好的性能并且具有最简洁的结构因此我们选择它作为 GaitSet最终版本中的 SP 策略。只能选型了没啥可解释分析的 MGP 从主管道的不同层中提取的集合级特征包含不同的判别信息那其实相当于有个跳跃连接聚合了深层和浅层的层次化信息吧 HPM
这里设计独立FC有利于准确率和训练效率所以后续的代码中都有了separate FC吗
训练策略
需要关注dropout和bn
维度 使用两种方法进行降维。一种是通过缩小 HPM 全连接层的输出维度来将特征维度设置为较低级别。另一种方法是在引入新的全连接层后执行测试任务实现了原始 15, 872 维的大压缩。 如果 HPM 输出维度太低低至 32或太高高达 1024仍然会对性能产生负面影响。这种性能下降的原因是1输出维度太高的全连接层很容易过拟合因为它们包含的参数太多2太小的输出维度会显着限制全连接层的学习能力。特别是使用 CE 损失训练的模型在具有高维 HMP 输出的 CL 子集上的鲁棒性较差而具有预训练策略的模型在 CL 子集上具有稳定的性能。通过减少 HMP 输出维度我们可以将最终特征维度从 15, 872 压缩到其中四分之一。虽然这种压缩与微妙的性能损失有关但 BG 和 CL 子集上识别性能的退化不能被忽略。 最终的特征维度可以压缩到 1024同时在 NM 子集上保持 95% 的识别精度这只是原始 15, 872 维的 6.5%。与改变 HPM 的输出维度类似太小的特征维度会导致性能下降。尽管它与端到端设计的思想背道而驰但引入这种后处理有效地压缩了学习到的特征表示使得该方法在实际应用中更加实用。 更丰富的实验
更少的轮廓帧 1随着轮廓数量的增加准确率单调上升2当样本包含超过 25 个轮廓时准确率接近最佳性能。这个数字与一个步态周期包含的帧数量一致。 输入不同视角的数据 有效地聚合来自不同视图的信息并提高了最终性能。这一结果可以用第4.4节中讨论的视图和精度之间的模式来解释。在输入集中包含多个视图允许模型收集并行和垂直信息从而提高性能 将背包、换装纳入图库并组合输入 BG 和 CL 的轮廓组合有助于模型提高准确性。相比之下NM的轮廓几乎没有噪声。因此将其他两个条件的轮廓替换为其中一些不提供额外的有用信息但只会引入噪声导致性能下降。
- 上一篇: 宁波seo排名方案seo博客网站
- 下一篇: 宁波seo网站长沙企业网站建立
