网站建设开发详细步骤流程图做网站维护的收入怎么确认

当前位置: 首页 > news >正文

网站建设开发详细步骤流程图,做网站维护的收入怎么确认,有了域名和主机怎么做网站,大型企业网络搭建最新的研究进展已经显示出目标中心的表示方法在视觉动态预测任务中可以显著提升预测精度#xff0c;并且增加模型的可解释性。这种表示方法通过将视觉场景分解为独立的对象#xff0c;有助于模型更好地理解和预测场景中的变化。 尽管在静态图像的解耦表示学习方面已经取得了一…       最新的研究进展已经显示出目标中心的表示方法在视觉动态预测任务中可以显著提升预测精度并且增加模型的可解释性。这种表示方法通过将视觉场景分解为独立的对象有助于模型更好地理解和预测场景中的变化。 尽管在静态图像的解耦表示学习方面已经取得了一些进展但在视频领域尤其是在没有对对象可能具有的属性类型做出具体假设的一般性设置中这方面的工作还相对欠缺。解耦表示通过将对象的不同属性例如颜色、形状、大小等分离可能进一步提高模型对视觉动态的预测能力。 当前的视觉动态预测方法在处理对象动态时通常需要依赖于对象属性的显式监督信息或者在静态图像上进行解耦表示学习。这些方法在处理视频数据时可能存在局限性。 为了克服现有方法的局限性并充分利用解耦表示在视频动态预测中的潜力本文提出了一种新的架构——DisFormer。这一架构旨在通过无监督的方式学习目标中心模型中的解耦表示并利用这些表示来提高视觉动态预测的准确性和泛化能力。 1 相关工作 1.1 对象中心图像和视频模型 对象中心模型旨在将图像或视频分解为对象和背景并对每个对象进行单独建模。这类模型通常使用空间注意力机制来发现对象并使用生成模型或自回归模型来重建图像或视频。例如 AIR基于空间注意力机制的对象中心模型通过迭代细化学习对象的表示。AIR模型结合了空间注意力机制和对象中心的学习方法通过自适应地选择和处理关键区域的信息提高了模型在计算机视觉任务中的性能和泛化能力MONet基于空间注意力机制的对象中心模型通过分解对象和背景来重建图像。SPACE基于空间注意力机制的对象中心模型通过分解对象和背景来重建图像并学习对象的动态。IODINE基于空间混合模型的对象中心模型通过分解对象和背景来重建图像并学习对象的动态。GENESIS基于空间混合模型的对象中心模型通过分解对象和背景来重建图像并学习对象的动态。SLATE基于空间混合模型的对象中心模型通过分解对象和背景来重建图像并学习对象的动态。 1.2 动态预测模型 动态预测模型旨在预测视频帧序列的未来状态。这类模型通常使用自回归模型或生成模型来预测未来帧。例如 Interaction Networks基于交互网络的对象中心模型通过学习对象之间的关系来预测其动态。Billiards基于物理模型的动态预测模型通过学习物体的运动规律来预测其未来状态。Galileo基于深度学习和物理引擎的动态预测模型通过整合物理引擎和深度学习来预测物体的物理属性。GSWM对象中心生成模型通过学习对象的表示来预测其动态。SlotFormer基于槽位注意力的对象中心动态模型将视频分解为对象和背景并分别进行建模。 1.3 对象解耦模型 对象解耦模型旨在将对象分解为多个属性并学习每个属性的表示。这类模型通常使用迭代细化或自编码器来学习解耦表示。例如 Scalor基于分解和组合的对象解耦模型通过分解对象和背景来学习解耦表示。SimOne基于视图不变性和时间抽象的对象解耦模型通过无监督视频分解来学习解耦表示。Simple Unsupervised Object-Centric Learning基于简单无监督对象中心学习的解耦模型通过无监督学习来学习解耦表示。Neural Systematic Binder基于线性组合的对象解耦模型通过学习对象属性的概念向量来学习解耦表示。 1.4 DisFormer 与现有方法的区别 与现有方法相比DisFormer 具有以下特点 解耦表示 通过迭代细化将对象分解为多个“块”每个块代表对象的一个潜在属性从而学习解耦表示。Transformer 动态预测利用 Transformer 预测对象未来状态并能够捕捉对象之间的交互关系。对象中心表示直接使用对象表示而不依赖于特定的对象提取器因此具有更好的泛化能力。 2 DisFormer模型 DisFormer 是一种基于 Transformer 的视觉动态预测模型其主要目标是学习解耦的对象表示并利用该表示来预测对象的未来状态。DisFormer 模型主要由以下四个模块组成 2.1 遮罩提取器 (Mask Extractor) 遮罩提取器负责提取视频帧中的对象遮罩。DisFormer 使用 SAM (Segment Anything) 模型和 SAVi (Slot Attention for Video) 模型联合提取对象遮罩。 SAVi 模型首先使用 SAVi 模型对视频帧进行对象发现并生成对象遮罩的粗略估计。SAM 模型然后使用 SAM 模型对 SAVi 模型生成的遮罩进行细化生成更精确的对象遮罩。 2.2 块提取器 (Block Extractor) 块提取器负责将对象分解为多个“块”每个块代表对象的一个潜在属性。块提取器使用迭代细化的方法来学习解耦表示。 初始化每个对象的块表示初始化为对象表示的线性组合。迭代细化块表示通过自注意力机制与对象表示进行交互并更新其表示直到收敛。解耦表示每个块表示最终表示为一个固定数量的可学习概念向量的线性组合从而实现解耦表示。 2.3 动态预测器 (Dynamics Predictor) 动态预测器负责预测对象未来状态。动态预测器使用 Transformer 模型来捕捉对象之间的交互关系并预测对象的未来状态。 线性投影将每个块表示投影到高维空间。自注意力机制使用自注意力机制捕捉对象之间的交互关系。解码将预测的对象状态解码为图像。 2.4 解码器 (Decoder) 解码器负责将解耦的对象表示解码为图像。解码器使用空间混合模型来生成图像。 空间广播解码器将每个块表示解码为 2D 特征图。卷积神经网络将 2D 特征图解码为图像。 3实验部分 3.1 数据集 在四个不同的数据集上进行了一系列实验以评估DisFormer的性能。这些数据集包括两个2D数据集和两个3D数据集涵盖了从简单的玩具环境到更复杂的3D动态 2D Bouncing Circles (2D-BC)一个包含三个不同颜色球体在 2D 空间中自由运动和碰撞的合成数据集。2D Bouncing Shapes (2D-BS)一个包含两个圆形和两个正方形在 2D 空间中自由运动和碰撞的合成数据集。OBJ3D一个包含一个弹性球体进入场景并与其他静止物体碰撞的合成数据集。CLEVRER一个包含各种形状、颜色和材质的物体在 3D 空间中运动和交互的合成数据集。 3.2 基线模型 本文将 DisFormer 与以下两种基线模型进行了比较 GSWM对象中心生成模型通过学习对象的表示来预测其动态。模型的目标是提高生成想象力并且可以通过PyTorch实现。SlotFormer基于槽位注意力的对象中心动态模型将视频分解为对象和背景并分别进行建模。使用Transformer网络来建模视频中对象的空间-时间动态关系并生成未来帧。 3.3 评价指标 使用的评估指标包括像素均方误差PErr、峰值信噪比PSNR、感知损失LPIPS和结构相似性指数SSIM。 像素均方误差PErr指均方误差MSE用于衡量图像处理前后的质量变化。峰值信噪比PSNRPSNR是“Peak Signal to Noise Ratio”的缩写即峰值信噪比是一种评价图像的客观标准。PSNR的单位是dB数值越大表示失真越小。感知损失LPIPSLPIPS也称为“感知损失”用于度量两张图像之间的差别。这个指标通过深度学习模型来评估两个图像之间的感知差异。结构相似性指数SSIMSSIM是“Structural Similarity Index”的缩写即结构相似性指数用于衡量两幅图像之间的相似度。SSIM考虑了图像的亮度、对比度和结构三个方面取值范围在-1到1之间1表示两幅图像完全相同-1表示两幅图像完全不同。 3.4 实验结果 实验结果表明DisFormer 在所有数据集上均取得了优于 GSWM 和 SlotFormer 的性能尤其是在 OOD 设置下。 2D 数据集DisFormer 在 PErr 和 PSNR 指标上均优于 GSWM 和 SlotFormer在 OOD 设置下性能提升更为显著。 3D 数据集DisFormer 在 PSNR 和 SSIM 指标上优于 GSWM 和 SlotFormer在 OOD 设置下性能提升更为显著。 4 未来方向和局限性 4.1 未来工作方向 更复杂的场景 将 DisFormer 扩展到更复杂的场景例如具有更多对象和背景交互的场景。更复杂的 3D 场景 将 DisFormer 扩展到更复杂的 3D 场景并解决 3D 数据集中属性解耦不完全的问题。动作条件预测 将 DisFormer 扩展到动作条件视频预测以便模型能够根据动作预测视频动态。超参数分析 深入分析概念数量和块数量等超参数对模型性能的影响并找到最佳的超参数设置。真实世界数据集 在真实世界数据集上进行实验以评估 DisFormer 在真实场景中的性能。 4.2 局限性 3D 数据集的属性解耦 DisFormer 在 3D 数据集上的属性解耦效果不如 2D 数据集这可能是由于 3D 场景的复杂性更高。真实世界数据集的实验 目前还没有在真实世界数据集上进行实验因此 DisFormer 在真实场景中的性能还有待验证