首页 - 技术栈

APP和网站是一样吗营销策略英文

作者: 五速梦信息网
时间: 2026年05月16日 22:17

当前位置：首页 > news >正文

APP和网站是一样吗,营销策略英文,wordpress手动搬家,做国内打不开的网站吗Abstract 大多数视觉注意力模型旨在预测自上而下或自下而上的控制#xff0c;这些控制通过不同的视觉搜索和自由观看任务进行研究。本文提出了人类注意力变换器#xff08;Human Attention Transformer#xff0c;HAT#xff09;#xff0c;这是一个能够预测两种形式注意力…Abstract 大多数视觉注意力模型旨在预测自上而下或自下而上的控制这些控制通过不同的视觉搜索和自由观看任务进行研究。本文提出了人类注意力变换器Human Attention TransformerHAT这是一个能够预测两种形式注意力控制的单一模型。HAT采用了一种新型的基于变换器的架构和简化的视网膜模型这些共同构建了一种类似于人类动态视觉工作记忆的时空意识。HAT不仅在预测目标呈现和目标缺失视觉搜索中的注视扫描路径以及“无任务”自由观看中表现出色成为新一代最先进的技术还使人类注视行为变得可解释。与依赖粗略网格的注视单元并由于注视离散化而导致信息丢失的先前方法不同HAT采用了顺序密集预测架构并为每个注视点输出密集热图从而避免了注视离散化。HAT设定了计算注意力的新标准强调了其有效性、通用性和可解释性。HAT的广泛适用性和应用范围有望激发新型注意力模型的开发这些模型能够更好地预测人类在各种需求注意力的场景中的行为。代码可在 GitHub - cvlab-stonybrook/HAT: CVPR 2024 Unifying Top-down and Bottom-up Scanpath Prediction Using Transformers Introduction 注意力是一个认知过程使人类能够将有限的认知资源选择性地分配到视觉世界的特定区域这在人体感知系统中发挥着至关重要的作用。理解和预测人类视觉注意力将带来许多应用例如能够预测个人需求和意图的辅助技术能够优先处理人类关注区域的感知系统提升各种视觉任务如物体检测的准确性和速度以及图像/视频压缩技术能够将更多资源分配给编码和传输高关注区域从而优化带宽的使用。人类注意力控制可以分为两种广泛的形式。一种是自下而上的注意力这意味着注意力显著性信号是从视觉输入中计算出来的并用于优先考虑注意力的转移。因此相同的视觉输入应导致相同的自下而上的注意力转移。第二种注意力是自上而下的这意味着任务或目标用于控制注意力。以厨房场景为例搜索钟表或微波炉时人们的注视点会有所不同。这两种类型的注意力控制产生了两种不同的注视点预测文献一种使用自由观察任务研究自下而上的注意力另一种使用目标导向任务通常是视觉搜索研究自上而下的注意力控制。因此大多数模型旨在解决自下而上或自上而下的注意力而不是两者兼顾。一个模型架构能否预测这两种注意力控制图1。给定图像所提出的HAT能够在目标存在预测扫描路径;目标不存在扫描路径;自由观看。重要的是HAT 在三个设置中在多个数据集上优于以前的最先进的扫描路径预测方法目标存在、目标缺失视觉搜索和自由观看分别进行了研究。我们对这个问题的回答是HAT人类注意力变换器它能够预测注视路径即可以应用于自上而下的视觉搜索和自下而上的自由观察任务图一。设计一个能够预测自下而上和自上而下注意力控制的统一模型架构并非易事1预测人类注视路径需要模型对注视图像内容及其与外部目标的关系具有时空理解2预测自上而下和自下而上的注意力需要模型捕捉输入图像的低级特征和高级语义。HAT通过采用一种新型变换器设计和简化的中心凹视网膜来解决这些问题。结合这两个组件形成了一种新的范式构成一种动态更新的视觉工作记忆。传统方法依赖循环神经网络RNN来维持动态更新的隐藏向量从而在注视之间传递信息。然而这些方法存在缺陷RNN牺牲了解释性而多分辨率模拟在捕捉对注视路径预测至关重要的时间和空间信息方面表现不佳。为了解决这些挑战我们利用计算注意力机制动态地将每次注视获取的空间、时间和视觉信息整合到工作记忆中。这使得HAT能够辨别一组特定任务的注意力权重以整合工作记忆中的信息并预测人类的注意力控制。这一创新机制揭示了人类注意力与工作记忆之间复杂的关系使HAT不仅在认知上合理而且确保了其预测的可解释性。此外与之前的方法相比HAT将注视路径预测视为一系列密集预测任务采用每像素监督成功避免了注视离散化的需求。这提高了该方法在高分辨率图像场景中的有效性。为了展示HAT的通用性我们在三种设置下预测注视路径目标存在TP、目标缺失TA视觉搜索和自由观察FV涵盖了自上而下和自下而上的注意力。在之前的工作中预测搜索路径时为TP和TA设置分别训练了不同的模型。而HAT是一个单一模型在TP和TA搜索路径预测中都建立了新的最先进的水平。当用FV路径训练时HAT相对于基准模型也取得了顶尖表现。在COCO-Search18数据集和COCO-FreeView数据集上HAT在TP、TA和FV设置下的cNSS注意力神经信号分别提高了95%、94%和104%。我们的贡献可以总结如下我们提出了HAT一种新型的变换器架构通过整合两种不同偏心度的视觉信息近似视网膜中心凹来预测人类注意力的空间和时间分配。我们将扫描路径预测问题形式化为一个顺序密集预测任务避免了注视离散化使得HAT可以应用于高分辨率输入。HAT架构可以广泛应用于不同的注意力控制任务且在视觉搜索和自由观看任务中的扫描路径预测达到了最先进水平。HAT的注意力预测具有很高的可解释性适用于研究注视行为。 Related Work 注意力显著性预测预测和理解人类注视控制在心理学中已经是一个关注了数十年的主题但最近才引起计算机视觉领域研究者的关注。特别是Itti的开创性工作引发了计算机视觉社区对人类注意力建模的广泛兴趣并推动了许多研究识别和建模图像的显著视觉特征即显著性预测。然而这些研究通常狭隘地集中在无特定视觉任务的自然眼动预测即自由观看忽视了另一种重要的注意力控制形式——目标导向注意力。此外显著性模型仅建模注视的空间分布而不预测注视之间的时间顺序。扫描路径预测是一个更具挑战性的问题因为它不仅需要预测注视的位置还需要预测注视的时间。扫描路径预测许多现有的扫描路径预测深度神经网络主要集中于预测自由观看的扫描路径这主要是由于其与显著性建模的紧密联系。然而这些模型在捕捉人类注意力控制的完整谱系方面受到限制尤其是目标导向注意力——一种基础的认知过程支持日常视觉任务如导航和运动控制。尽管目标导向人类注意力在认知科学中研究已久主要是在视觉搜索的背景下但针对目标导向扫描路径预测的深度神经网络的发展滞后于自由观看任务模型部分原因是缺乏数据。为了解决这一问题Chen等人创建了第一个大型目标导向注视数据集COCO-Search18。在相关研究中一种逆强化学习模型在COCO-Search18上展示了对目标存在扫描路径的优秀预测性能。随后Chen等人展示了一种直接优化扫描路径相似度指标的强化学习模型可以预测视觉问答VQA扫描路径以及目标存在的搜索扫描路径。最近Gazeformer一个基于变换器的扫描路径预测模型进一步提升了COCO-Search18上目标存在搜索扫描路径的预测性能。然而这些研究都未能展示对三种设置即目标存在、目标不存在和自由观看的普遍性。在本工作中我们设计了一种通用的扫描路径模型能够推广到自由观看和视觉搜索任务。扫描路径变换器变换器的变革性影响在自然语言处理及其他领域被广泛认可。在计算机视觉中变换器在图像识别、目标检测和图像分割等任务中表现出色。Mondal等人介绍了Gazeformer一个专门设计用于零-shot视觉搜索扫描路径预测的变换器模型。相比之下我们提出的模型是通用的能够预测视觉搜索和自由观看的扫描路径。此外我们的模型与其他基于变换器的架构不同受到人类视觉系统的启发包含一个新颖的视网膜模块模拟简化的中央凹视网膜从而建立一个动态视觉工作记忆以增强扫描路径预测。 Human Attention Transformer 在本节中我们首先将扫描路径预测公式化为一系列密集预测任务使用行为克隆的方法。然后我们介绍我们提出的基于变换器的模型 HAT用于扫描路径预测。最后我们描述如何训练 HAT 以及如何进行快速推断 Preliminaries 为了避免先前注视预测方法中由于网格离散化导致的精度损失 [10, 62, 63, 66]我们将扫描路径预测公式化为像素坐标的序列预测。给定一个 H×W 的图像和一个可选的初始注视点 f0通常设为图像的中心扫描路径预测模型预测一系列类似人类的注视位置 f1, ···, fn其中每个注视点 fi 是图像中的一个像素位置。需要注意的是n 是可变的对于不同的人类受试者由于终止标准不同可能会有不同的值。为了建模人类注意力分配的不确定性现有方法 [10, 62, 63, 66] 通常在每一步预测一个粗糙网格上注视位置的概率分布。HAT 采用相同的思路但输出一个密集的注视热图。具体来说HAT 输出一个热图 Yi ∈ [0, 1]H×W每个像素值表示下一个注视中该像素被注视的概率。此外HAT 还输出一个终止概率 τi ∈ [0, 1]表示模型在当前步骤 i 终止扫描路径的可能性。为了采样一个注视点我们对 Yi 应用 L1 归一化。以下内容中我们为了简洁起见省略下标 i。 Network Architecture 图2. HAT概述。 1. 特征提取编码器-解码器 CNNs使用这种结构来提取图像的特征图。特征图 P1 和 P4分别代表不同的空间分辨率。P4通常是高分辨率特征图捕捉图像的细节信息。P1较低分辨率特征图提供更广泛的背景信息。 2. 工作记忆工作记忆容量设计为 λ 个标记tokens模拟人类的短期记忆能够存储与当前视觉任务相关的信息。信息结合来自 P1 的特征向量更广泛的背景信息。来自 P4 的特征向量源自之前注视的位置。中央注视点与周边视野通过结合这两类信息模型能够更好地理解当前场景的上下文。 3. 动态更新机制变换器编码器每当新的注视点出现时模型使用变换器编码器来动态更新工作记忆。这意味着模型可以根据视觉输入的变化迅速调整其对环境的理解。 4. 任务特定查询生成 N 个查询针对不同的任务例如寻找时钟或鼠标模型生成多个查询。查询的维度 C表示每个任务特定的特征。聚合任务特定信息每个查询会从共享的工作记忆中提取与其任务相关的信息从而更准确地预测相应的注视点。 5. 热图生成卷积处理更新后的查询与 P4 进行卷积操作以生成注视热图。多层感知器MLP层经过 MLP 层处理后热图显示了可能的注视点位置。终止概率的投影热图进一步被转换为终止概率表示在特定位置停止注视的可能性。 6. 适用范围视觉搜索与自由观看虽然该图主要展示了视觉搜索的情况但 HAT 模型同样适用于自由观看任务。这种灵活性表明模型能够适应多种视觉任务展现出广泛的应用潜力。 Training and Inference Experiments 数据集我们使用四个数据集来训练和评估 HATCOCO-Search18、COCO-FreeView、MIT1003 和 OSIE。COCO-Search18 是一个大规模视觉搜索数据集包含人类在搜索 18 种不同物体目标时的扫描路径并分为目标存在和目标缺失两部分。COCO-Search18 总共有 3101 张目标存在图像和 3101 张目标缺失图像每张图像由 10 位被试观看。我们将 COCO-Search18 的目标存在部分和目标缺失部分视为两个独立的数据集分别训练模型。 COCO-FreeView 是 COCO-Search18 的“兄弟”数据集包含自由观看的扫描路径。COCO-FreeView 包含与 COCO-Search18 相同的图像每张图像同样由 10 位被试在自由观看的环境下观看。 MIT1003 是一个广泛使用的自由观看数据集包含 1003 张自然图像。 OSIE 是一个自由观看的注视数据集具有丰富的语义级注释包含 700 张自然室内和室外图像。MIT1003 和 OSIE 中的每张图像由 15 位被试观看。评估指标为了测量性能我们主要从两个方面分析扫描路径预测模型 1) 预测的扫描路径与人类扫描路径的相似程度 2) 模型在给定所有先前注视的情况下预测下一个注视的准确性。我们使用常用的度量指标序列得分SS及其变体语义序列得分SemSS来衡量扫描路径的相似性。SS 将扫描路径转换为注视聚类 ID 的序列并使用字符串匹配算法进行比较。与 SS 不同SemSS 将扫描路径转换为注视像素的语义标签字符串。对于下一个注视预测我们遵循文献中的方法报告条件显著性指标 cIG、cNSS 和 cAUC这些指标衡量模型预测的注视概率图在提供扫描路径的注视历史时如何有效地预测真实的下一个注视。为了公平比较我们遵循文献的做法逐步选择最可能的注视位置作为下一个注视并为每张测试图像预测一个扫描路径。基线模型我们首先将我们的模型与几个启发式基线进行比较。根据前人的研究使用一个观察者的扫描路径来预测另一个观察者的扫描路径的人类一致性被报告为黄金标准模型。其次我们将其与一个注视启发式方法进行比较——一个训练用来预测人类注视密度图的卷积网络从中我们按顺序选择注视点并实施返回抑制。对于视觉搜索扫描路径我们还包括一个检测器基线该基线类似于注视启发式但训练于 COCO-Search18 的目标存在图像以预测目标检测概率图。对于注视启发式和检测器基线我们使用赢家通吃策略生成扫描路径。此外我们将 HAT 与之前的最先进的扫描路径预测模型进行比较包括 IVSN、PathGAN、IRL、Chen 等人、DeepGaze III、FFMs 和 GazeFormer。注意IVSN 仅适用于视觉搜索任务且与其他方法不同IVSN 被设计用于零-shot 搜索扫描路径预测因此未使用任何注视数据进行训练。DeepGaze III 仅适用于自由观看扫描路径并使用 SALICON 数据集和 MIT1003 进行训练。实现细节我们使用 ResNet-50 作为像素编码器使用 MSDeformAttn 作为像素解码器。对于聚焦模块变压器编码器有三层。聚合模块中的变压器解码器有六层即 L6。HAT 中所有变压器编码器和解码器层都有 4 个注意力头。注视预测模块中的多层感知器MLP有两个线性层隐藏维度为 512使用 ReLU 激活函数。我们使用 AdamW 优化器学习率为 0.0001训练 HAT 30 个周期批量大小为 128。所有图像在训练和推理期间被调整为 320×512以提高计算效率。按照前人的研究我们将每个预测扫描路径的最大长度设置为 6针对目标存在和 10针对目标缺失自由观看的最大扫描路径长度设置为 20。有关更多实现细节请参见补充材料。 Main Results 我们在目标存在TP设置下使用 COCO-Search18 数据集的目标存在部分对 HAT 与之前的扫描路径预测模型进行了比较结果见表 1。HAT 在几乎所有指标上都持续超越了其他预测方法能够更准确地预测 TP 人类扫描路径。简单的启发式基线即检测器和注视启发式在 TP 扫描路径预测中表现相当不错因为在 COCO-Search18 的 60% TP 试验中人类能够在 2 次注视内找到目标。在 COCO-Search18 的目标存在测试集上进行的比较。我们将最佳结果加粗显示。然而它们在显著性指标即 cIG、cNSS 和 cAUC上得分较低因为它们忽略了注视点之间的相互依赖性。与 FFMs [63] 和 Chen 等人 [10] 相比它们在显著性得分上较高HAT 在所有指标上都显著提高了性能。特别是HAT 在 cNSS 上比排名第二的 Chen 等人 [10] 高出 95%。HAT 在 SS 上略逊于最近的 GazeFormer [42]但在 semSS 上明显更好。我们还在补充材料中展示了 HAT 从多个受试者那里学习了整个扫描路径分布而 GazeFormer 过度拟合于“平均人”并且无法预测来自不同受试者的扫描路径。此外HAT 在 semSS 上超过了人类一致性这表明 HAT 很好地捕捉了注视背后的语义。目标缺失Target-absent, TA搜索。对于目标缺失的扫描路径预测我们在 COCO-Search18 数据集的 TA 测试集上将 HAT 与不同方法进行了对比结果如表 2 所示。与表 1 中目标存在TP搜索结果不同的是我们在表 2 中发现启发式方法与人类一致性之间的差距在 TA 搜索中显著更大这表明 TA 搜索的扫描路径预测比 TP 搜索更具挑战性。实际上在 TP 搜索中对人类注意力的主要影响因素即目标在 TA 搜索中已经不存在【12】因此锚定物体提供的空间线索【4】、来自全局场景理解的上下文线索【52】以及物体共现性【40】等其他因素变得更加突出。辨别这些因素需要对输入图像进行稳健的语义理解。表 2 显示HAT 在所有指标上都创下了新的最先进水平state-of-the-artcNSS 分数比之前的最佳方法Chen 等人【10】提高了 94%。更重要的是HAT 首次在序列得分上超过了人类一致性。这些结果表明与其他方法相比HAT 能更好地捕捉图像的语义并学习物体与目标之间的关系。在 COCO-Search18 的目标缺失测试集上进行的比较。我们将最佳结果加粗显示。 Qualitative Analysis 扫描路径可视化。在本节中我们定性地比较了不同方法预测的扫描路径与真实人类扫描路径在目标存在TP、目标缺失TA和自由观看FV设置下的表现。如图 4 所示在 TP 设置中寻找瓶子时HAT 不仅准确预测了被严重遮挡的目标的终点注视点还像人类一样对所有与目标相似的干扰物进行了预测。其他方法要么遗漏了干扰物要么未能找到目标。同样在寻找停车标志的 TA 设置中HAT 是唯一一个像人类一样查看道路两侧的模型展示了使用语义和上下文线索来引导注意力的能力。在 FV 设置中HAT 还在1注视位置哪里、2语义是什么和3注视顺序何时方面预测了最接近人类的扫描路径。更多的扫描路径可视化可以在补充材料中找到。图 4. 真实人类扫描路径与不同方法预测的扫描路径可视化列。从上到下显示了三种不同的设置目标存在的瓶子搜索、目标缺失的停车标志搜索和自由观看。每条扫描路径的最终注视点用红色圆圈突出显示。对于没有终止预测的方法如 IRL、检测器和注视启发式方法我们可视化了视觉搜索的前 6 次注视和自由观看的前 15 次注视。最右侧一列显示了启发式方法视觉搜索的检测器 630 和自由观看的注视启发式的预测扫描路径。模型可解释性。HAT 的一个显著特点在于其可解释性这得益于其计算注意力机制和中央凹模块设计。HAT 可以定量衡量周边视野peripheral和中央凹foveal特征对注视分配的贡献。特征的贡献通过 HAT 聚合模块中最后一个交叉注意力层的注意力权重计算得出。通过计算每个周边特征的归一化贡献我们生成了一张周边贡献图这为理解人类注视行为提供了新的见解。我们进一步分析了周边贡献图在一系列注视中的演化过程。图 7 展示了 HAT 在 TP 笔记本搜索任务中的预测扫描路径、周边贡献图和预测注视热图。我们发现编码的周边特征不仅与下一次注视的位置一致例如当被遮挡的笔记本在左下方周边被编码时模型将注视移动到目标并终止搜索还提供了目标可能位于某些位置的上下文线索例如通常在键盘和显示器附近可能找到笔记本。我们在 TA 场景中也观察到了类似的模式详见补充材料。此外在补充材料中我们还系统分析了周边和中央凹特征在预测人类注意力控制中的综合贡献结果表明周边视野在不同场景下扮演着不同的角色。这些研究表明HAT 能够进行高度可解释的预测。