怎么查看网站域名win7可以做网站吗
- 作者: 五速梦信息网
- 时间: 2026年04月20日 06:52
当前位置: 首页 > news >正文
怎么查看网站域名,win7可以做网站吗,天津 网站备案,wordpress添加快速链接摘要
对比语言-图像预训练#xff08;CLIP#xff09;已被广泛研究并应用于众多领域。然而#xff0c;预训练过程中对简短摘要文本的重视阻碍了CLIP理解长描述的能力。在视频方面#xff0c;这个问题尤为严重#xff0c;因为视频通常包含大量详细内容。在本文中#xff…摘要
对比语言-图像预训练CLIP已被广泛研究并应用于众多领域。然而预训练过程中对简短摘要文本的重视阻碍了CLIP理解长描述的能力。在视频方面这个问题尤为严重因为视频通常包含大量详细内容。在本文中我们提出了VideoCLIP-XLeXtra Length超长模型旨在释放视频CLIP模型理解长描述的能力。首先我们建立了一个自动数据收集系统并收集了一个大规模的视频与长描述对VILD预训练数据集。然后我们提出了文本相似性引导的主成分匹配TPCM方法以在扩展长描述能力的同时更好地学习特征空间的分布。我们还引入了两个新任务即细节感知描述排序DDR和幻觉感知描述排序HDR以进一步提高理解能力。最后我们构建了一个长视频描述排序LVDR基准以更全面地评估长描述能力。在包含短描述和长描述的常用文本-视频检索基准以及我们的LVDR基准上的大量实验结果充分证明了我们的方法的有效性。
1 引言
对比语言-图像预训练CLIP模型Radford等2021是视觉-语言预训练领域的一项关键发展。它结合了文本和图像编码器通过对比学习使这两种模态对齐。该方法已在各种应用中得到有效应用如零样本分类Sun等2023、文本-图像检索Luo等2023和文本到图像的生成Rombach等2022Frans等2022。然而CLIP的一个显著局限性是其处理大量文本描述的能力有限因为其文本编码器依赖于最大长度为77的位置嵌入。这一限制极大地限制了输入文本的长度现有研究Zhang等2024也揭示了一个实际有效的标记限制仅为大约20个。
此外原始CLIP训练过程对简短摘要文本的重视迫使文本/视觉编码器主要关注文本/视觉输入的主要特征往往忽略了较小但可能至关重要的细节。与图像相比视频中的这个问题尤为严重因为视频在连续帧中包含了大量细节以及活动顺序和流程、摄像机运动等附加信息。在此背景下采用原始CLIP训练方法的现有视频CLIP模型Xu等2021Luo等2022Wang等2023c可能难以准确捕捉复杂的关系和属性因为它们依赖于简单的“概念袋”方法Tang等2023b。为了克服这些限制增强模型理解长描述的能力至关重要。更长的文本提供了丰富的属性和相互关联的信息为提高模型在更复杂场景中的性能和适用性提供了途径。
为此我们提出了据我们所知的第一个具有长描述能力的视频CLIP模型VideoCLIP-XLeXtra Length超长。1具体而言鉴于包含视频长描述对的公共数据集的不足我们建立了一个自动数据收集系统旨在从多个数据源聚合足够且高质量的对。我们已经成功收集了超过200万个视频长描述对称为我们的VILD预训练数据集。2我们发现现有的针对长文本的CLIP模型Zhang等2024缺乏在高维特征空间内动态适应分布变化的灵活性。为了解决这个问题我们引入了文本相似性引导的主成分匹配TPCM方法这是一种使模型能够更好地学习跨模态和跨样本相对距离的新方法。3我们认为具有长描述理解能力的CLIP模型自然应具备两个属性对于给定的视频及其相关描述当描述包含i更丰富和精确的细节上下文或ii在相同细节水平下更少出现幻觉时它应该能够给出更高的评分。为此我们提出了两个新任务来建模这两个属性即细节感知描述排序DDR和幻觉感知描述排序HDR。它们使视频CLIP模型学会如何正确地对具有不同细节和幻觉水平的多个描述进行排序。4为了更好地评估视频CLIP模型我们还发布了一个长视频描述排序LVDR基准。给定每个视频和从Shot2StoryHan等2023中采样并经过人工校正的对应真实长描述我们在每一步中迭代地将一定比例的正确内容修改为幻觉。模型需要根据描述的忠实度正确地对这些描述进行排序。
为了评估VideoCLIP-XL的性能我们不仅在视频长描述数据集Shot2StoryHan等2023上进行了大量实验还在传统的广泛使用的MSR-VTTXu等2016、LSMDCRohrbach等2015、DiDeMoAnne Hendricks等2017、MSVDChen和Dolan2011和ActivityNetHeilbron等2015基准上进行了文本-视频检索任务的实验。此外我们还在我们提出的LVDR基准上评估了VideoCLIP-XL和其他代表性CLIP模型。实验结果表明我们的方法相比最先进的竞争对手表现出优越的性能。
我们的主要贡献如下
我们提出了VideoCLIP-XL模型以释放视频CLIP模型理解长描述的能力。我们还使用自动数据收集系统收集并发布了一个新的包含超过200万个视频长描述对的预训练数据集VILD。在VideoCLIP-XL中我们提出了TPCM方法以在扩展长描述能力的同时进行动态特征学习。我们还提出了两个新任务即DDR和HDR以进一步建模有效属性从而更好地学习长描述的表示。为了更好地评估视频CLIP模型的长描述能力我们提出了长描述排序LVDR基准。大量实验表明VideoCLIP-XL在各种任务和基准上明显优于最先进的模型。
2 相关工作
图像/视频CLIP模型。CLIPRadford等2021是一个基于对比学习的多模态模型。其训练数据包含大量的文本-图像对每个图像都与相应的文本描述配对。通过对比学习模型学习文本-图像对之间的匹配关系。由于其强大的零样本泛化能力CLIP已成功应用于包括检测Gu等2021Li等2022b、分割Xu等2022Li等2022a、图像/视频理解Luo等2022Xu等2021Tang等2023a、检索Wang等2023a,b和图像生成Ramesh等2022Frans等2022Crowson等2022Vinker等2022在内的众多场景。对于视频分析ViCLIPWang等2023c在其视频编码器内融入了时空注意力并在训练过程中采用了部分随机补丁掩码。然而随后的几项研究Kim等2023Zeng等2021指出CLIP在提取细粒度信息方面存在不足。这些工作实现了与CLIP类似的对比方法将完整的句子标记与整个图像的区域进行对齐。此外Long-CLIPZhang等2024提出使用CLIP特征的主成分匹配来提高模型对图像中长描述的理解能力。
视觉-语言数据集。随着多模态模型能力的提升需求已经超越了传统的固定类别图像数据集如ImageNetDeng等2009和CIFAR10Krizhevsky等2009。当代开放世界应用需要包含图像/视频及其相关文本描述的数据集。常见的开放世界图像-语言数据集包括Visual GenomeKrishna等2017、Conceptual-12MChangpinyo等2021、SBUOrdonez等2011、COCOLin等2014和LAION-5BSchuhmann等2022。典型的视频-语言数据集包括MSR-VTTXu等2016、MSVDChen和Dolan2011、LSMDCRohrbach等2015、WebVidBain等2021、InternVidWang等2023c和Panda-70MChen等2024。然而这些数据集通常只包含简短的描述。另一方面少数数据集专注于长描述。ShareGPT4VChen等2023是一个包含120万张带有长描述图像的大规模数据集。Shot2StoryHan等2023包含2万个视频片段每个片段都有详细的镜头级描述和全面的视频摘要。MiraDataJu等2024处理未剪辑的视频片段并带有结构化的长描述。它包含57,800个视频片段涵盖游戏和城市/风景探索两个场景。这些集合中的平均描述长度通常比以前的数据集Zhang等2024中的描述长度高出几个数量级。
3 方法论
在本节中我们介绍了我们的自动数据收集系统以及由此产生的视频与长描述VILD预训练数据集第3.1节、文本相似性引导的主成分匹配TPCM技术第3.2节、两个新的描述排序任务第3.3节以及新的长视频描述排序LVDR基准数据集第3.4节。
3.1 视频与长描述VILD数据集
训练CLIP模型通常需要大量的视觉-文本对。在图像处理领域开源大型多模态模型LMMs的出现以及GPT-4VAchiam等2023等API的可用性推动了使用详细长描述对图像进行标注的工作。例如ShareGPT4VChen等2023是一个大型数据集它源自一个高质量策划的10万个描述集合该集合是使用GPT-4V收集的并通过一个描述模型扩展到120万个。
然而具有大量长描述的视频数据集尤其是在开放领域仍然非常稀缺。例如Shot2StoryHan等2023提供了2万个视频片段每个片段都附有镜头级描述和视频摘要。在使用LMMs进行标注后进一步的手动校正确保了这些长描述的可靠性从而使其成为一个值得信赖的评估集并从我们的训练数据中排除。MiraDataJu等2024利用GPT4V为57,800个视频片段生成长描述这些视频片段仅限于游戏和城市/风景探索场景。Open-Sora-DatasetPKU-YuanGroup2024利用LMMs为40,200个视频生成描述性叙述主要是自然景观。
鉴于开放领域视频与长描述对的稀缺性我们设计了一个自动数据收集系统如图1所示。我们的方法利用了多种来源主要包括视频叙述数据、视频指令调整数据、原始视频和可用的视频与长描述对。 a视频叙述数据。视频叙述数据通常包含由人类标注者产生的与人类相关的描述可以描述整个场景、主要活动以及涉及多个角色和对象的事件。我们采用了VidLNVoigtlaender等2023数据集该数据集包含视频中每个主要人物/动物/目标的个体级描述以及背景的人类标注。为了使数据集符合我们的目的我们采用大型语言模型LLMs通过提示工程即描述聚合步骤将个体级叙述聚合成整体级描述。最后考虑到训练的有效性和鲁棒性我们进一步利用LLMs对整体级描述进行重写即描述重写步骤。此过程涉及生成具有相同意义的不同文本描述同时保持主要内容和详细属性不变。在附录A.1中展示了在两个步骤中使用的LLMs和提示的详细信息。 (b) 视频指令调优数据。随着大型语言模型LMMs的出现大量的视频指令调优数据集也已公开。例如VideoInstruct100KMaaz等2023包含与视频摘要、基于描述的问题回答以及创造性/生成性问题回答相关的问答对。VideoChatLi等2023b提供了一个丰富的数据集其中包含详尽的视频描述和对话通过融入视频指令中的时间和因果方面来增强数据的多样性。这些数据集最初是为了训练一种与类型无关的视频理解模型而制作的而不是为了整理视频描述。因此我们的方法包括使用大型语言模型LLMs进行数据过滤以排除与视频描述无关的样本。我们采用了提示工程并提供了一些示例演示以帮助LLMs取得更好的效果。最后还执行了描述重写步骤。所使用的LLMs和提示的详细信息见附录A.1。
© 可用视频与长描述数据。如前所述现有将视频与长文本描述配对的数据集通常在视频的数量或领域/类型上受到限制。在这方面我们对这些数据集执行了数据采样操作。具体而言VILD包含了MiraDataJu等2024中所有关于游戏和城市/风景探索场景的57.8K个视频片段。从Open-Sora-DatasetPKU-YuanGroup2024中随机抽取了50K条描述自然景观的长字幕。最后还涉及描述重写步骤。(d) 原始视频数据。为了进一步扩大训练数据的数量我们利用LMMs和LMMs这里可能是指利用不同类型的LMMs或重复提及以强调但原文表述略显重复故在此稍作调整以明确根据原始视频有些结合了相应的短字幕生成长描述。如果没有短字幕可用则需要使用现成的模型Li等2023aHuang等2023Zhang等2023Yu等2023执行一个可选的短视频描述生成步骤。为了提高计算效率我们随机抽取了超过200万个视频片段这些片段由Panda-70MChen等2024中的多个教师模型和微调后的字幕选择模型生成了高质量短字幕。然后我们从每个视频片段中等间隔地采样 k k k在我们的设置中 k 3 k3 k3帧作为关键帧并使用LMMs为它们添加长描述。我们没有为每一帧都这样做因为这将非常耗时且费力。接下来给定整个视频的短描述和其关键帧的长描述我们要求LLMs将它们整合成整个视频的长描述。短视频描述的辅助可以缓解帧描述中出现的幻觉。我们的发现也与现有研究Wang等2023c2024达成共识即直接使用视频LMMsLi等2023bMaaz等2023为长字幕描述视频可能会导致次优结果。所使用的LLMs/LMMs和提示的详细信息见附录A.1。
最后执行了后处理步骤。过滤掉了不适宜公开NSFW的示例。接下来我们使用ViCLIPWang等2023c和LongCLIPZhang等2024过滤掉平均视频-文本相似度小于0.20的低质量示例。我们最终收集了超过200万个视频与长描述数据对作为我们的VILD数据集用于模型预训练。数据统计信息的更详细比较见附录A.2。
3.2 文本相似性引导的主成分匹配TCPM
CLIP模型的原始预训练以视觉-文本对 ( v , t ) (v, t) (v,t)作为输入。 v v v可以是图像或视频。它对特定的单模态编码器架构没有假设。给定一个视觉编码器 E v E{v} Ev和一个文本编码器 E t E{t} Et首先提取单模态特征为 f v E v ( v ) f{v}E{v}(v) fvEv(v) f t E t ( t ) f{t}E{t}(t) ftEt(t)。然后通常采用InfoNCEOord等2018损失的对比学习来学习视觉和文本之间的对应关系。特别是这可以表示为 L C L ( f t , f v ) 1 2 N ∑ N L InfoNCE f t → f v L InfoNCE f v → f t \mathcal{L}{\mathrm{CL}}\left(f{t}, f{v}\right)\frac{1}{2 N} \sum{N} \mathcal{L}{\text {InfoNCE }}^{f{t} \rightarrow f{v}}\mathcal{L}{\text {InfoNCE }}^{f{v} \rightarrow f{t}} LCL(ft,fv)2N1N∑LInfoNCE ft→fvLInfoNCE fv→ft
其中 N N N是批量大小 L InfoNCE f t → f v − log exp ( sim ( f t , f v ) / τ ) ∑ f v ∈ { f v , f v − } exp ( sim ( f t , f v ) / τ ) \mathcal{L}{\text {InfoNCE }}^{f{t} \rightarrow f{v}}-\log \frac{\exp \left(\text{sim}\left(f{t}, f{v}^{}\right) / \tau\right)}{\sum{f{v} \in\left{f{v}^{}, f{v}^{-}\right}} \exp \left(\text{sim}\left(f{t}, f{v}\right) / \tau\right)} LInfoNCE ft→fv−log∑fv∈{fv,fv−}exp(sim(ft,fv)/τ)exp(sim(ft,fv)/τ)
反之亦然。这里 τ \tau τ是温度超参数 sim \text{sim} sim是余弦相似度计算 f v f{v}^{} fv是与文本特征 f t f{t} ft配对的正视觉特征 f v − f{v}^{-} fv−是由当前训练批次中其他未配对的图像/视频形成的负视觉特征。
为了扩展CLIP模型对长描述的理解能力Long-CLIPZhang等2024提出使用主成分匹配进行图像CLIP。给定短描述、长描述和视觉输入 s t , l t , v s_t, lt, v st,lt,v损失函数表示为 L L C L ( f l t , f v ) α 1 L C L ( f s t , f v ′ ) \mathcal{L}\mathcal{L}{\mathrm{CL}}\left(f{l t}, f{v}\right)\alpha{1} \mathcal{L}{\mathrm{CL}}\left(f{s t}, f{v}^{\prime}\right) LLCL(flt,fv)α1LCL(fst,fv′)
其中 α 1 \alpha{1} α1是比率超参数 f v ′ P C E ( f v , 32 ) f{v}^{\prime}\mathrm{PCE}\left(f_{v}, 32\right) fv′PCE(fv,32)。这里PCE是主成分提取的缩写由组件分解函数 F \mathcal{F} F将特征分解为不同属性及其重要性的向量、组件过滤函数 E \mathcal{E} E过滤掉不太重要的属性和组件重建函数 F − 1 \mathcal{F}^{-1} F−1重建特征组成。在实现 E \mathcal{E} E时Long-CLIP选择了最重要的32个属性作为保留的属性。
然而当将此技术扩展到视频预训练时我们发现由于视频通常比图像包含更丰富的内容和更多细节这种固定策略无法动态适应视频CLIP高维特征空间在学习期间发生的严重分布变化如图5所示。在这方面我们建议使用 l t l_t lt和 s t st st之间的余弦文本相似性作为信号来指导PCE过程如图2所示。因此我们将 f ^ v \hat{f}{v} f^v重新写为 f ^ v P C E ( f v , G ( sim ( f l t , f s t ) ) ) \hat{f}{v}\mathrm{PCE}\left(f{v}, \mathcal{G}\left(\text{sim}\left(f{l t}, f{s t}\right)\right)\right) f^vPCE(fv,G(sim(flt,fst)))
其中 G \mathcal{G} G表示我们按重要性降序保留属性直到 f ^ v \hat{f}{v} f^v和 f v f{v} fv之间的相似度达到 l t l_t lt和 s t st st之间的相似度为止。
3.3 两种描述排序任务
我们假定旨在理解长描述的视频CLIP模型应固有地表现出两种特性给定一个视频及其相关描述模型应为1具有更丰富和更精确上下文以及2在细节程度相当的情况下更准确且更少出现幻觉的描述分配更高的分数。为了实现这些原则我们引入了两个新任务细节感知描述排序DDR和幻觉感知描述排序HDR以解决相应的属性问题。我们的准备步骤包括使用句法分析工具如NLTKBird等人2009和spaCyHonnibal等人2020对长描述的真实标签执行词性标注和句法结构解析。
随后我们为每个视频合成多个描述候选以促进DDR和HDR训练。如图3(a)所示在每个步骤中我们选择性地将特定单词名词、数字、颜色或方向相关术语、动词替换为同一句法类别中语义不同的对应词例如将boys替换为girls将white替换为blue将throwing替换为lifting并进行 m − 1 m-1 m−1次这样的替换。此方法产生一系列逐渐出现幻觉的描述表示为 t H { t 1 H , t 2 H , … , t m H } \mathbf{t}^{\mathbf{H}}\left{t{1}^{H}, t{2}^{H}, \ldots, t{m}^{H}\right} tH{t1H,t2H,…,tmH}。类似地如图3(b)所示每个步骤都涉及从当前描述中随机删除子句、形容词、数字或依存解析子树。此过程递归地为每个视频生成 m − 1 m-1 m−1个顺序上逐渐不太详细的描述表示为 t D { t 1 D , t 2 D , … , t m D } \mathbf{t}^{\mathbf{D}}\left{t{1}^{D}, t{2}^{D}, \ldots, t{m}^{D}\right} tD{t1D,t2D,…,tmD}。
对于 t H \mathbf{t}^{\mathbf{H}} tH或 t D \mathbf{t}^{\mathrm{D}} tD给定相同的对应视频我们希望模型能为序列中较早出现的描述生成更高的相似度分数。例如对于DDR任务我们制定损失函数如下 L D D R 1 m ( m − 1 ) 2 ∑ i 1 m − 1 ∑ j i 1 m ReLU ( − ( Δ i , j D − α D ) ) \mathcal{L}{\mathrm{DDR}}\frac{1}{\frac{m(m-1)}{2}} \sum{i1}^{m-1} \sum{ji1}^{m} \operatorname{ReLU}\left(-\left(\Delta{i, j}^{D}-\alpha{D}\right)\right) LDDR2m(m−1)1i1∑m−1ji1∑mReLU(−(Δi,jD−αD))
其中 α D \alpha{D} αD是相似度差异间隙 Δ i , j D sim ( f t i D , f v ) − sim ( f t j D , f v ) \Delta{i, j}^{D}\operatorname{sim}\left(f{t{i}^{D}}, f{v}\right)-\operatorname{sim}\left(f{t{j}^{D}}, f{v}\right) Δi,jDsim(ftiD,fv)−sim(ftjD,fv)
此学习目标背后的直觉来自于模型能够区分具有最小区分度 α D \alpha{D} αD的各种描述的要求。类似地对于HDR我们有损失函数 L H D R 1 m ( m − 1 ) 2 ∑ i 1 m − 1 ∑ j i 1 m ReLU ( − ( Δ i , j H − α H ) ) \mathcal{L}{\mathrm{HDR}}\frac{1}{\frac{m(m-1)}{2}} \sum{i1}^{m-1} \sum{ji1}^{m} \operatorname{ReLU}\left(-\left(\Delta{i, j}^{H}-\alpha{H}\right)\right) LHDR2m(m−1)1i1∑m−1ji1∑mReLU(−(Δi,jH−αH))
我们预训练过程的总损失为 L L C L ( f l t , f v ) α 1 L C L ( f s t , f v ′ ) α 2 L D D R α 3 L H D R , \begin{aligned} \mathcal{L} \mathcal{L}{\mathrm{CL}}\left(f{l t}, f{v}\right)\alpha{1} \mathcal{L}{\mathrm{CL}}\left(f{s t}, f{v}^{\prime}\right) \ \alpha{2} \mathcal{L}{\mathrm{DDR}}\alpha{3} \mathcal{L}{\mathrm{HDR}}, \end{aligned} LLCL(flt,fv)α1LCL(fst,fv′)α2LDDRα3LHDR, 其中 α 2 \alpha{2} α2和 α 3 \alpha{3} α3是平衡超参数。
3.4 新的LVDR基准
幻觉在当代大型语言模型LLMs和大型多模态模型LMMs中无处不在Liu等人2024a。给定一个视频具有理解长文本能力的视频CLIP模型应自然具备在长描述中区分正确和错误文本的判断力。为了更好地评估这种能力我们提出了长视频描述排序LVDR基准。我们首先从Shot2StoryHan等人2023中随机抽取2K个视频和长描述对。然后我们执行与图3(a)类似的合成过程迭代 p − 1 p-1 p−1次并在每次迭代中更改 q q q个单词从而产生总共 p p p个幻觉程度逐渐增加的描述。我们将这样的子集表示为 p × q p \times q p×q并构建了五个子集作为 { 4 × 1 , 4 × 2 , 4 × 3 , 4 × 4 , 4 × 5 } {4 \times 1,4 \times 2,4 \times 3,4 \times 4,4 \times 5} {4×1,4×2,4×3,4×4,4×5}。每个不同的子集都经过人工审核以避免不恰当的替换。图4中提供了代表性示例。根据我们的分析一个更好的模型需要能够在给定视频的情况下正确地将这些描述按相似度降序排序。因此我们还设计了名为排序分数RS的评价标准其可以表示为 R S 100 m ( m − 1 ) 2 ∑ i 1 m − 1 ∑ j i 1 m 1 ( sim ( f t i , f v ) sim ( f t j , f v ) ) \mathrm{RS}\frac{100}{\frac{m(m-1)}{2}} \sum{i1}^{m-1} \sum{ji1}^{m} \mathbb{1}\left(\operatorname{sim}\left(f{t{i}}, f{v}\right)\operatorname{sim}\left(f{t{j}}, f{v}\right)\right) RS2m(m−1)100∑i1m−1∑ji1m1(sim(fti,fv)sim(ftj,fv))
其中 1 \mathbb{1} 1是指示函数。
4 实验
4.1 实现细节
我们采用CLIPRadford等2021的模型结构结合ViT-L/14并在视频编码器中使用时空注意力机制其权重初始化来自ViCLIPWang等2023c。我们进一步在我们的VILD数据集上对VideoCLIP-XL进行了2个周期的预训练。所有实验均在PyTorch中实现并在NVIDIA Tesla A100-80G GPU上运行。更多实验细节见附录A.3。
4.2 性能比较
我们将VideoCLIP-XL与三个不同下游任务中的强劲对手进行比较传统基准上的文本-视频检索、长描述基准上的文本-视频检索以及在我们LVDR基准上的描述排序。
传统基准上文本-视频检索的结果如表1和表2所示。我们可以发现无论是在零样本还是微调设置下VideoCLIP-XL在所有基准上均表现出优于其他视频CLIP模型的性能。例如VideoCLIP-XL在MSR-VTT数据集上的T2V/V2T零样本R1得分分别提高了7.7⁄8.6T2V/V2T微调R1得分分别提高了4.5⁄4.8。值得注意的是尽管我们的方法主要关注学习视频和文本中的细粒度特征但其有效的训练策略也能在所有基准上带来显著提升无论文本是否详细。
如表4所示在长描述设置下VideoCLIP-XL在Shot2Story上也显著超越了其他竞争对手。在Shot2Story中每个视频片段由多个在不同场景之间切换的视频镜头组成以表达同一主要事件。这要求模型能够从多个复杂场景中充分理解主要活动。实验结果表明无论是将整个视频片段Shot2Story-W还是每个镜头Shot2Story-S作为个体进行文本-视频检索任务我们的方法都表现出显著优势。
我们LVDR基准的结果如表3所示。VideoCLIP-XL与竞争对手相比具有更强的识别能力能够感知长视频描述中的不准确内容并为其分配较低的相似度分数。例如在 4 × 1 4 \times 1 4×1设置下相邻生成的描述之间只有1个原始单词被随机替换为错误单词我们的模型可以超越Long-CLIP专注于图像的长文本理解10.25的排名分数。我们还可以观察到随着单步幻觉的程度从浅到深从 4 × 1 4 \times 1 4×1到 4 × 5 4 \times 5 4×5视频CLIP模型能够更自然地区分不同的长视频描述。
4.3 消融研究
在本小节中我们旨在探索我们方法中每个组件的有效性。
如图1所示我们的VILD预训练数据集由来自不同数据源的四个部分的聚合而成。对于部分abc在基于LLM的步骤之前数据资源通常利用强大的GPT4 VAchiam等2023或人工来生成文本信息。而对于部分d我们使用开源LLM从原始视频中生成长描述。表5a中的结果展示了数据的有效性。虽然使用开源LLM进行自动化数据合成的效果自然会略逊于GPT-4V/人工但与现有竞争对手相比它仍然可以取得最先进的性能。此外在abc的基础上添加d可以进一步带来明显的改进。这也证明了我们的数据合成管道的有效性。
如表5b中#2与#1所示TPCM在传统文本-视频检索数据集上可以获得0.44 R1的提升在Shot2Story上可以获得0.56 R1的提升。此外它还可以在预训练期间动态修改特征空间分布这体现在PCA维度的增加上如图5所示。
DDR和HDR的有效性也可以在表5b中找到。比较#3与#2DDR在传统基准上获得了0.52 R1的提升在LVDR上获得了1.20 RS的提升。至于HDR比较#4与#2它在LVDR上获得了6.55 RS的提升。此外如表5b中#5与#2所示在MLDMA和LVDR上同时执行这两个任务比单独使用任何一个都更有效。
5 结论
在本文中我们提出了VideoCLIP-XL这是一种具有长描述能力的视频CLIP模型。我们建立了一个自动数据采集系统来收集我们的VILD数据集并提出了TPCM以在预训练期间更好地学习特征空间分布的同时扩展长描述能力。我们还引入了两个新任务即DDR和HDR以进一步提高理解能力。我们的LVDR基准有助于更全面地评估长描述能力。广泛的实验结果证明了我们的方法的有效性。
对于未来的研究我们计划改进预训练方法并增加数据量和模型规模以进一步提高性能。我们还将尝试将交叉编码器和LLM的结构集成到我们的方法中。
局限性 尽管VideoCLIP-XL经过训练以具备长描述理解能力但由于预训练数据的数量和单模态编码器的特征提取能力的限制仍有改进空间。数据的规模、质量和多样性可以进一步扩展特征提取器的模型结构和规模也可以扩大。将我们的方法应用于交叉编码器和LLM的结构也值得探索。这些改进留待我们后续工作完成。
伦理考虑 本文提出的训练VideoCLIP-XL模型的技术完全是方法论的因此我们的方法没有直接的负面社会影响。此外我们已从预训练数据中过滤掉了NSFW不适合在工作场合观看的示例以确保所看到的内容适合公开分发。
致谢 本研究部分得到了国家自然科学基金项目号62441604、62476093的支持。此外本研究还得到了阿里云计算的支持通过华南理工大学的科研人才计划。
A 附录
A.1 VILD数据生成的细节
在VILD数据生成过程中我们在基于LLM的步骤中使用了Qwen1.5-72B-ChatBai等人2023在基于LMM的步骤中使用了LLaVA-v1.6-34BLiu等人2024b。我们使用的所有提示如下 [描述聚合] “以下是视频中主题或背景的描述。请将它们组织成一个对整个视频的单一描述。不要遗漏任何内容也不要添加任何未包含或不确定的新内容。 {示例} 描述{个体层面的描述} 输出” [描述重写] “以下是一个视频描述。请输出一个重写版本。不要遗漏任何内容也不要添加任何未包含或不确定的新内容。 {示例} 描述{输入描述} 输出” [数据过滤] “判断以下对话是否在讨论视频的整体/综合层面的描述/内容。如果是输出Yes否则输出No。 示例 对话{输入对话} 输出” [长帧描述生成] “准确描述这张图片。” [长视频描述生成] “我们将提供一个视频的描述和一些帧描述。直接根据它们输出一个丰富的视频描述。删除重复内容。不要描述任何不确定或未包含的内容。不要描述单个帧。不要描述具体主题使用通用词汇代替。 {示例} 视频描述{短视频描述} 帧描述{长帧描述} 输出”
A.2 数据统计详情
数据统计信息的更详细比较如表6所示。
A.3 实验设置详情
在预训练期间我们为每个视频采样8帧。我们还根据Zhang等人2024将原始绝对位置嵌入从77拉伸到248。在预训练时我们设置批量大小为1664预热步数为200权重衰减为0.02最大学习率为 4 e − 6 4 \mathrm{e}-6 4e−6。学习率在预热后按余弦计划降低。 α 1 \alpha{1} α1、 α 2 \alpha{2} α2、 α 3 \alpha{3} α3、 α D \alpha{D} αD和 α H \alpha{H} αH分别经验性地设置为0.1、1.0、10.0、0.0和0.0。在DDR和HDR任务中 m m m设置为5。
在预训练期间如等式8所示我们使用长描述来使VideoCLIP-XL学习长文本的语义并使用短描述来维持其原有的短文本能力。对于我们的VILD数据集中没有来自原始资源的配对短描述的视频我们使用Qwen1.5-72B-Chat根据长描述生成它们。我们使用的提示是 “以下是一个详细的视频描述。请提取其核心内容并将其总结成一个非常短的句子。不要超过10个词。 {示例} 描述{长视频描述}
输出” 对于在传统基准上的文本-视频检索微调设置我们使用普通的文本-视频对比学习损失在每个评估基准的训练集上微调我们的预训练VideoCLIP-XL。在训练和测试期间我们采样12帧。详细的超参数与ViCLIPWang等人2023c相同。而在零样本设置下以及Shot2Story和LVDR的评估中我们只采样8帧。
对于Long-CLIP等图像CLIP模型我们计算帧的平均图像特征和文本特征之间的相似性。
A.4 与更多模型的性能比较
如表7所示我们引入了更多最近强大且大型交叉编码器模型Li等人2023cWang等人2024进行全面比较。交叉编码器模型特别是大型多模态模型LMM通常会添加额外的Transformer层来建模视觉和文本表示之间的深层交互。该模型通常可以提高检索性能但当应用于整个图像/视频集合时由于每次给出新的文本查询时都需要为每个图像/视频样本计算跨模态成本因此检索速度会变得难以忍受地慢。相比之下具有双编码器结构的VideoCLIP-XL的参数和检索时间成本明显更少。双编码器以完全解耦的方式对视觉和文本输入进行编码。视觉表示可以独立于文本查询进行预计算和重用。这些方法可以在运行时利用快速近似最近邻ANN搜索Muja和Lowe2009Jegou等人2010Johnson等人2019来确保高效率。例如VideoCLIP-XL在零样本文本-视频检索上通常超越UMT-LLi等人2023c并且在MSR-VTT上的检索速度比UMT-L快 ∼ 4.14 × \sim 4.14 \times ∼4.14×无需任何额外修饰这也表明了我们预训练阶段的有效性。它还比InternVideo 2s2-1B快 ∼ 8.69 × \sim 8.69 \times ∼8.69×。对于微调大型交叉编码器模型由于跨模态特征交互而自然超越双编码器模型。然而这些模型仍然受到推理速度慢的问题的困扰因此很难部署在实时应用中。
A.5 更多定性结果
我们在图6中给出了通过图1(d)获得的一些合成长视频描述示例。在Shot2Story基准上的文本到视频检索结果的定性示例如图7所示。我们可以发现与竞争对手相比我们的VideoCLIP-XL可以实现更准确和匹配的视频检索结果。
- 上一篇: 怎么查看网站是哪个公司做的网站建设:化工
- 下一篇: 怎么查看一个网站是用什么程序做的佛山网站制作平台
相关文章
-
怎么查看网站是哪个公司做的网站建设:化工
怎么查看网站是哪个公司做的网站建设:化工
- 技术栈
- 2026年04月20日
-
怎么查看网站使用空间google年度关键词
怎么查看网站使用空间google年度关键词
- 技术栈
- 2026年04月20日
-
怎么查看网站开发人广告公司好做吗
怎么查看网站开发人广告公司好做吗
- 技术栈
- 2026年04月20日
-
怎么查看一个网站是用什么程序做的佛山网站制作平台
怎么查看一个网站是用什么程序做的佛山网站制作平台
- 技术栈
- 2026年04月20日
-
怎么查那家网络公司做的所以网站十堰做网站最专业的公司
怎么查那家网络公司做的所以网站十堰做网站最专业的公司
- 技术栈
- 2026年04月20日
-
怎么查网站建设时间北京最新进出京政策(今天)
怎么查网站建设时间北京最新进出京政策(今天)
- 技术栈
- 2026年04月20日
