首页 - 技术栈

网站免费建站番禺保安公司

作者: 五速梦信息网
时间: 2026年06月19日 07:36

当前位置：首页 > news >正文

网站免费建站,番禺保安公司,做母婴网站赚钱,枫叶建站博客贡献人徐宁作者 Minghao Liu , Shengqi Ren , Siyuan Ma , Jiahui Jiao , Yizhou Chen , Zhiguang Wang(Facebook AI) and Wei Song∗ 标签多元时间序列分类#xff0c;Transformer#xff0c;门控摘要用于时间序列分类的深度学习模型#xff08;主要是卷积网…博客贡献人徐宁作者 Minghao Liu , Shengqi Ren , Siyuan Ma , Jiahui Jiao , Yizhou Chen , Zhiguang Wang(Facebook AI) and Wei Song∗ 标签多元时间序列分类Transformer门控摘要用于时间序列分类的深度学习模型主要是卷积网络和 LSTM已被社区广泛研究并在医疗保健、金融、工业工程和物联网等不同领域得到广泛应用。与此同时Transformer Networks 最近在各种自然语言处理和计算机视觉任务上取得了前沿性能。在这项工作中我们探索了当前带有门控的Transformer Networks的简单扩展称为门控Transformer网络GTN用于解决多元时间序列分类问题。通过合并两座 Transformer 塔分别对通道相关性和时间步相关性进行建模的门控我们展示了 GTN 如何自然而有效地适用于多元时间序列分类任务。我们对十三个数据集进行了全面的实验并进行了充分的消融研究。我们的结果表明GTN 能够取得与当前最先进的深度学习模型相媲美的结果。我们还探讨了 GTN 在时间序列建模上的自然解释性的注意力图。我们的初步结果为 Transformer Networks 的多元时间序列分类任务提供了强有力的基线并为未来的研究奠定了基础。当前研究存在的问题传统基于距离的方法早期方法如欧几里得距离动态时间规整DTW依赖预定义的相似度度量但在处理多变量时间序列时存在可扩展性和性能问题。卷积网络和LSTM 将Transformer网络应用于时间序列数据的研究尚处于早期阶段现有研究主要集中于特定任务如预测或单变量分类未形成Transformer对多元时间序列分类的综合研究。 Transformer的早期研究将Transformer网络应用于时间序列数据的研究尚处于早期阶段现有研究主要集中于特定任务如预测或单变量分类未形成Transformer对多元时间序列分类的综合研究。本篇文章贡献探索了当前 Transformer 网络的门控扩展称为门控 Transformer 网络用于解决多元时间序列分类问题。通过利用 Transformer 与自注意力机制并行处理数据的优势来对序列中的依赖关系进行建模我们证明了合并 Transformer 网络的两座塔的门控非常有效这些塔对通道和逐步相关性进行建模用于时间序列分类任务在 13 个多元时间序列基准数据集上评估了 GTN并通过综合消融研究与其他最先进的深度学习模型进行了比较。实验表明 GTN 实现了具有竞争力的性能。通过可视化定性研究了模型学习到的特征以证明 GTN 特征提取的质量初步探索了 GTN 注意力图在时间序列建模上的可解释性以研究自注意力如何帮助通道和逐步特征提取。方法区别于原生Transformer在单词上堆叠编码器和解码器以及用于序列生成和预测任务的位置嵌入本文方法在原生Transformer的基础上添加Embedding、两塔和门控三个扩展部件以满足多元时间序列分类的需求方法框架如图一所示。图1. 门控Tranformer网络的模型架构。 Embedding扩展原生Transformer中Embedding方法在原始的Transformer例如用于自然语言处理任务时输入是一个离散的单词序列。每个token会先通过嵌入层转化为一个固定维度的向量表示即token embedding。Transformer对这些离散的嵌入向量进行处理以捕捉序列中每个元素之间的相关性。此外Transformer还使用位置编码来引入序列的位置信息因为自注意力机制没有内置的顺序感知能力。通过加上位置编码模型能够识别每个元素在序列中的相对位置时间序列中的Embedding方法这里最大的不同就在于时间序列数据是连续的并且由于时间序列本身已经是数值型数据并且每个时间步对应的特征值或通道是多变量的因此不像自然语言那样需要通过单词嵌入来获得向量表示。所以本文的对Embedding层的构造进行了改进。 (1) 全连接层代替嵌入层原始Transformer使用嵌入层来将离散的输入例如单词ID转换成嵌入向量。在时间序列中数据已经是数值型的所以不需要像处理离散数据那样进行词嵌入。解决方案作者选择使用全连接层代替嵌入层。全连接层能够处理输入的连续值并将其投影到一个新的特征空间。这个过程相当于对原始的时间序列数据进行特征转换使得输入序列能够适应后续的自注意力机制。 (2) 非线性激活函数为了增强模型的表达能力作者在全连接层之后引入了一个非线性激活函数tanh。这种非线性转换使得嵌入后的数据更具表达力能够捕捉到更复杂的模式和关系。 (3) 位置编码自注意力机制本身无法捕捉序列元素的相对顺序因此在时间序列中仍然需要引入位置信息。这里作者借鉴了原始Transformer的做法将位置编码添加到嵌入后的时间序列数据上。位置编码允许模型捕捉时间步的顺序信息使模型能够感知时间维度的顺序依赖性。双塔Transformer 多元时间序列具有多个通道每个通道都是一个单变量时间序列。常见的假设是在当前或变形的时间步下不同通道之间存在隐藏的相关性。捕捉时间步时序和通道空间信息是多变量时间序列研究的关键。以往常见的方式是利用卷积通过二维或一维卷积核固定参数共享来同时整合时间步和通道的信息但这种方法存在一定缺陷固定的局部感受野卷积核只能处理相邻的时间步或通道之间的关系对于长时间序列或较复杂的跨通道依赖无法全面捕捉。参数共享的限制不同的时间步和通道可能有不同的依赖模式但卷积核在整个序列中应用相同的参数来减少计算复杂度无法灵活处理复杂的模式变化。空间和时序信息的分离不够明确卷积会同时捕捉空间和时序信息无法精细化地分别处理这两类信息可能导致在某些情况下的表现不佳尤其是在空间和时序相关性显著不同的任务中。所以本文采用双塔Transformer的架构每个塔的编码器通过注意力机制和掩码显式捕捉时间步和通道之间的相关性分别且灵活地处理时序和通道依赖不仅提高了对长距离依赖的捕捉能力还能根据任务需求更好地适应不同时间步和通道间的变化弥补了卷积方法的局限性。时间步编码器时间步编码器主要目的是捕捉时间序列中不同时间步之间的相关性。所以和原生Transformer一样会计算每个时间步与其他所有时间步之间的注意力权重。但由于在多元时间序列中每个时间步都对应多个通道所以时间步编码器的自注意力机制会跨所有通道计算不同时间步之间的成对注意力权重这意味着模型考虑了整个时间序列中每个时间步的整体信息所有通道的综合数据来决定哪些时间步对当前时间步最重要。同时时间步编码器中为了防止模型在当前时间步预测时利用未来的时间步信息在自注意力机制中使用了掩码将蔚来的时间屏蔽掉避免信息泄露。通道编码器通道编码器Channel-wise Encoder的主要目的是捕捉不同通道变量之间的依赖关系。通道编码器与时间步编码器的区别在于通道顺序是无序的即通道顺序是可以任意排列的所以并不需要像时间步编码器那样使用位置编码。其次对于掩码的使用通道编码器并没有时间步编码器那么严格通道编码器的掩码主要用于确保某些特定情况下的数据被屏蔽例如缺失通道或无效的通道。门控本文的门控模块被设计用来融合来自两个编码器的特征输出确保模型能够根据每个编码器的重要性动态调整特征的组合。保证模型能根据任务的需要灵活地调整各个特征的权重从而在多变量时间序列分类任务中实现更高的性能。这种机制增强了模型的表达能力提高了模型的适应性和预测能力。特征提取首先对两个编码器的输出分别添加一个全连接层再使用非线性激活函数将两个输出表示为C和S。特征拼接将两个编码器的输出特征 C和S 进行线性拼接形成一个新的特征向量h。 h W ⋅ C o n c a t ( C , S ) b hW \cdot Concat(C,S)b hW⋅Concat(C,S)b计算门控权重对拼接后的特征向量h应用softmax函数以计算门控权重g1和g2: g 1 , g 2 S o f t m a x ( h ) g_1,g_2 Softmax(h) g1,g2Softmax(h)加权输出将每个编码器的输出特征与对应的门控权重相乘然后进行拼接得到最终的特征向量 y。 y C o n c a t ( C ⋅ g 1 , S ⋅ g 2 ) yConcat(C\cdot g_1,S\cdot g_2) yConcat(C⋅g1,S⋅g2) 实验数据集本文使用了13个多元时间序列数据集默认情况下所有数据集都被分为训练和测试并且这些时间序列没有进行预处理。 Baseline 本文共选取了9个模型作为Baseline其中全卷积网络FCN和残差网络ResNet。据报道这些是多元时间序列分类任务中最好的深度学习模型之一。实验结果在多数据集下与多个方法的横向对比结果如表1所示。门控Transformer网络GTN与全卷积网络FCN和残差网络ResNet表现出相当的结果。需要注意的是这三种模型的结果之间没有统计显著差异但在NetFlow和KickvsPunch数据集上GTN表现出更优的性能。GTN的一个缺点是相对容易出现过拟合。与FCN和ResNet不同后者未使用dropout而GTN结合了dropout和层归一化以降低过拟合的风险。消融实验为了说明GTN中各个模块带来的性能提升分别单独对两个塔掩码门控进行了消融实验掩码效果掩码机制确保模型的预测仅依赖于已知的前置输出对语言模型和时间序列数据都有益。使用掩码的塔式Transformer整体性能优于不使用掩码的模型。通道与时间步编码通道编码的Transformer在大多数数据集上优于时间步编码的Transformer证明了多变量时间序列中不同通道间相关性的重要性。数据集特性不同时间序列数据对通道信息和时间步信息的依赖程度不同例如在PEMS数据集中时间步模型表现更好而在CMUsubject16数据集中通道模型表现更好。特征拼接的局限性简单拼接两个塔的特征有时会导致性能下降无法发挥各自优势。门控权重的优势通过引入门控权重模型能够动态学习在何时依赖特定塔从而提升整体性能。
注意力图的可视化注意力矩阵分别表示通道和时间步之间的相关性。本文选择了一个来自JapaneseVowels数据集的样本来可视化这两种注意力图。对于通道注意力图上两张我们计算了不同通道时间序列之间的动态时间规整DTW距离。对于每个时间步下两张我们还简单计算了不同通道之间的欧几里得距离因为在同一时间步上没有时间轴因此不需要DTW。可视化结果如图2所示。注意力得分指示了不同令牌之间的语义相关性时间序列中学习到的通道注意力同样显示出共同激活的相似序列从而使学习更倾向于最终的标签。需要注意的是较小的DTW距离并不意味着两个序列相似。如通道注意力图所示块c表示c3和c11之间的DTW距离非常小但实际上c11和c3的趋势和形状差异很大。初步分析表明通道注意力也倾向于抓住那些在DTW中没有明显区分因素的相似序列。相关知识链接 PST论文原文开源代码总结 [亮点] 提出双塔结构独立的提取时间步和通道上的相关性克服了传统卷积方法的局限。提出在transformer中加入门控机制可以动态调整时间步和通道编码器的输出权重增强了模型对不同特征的适应能力提高了多变量时间序列分类的性能。提供了通道和时间步注意力图的可视化分析增强了模型的可解释性帮助理解不同特征的贡献。 [局限] 文章的对方法的描述不够完整缺乏细节。双塔门控这种架构会导致较高的复杂度训练成本较高。因为模型比较复杂包含参数过多模型容易出现过拟合问题。 [启发] 通过门控机制来处理多来源特征并且可以通过动态调整权重来增强模型的适应性。可以采用不同的编码器将不同的数据类型的数据整合到同一个模型中。 Bib Tex article{liu2021gated,title{Gated transformer networks for multivariate time series classification},author{Liu, Minghao and Ren, Shengqi and Ma, Siyuan and Jiao, Jiahui and Chen, Yizhou and Wang, Zhiguang and Song, Wei},journal{arXiv preprint arXiv:2103.14438},year{2021} }