NIC Lab | 基于通道独立策略的多变量时序预测方法研究

研究意义

时间序列是一种按照时间先后顺序排列的数据点序列，其包含了丰富的信息，反映了特定事物的发展趋势、周期性变化和随时间演变的规律性。时间序列分析的目的在于通过对这些数据进行深入挖掘和建模，从而揭示其中的潜在规律和趋势，为人们提供对事物发展的深入理解和准确预测。

时间序列的特征在很大程度上反映了其随时间推移的变化规律。随着观测周期的延长，时间序列往往呈现出一定的周期性和趋势性。这些特征对于揭示序列的动态演化过程具有重要意义，并为我们提供了深入了解序列行为的窗口。这些特征的存在使得时间序列分析更加丰富和复杂。通过深入研究和分析这些特征，我们可以更好地理解时间序列的本质和演变规律。在现实场景中，往往存在多个需要同时进行分析和建模的变量。在这种情况下，除了单个时间序列的特征之外，还需要考虑变量之间的相关性以及变量的异质性。这些因素的综合影响会对多变量时间序列的规律性产生重要影响。因此，在进行多变量时间序列分析时，我们需要综合考虑多个变量之间的相互作用，并采用适当的模型和方法来挖掘和利用这些规律性。

时间序列分析中的多变量时序预测任务是其中至关重要的一环，它旨在通过对历史数据的分析和模型构建，预测不同变量的未来时间点的数值或趋势变化。时序预测的重要性在于其能够为人们提供对未来发展趋势的了解和预见，从而指导决策和行动。首先，时序预测的结果可为人们提供提前准备的机会，帮助其制定相应的应对策略。通过准确预测未来的趋势或数值变化，人们可以及时采取措施来最小化风险或者最大化利益，以应对可能出现的不确定性和风险。其次，时序预测结果的合理应用可以有效地指导资源的分配和部署。通过了解未来的发展趋势，人们可以在资源分配和规划方面作出更加明智和有效的决策，从而实现资源的最优利用和配置。最后，时序预测也有助于提高工作效率并节约成本。通过合理地预测未来的变化，人们可以更加有效地组织和安排工作流程，减少不必要的浪费和资源投入，从而提高工作效率并降低相关成本。因此，时序预测在时间序列分析中扮演着至关重要的角色，其意义不仅在于提供对未来的预见，还在于指导决策、优化资源配置和提高效率等。

多变量时序预测任务在实际生活中存在着广泛的应用场景：交通管理中心可以通过预测各个路口的交通流来提前疏散未来可能拥堵的路口，从而减少交通事故的发生；电力生产公司可以通过预测用户的每月用电量来制定电力生产计划，从而减少电力的浪费；疾控中心可以通过预测疾病的传播速度和感染的人数来提前做好疾病防护工作以及医疗保障工作；医院可以通过预测病人的生命特征（心率、血压等）来判断病人未来的身体状况。尤其是对手术过后的病人来说，实时预测接下来一段时间内的生命特征尤为重要。因为这不仅能够提前帮助医生制定治疗策略，更重要的是能够预防病人因病情突然恶化但没有得到及时治疗而死亡。

国内外研究现状

传统的预测技术，如自回归[1]和自回归综合移动平均[2]，主要用于涉及到单变量数据的简单预测任务，缺乏有效处理复杂多变量数据的能力。由于深度学习的发展和计算机算力的提高，大量基于深度学习的模型被用于各种时间序列预测任务。早期的模型通过RNN的内部记忆单元，来记住不同时间步长之间的依赖关系。然而，由于梯度消失或爆炸的问题，基于RNN的模型无法记住长序列的时间依赖关系。为了解决这个问题，门控循环单元（GRU）和长短期记忆（LSTM）等变体被提出。这些变体通过添加门控单元来增强模型处理长序列输入的能力，让模型选择性地记忆和忘记信息。随着卷积神经网络（CNN）的出现，许多研究人员尝试将其应用于提取序列的时间依赖关系和变量之间的局部相关性。例如，TCN[3]引入了一种新的基于CNN的卷积结构，增强了传统卷积的感受野，从而能够更好地捕捉序列的长期依赖性。

由于Transformer中的自注意力机制可以很好地学习序列全局信息，因此目前许多主流的预测模型都是基于Transformer衍生而来的：Informer[4]提出了 ProbSparse 自注意力机制和自注意力蒸馏方法，以此来提取最重要的键值（keys）并减少计算量；CLformer[5]利用膨胀卷积网络来提取时序模式，并提出了一种局部群自相关机制来捕获多尺度的时序依赖关系；FEDformer[6]通过seasonal-trend分解方法来减小输入和输出之间的分布差异，并在频域中应用注意力机制来增加对噪声的鲁棒性。然而，这些方法采用的都是通道混合的数据处理方式：将每个时刻包含的多变量信息当作一个token并映射到高维空间。这种策略会使得变量间的信息耦合，影响模型的训练效果和预测精度。虽然PatchTST[7]提出让每个变量分别输入到Encoder中共享backbone参数，但是它却忽视了变量间的信息交互，未能充分利用其它变量的有用信息。PCDformer[8]和iTransformer[9]重新审视了多变量数据的输入形式，通过将输入序列进行转置操作，提出了另一种形式的通道独立策略，既达到了多变量解耦的目的又能够兼顾变量间的信息交互，从而有效提升了模型的预测性能。

然而Transformer的自注意力机制会使得这些模型存在二次方计算复杂度的问题，为了能够在减少计算开销的基础上还能够保持强健的长期时序依赖性的提取能力，状态空间模型（State Space Models，SSM）被提出[10]。Mamba[11]在此基础上引入了选择性机制，通过参数化模型的输入使得其在推理的时候能够根据输入的不同而选择性的关注或忽略。TimeMachine[12]是第一个在多变量时序预测任务中纯粹利用SSM 模块去捕捉序列长期依赖性的模型，并联合使用通道混合以及通道独立的策略。由于Mamba的单向特性，使得Mamba在MTSF任务中无法像自注意力机制一样关注到全局变量之间的关系，为了解决该问题，S-Mamba[13]构建了基于双向Mamba的预测模型。FMamba[14]将fast-attention机制和Mamba成功地结合起来，使得FMamba的预测性能在多数任务中都取得了提升，并且模型整体的计算复杂度是线性的。

除了上述从模型角度出发考虑问题以外，我们还需要结合实际场景发现问题。例如，不同的实际场景中变量间的特征表现各不相同，这不仅表现在变量的时间特征和变量间的相关性特征上，还体现在变量间的异质性特征上。目前大多数研究主要关注于时间特征和相关性特征的学习，尽管已有一些基于异质性的研究，但它们未能捕捉到不同变量固有的、多样化的异质性特征，仅仅识别了时空特征之间存在的异质性。例如，MTHetGNN[15]作为首个提出基于异质性图网络框架的多变量时间序列预测方法，虽然使用了异质性图嵌入模块来整合时空特征，但并未从根本上学习每个变量的异质性差异。因此，设计一种基于数据驱动的、能够自适应辨别和学习输入序列中不同变量异质性特征的方法，对于增强多变量时序预测模型的普适性至关重要。

除此以外，在实际的数据采集过程中，往往会出现机器故障、人为操作失误等意外情况。这些情况都会导致收集到的数据存在缺失值，进而影响模型学习到完整且准确的时间特征。针对这种情况，目前常用的策略是通过数据插补的方式填充缺失值，保障输入数据的完整性。文献[16]提出了一种基于双向和单向LSTM网络架构（SBULSTM）的交通状态预测模型，结合数据插补机制（LSTM-I）处理时空数据中的缺失值。文献[17]评估并比较了多种插补方法在时间序列预测中的缺失值估算效果，实验结果表明，k近邻插补方法在重建缺失数据并提升预测准确度方面最为有效。然而，采取插补策略的弊端在于插补误差会引入噪声，干扰模型的训练。因此，如何规避这种误差带来的影响是值得深入探索的问题。

综上所述，在通道独立策略的基础上，进一步研究预测模型的轻量化问题、预测模型的普适性问题以及数据缺失情况下的模型构建问题是本研究方向的主要目标。

参考文献

[1]S. Ma, Y.-B. Zhao, Y. Kang, and P. Bai, “Multivariate Time Series Modeling and Forecasting with Parallelized Convolution and Decomposed Sparse-Transformer,” IEEE Transactions on Artificial Intelligence, 2024.
[2]M. A. Ahamed and Q. Cheng, “Timemachine: A time series is worth 4 mambas for long-term forecasting,” arXiv preprint arXiv:2403.09898, 2024.
[3]Z. Wang et al., “Is Mamba effective for time series forecasting?,” Neurocomputing, p. 129178, 2024.
[4]S. Ma, Y. Kang, P. Bai, and Y.-B. Zhao, “FMamba: Mamba based on fast-attention for multivariate time-series forecasting,” arXiv preprint arXiv:2407.14814, 2024.
[5]X. Wang, H. Liu, J. Du, Z. Yang, and X. Dong, “CLformer: Locally grouped auto-correlation and convolutional transformer for long-term multivariate time series forecasting,” Engineering Applications of Artificial Intelligence, vol. 121, p. 106042, 2023.
[6]Y. Liu et al., “iTransformer: Inverted transformers are effective for time series forecasting,” arXiv preprint arXiv:2310.06625, 2023.
[7]A. Gu and T. Dao, “Mamba: Linear-time sequence modeling with selective state spaces,” arXiv preprint arXiv:2312.00752, 2023.
[8]L. Laurenti, E. Tinti, F. Galasso, L. Franco, and C. Marone, “Deep learning for laboratory earthquake prediction and autoregressive forecasting of fault zone stress,” Earth and Planetary Science Letters, vol. 598, p. 117825, 2022.
[9]H. Ahn, K. Sun, K. P. Kim, and others, “Comparison of missing data imputation methods in time series forecasting,” Computers, Materials & Continua, vol. 70, no. 1, pp. 767–779, 2022.
[10]Y. Wang, Z. Duan, Y. Huang, H. Xu, J. Feng, and A. Ren, “MTHetGNN: A heterogeneous graph embedding framework for multivariate time series forecasting,” Pattern Recognition Letters, vol. 153, pp. 151–158, 2022.
[11]T. Zhou, Z. Ma, Q. Wen, X. Wang, L. Sun, and R. Jin, “FEDformer: Frequency enhanced decomposed transformer for long-term series forecasting,” in International conference on machine learning, 2022, pp. 27268–27286.
[12]Y. Nie, N. H. Nguyen, P. Sinthong, and J. Kalagnanam, “A time series is worth 64 words: Long-term forecasting with transformers,” arXiv preprint arXiv:2211.14730, 2022.
[13]C. J. Lynch and R. Gore, “Application of one-, three-, and seven-day forecasts during early onset on the COVID-19 epidemic dataset using moving average, autoregressive, autoregressive moving average, autoregressive integrated moving average, and naı̈ve forecasting methods,” Data in Brief, vol. 35, p. 106759, 2021.
[14]H. Zhou et al., “Informer: Beyond efficient transformer for long sequence time-series forecasting,” in Proceedings of the AAAI conference on artificial intelligence, 2021, vol. 35, no. 12, pp. 11106–11115.
[15]A. Gu, K. Goel, and C. Ré, “Efficiently modeling long sequences with structured state spaces,” arXiv preprint arXiv:2111.00396, 2021.
[16]Z. Cui, R. Ke, Z. Pu, and Y. Wang, “Stacked bidirectional and unidirectional LSTM recurrent neural network for forecasting network-wide traffic state with missing values,” Transportation Research Part C: Emerging Technologies, vol. 118, p. 102674, 2020.
[17]S. Bai, J. Z. Kolter, and V. Koltun, “An empirical evaluation of generic convolutional and recurrent networks for sequence modeling,” arXiv preprint arXiv:1803.01271, 2018.