基于时空相关性加权LSTM的短期交通速度预测

2024-02-07 05:01:57 阅读 0

作者信息

刘一石 1, 关雪峰 1,2, 吴华义 1,2, 曹军 1, 张娜 1

（1. 武汉大学测绘遥感信息工程国家重点实验室，湖北武汉；2. 地理空间信息技术协同创新中心，湖北武汉）

”

[摘要] 提出一种基于时空相关性加权的长短期记忆网络（Long Short-Term，LSTM）的短期交通速度预测模型。该模型结合综合动态时间规整（Time，SDTW）和拓扑邻接关系，设计了路段速度序列之间时空相关程度的测量方法，然后根据这种测量对路段速度的历史观测值进行加权值，然后利用LSTM从加权观测序列中提取路段速度的时空变化特征，实现短期交通速度预测。实验表明，交通速度预测模型的预测结果较传统的ARIMA模型、SVR模型和LSTM模型有所改进，实现了更高精度的速度预测。

【关键词】交通速度预测；时空相关性；动态时间扭曲；深度学习；长短期记忆网络

【中文图书馆分类号】TP311.12 【文献识别码】A 【文章编号】1672-1586（2020）01-0041-07

”

引用格式：刘一石，关雪峰，吴华义，等。基于时空相关权重的LSTM短期交通速度预测[J]. 地理信息世界, 2020, 27(1): 41-47.

文本

0 前言

为了解决道路拥堵、事故频发等交通问题，随着车载GPS的普及和交通传感器精度的提高，交通速度（指路段上车辆的行驶速度）作为核心要素反映道路交通状况的信息逐渐成为当前交通预测的重点。内容之一。由于车辆交通速度随时间和路段的变化而波动，如何准确挖掘交通速度在时间和空间上的特征成为交通速度预测的关键。

传统的数据驱动的交通预测方法主要分为两类：基于统计分析的预测方法和通用机器学习方法。统计分析的预测方法，如卡尔曼滤波器（KF）、自回归移动平均法（Auto-、ARIMA）等，更多地依赖于先验知识，不能很好地挖掘交通数据本身的信息；一般的机器学习方法如k近邻回归（k-NN）和支持向量回归（SVR）虽然增强了信息挖掘能力，但结构层次单一，缺乏深层特征提取能力。由于深度学习方法能够获取深度特征，许多深度学习模型开始应用于交通速度预测。例如，文献[7]提出了一种结合时间序列模型和人工神经网络（Time-，TS-ANN）的方法，分别对实时速度数据和历史速度数据进行建模和预测；文献[8]基于路段平均速度的时空分布特征，设计了基于堆叠自编码器（Auto-，SAE）的短期平均速度预测模型；文献[9]结合限制玻尔兹曼机（RBM）和循环神经网络（RNN）对宁波出租车数据进行预测；参考文献[10]构造了道路的速度-时间矩阵，将其转换为图像并输入到卷积神经网络（CNN）中进行特征学习；参考文献[11]利用微波探测器数据来构建长短期记忆神经网络（Long Short-Term，LSTM-NN）来学习交通速度序列的长期依赖特性；为了及时获得交通数据的反向依赖特性，文献[12]采用了双向LSTM（Bi-LSTM），实现了大规模高速公路上的交通速度预测；文献[13]将路网速度分布图转换为时间序列灰度图像，并结合CNN和LSTM模型进行速度预测。上述模型中，CNN可以提取隐含的空间特征，LSTM可以更好地学习长期模式。

然而，上述研究都没有很好地关联和量化用于交通速度预测的时间特征和空间特征。路段交通速度的空间特征通常用空间邻接关系或图结构来表示，而时间特征又可以进一步分为两类：路段本身的历史依赖特征和道路之间速度变化的时间相似特征部分。以交通拥堵为例。当某一路段出现拥堵时，周边路段也可能出现相应的拥堵。当拥堵消失后，邻近路段的车速会逐渐加快。两者的变化规律存在一定的差异。相似性和滞后性。该速度序列的关联信息在空间上表现为路段的拓扑邻接关系，在时间上表现为速度变化的相似相关性，它们共同对交通速度变化产生至关重要的影响。为了充分反映这些相关信息，我们需要将空间特征和时间特征一起考虑，并提供定量方法来区分不同相关信息的重要性，以提高交通速度预测的效果。

为了将相关信息的时空特征输入到模型中，本文首先设计时空相关度，从时间和空间两个维度量化速度序列之间的相关程度，并用它来评估速度以加权方式排序。处理。在此基础上，本文提出了一种基于时空相关权重的LSTM模型（-Long Short-Term，STC-LSTM）用于交通速度预测。该模型首先通过综合动态时间规整（Time，SDTW）定义时间相关度；然后与路段的邻接关系相结合，形成时空关联度，用于综合描述路段之间关联度的时空特征。最后，将此时空相关性用作权重，并与 LSTM 结合来预测交通速度。

1 基于SDTW的时间相关性

时间相关性是一种大小度量，用于确定两个给定速度序列变化曲线之间的接近程度。它本质上是一种相似性度量。在时间序列相似性度量中，常用的距离函数主要有欧式距离（，ED）、马哈拉诺比斯距离（，MD）、余弦距离（，CD）等。对于采样间隔一致、长度相同的单变量序列，欧式距离为一般用作相似性度量。给定两个速度时间序列 X={x1,x2,⋯,xn},Y={y1,y2,⋯,yn}，X 和 Y 是向量，则它们之间的距离为 DED(X,Y)：

常用的时间序列数据相似度距离测量方法包括基于ED的离散傅里叶变换（DFT）、基于ED的离散小波变换（DWT）和动态时间扭曲（Time，DTW）。离散傅里叶变换和离散小波变换都是在频域分解序列信号并计算不同分量之间的距离，可以起到降噪、去除杂质和分类比较的作用；动态时间扭曲考虑到数值上利用相似性对时间尺度进行正则化，可以有效解决时间轴上的偏移、尺度扩张等问题。由于交通流是由分散的车辆组成，速度的变化是通过传输产生的，传输过程需要时间。因此，路段之间速度变化的影响具有一定的滞后特性，相似序列存在偏移现象。考虑到这一点，我们选择使用动态时间扭曲方法。然而，由于动态时间扭曲在求解时间轴偏移时仅考虑数值大小的特征，因此无法有效解决序列在数值轴上的偏移。这会导致归一化时一个序列中的某个点被映射到另一个序列中的大面积区域，相似度距离计算错误，从而引起“奇异点问题”。为了解决奇点问题，需要在动态时间扭曲的基础上引入时间维度上的梯度特征，从而减少某个点映射到连续区域的情况。更有效的方法之一是 SDTW。

SDTW首先定义包括数值特征和梯度特征的特征值Fs(x(i))为：

式中，x(i)表示序列X={x1,x2,…,xn}中的第i个值，max(|Δx|)表示的值，最大值表示速度值的最大梯度。这里，用相邻点之间的差值来表示某一点的梯度。例如，用x(i)-x(i-1)表示x(i)的梯度。 max(|Δx|)的作用是将每个梯度的大小约束在[-1,1]之间，从而将梯度信息以比率的形式整合到特征中。数值特征的比例为1，大于梯度特征的比例，在构造特征中起更大的作用，而梯度信息起辅助作用。因此，特征Fs不会对数值上的小偏差过于敏感。结合公式(1)，我们可以得到序列X中第i个值到序列Y中第j个值的局部距离d(i,j)为：

距离矩阵 D 可以由 n×n 个局部距离 d 构建。因此，在边界条件、连续性和单调性的约束下，我们可以得到序列X和序列Y的归一化距离SDTW(x,y)为：

式中，r(i,j)为距离矩阵D中从(0,0)到(i,j)的路径上局部距离的累积距离，根据连续性和单调性的约束，有只能从 (i-1,j-1)、(i-1,j) 或 (i,j-1) 到达点，min{r(i-1 ,j-1), r(i- 1,j),r(i,j-1)}表示选择三个点中累积距离最小的点作为起点。根据上式，可以计算任意两个路段速度序列之间的相似距离，形成SDTW距离矩阵。

定义两个路段速度序列XY之间的时间相关性T为：

式中，max(SDTW)为SDTW距离矩阵的最大值。归一化后，时间相关性T的范围为[0,1]，每个路段与其自身的时间相关性为1，相距最远的两个SDTW之间的时间相关性为0。速度相似度越低两个路段之间的序列，其SDTW距离越大，时间相关性越小；相似度越大，SDTW距离越小，时间相关性越大。

2时空相关性结合空间邻接关系

考虑到路段的交通流向，城市交通网络一般被抽象为有向图，但与普通有向图不同的是，对于一阶邻接关系，上下游交通状况的影响是双向的。当路段平坦时，冲击力主要由上游传递至下游路段；当路段拥堵时，下游路段的交通会影响上游路段的交通状况。由此可以得到路网的一阶邻接矩阵S：

在公式，

然而，道路网络之间的交通流关系并不局限于一阶邻接关系。以图1为例。 a路段和b路段虽然相邻，但并不处于上下游关系。车流从路段a、b流向下游路段c。当a路段的车流量增加时，c路段的车流量也必然增加。，造成交通拥堵，而c路段的拥堵也会影响上游b路段，导致b路段车速相应减慢。 a路段和b路段之间的交通流没有直接联系。它们之间的影响是通过c路段间接产生的。此时，它们被视为二阶邻接关系。

图1 交通状况对路段的影响

c路图1

二阶邻接关系可以描述为一阶邻接矩阵的一阶邻接关系。以此类推，通过迭代，可以得到路段的k阶邻接关系。在此基础上，包含n个路段的整个路网的邻接矩阵G定义为：

式中，i和j表示路网中任意两个路段，k表示路段i与不同于i的路段j之间的邻接关系的顺序。两个路段之间的邻接关系越密切，g越小，邻接关系越强。距离越远，g越大。

基于空间邻近性和时间相关性，我们将两个路段之间的时空相关性 wij 定义为：

式中，采用1/(g+1)的形式，使取值范围在(0,1]之间，一方面是为了使分数有意义，分母大于0；另一方面另一方面是保证时空相关性，与路段之间的相关程度正相关，以自然常数为基数的取幂形式，可以在纵轴上拉出时空相关性的时间特征和空间特征，扩大差异，增强时空特征的表达，这有利于下一步的加权，最终可以得到所有路段之间的时空相关矩阵Wx，时空相关度越大w，该路段速度时间序列数据的相关度越大。

3 基于时空相关权重的LSTM模型

本文提出一种基于时空相关加权的长短期记忆网络模型（STC-LSTM），包括时空相关加权部分、LSTM层和全连接层。具体结构如图2所示。

计算下列序列的n点dft_求下列序列的dft_计算以下序列的n点dft

图2 基于时空相关权重的LSTM模型

图2 基于-的LSTM模型

模型的输入为n个路段1～n的t时刻之前m个周期的历史速度数据，模型的输出结果为路段x在时刻t+1的速度预测值。

。为了提高预测精度，模型将时间特征和空间特征融合成权重矩阵，通过对输入速度进行加权进行预测。这样既保留了路段之间速度变化的相关性信息，又进一步强调了与预测路段在空间和时间上关系更密切的路段速度序列，提高了空间邻接关系的学习能力增强路段速度变化相似特征。

图中的权重矩阵Wx就是上面提到的时空相关矩阵。当输入路段的数量为n时，矩阵大小为n×n，分别表示每个路段的速度序列中的速度值的权重，以及速度序列中的每个速度。将这些值相乘，然后求和。这就是对时空连通性矩阵Wx进行加权的过程。输入的历史速度数据通过时空相关矩阵Wx进行加权，可以得到m个周期的加权速度序列。每个加权速度序列S={st-m+1, st-m+2,...,st}。

式中，wxi为预测路段x与当前路段i的时空相关度，vi为i时刻的速度值。根据时空相关性公式，待预测路段与其自身的时空相关性一定是最大的，这就保证了加权速度序列的大小与相关程度之间的正相关性。输入数据作为预测模型特征提取的对象，其处理方式直接影响特征的选择和预测结果的准确性。这种加权方法通过改变预测输入的速度值来反映速度序列之间相关程度的差异，强调与预测的关系。路段速度序列具有更紧密的空间和时间相关性。

然后将 t 个加权速度序列输入到每个 LSTM 单元中进行预测。 LSTM层输出的隐藏状态Ht经过一个全连接层，通过权重矩阵W2和偏置b2可以计算出最终的预测速度。

，激活函数为 Tanh。

4实验与分析

4.1 实验数据和模型参数

本文实验数据为2014年6月武汉市30天内24小时共2330辆出租车的轨迹数据。文本字段包括出租车ID、采样时间、经纬度、瞬时速度、行驶方向等采样频率约为40 s，总共9100万条轨迹记录。首先对轨迹数据进行异常值清理、分割、路网匹配等预处理工作，然后筛选出轨迹点覆盖范围较大的路段，形成路网子区域作为研究区域。该区域共有34个路段，如图3所示（蓝色和红色路段）。

计算以下序列的n点dft_计算下列序列的n点dft_求下列序列的dft

图3 区域路网结构预测

图3 研究区道路

从研究区域中，我们选择编号为 1、2、3、4、5、6、7、8、9、10 的 10 个路段（红色路段）作为预测路段，并选择研究区域内的 34 个路段作为输入路段。作为预测路段的关联序列信息，与预测路段一起输入到模型中进行预测。

路段的交通速度是道路交通流的平均行驶速度，因此需要对瞬时速度进行处理。根据轨迹数据的采样频率和实际分布情况，我们以20分钟为时间间隔，各路段的速度序列长度为3×24×30=2160。将所有轨迹点按照路段和时间段划分后，计算每个时间段内每个路段内所有轨迹点的平均瞬时速度，作为路段速度观测值。

实验的预测任务是利用输入路段在前12个时间段（一个时间段长20分钟）的速度历史数据来预测预测路段在下一时间段的速度。 80%的数据样本作为训练数据集，20%作为测试数据集。对于每个路段，前1728个速度值是训练数据，后432个速度值是测试数据。模型输入的3D张量

……，N_S为输入路段1728的速度历史数据量，N_T为历史周期数12，N_R为输入路段数34。

实验采用随机梯度下降法（SGD）作为模型的优化器，其学习率和衰减值分别设置为0.001和0.001。

，损失函数使用均方误差（Mean Error，MSE）。训练时设置为128，设置为500。LSTM神经元数量初始化为40。输出全连接层中，神经元数量为1，激活函数为tanh，参数为41个，有总共 7,360 个参数。

4.2 实验结果与分析

实验使用三个指标来评估模型在测试集上的预测精度，即平均绝对误差MAE、平均百分比误差MAPE、均方根误差RMSE。它们的计算公式如下（其中Y为模型输出值，

是真实值）：

计算以下序列的n点dft_计算下列序列的n点dft_求下列序列的dft

STC-LSTM模型、ARIAM模型、SVR模型、LSTM模型的预测结果如表1所示。

表1 模型预测结果

表1

从表1的速度预测结果来看，不同路段的模型预测精度差异较大，平均百分比误差可低至8%，高至29%。这是因为每个路段的交通变化模式不同，并且可能存在一定的空间异质性，使得模型对不同路段的预测效果不同。

然而，将所有道路综合起来，STC-LSTM 模型预测结果的 MAPE 优于其他模型。 STC-LSTM模型预测结果的平均MAPE为15.76%，平均MAE为1.2136 km/h。与LSTM模型相比，平均MAPE降低了1.07%，平均MAE降低了0.054 km/h。这说明时空相关赋权方法起到了速度预测的作用，能够在一定程度上反映路段间交通速度变化的时空特征。

然而，基于时空相关权重的LSTM模型的均方根误差在1.17和2.02之间波动，这表明预测速度存在一定的偏差。以路段1、2、3为例，结合图4、5、6可知，速度预测值能够反映速度变化的总体趋势，但真实情况下的速度波动为规模大且频繁，很难用本文提出的模型进行模拟。一方面，真实值记录本身可能存在错误或异常，不能很好地反映车辆的实际行驶状况；另一方面，这也是大多数预测模型的通病。高频波动具有高度随机性，难以通过。模拟学习。

求下列序列的dft_计算下列序列的n点dft_计算以下序列的n点dft

图4 第1节预测值与实际值对比

图4 道路1的价值与价值

求下列序列的dft_计算下列序列的n点dft_计算以下序列的n点dft

图5 第2节预测值与实际值对比

图5 道路2的价值与价值

求下列序列的dft_计算下列序列的n点dft_计算以下序列的n点dft

图6 第3节预测值与实际值对比

图6 道路3的价值与价值

为了进一步探讨相关性指数测量方法对预测精度的影响，分别采用时间相关性和空间邻接关系进行加权，并与时空相关性（ST）方法的整体加权进行比较。该模型为原始预测模型，综合考虑了空间相关性和时间相关性； SC-LSTM模型（Long）是只考虑空间相关性的预测模型，仅相关性w的计算方法与原模型不同； TC-LSTM模型（Long Short-Term）是一种只考虑时间相关性的预测模型。三种模型的预测结果如表2所示。

表2 不同时空特征的预测结果

表 2 带有 - 的道路

以表2中的MAPE为例，在所有预测路段中，STC-LSTM的平均MAPE为0.157 556，而SC-LSTM和TC-LSTM的平均MAPE分别为0.161 857 8和0.162 652。表 1 未加权 LSTM 的平均 MAPE 值为 0.168 336 9。可以看出，时空相关性整体加权的预测精度优于时间相关性和空间邻接性分别加权的方法，同时预测加权时间相关性和空间邻接单独加权的准确性优于未加权的 LSTM。逐节比较，结论大致相同。这表明时间相关性和空间邻接性都可以改善预测，并且两者的融合改善更为显着。

5结论

交通速度随时间和路段变化较大。针对交通速度预测问题，本文构建了基于时空相关权重的LSTM模型。该模型挖掘交通速度在时间和空间上的变化特征，通过时空相关性量化速度在空间和时间上变化的相关特征，充分利用LSTM模型学习长期依赖模式的能力从而实现对交通速度的预测。。与普通长短期记忆网络模型相比，基于时空相关性加权的LSTM模型取得了显着的精度提升，证明了模型的有效性。

本文设计的交通速度预测模型仍需进一步深入研究和完善。一方面，数据本身的采样频率限制了预测结果，使得模型在不同路段上的预测精度差异较大；另一方面，模型对中的相关特征不敏感，时空划分略有重叠，有待进一步探索。

求下列序列的dft_计算下列序列的n点dft_计算以下序列的n点dft