基于注意力机制和多任务LSTM的锂电池容量预测方法*

图1 电池容量衰退曲线

反复充放电可以导致电池老化，使电池性能衰退。然而，电池的容量衰退通常伴随着容量再生现象，这是由于电池停止工作期间活性物质存在再平衡^[16]，从而增加了下一个循环的可用容量。容量再生现象使得容量衰退曲线变得非线性，这为准确预测电池容量带来极大的挑战，因此，电池容量预测对模型的性能要求较高。

本文模型需要完成的主要任务是实现在线容量预测，即根据已采集的历史容量数据，预测未来一段时间间隔的容量值，可以表示为

(1)${{C}_{k+w+p-1}}=f\left( {{C}_{k}},{{C}_{k+1}},\cdots,{{C}_{k+w-1}} \right)$

式中，w表示滑动窗口宽度；P表示预测时间间隔； f(·)表示本文提出的预测模型。

3 基于注意力机制和多任务LSTM的容量预测方法设计

针对传统容量预测方法的不足，本文提出一种基于注意力机制和多任务LSTM的容量预测模型。

首先，为降低单任务模式对性能的限制，提高预测准确度，本文使用多任务LSTM(Multi-task LSTM, MT-LSTM)作为模型的主框架，实现未来信息的互补。传统的循环神经网络模型只执行一个预测任务，即只预测${{D}_{k+w+p-1}}$。不同于传统的循环神经网络模型，本文提出的模型考虑未来多个时刻信息之间的联系，因此将执行三个预测任务，即同时预测${{D}_{k+w+p-2}}$、${{D}_{k+w+p-1}}$和${{D}_{k+w+p+1}}$，如图2所示。其中，预测${{D}_{k+w+p-1}}$为主任务；预测${{D}_{k+w+p-2}}$和${{D}_{k+w+p+1}}$则为辅助任务，被用来为主任务提供相关的信息，提高主任务的准确度。

图2

图2 本文提出的MT-LSTM结构

本文提出的MT-LSTM采用硬参数共享方式^[17]，包含共享层(Shared layer)和特有层(Specific layer)两个部分。共享层包含了一个LSTM层，它被用来处理原始输入序列，其参数被所有任务共享。在反向传播过程中，所有任务都参与该层参数更新，因此能够建立各任务之间的关联、约束与冲突关系。经过共享层处理后的数据将会送入各任务的私有模块中，即特有层。特有层的功能是基于共享层提取出的通用特征执行单独的预测任务。解释水平理论认为^[18]，人们倾向于用更抽象的特征来表征心理距离较远的事物。本文中各预测任务基于同一输入序列，且预测时刻与输入序列的时间间隔不同。因此，基于解释水平理论，使用一维卷积层提取不同抽象程度的特征。这些特征之后将会被分别送往私有LSTM层中，经计算得出预测结果。

此外，为了使所提模型关注对结果影响较大的隐藏状态，本文使用一种基于时间步的注意力机制。本文的容量预测基于滑动窗口采样实现，因此预测结果取决于滑动窗口对应的隐藏状态。但是LSTM各时刻输出的隐藏状态对结果影响程度不同，让模型关注这些影响程度大的隐藏状态，有利于减少分心问题并提高准确度。为了量化这种影响程度，本文使用注意力层计算各时刻隐藏状态的注意力权值，最终将其加权求和得到结果向量，基于结果向量得到最终预测值。因此，模型会更关注意力权重大的时刻。模型的具体内容将会在本节后续内容中给出。

3.1 电池容量处理

由于电池容量衰退占据容量变化趋势的主导地位，训练集与测试集中容量数据的规模会有较大差别，这会导致模型无法进行准确的预测。因此，本文采用一种简单的归一化方法，将数据大致限制在同一规模，降低模型对数据的敏感程度。将每个滑动窗口中的容量值$\left[ {{C}_{k}},{{C}_{k+1}},\cdots,{{C}_{k+w-1}} \right]$除以上一个循环的容量值${{C}_{k-1}}$，预测任务改变为

(2)$\left[ {{D}_{k}},{{D}_{k+1}},\cdots,{{D}_{k+w-1}} \right]=\left[ \frac{{{C}_{k}}}{{{C}_{k-1}}},\frac{{{C}_{k+1}}}{{{C}_{k-1}}},\cdots,\frac{{{C}_{k+w-1}}}{{{C}_{k-1}}} \right]$

(3)${{D}_{k+w+p-1}}=\frac{{{C}_{k+w+p-1}}}{{{C}_{k-1}}}$

(4)$\left[ {{D}_{k}},{{D}_{k+1}},\cdots,{{D}_{k+w-1}} \right]\to {{D}_{k+w+p-1}}$

3.2 长短期记忆网络(LSTM)

LSTM是一种特殊的RNN模型，它能够很好地刻画具有时间关联的序列^[19]。本文的模型包含多个LSTM，共享层的LSTM被用来提取原始时间序列的特征。特有层的LSTM被用来处理上一层神经网络的输出序列，提取与预测结果相关的特征。

LSTM使用多个门控函数来决定需要忘记的信息、需要记住的信息和需要输出的信息，从而可以选择性地传输信息。LSTM主要包含三个门结构：遗忘门、记忆门和输出门，各门之间进行交互，提高LSTM模型的信息分析能力。LSTM的细胞结构如图3所示。

图3

图3 LSTM细胞结构

设${{c}_{k}}$表示k时刻的细胞状态，${{\mathbf{x}}_{\mathbf{k}}}$表示k时刻的输入数据，${{h}_{k}}$表示k时刻输出的隐藏状态。k时刻的LSTM细胞将接收三种输入信息：${{c}_{k-1}}$、${{h}_{k-\mathbf{1}}}$和${{\mathbf{x}}_{\mathbf{k}}}$。${{\mathbf{x}}_{\mathbf{k}}}$这些输入信息将首先被送往遗忘门和记忆门进行处理。遗忘门被用来忘记信息，它决定了${{c}_{k-1}}$中哪些信息将被遗忘。记忆门则用来筛选${{h}_{\mathbf{k}-1}}$和${{\mathbf{x}}_{\mathbf{k}}}$中需要保留的信息。遗忘门和记忆门的计算过程可以表示为

(5)${{\mathbf{f}}_{\mathbf{k}}}=\sigma \left( {{\mathbf{W}}_{\mathbf{f}}}\cdot \left[ {{\mathbf{h}}_{\mathbf{t}-1}},{{\mathbf{x}}_{\mathbf{t}}} \right]+{{\mathbf{b}}_{\mathbf{f}}} \right)$

(6)${{\mathbf{i}}_{\mathbf{k}}}=\sigma \left( {{\mathbf{W}}_{i}}\cdot \left[ {{\mathbf{h}}_{\mathbf{k}-1}},{{\mathbf{x}}_{\mathbf{k}}} \right]+{{\mathbf{b}}_{\mathbf{i}}} \right)$

(7)${{\mathbf{g}}_{\mathbf{k}}}=\tanh \left( {{\mathbf{W}}_{\mathbf{g}}}\cdot \left[ {{\mathbf{h}}_{\mathbf{k}-1}},{{\mathbf{x}}_{\mathbf{k}}} \right]+{{\mathbf{b}}_{\mathbf{g}}} \right)$

信息经遗忘门和记忆门处理后，$k$时刻的细胞状态${{c}_{k}}$将随之更新

(8)${{c}_{k}}={{f}_{k}}*{{c}_{k-\mathbf{1}}}+{{i}_{k}}*{{g}_{k}}$

最后，输出门将${{h}_{k-\mathbf{1}}}$、${{\mathbf{x}}_{\mathbf{k}}}$和${{c}_{k}}$的信息进行整合，生成输出信号

(9)${{o}_{k}}=\sigma \left( {{W}_{o}}\left[ {{h}_{k-\mathbf{1}}},{{x}_{k}} \right]+{{b}_{o}} \right)$

(10)${{h}_{k}}={{o}_{k}}*\tanh \left( {{c}_{k}} \right)$

3.3 基于一维卷积神经网络的抽象特征提取

根据解释水平理论，本文模型执行各预测任务时需要基于不同抽象程度的特征。一维卷积神经网络(1D CNN)是一种包含卷积计算的神经网络^[20]。它可以捕获输入数据中与目标最相关的特征，从而降低输入数据中的噪声。本文使用多个一维卷积层来学习共享层LSTM的输出序列，并将其转换为不同抽象程度的特征序列。深层的卷积层接收上一卷积层提取到的特征作为输入，因此提取出的特征更为抽象，被用于与历史容量数据间隔较远的预测任务。

卷积层的核心思想是通过卷积核的卷积操作学习输入序列的特征。设某时刻从上一层神经网络输入到卷积层的隐藏状态为

(11)$\mathbf{H}={{\left[ {{\mathbf{H}}_{\mathbf{k}}},{{\mathbf{H}}_{\mathbf{k}+1}},\cdots,{{\mathbf{H}}_{\mathbf{k+w}-1}} \right]}^{T}}\ \ \ \ {{\mathbf{H}}_{\mathbf{i}}}\in {{\mathbb{R}}^{n}}$

设置一系列卷积核为

(12)$\mathbf{V}={{\left[ {{\mathbf{v}}_{1}},{{\mathbf{v}}_{2}},\cdots,{{\mathbf{v}}_{\mathbf{m}}} \right]}^{T}}\ \ \ \ {{\mathbf{v}}_{\mathbf{i}}}\in {{\mathbb{R}}^{s\times n}}$

卷积操作可以将输入序列映射至输出空间$\mathbf{U}\in {{\mathbb{R}}^{w\times m}}$，其中，s表示卷积核的大小；n表示卷积核的维度，与输入序列的维度相等；m表示卷积核的数量。卷积过程如图4所示。

图4

图4 卷积过程

当卷积核成功捕捉到某种特征时，将会被激活函数激活。卷积层中，使用多个卷积核并行学习，以期从多个角度捕捉特征。使用ReLU函数作为一维卷积层的激活函数。本文为一维卷积层加入Batch Normalization^[21]，以提高收敛速度和防止过拟合。卷积层计算过程表示为

(13)${{\mathbf{R}}_{\mathbf{i}}}={{\mathbf{v}}_{\mathbf{i}}}*\mathbf{H}+{{\mathbf{b}}_{\mathbf{i}}}$

(14)$\mathbf{U}=\text{ReLU}\left( \text{BN}\left( \mathbf{R} \right) \right)$

式中，${{\mathbf{R}}_{\mathbf{i}}}$表示第i个卷积核${{\mathbf{v}}_{\mathbf{i}}}$经卷积操作后得到的特征向量；${{b}_{\mathbf{i}}}$表示偏置；U表示一维卷积层的输出。

3.4 注意力层

本文希望对特有层LSTM的输出进行处理，让模型更多地关注对结果影响较大的时间步。因此，本文提出一种时间步的自注意力机制，将其与LSTM相结合。假设在当前时刻中，注意力层接收$h={{\left[ {{h}_{k}},{{h}_{k+\mathbf{1}}},\cdots,{{h}_{k+w-\mathbf{1}}} \right]}^{T}}$，${{\mathbf{h}}_{\mathbf{i}}}\in {{\mathbb{R}}^{1\times n}}$作为输入，此时注意力层将会根据输入来计算出一组注意力权重${{\alpha }_{k}},{{\alpha }_{k+1}},\cdots,{{\alpha }_{k+w-1}}$，这些注意力权重代表了各时刻隐藏状态对结果的影响大小。然后模型对输入进行加权求和得到结果向量${{l}_{k}}$。注意力层的结构如图5 所示。

图5

图5 注意力层结构

注意力层的计算过程可以表示为

(15)${{W}_{a}}=W*h+b$

(16)${{e}_{i}}=\frac{1}{n}\sum\limits_{j}{{{w}_{i,j}}}$

(17)${{\alpha }_{j}}=\frac{\exp \left( {{e}_{j}} \right)}{\sum\limits_{i=k}^{k+w-1}{\exp \left( {{e}_{j}} \right)}}$

(18)${{l}_{k}}={{\sum{{{\alpha }_{i}}h}}_{i}}$

式中，${{\mathbf{W}}_{\mathbf{a}}}\in {{\mathbb{R}}^{w\times n}}$表示权重矩阵；${{w}_{i,j}}$表示矩阵${{\mathbf{W}}_{\mathbf{a}}}$中的元素；$\mathbf{b}\in {{\mathbb{R}}^{w\times n}}$和$\mathbf{W}\in {{\mathbb{R}}^{w\times n}}$是可训练的参数；$*$表示矩阵的点乘过程；${{l}_{k}}$表示结果向量。在训练的过程中，模型自发地学习输入信息中每个元素对结果的影响大小，形成每个时刻的注意力权重。随着滑动窗口的移动，输入序列的值将发生改变，由于注意力层能够根据输入值计算注意力权重，因此模型可以更加灵活地关注输入值中的变化，例如容量再生导致的变化，预测的准确率将会提高。

4 试验验证

为了验证本文提出模型的性能，本文使用NASA数据集中的三个电池(B0005、B0007和B0018)进行仿真试验。首先，为了验证提出的模型在容量预测任务上的性能，选择几个传统神经网络模型与本文提出的模型进行比较，分别是GRU^[22-23]、LSTM^[7,24]和BP(ANN)^[25-26]模型，这些模型已被许多研究证明了其良好的性能。之后，为了验证多任务模型相比单任务模型具有更好的准确性，使用两个深度学习模型与本文提出的模型进行比较，分别是LSTM-CNN-LSTM模型和Deep LSTM^[27]模型。这两个模型可以分别模拟本文模型单独执行主任务与辅助任务时的状态。最后，为了验证注意力机制的作用，本文比较了带有注意力机制的MT-LSTM和无注意力机制的MT-LSTM在测试集上的表现。

对于B0005和B0007，前70个循环的数据作为训练集；对于B0018，前60个循环的数据被用作训练集。训练集之后的10个循环的容量数据被用作验证集，通过评估模型在验证集上的表来选择最佳超参数。然后，本文分别对这三个电池进行容量预测，通过不同的标准来评估这些方法在测试集上的性能。使用Python编写的Tensorflow库来实现提出的模型，并在一个NvidiaGTX1080TiGPU上训练模型。试验的具体细节将在后文给出。

4.1 超参数选择

在神经网络中，超参数是提前设置好的，而不是通过训练得到的。数据驱动的模型通常需要选择最优超参数来优化模型性能。大的超参数搜索范围更有可能找到使模型达到最佳性能的超参数，但可能会使搜索过程变得复杂，耗费较多时间，在实际使用时不方便。为了简化搜索过程，使用网格搜索法搜索部分超参数。对于MT-LSTM、LSTM、Deep LSTM、LSTM-CNN-LSTM、GRU和ANN，本文设置隐藏状态数量为H$\in ${16，32，64}，特别地，MT-LSTM和LSTM-CNN-LSTM的卷积核数量被设置为$m\in \left\{ \begin{matrix} 16, & 32, & 64 \\ \end{matrix} \right\}$。对于模型中有多个LSTM层的模型，每个LSTM层具有相同的隐藏状态数量。对于B0005和B0007，滑动窗口宽度被设置为$w=15$；对于B0006，滑动窗口宽度设置为$w=10$。Batch size被设置为32。Adam优化器被用来训练模型，本文使用推荐学习率${{I}_{r}}=0.001$。为了防止过拟合，Early Stopping被用于训练过程。

MAE被用来评估模型在验证集上的表现。MAE的计算过程如下

(19)$\text{MAE}=\frac{1}{N}\sum\limits_{i=1}^{N}{\left| {{{\hat{C}}}_{i}}-{{C}_{i}} \right|}$

式中，N表示预测的总循环数；${{\hat{C}}_{i}}$表示第i个循环时的容量预测值；${{C}_{i}}$表示第i个循环时的容量真实值。

4.2 与传统方法对比

4.2.1 多步容量预测结果

这一部分对测试集多步预测的结果进行分析。除了上文提到的MAE之外，本文额外应用MSE来对测试集上的模型性能进行分析。相比于MAE，MSE会更加关注预测结果中与实际差别较大的点。因此，使用MSE可以多方面地比较提出的模型和其他传统神经网络模型。MSE的计算过程如下

(20)$\text{MSE}=\frac{1}{N}\sum\limits_{i=1}^{N}{{{\left( {{{\hat{C}}}_{i}}-{{C}_{i}} \right)}^{2}}}$

式中，N表示预测的总循环数；${{\hat{C}}_{i}}$表示第i个循环时的容量预测值；${{C}_{i}}$表示第i个循环时的容量真实值。

各模型在测试集上的MAE和MSE如表1所示。根据表1中的结果，可以看出本文所提出的模型MT-LSTM在绝大多数情况下的预测都优于传统神经网络模型。而在MT-LSTM的表现不如其他模型的情况下，预测的误差差距也较小。图6显示了所有模型在三个电池上的预测结果。对于B0005，所有的模型都能准确地捕捉到容量近似下降的趋势，但GRU和LSTM模型难以捕捉到容量的再生现象，因此，其预测容量曲线更加线性。而ANN的预测结果中所含噪声较大，因此与实际容量曲线有着十分明显的区别。MT-LSTM作为一种改良的方法，能够较好地捕捉到容量再生现象，其预测结果更加接近实际。当预测间隔为10，相比于GRU、LSTM和ANN，MT-LSTM的MAE分别下降了44.2%、56.9%和38.2%。

表1 多步容量预测结果

预测间隔	模型	B0005		B0007		B0018
预测间隔	模型	MAE	MSE	MAE	MSE	MAE	MSE
T+10	MT-LSTM	0.015 4	3.72×10^-4	0.013 8	4.00×10^-4	0.018 0	5.30×10^-4
	GRU	0.027 6	9.02×10^-4	0.014 9	3.78×10^-4	0.030 8	12.2×10^-4
	LSTM	0.035 7	14.6×10^-4	0.018 1	4.60×10^-4	0.031 7	13.1×10^-4
	ANN	0.024 9	8.67×10^-4	0.016 0	4.86×10^-4	0.034 0	14.6×10^-4
T+15	MT-LSTM	0.020 7	6.32×10^-4	0.019 7	6.35×10^-4	0.019 6	6.08×10^-4
	GRU	0.035 0	14.8×10^-4	0.017 6	4.79×10^-4	0.044 4	27.2×10^-4
	LSTM	0.051 2	28.4×10^-4	0.021 4	6.55×10^-4	0.048 1	32.1×10^-4
	ANN	0.021 6	6.59×10^-4	0.015 6	4.50×10^-4	0.044 8	27.1×10^-4

图6

图6 多步容量预测结果

预测间隔增加到15时，大部分模型的预测准确度都产生了一定的下降，例如，MT-LSTM的MAE上升了34.4%，LSTM的MAE上升了43.4%等。同时，预测的滞后现象变得更加明显。这说明随着预测间隔的增加，捕捉容量趋势变得困难，预测难度变大。但是MT-LSTM依然在大部分时候要优于其他模型，这也证明了MT-LSTM的良好性能。我们注意到传统神经网络模型在预测电池B0007的容量时，能够很好地捕捉到容量再生，这可能是由于相比其他电池，电池B0007的容量变化更具有规律性。这可能也是导致预测间隔为15时，部分传统神经网络模型的准确度高于MT-LSTM的原因之一。

试验中，所有模型预测电池B0018的结果都要差于其他两个电池。这是由于电池B0018的衰退趋势中伴随着大量的不规则再生现象，它们是模型在训练集中难以学习到的。因此，这些模型难以捕捉到B0018容量变化的特点。从图6中可以看出传统神经网络模型在预测B0018时结果的准确率降低很多，与实际容量变化有较大的不匹配。而这一点也可以从MSE的急剧增加中看出。与它们相比，本文提出的MT-LSTM在一定程度上可以捕捉到容量变化的特点，因此预测结果更加贴合实际。在实际预测时，为了防止因为预测误差而导致没有及时更换电池，本文在进行RUL预测时为EOL增加一些裕量。

4.2.2 RUL预测结果

根据容量预测结果，可以预测电池寿命在何时达到终点，以方便使用者及时更换电池。根据数据集中的数据描述，当电池的容量降至标称容量的 70%时，则可以认为电池寿命已达到终点。电池的标称容量为2 A·h，因此，寿命终点(End of life, EOL)可以被定义为

(21)$\text{EOL}={{C}_{0}}\times 0.7=1.4\ \text{A}\cdot \text{h}$

这一部分分析各模型对RUL的预测结果。为了避免因为预测误差而导致电池更换不及时，本文额外设置了0.02 A·h的裕量。因此，根据容量预测结果计算容量衰退到1.42 A·h的循环次数。ER被用来计算RUL的预测值与真实值之间的误差，它被定义为预测达到EOL的循环数与实际达到EOL的循环数的差值。注意电池在到达EOL之后，由于容量再生现象，容量仍有可能回到EOL之上。但是在此之后，电池在大部分时间里容量仍然是低于EOL的。因此，本文选用首次到达EOL的循环数作为RUL预测的依据。RUL的预测结果如表2所示。

表2 RUL预测结果

	模型	B0005		B0007		B0018
	模型	T+10	T+15	T+10	T+15	T+10	T+15
ER	MT-LSTM	1	-4	1	-4	-3	-7
	GRU	-11	-12	-8	-4	-11	-15
	LSTM	-13	-19	-8	-8	-11	-18
	ANN	-8	-8	3	-2	-9	-14

从表2中可以看出在预测RUL时，MT-LSTM预测的总体表现优于其他模型。值得关注的是，在大多数情况下，GRU、LSTM、ANN三种模型的ER为负数，且它们ER的绝对值大于MT-LSTM的ER，这说明了传统神经网络在预测时产生了十分明显的滞后现象。特别地，在预测B0018时，这三个模型ER的绝对值几乎都超过了10。与之相反，这种滞后现象在MT-LSTM中得到了十分明显的改善。

4.3 多任务模式验证

为了验证多任务模式在本文所提模型中的作用，本节给出模型在多任务模式时和单任务模式时的对比结果。由图2可以看出，当模型只执行主任务或第一个辅助任务时，可以分别看成LSTM-CNN-LSTM模型和Deep LSTM模型。因此，本文使用这三种模型在测试集上的表现来验证多任务模式对模型预测准确性的提升。

由表3中结果可以看出，多任务模式在大多数情况下的准确度高于单任务模式。当模型单独执行辅助任务时，预测准确度总是较差。而当模型单独执行主任务时，在B0005和B0007上的表现总体上差别不大，但多任务模式仍在较多时候表现更好。而对于容量变化趋势难以捕捉的B0018，多任务模式相比单任务模式的准确度有了明显的提高。从图7上可以直观地看到，MT-LSTM相比其他两个模型能够更好地预测容量衰退的趋势。

表3 多任务模式验证结果

预测间隔	模型	B0005		B0007		B0018
预测间隔	模型	MAE	MSE	MAE	MSE	MAE	MSE
T+10	MT-LSTM	0.015 4	3.72×10^-4	0.013 8	4.00×10^-4	0.018 0	5.30×10^-4
	LSTM-CNN-LSTM	0.017 3	4.24×10^-4	0.014 2	4.12×10^-4	0.025 2	9.67×10^-4
	Deep LSTM	0.039 9	18.0×10^-4	0.021 9	6.24×10^-4	0.030 8	12.0×10^-4
T+15	MT-LSTM	0.020 7	6.32×10^-4	0.019 7	6.35×10^-4	0.019 6	6.08×10^-4
	LSTM-CNN-LSTM	0.020 1	6.46×10^-4	0.019 1	4.79×10^-4	0.023 9	9.39×10^-4
	Deep LSTM	0.056 2	34.3×10^-4	0.022 3	7.12×10^-4	0.047 3	31.6×10^-4

图7

图7 B0018上多任务模式验证结果

4.4 注意力机制对准确度的提升

本节主要验证注意力机制的作用。首先选择MT-LSTM(结合注意力机制)和MT-LSTM(无注意力机制)在验证集上分别表现最好的超参数，再额外选择两组不同的超参数，在电池B0005上比较这两种模型的性能。由网格搜索的结果可知，MT-LSTM(结合注意力机制)的最佳超参数为H=64，m=64；MT-LSTM(无注意力机制)的最佳超参数为H=16，m=16。超参数的选择及验证的结果如表4所示。从表4、图8可以得知，结合注意力机制的MT-LSTM在几乎所有超参数组合上的性能都更好。除此之外，可以发现结合注意力机制的MT-LSTM在验证集上的准确度几乎总是高于无注意力机制的MT-LSTM。综上所述，带有注意力机制的模型具有更好的学习能力。

表4 注意力机制验证结果

超参数组合	结合注意力机制		无注意力机制
超参数组合	MAE	MSE	MAE	MSE
H=16, m=16	0.022 8	6.69×10^-4	0.022 9	6.68×10^-4
H=32, m=32	0.021 3	9.12×10^-4	0.068 2	72.7×10^-4
H=64, m=64	0.015 4	3.72×10^-4	0.037 7	25.0×10^-4
H=16, m=64	0.026 0	7.86×10^-4	0.029 5	16.7×10^-4
均值	0.021 4	6.84×10^-4	0.039 5	26.35×10^-4

图8

图8 p=10时电池B0005上注意力机制验证结果

5 结论

(1) 本文的研究结果说明了基于注意力机制与多任务LSTM的电池容量预测模型相比传统模型具有更高的预测精度。

(2) 多任务模式使得模型能够考虑目标时刻周围信息对目标时刻的辅助作用，相比传统神经网络模型具有更好的性能。

(3) 注意力机制使得模型能够为输入数据分配注意力权重，关注对结果影响较大的数据，从而提高预测的准确度。

参考文献

原文顺序

文献年度倒序

文中引用次数倒序

被引期刊影响因子

[1]

HAN

Xuebing

, LU

Languang

, ZHENG

Yuejiu

, et al.

A review on the key issues of the lithium-ion battery degradation among the whole life cycle

[J]. ETransportation, 2019, 1:100005.

DOI:10.1016/j.etran.2019.100005 URL [本文引用: 1]

[2]

ZHANG

Jingliang

, LEE

A review on prognostics and health monitoring of Li-ion battery

[J]. Journal of Power Sources, 2011, 196(15):6007-6014.

DOI:10.1016/j.jpowsour.2011.03.101 URL [本文引用: 1]

[3]

XIONG

Rui

, LI

Linlin

, TIAN

Jinpeng

Towards a smarter battery management system:A critical review on battery state of health monitoring methods

[J]. Journal of Power Sources, 2018, 405:18-29.

DOI:10.1016/j.jpowsour.2018.10.019 URL [本文引用: 1]

[4]

刘勇智, 詹群, 盛增津, 等.

最小二乘支持向量机在航空蓄电池剩余容量预测中的应用

[J]. 蓄电池, 2013, 50(3):118-120,144.

LIU

Yongzhi

, ZHAN

Qun

, SHENG

Zengjin

, et al.

Application of least-squares support vector machine for residual capacity prediction of aviation batteries

[J]. Battery, 2013, 50(3):118-120,144.

[5]

ZHU

Mingye

, OUYANG

Quan

, WAN

Yong

, et al.

Remaining useful life prediction of lithium-ion batteries:A hybrid approach of grey-Markov chain model and improved Gaussian process

[J/OL]. IEEE Journal of Emerging and Selected Topics in Power Electronics,[2021-07-19],DOI:10.1109/JESTPE.2021.3098378.

DOI:10.1109/JESTPE.2021.3098378 [本文引用: 1]

[6]

CHAOUI

, IBE-EKEOCHA

C C

State of charge and state of health estimation for lithium batteries using recurrent neural networks

[J]. IEEE Transactions on Vehicular Technology, 2017, 66(10):8773-8783.

DOI:10.1109/TVT.2017.2715333 URL [本文引用: 1]

[7]

PARK

, CHOI

, et al.

LSTM-based battery remaining useful life prediction with multi-channel charging profiles

[J]. IEEE Access, 2020, 8:20786-20798.

DOI:10.1109/ACCESS.2020.2968939 URL [本文引用: 2]

[8]

CUI

Shengming

, JOE

A dynamic spatial-temporal attention-based GRU model with healthy features for state-of-health estimation of lithium-ion batteries

[J]. IEEE Access, 2021, 9:27374-27388.

DOI:10.1109/ACCESS.2021.3058018 URL [本文引用: 1]

[9]

YOU

G W

, PARK

, OH

Diagnosis of electric vehicle batteries using recurrent neural networks

[J]. IEEE Transactions on Industrial Electronics, 2017, 64(6):4885-4893.

DOI:10.1109/TIE.2017.2674593 URL [本文引用: 1]

[10]

REN

Lei

, DONG

Jiabao

, WANG

Xiaokang

, et al.

A data-driven auto-CNN-LSTM prediction model for lithium-ion battery remaining useful life

[J]. IEEE Transactions on Industrial Informatics, 2020, 17(5):3478-3487.

DOI:10.1109/TII.2020.3008223 URL [本文引用: 1]

[11]

BAHDANAU

, CHO

, BENGIO

Neural machine translation by jointly learning to align and translate

[J]. Computer Science, 2014:1409.0473.

DOI:10.48550/arXiv.1512.08756,2015 [本文引用: 1]

[12]

RAFFEL

, ELLIS

D P W

Feed-forward networks with attention can solve some long-term memory problems

[P]. DOI:10.48550/arXiv.1512.08756,2015.

[13]

CHENG

Jiezhu

, HUANG

Kaizhu

, ZHENG

Zibin

Towards better forecasting by fusing near and distant future visions

[J]. Proceedings of the AAAI Conference on Artificial Intelligence, 2020, 34(4):3593-3600.

DOI:10.1609/aaai.v34i04.5766 URL [本文引用: 2]

[14]

CARUANA

Multitask learning

[J]. Machine Learning, 1997, 28(1):41-75.

DOI:10.1023/A:1007379606734 URL [本文引用: 1]

[15]

SAHA

, GOEBEL

Battery data set

[DB]. NASA AMES Prognostics Data Repository, 2007. http://tiarc.nasa.gov/project/prognostic-datarepository.

URL [本文引用: 1]

[16]

Xiaosong

, JIANG

Jiuchun

, CAO

Dongpu

, et al.

Battery health prognosis for electric vehicles using sample entropy and sparse Bayesian predictive modeling

[J]. IEEE Transactions on Industrial Electronics, 2015, 63(4):2645-2656.

[17]

REYES

, VENTURA

Performing multi-target regression via a parameter sharing-based deep network

[J]. International Journal of Neural Systems, 2019, 29(9):1950014.

DOI:10.1142/S012906571950014X URL [本文引用: 1]

[18]

LIBERMAN

, TROPE

The role of feasibility and desirability considerations in near and distant future decisions:A test of temporal construal theory

[J]. Journal of Personality and Social Psychology, 1998, 75(1):5.

DOI:10.1037/0022-3514.75.1.5 URL [本文引用: 1]

[19]

HOCHREITER

, SCHMIDHUBER

Long short-term memory

[J]. Neural Computation, 1997, 9(8):1735-1780.

DOI:10.1162/neco.1997.9.8.1735 PMID:9377276 [本文引用: 1]

Learning to store information over extended time intervals by recurrent backpropagation takes a very long time, mostly because of insufficient, decaying error backflow. We briefly review Hochreiter's (1991) analysis of this problem, then address it by introducing a novel, efficient, gradient-based method called long short-term memory (LSTM). Truncating the gradient where this does not do harm, LSTM can learn to bridge minimal time lags in excess of 1000 discrete-time steps by enforcing constant error flow through constant error carousels within special units. Multiplicative gate units learn to open and close access to the constant error flow. LSTM is local in space and time; its computational complexity per time step and weight is O(1). Our experiments with artificial data involve local, distributed, real-valued, and noisy pattern representations. In comparisons with real-time recurrent learning, back propagation through time, recurrent cascade correlation, Elman nets, and neural sequence chunking, LSTM leads to many more successful runs, and learns much faster. LSTM also solves complex, artificial long-time-lag tasks that have never been solved by previous recurrent network algorithms.

[20]

KATTENBORN

, LEITLOFF

, SCHIEFER

, et al.

Review on convolutional neural networks (CNN) in vegetation remote sensing

[J]. ISPRS Journal of Photogrammetry and Remote Sensing, 2021, 173:24-49.

DOI:10.1016/j.isprsjprs.2020.12.010 URL [本文引用: 1]

[21]

SANTURKAR

, TSIPRAS

, ILYAS

, et al.

How does batch normalization help optimization?

[J]. Advances in Neural Information Processing Systems, 2018, 31:2488-2498.

[22]

Shuqing

, JU

Chuankun

, LI

Jianliang

, et al.

State-of-charge estimation of lithium-ion batteries in the battery degradation process based on recurrent neural network

[J]. Energies, 2021, 14(2):306.

DOI:10.3390/en14020306 URL [本文引用: 1]

[23]

曹广华, 赵中林, 许昀昊.

基于GRU的锂电池组健康状态预测研究

[J]. 吉林大学学报, 2022, 40(2):181-187.

CAO

Guanghua

, ZHAO

Zhonglin

, XU

Yunhao

Research on health state prediction of lithium battery pack based on GRU

[J]. Journal of Jilin University, 2022, 40(2):181-187.

[24]

张菁, 吴尚青.

基于LSTM和注意力机制的锂电池荷电状况预测

[J]. 九江学院学报, 2021, 36(3):29-34.

ZHANG

Jing

, WU

Shangqing

Li-ion battery charge condition prediction based on LSTM and attention mechanism

[J]. Journal of Jiujiang College, 2021, 36(3):29-34.

[25]

SAON

, HIYAMA

Predicting remaining useful life of rotating machinery based artificial neural network

[J]. Computers & Mathematics with Applications, 2010, 60(4):1078-1087.

DOI:10.1016/j.camwa.2010.03.065 URL [本文引用: 1]

[26]

王钟毅, 姬晓, 左思.

基于BP神经网络的锂电池剩余寿命预测

[J]. 汽车实用技术, 2021, 46(1):8-9.

WANG

Zhongyi

, JI

Xiao

, ZUO

Residual life prediction of lithium battery based on BP neural network

[J]. Automotive Practical Technology, 2021, 46(1):8-9.

[27]

付强, 王华伟.

基于多层LSTM的复杂系统剩余寿命智能预测

[J]. 兵器装备工程学报, 2022, 43(1):161-169.

Qiang

, WANG

Huawei

Intelligent prediction of remaining life of complex systems based on multilayer LSTM

[J]. Journal of Arms and Equipment Engineering, 2022, 43(1):161-169.