-
人工神经网络凭借其强大的非线性信息处理能力及泛化能力[1,2], 成为一种重要的机器学习模型, 被广泛应用于信号处理[3,4]、自然语言处理[5,6]、图片分类等领域[7-9]. 量子计算基于量子态相干叠加、纠缠等特性, 能够提供强大的并行计算能力[10-17]. 如何将量子计算与人工神经网络相结合, 充分发挥二者的优势, 从而改进经典神经网络架构, 提升网络计算性能成为研究者们关注的一个重要方向. Kouda等[18-21]初步提出了早期受经典神经网络激发的量子神经网络(quantum neural network, QNN)模型, 为该领域的研究提供了借鉴思路. 2019年, Cong等[22]提出的量子卷积神经网络(quantum convolutional neural network, QCNN)只使用O(log(N))变分参数作为N个量子位的输入大小从而减少了网络的复杂度; 2020年, Henderson等[23]提出了量子卷积层的概念, 通过随机量子电路增强了从数据中提取特征的能力, 但是缺乏非线性操作来增强网络的泛化性; 2021年, Niu和Ma[24]提出了具有多层激活函数的QNN, 增强了网络模型的健壮性. 针对二维图片数据, 2022年, Houssein等[25]提出用随机化量子电路构造混合QNN模型, 在对新冠肺炎图片分类实验中, 达到了较高的分类精度; 同年, Hur等[26]和Chen等[27]分别提出了不同的QCNN模型, 均达到了较好的图片分类效果.
然而以上QNN网络模型缺乏网络层之间的相互关联和记忆功能, 不利于解决数据信息丢失问题, 且训练精度有待提高. Xia和Kais [28]提出了一种用于计算分子基态能量的混合量子-经典神经网络, 利用量子测量的期望值作为下一层量子门的角度参数, 达到了较好的拟合效果; 同年, Mari等[29]提出了4种在混合经典-量子神经网络中使用转移学习的模型结构, 实现了较高的量子态分类精度. 以上研究表明量子测量的期望值有利于从量子电路中提取有效信息.
长短期记忆(long-short term memory, LSTM)神经网络是一种特殊的循环神经网络[30-32], 其利用记忆细胞来增强各层之间的相互关联, 解决了传统循环神经网络数据长期依赖以及梯度消失问题, 被广泛应用于时间序列分析与预测领域. 对于二维图片数据, LSTM神经网络可增强其数据之间的记忆功能, 从而达到充分提取图片序列特征的效果[33,34]. 但是利用经典 LSTM网络进行图片分类, 存在训练参数过多、计算速度慢及破坏图片空间特征的问题. 然而利用量子强大并行计算能力的量子长短期记忆神经网络(quantum long-short term memory, QLSTM)可以较快提升网络训练速度, 减少网络参数, 因此近年来得到学者们的关注. 2020年, Chen等[35]首次提出一种QLSTM模型用于拟合时间序列, 降低了模型的复杂度, 并提高其收敛速度. 但是该模型只针对一维数据进行设计, 而如何面向不同维数、类型多样的数据来构造网络, 并进行网络性能优化还有待进一步研究.
针对二维图像分类领域的需求, 本文提出了一种混合量子长短期记忆(hybrid quantum LSTM, HQLSTM)神经网络模型. HQLSTM网络中的每个记忆细胞由多个可实现不同功能的VQC (variation quantum circuit, VQC)组成, VQC的编码层采用角度编码进行图片数据转换, 避免大量图片数据导致过深的网络结构; 变分层利用量子自然梯度优化算法的优化过程进行构建, 使网络参数的优化过程不沿任何特定的方向, 确保网络参数优化更具普遍性以及更快收敛; 为实现量子网络与经典网络的连接, 减少图片数据之间关联信息的流失, 测量层将测量每一个量子比特得到的期望值作为经典层传入下一层作为Ry门的参数, 达到从量子电路中提取有效信息的目的. 此外, 为保留二维图片的空间特征, 本文采用Choquet离散积分算子代替记忆细胞的求和算子, 达到既能充分提取图片序列特征又不损失图片空间特征的目的. 在实验部分, 本文采用三个公开数据集: MNIST手写数据集、FASHION-MNIST服饰数据集和CIFAR彩色数据集进行模型图像分类性能验证, 结果表明, 与经典LSTM及文献[35]中的QLSTM相比, 本文提出的HQLSTM实现了较高的分类精度, 同时具有较低的空间复杂度. 随着量子计算机的不断发展, 在未来的人工智能领域具有积极的应用价值.
-
LSTM网络模型由若干记忆细胞组成, 如图1所示. 每个记忆细胞由遗忘门、输入门、输出门三部分组成.
${A_{t-1}}$ 代表前一时刻记忆细胞的状态,$ {A_{t{\text{ + }}1}} $ 代表后一时刻记忆细胞的状态. 记忆细胞的数据输入由当前时刻的输入数据${x_t}$ 以及前一个记忆细胞隐藏层输出${h_{t - 1}}$ 共同决定. 通过将Choquet离散积分算子代替LSTM记忆细胞求和项来加强数据之间的关联程度.遗忘门通过
$\delta $ 激活函数使其输出${f_t}$ 处于[0, 1]之间, 从而决定前一个记忆细胞${c_{t - 1}}$ 信息遗忘程度.${f_t}$ 和Sigmoid激活函数可表示为$ {f_t} = \delta ({\rm{Ch}}_V^r({W_{fx}}{x_t},{W_{fh}}{h_{t - 1}},{b_f})). $ 输入门主要决定当前记忆细胞的输入值, 由
${i_t}$ 和${k_t}$ 共同决定.${i_t}$ 通过$\delta $ 激活函数控制当前记忆细胞的输入值,${k_t}$ 通过$\tanh $ 激活函数来生成当前记忆细胞的候选量. 如(2)式和(3)式所示:$ {i_t} = \delta ({\rm{Ch}}_V^r({W_{ix}}{x_t},{W_{ih}}{h_{t - 1}},{b_i})), $ $ {k_t} = \tanh ({\rm{Ch}}_V^r({W_{kx}}{x_t},{W_{kh}}{h_{t - 1}},{b_k})). $ 当前记忆细胞状态
${C_t}$ 的更新主要由两部分组成: 1)${f_t}$ 作用于${C_{t - 1}}$ 决定当前记忆细胞旧的记忆; 2)${i_t}$ 作用于${k_t}$ 决定当前记忆细胞新的记忆, 旧的记忆和新的记忆共同构成当前记忆细胞状态${C_t}$ . 具体过程可表示为$ {C_t} = {f_t} \otimes {C_{t - 1}} + {i_t} \otimes {k_t}, $ $ \tanh (x) = \frac{{{{\rm{e}}^x} - {{\rm{e}}^{ - x}}}}{{{{\rm{e}}^x} + {{\rm{e}}^{ - x}}}}. $ 输出门主要用于决定当前记忆细胞
${C_t}$ 对输出${h_t}$ 的影响. 先将当前记忆细胞${C_t}$ 作用于$\tanh $ 激活函数进行归一化处理, 再根据$x{}_t$ 和${h_{t - 1}}$ 计算得出${O_t}$ 决定${C_t}$ 输出数据对${h_t}$ 的影响. 具体过程可表示为$ {O_t} = \delta ({\rm{Ch}}_V^r({W_{ox}}{x_t},{W_{oh}}{h_{t - 1}},{b_o})), $ $ {h_t} = {O_t} \otimes \tanh ({C_t}), $ $ {\text{Sigmoid}}(x) = \frac{1}{{1 + {{\rm{e}}^{ - x}}}}, $ 其中,
$\delta $ 为Sigmoid激活函数,${W_{fx}}$ ,${W_{{\text{i}}x}}$ ,${W_{kx}}$ ,${W_{ox}}$ 为输入数据${x_t}$ 的不同权重矩阵,${W_{fh}}$ ,${W_{ih}}$ ,${W_{kh}}$ ,${W_{oh}}$ 为前一个记忆细胞输出数据${h_{t - 1}}$ 的不同权重矩阵,${b_f}$ ,${b_i}$ ,${b_k}$ ,${b_o}$ 为不同偏移权重向量. -
为利用LSTM网络的序列记忆优势进行图片分类, 同时又不损失图片空间信息, 本文利用n维的Choquet离散积分算子修改LSTM细胞单元中的求和算子, 产生了一个多维的信息聚合, 从而使图片的空间特征充分表达, 实现图片中所有像素数据之间更深入关联的目标.
一维的Choquet离散积分算子可表示为
$ {\rm{Ch}}{_v}({x_1},{x_2},\cdots,{x_m}) = \sum\limits_{i = 1}^m {({x_{\sigma (i)}}} - {x_{\sigma (i - 1)}})v({A_{\sigma (i)}}), $ $ v(A) = {\left(\frac{{\left| A \right|}}{m}\right)^q}, $ 其中,
$\sigma $ 代表排列体, 即${x_{\sigma (1)}} \leqslant \cdots \leqslant {x_{\sigma (m)}}$ .${A_{\sigma (i)}}: = \{ \sigma (i),\cdots, \sigma (m)\} $ ,$m$ 代表一维向量的个数,$q$ 代表一个常数值,$\left| A \right|$ 代表集合A中的元素个数.二维的Choquet离散积分算子可表示为
$\begin{split} & C{h}_{v}^{r}({\tilde{x}}_{1},{\tilde{x}}_{2},\cdots,{\tilde{x}}_{m})\\=\; &(C{h}_{v1}({x}_{11},{x}_{21},\cdots,{x}_{m1}),\\ &\cdots,C{h}_{v1}({x}_{1n},{x}_{2n},\cdots,{x}_{mn})),\end{split} $ 其中,
${\tilde x_1}, {\tilde x_2},\cdots, {\tilde x_m}$ 代表$m$ 个$n$ 维的向量.二维的Choquet离散积分算子过程可如图2所示.
-
图3为包括3个记忆细胞的HQLSTM网络模型结构, 每一个记忆细胞同样由遗忘门、输入门、输出门三部分组成. 与经典LSTM不同之处在于, HQLSTM网络模型将经典LSTM中的不同权重参数矩阵更换为新构建的具有不同参数的6个VQC, 每一个VQC根据所处的门的位置来实现不同的功能.
-
图4给出了HQLSTM细胞中的VQC结构, 由编码层、变分层、测量层三部分组成.
-
编码层用于实现经典数据到量子数据之间的转换, 由于本文使用量子网络对大量图片进行分类, 将会给网络模型带来较大复杂度. 因此本文采用角度编码的方式来减少网络模型的深度, 从而提升网络模型的训练速度. 具体过程由Ry门和H门实现.
Ry门和H门可表示为
$ \begin{split} & {{\boldsymbol{R}}_y}(\alpha ) = \begin{bmatrix} {\cos \dfrac{\alpha }{2}}&{ - \sin \dfrac{\alpha }{2}} \\ {\sin \dfrac{\alpha }{2}}&{\cos \dfrac{\alpha }{2}} \end{bmatrix},\\ &{{\boldsymbol{H}}} = \frac{1}{{\sqrt 2 }}\begin{bmatrix} 1 & 1 \\ 1 & {-1} \end{bmatrix}. \end{split} $ 编码具体过程如下: 首先, 量子H门将初始化量子态
$\left| 0 \right\rangle \otimes \cdots \otimes \left| 0 \right\rangle $ 转化为纠缠态, 如(13)式所示:$ \begin{split} &\; {({\boldsymbol{H}}\left| 0 \right\rangle )^{ \otimes N}} = \frac{1}{{\sqrt {{2^N}} }}{(\left| 0 \right\rangle + \left| 1 \right\rangle )^{ \otimes N}} \\ =\;& \frac{1}{{\sqrt {{2^N}} }}(\left| 0 \right\rangle \otimes \cdots \otimes \left| 0 \right\rangle + \cdots + \left| 1 \right\rangle \otimes \cdots \otimes \left| 1 \right\rangle ). \\ =\;& \frac{1}{{\sqrt {{2^N}} }}\sum\limits_{i = 0}^{{2^N} - 1} {\left| i \right\rangle } . \end{split} $ 然后, 再将经典数据
$({x_1}, {x_2}, \cdots, {x_n})$ 分别作用于每一个量子比特上Ry门的角度参数, 最终转换为量子态可表示为$( \otimes _{i = 0}^{N - 1}{{\boldsymbol{R}}_y}(\arctan ({x_i})){\boldsymbol{H}}){\left| 0 \right\rangle ^{ \otimes N}}$ . 其中, n为经典数据的维数, N为量子比特数.由于直接将二维图像数据作为序列输入, 会造成图像空间特征的损失, 因此本文在HQLSTM每一个记忆细胞中均采用Choquet离散积分算子对图像数据和前一时刻HQLSTM记忆细胞的隐藏层输出
${h_{t - 1}}$ 进行聚合, 达到减少输入数据大小、避免图像空间特征损失以及加强记忆细胞间相互关联的目的. 以28 × 28的图像数据为例, 将其加载到图4所示4量子比特VQC的详细原理及过程如下.步骤1 为利用一副图片内部数据的相互关联, 并减少量子比特数, 首先将预处理后的28 × 28的图像数据分割为49份4 × 4的图像数据, 并将隐藏层的维数设为1 × 4, 其后将4×4图像数据和1 × 4隐藏层数据进行拼接得到大小为5 × 4的经典数据.
步骤2 为避免图像空间特征的损失, 将上一步大小为5×4的经典数据经过Choquet离散积分算子得到大小为1×4的聚合数据加载到4量子比特的VQC中. Choquet离散积分算子的具体聚合过程如下所示:
$ \begin{split} v(h,x)=\;& {\rm{Ch}}_v^r({\widetilde h_{t - 1}},{{\tilde x}_1'},{{\tilde x}_2'},{{\tilde x}_3'},{{\tilde x}_4'}) \\ =\;& ({\rm{Ch}}{_{v0}}({h_{t - 1,1}},{x_{1,1}},{x_{2,1}},{x_{3,1}},{x_{4,1}}), \\ &{\rm{Ch}}{_{v1}}({h_{t - 1,2}},{x_{1,2}},{x_{2,2}},{x_{3,2}},{x_{4,2}}),\\ &{\rm{Ch}}{_{v2}}({h_{t - 1,3}},{x_{1,3}},{x_{2,3}},{x_{3,3}},{x_{4,3}}), \\ & {\rm{Ch}}{_{v3}}({h_{t - 1,4}},{x_{1,4}},{x_{2,4}},{x_{3,4}},{x_{4,4}})), \end{split} $ 式中, 4项Choquet离散积分均可由(9)式得到一个具体的聚合数据,
${h_t}$ 为$t$ 时刻HQLSTM记忆细胞隐藏层的输出.${x_{i, j}}$ 为28×28的图像数据中的第$i$ 行、第$j$ 列.步骤3 经过步骤1、步骤2, 一幅28 × 28的原始图片被转换为49份1 × 4的聚合数据, 因此将HQLSTM网络中记忆细胞更新次数(即time_step)设置为49, 并将记忆细胞的输出值与经典全连接层进行连接, 通过激活函数得到每一类的输出概率值, 概率值最大的即为当前图像的分类类别.
-
为使量子网络梯度更新方向不以任何参数为目标且具有在量子态空间定义的度量张量, 从而使量子网络优化方式更具泛化性、更快收敛, 因此变分层设计主要根据本文的量子自然梯度优化算法原理, 即通过变分层第1部分的参数化单量子比特门
${{\boldsymbol{R}}_y}$ 的测量结果, 以及经过多个CNOT双量子比特门的第2部分参数化单量子比特门${{\boldsymbol{R}}_y}$ 的测量结果共同构成Fubini-Study度量张量g, 从而完成网络参数的更新, 达到优化网络模型的效果.当N为偶数时, 变分层构造过程可表示为
$ \begin{split} &( \otimes _{i = 0}^{N - 1}{{\boldsymbol{R}}_y}({w_i}))({\text{CNO}}{{\text{T}}_{N - 2,N - 1}}\\ &\quad\cdots{\text{CNO}}{{\text{T}}_{1,2}}{\text{CNO}}{{\text{T}}_{0,1}}){\text{CNO}}{{\text{T}}_{N - 1,0}} \\ &\quad ({\text{CNO}}{{\text{T}}_{N - 3,N - 1}}\cdots{\text{CNO}}{{\text{T}}_{1,3}}{\text{CNO}}{{\text{T}}_{0,2}})\\ &\quad ({\text{CNO}}{{\text{T}}_{N - 1,N - 3}}\cdots{\text{CNO}}{{\text{T}}_{3,1}}{\text{CNO}}{{\text{T}}_{2,0}}), \end{split} $ 当N为奇数时, 变分层构造过程可表示为
$ \begin{split} & ( \otimes _{i = 0}^{N - 1}{{\boldsymbol{R}}_y}({w_i}))({\text{CNO}}{{\text{T}}_{N - 2,N - 1}}\\ &\quad \cdots{\text{CNO}}{{\text{T}}_{1,2}}{\text{CNO}}{{\text{T}}_{0,1}}){\text{CNO}}{{\text{T}}_{N - 1,0}}\\ &\quad({\text{CNO}}{{\text{T}}_{N - 1,N - 2}}\cdots{\text{CNO}}{{\text{T}}_{2,1}}{\text{CNO}}{{\text{T}}_{{\text{1,0}}}}), \end{split} $ 其中,
${\text{CNO}}{{\text{T}}_{i, j}}$ 代表作用于第$i$ 和第$j$ 量子位的双量子比特门. -
测量层用于对量子比特进行测量操作. 由于期望值能够从量子电路中提取有用信息, 因此为了能够更大限度的保留输入数据中的信息, 本文利用泡利Z门对每一个量子比特进行测量, 再将测量得到的期望值
${b_i}$ 作为下一层${{\boldsymbol{R}}_y}$ 门的参数, 从而连接两个量子电路, 实现对量子电路中测量信息的有效利用:$ {\boldsymbol{Z}} = \left[ {\begin{array}{*{20}{c}} 1&0 \\ 0&{ - 1} \end{array}} \right] = \left| 0 \right\rangle \left\langle 0 \right| - \left| 1 \right\rangle \left\langle 1 \right|, $ $\begin{split} &{b_i} = \left\langle {\left. {\delta _z^i} \right\rangle } \right._{i = 1}^N \\ =\;& \left\langle 0 \right|{\boldsymbol{U}}_0^ + (x){\boldsymbol{U}}_i^ + ({{\boldsymbol{\theta}} _i}){\boldsymbol{ZU}}_i({{\boldsymbol{\theta}} _i}){\boldsymbol{U}}_0^{}(x)\left| 0 \right\rangle \\ =\; & \left\langle x \right|{\boldsymbol{U}}_i^ + ({{\boldsymbol{\theta}} _i}){\boldsymbol{ZU}}_i({{\boldsymbol{\theta}} _i})\left| x \right\rangle,\\[-10pt] \end{split}$ 其中, Z为泡利Z门,
$N$ 为VQC中的量子比特数,$\left\langle {\left. {\delta _z^i} \right\rangle } \right.$ 为作用于第$i$ 个量子比特上的泡利Z门测量的期望值,${{\boldsymbol{U}}_0}(x)$ 为VQC中编码层的单量子比特旋转门${{\boldsymbol{R}}_y}$ ,${{\boldsymbol{U}}_i}({\theta _i})$ 为VQC中变分层的单量子比特旋转门${{\boldsymbol{R}}_y}$ . -
利用VQC1实现遗忘门操作, 经Choquet离散积分算子处理后得到的大小为1 × 4的经典数据
$v(h, x)$ 经过量子角度编码输入到VQC1, 经过VQC1变分层中的各个旋转门及CNOT门之后, 再利用泡利Z门分别对4个量子比特进行测量, 将测量得到的1 × 4维经典期望值作为VQC1的输出. 其后, 通过Sigmoid激活函数作用于该输出, 使其值处于[0, 1]之间, 从而得到遗忘程度$f(t)$ ,$f(t)$ 的值决定了上一时刻记忆细胞${c_{t - 1}}$ 的保留与丢弃:$ v(t) = {\rm{Ch}}_V^r({h_{t - 1}},{x_t}), $ $ \begin{split} {f_t} =\;& \delta ({\rm VQC}_1 (v(t)) = \delta ({\left\langle {\left. {\delta _z^i} \right\rangle } \right._f}) \\ & = \frac{1}{{1 + \exp \{ - a({{\left\langle {\left. {\delta _z^i} \right\rangle } \right.}_f} - c)\} }}. \end{split} $ -
利用VQC2和VQC3实现输入门操作, 经Choquet离散积分算子处理后得到的大小为1 × 4的经典数据
$v(h, x)$ 经过量子角度编码分别输入到VQC2和VQC3, 经过VQC2和VQC3变分层中的各个旋转门及CNOT门之后, 再利用泡利Z门分别对4个量子比特进行测量, 将测量得到的1 × 4维经典期望值分别作为VQC2和VQC3的输出. 其后, 通过Sigmoid激活函数作用于VQC2的输出, 使其值处于[0, 1]之间, 从而得到输入程度${i_t}$ , 通过tanh激活函数作用于VQC3的输出, 使其值处于[–1, 1]之间, 从而得到记忆细胞候选量${k_t}$ , 最终通过计算$f(t) \otimes {c_{t - 1}}$ 和${i_t} \otimes {k_t}$ 之和, 来生成当前记忆细胞状态量${c_t}$ :$ \begin{split} {i_t} &\;= \delta ({\text{VQ}}{{\text{C}}_2}(v(t)) = \delta ({\left\langle {\left. {\delta _z^i} \right\rangle } \right._i}) \\ &= \frac{1}{{1 + \exp \{ - a({{\left\langle {\left. {\delta _z^i} \right\rangle } \right.}_i} - c)\} }}, \end{split} $ $ \begin{split} & {k_t} = \tanh ({\text{VQ}}{{\text{C}}_3}(v(t)) \\ =\;& \frac{{\exp \{ - a({{\left\langle {\left. {\delta _z^i} \right\rangle } \right.}_k} - c)\} - \exp \{ a({{\left\langle {\left. {\delta _z^i} \right\rangle } \right.}_k} - c)\} }}{{\exp \{ - a({{\left\langle {\left. {\delta _z^i} \right\rangle } \right.}_k} - c)\} - \exp \{ a({{\left\langle {\left. {\delta _z^i} \right\rangle } \right.}_k} - c)\} }}, \end{split} $ $ {c_t} = {f_t} \otimes {c_{t - 1}} \oplus {i_t} \otimes {k_t}. $ -
利用VQC4实现输出门操作, 经Choquet离散积分算子处理后得到的大小为1×4的经典数据
$v(h, x)$ 经过量子角度编码输入到VQC4, 经过VQC4变分层中的各个旋转门及CNOT门之后, 再利用泡利Z门分别对4个量子比特进行测量, 将测量得到的1 × 4维经典期望值分别作为VQC4的输出. 其后, 通过Sigmoid激活函数作用于VQC4的输出, 使其值处于[0, 1]之间, 从而得到输出程度${o_t}$ . 之后为保持隐藏层维度和最终输出维度一致, 将${o_t} \otimes \tanh ({c_t})$ 得到的1 × 4维经典数据分别作为VQC5和VQC6的输入, 与其他VQC操作类似, 最后利用泡利Z门分别对4个量子比特进行测量, 得到的1 × 4维经典期望值作为VQC5和VQC6的输出${h_t}$ 和${y_t}$ :$ \begin{split} {o_t}& = \delta ({\text{VQ}}{{\text{C}}_4}(v(t)) = \delta ({\left\langle {\left. {\delta _z^i} \right\rangle } \right._o}) \\ & = \frac{1}{{1 + \exp \{ - a({{\left\langle {\left. {\delta _z^i} \right\rangle } \right.}_o} - c)\} }}, \end{split} $ $ \begin{split} & {h_t} = {\rm VQC}_5 ({o_t} \otimes \tanh ({c_t})), \\ & {y_t} = {\text{VQ}}{{\text{C}}_6}({o_t} \otimes \tanh ({c_t})). \end{split} $ 其中,
$\left\langle {\left. {\delta _z^i} \right\rangle } \right.$ 为VQC中测量层利用泡利Z门测量的期望值. -
由于一般的梯度下降算法存在泛化性差且收敛速度慢的缺点, 因此本文采用量子自然梯度优化算法对VQC角度参数进行更新, 量子态空间存在一种独特的酉不变度量张量Fubini-Study, 而量子自然梯度优化算法利用该张量计算所得到的梯度下降算法是对自然梯度的直接量子模拟, 能使梯度下降的方向不以任意一个参数为目标, 具有更强的适用性, 同时达到网络模型更快收敛的目的[36]. 该优化算法具体计算过程如下所示.
第1步 定义损失函数
$ L(x;\theta ) $ 和损失函数梯度$\nabla L(x;\theta )$ .$\begin{split} L(x;\theta )\; & = \left\langle 0 \right|{\boldsymbol{U}}_0^ + ({\boldsymbol{x}}){{\boldsymbol{U}}^ + }({\boldsymbol{\theta}}){\boldsymbol{HU}}({\boldsymbol{\theta}} ){{\boldsymbol{U}}_0}({\boldsymbol{x}})\left| 0 \right\rangle \\ &= \left\langle x \right|{{\boldsymbol{U}}^ + }({\boldsymbol{\theta}} ){\boldsymbol{HU}}({\boldsymbol{\theta}} )\left| x \right\rangle ,\end{split} $ $ \nabla L(x;{\theta _t}) = \frac{{\partial L(x;{\theta _t})}}{{\partial \theta_t}} = \frac{1}{2} \Big[L\Big(x;{\theta _t} + \frac{{\text{π }}}{2}\Big) - L\Big(x;{\theta _t} + \frac{{\text{π }}}{2}\Big)\Big], $ 其中,
$ {\boldsymbol{U}}({\boldsymbol{\theta}} ) $ 为酉算子,$ {{\boldsymbol{U}}_0}({\boldsymbol{x}}) $ 为用于角度编码的量子${{\boldsymbol{R}}_y}$ 门,${\boldsymbol{H}}$ 为哈密顿算子, 本文利用单比特量子旋转${{\boldsymbol{R}}_y}$ 门作为酉算子、泡利Z矩阵为哈密顿算子.第2步 由于损失函数
$L(x;\theta )$ 是非凸函数, 寻找全局最优较为困难, 因此通过(28)式的离散时间动力系统来迭代寻转局部最优:$ {\theta _{t + 1}} = \mathop {\arg \min }\limits_{\theta \in R} \Big[\langle {\theta - {\theta _t}} , {\nabla L({\theta _t})} \rangle + \frac{1}{{2\eta }} \| {\langle {\theta - {{\theta _t}} \rangle } } \|_{g({\theta _t})}^2 \Big] , $ $ \left\| {\left\langle {\theta - \left. {{\theta _t}} \right\rangle } \right.} \right\|_{g({\theta _t})}^2 = \left\langle {\theta - {\theta _t}} \right.,\left. {{\boldsymbol{g}}({{\boldsymbol{\theta}} _t})(\theta - {\theta _t})} \right\rangle , $ 其中,
$\eta $ 为学习率,$ {\boldsymbol{g}}({\boldsymbol{\theta }}) $ 为Fubini-Study度量张量.本文VQC电路中Fubini-Study度量张量的计算过程如下所示(其部分VQC结构如图5所示).
图 5 计算Fubini-Study度量张量的部分VQC结构
Figure 5. Calculate part of the VQC structure of the Fubini-Study metric tensor.
一般的变分量子电路可表示为
$\begin{split} {\boldsymbol{U}}(\theta )\left| {{\varphi _0}} \right\rangle =\;& {{\boldsymbol{V}}_L}({\theta _L}){{\boldsymbol{W}}_L}{{\boldsymbol{V}}_{L - 1}}({\theta _{L - 1}}){{\boldsymbol{W}}_{L - 1}}\\ &\cdots{{\boldsymbol{V}}_l}({\theta _l}){{\boldsymbol{W}}_l}\cdots{{\boldsymbol{V}}_0}({\theta _0}){{\boldsymbol{W}}_0}\left| {{\varphi _0}} \right\rangle, \end{split}$ 其中,
$\left| {{\varphi _0}} \right\rangle $ 为初始量子态,${{\boldsymbol{V}}_l}({\theta _l})$ 参数化量子门, 参数总个数为${\theta _l} = \left\{ {\theta _0^l} \right., \theta _1^l, \theta _2^l, . .., \left. {\theta _n^l} \right\}$ ,${{\boldsymbol{W}}_l}$ 为非参数化的量子门.假设所有的参数化量子门均可表示为
$X(\theta _i^{(l)}) = {{\text{e}}^{{\text{i}}\theta _i^lk_i^l}}$ ,$k_i^l$ 是第i个量子比特上参数化量子门的生成器. 那么在变分量子电路中每一层的${g_{ij}}$ 的对角子矩阵可表示为$\begin{split} {\boldsymbol{g}}_{ij}^{(l)} =\; & \left\langle {{\varphi _{l - 1}}} \right|{k_i}{k_j}\left| {{\varphi _{l - 1}}} \right\rangle \\ &- \left\langle {{\varphi _{l - 1}}} \right|{k_i}\left| {{\varphi _{l - 1}}} \right\rangle \left\langle {{\varphi _{l - 1}}} \right|{k_i}\left| {{\varphi _{l - 1}}} \right\rangle ,\end{split} $ 其中,
$ {\varphi _{l - 1}} = {{\boldsymbol{V}}_{l - 1}}({\theta _{L - 1}}){{\boldsymbol{W}}_{l - 1}} \cdots{{\boldsymbol{V}}_l}({\theta _l}){{\boldsymbol{W}}_l}\cdots{{\boldsymbol{V}}_0}({\theta _0}){{\boldsymbol{W}}_0}\left| {{\varphi _0}} \right\rangle . $ 因此, 本文利用(32)式
${\boldsymbol{g}}$ 来代表Fubini-Study度量张量:$ {\boldsymbol{g}} = \left[ {\begin{array}{*{20}{c}} {{g^0}}&0 \\ 0&{{g^1}} \end{array}} \right]. $ 对第一个参数化量子门的层前面的
${v_0}({\theta _0}, {\theta _1})$ 的前两个比特做测量, 得到${{\boldsymbol{g}}^0}$ :$ {{\boldsymbol{g}}^0} = \left[ \begin{array}{*{20}{c}} \left\langle {z_0^2} \right\rangle - {{\left\langle {{z_0}} \right\rangle }^2} & {\left\langle {{z_0}{z_1}} \right\rangle - \left\langle {{z_0}} \right\rangle \left\langle {{z_1}} \right\rangle } \\ {\left\langle {{z_0}{z_1}} \right\rangle - \left\langle {{z_0}} \right\rangle \left\langle {{z_1}} \right\rangle }& \left\langle {z_1^2} \right\rangle - \left\langle {{z_1}} \right\rangle ^2 \end{array} \right]. $ 对第2个参数化量子门的层前面的
${v_1}({\theta _2}, {\theta _3})$ 的前两个比特做泡利y和泡利x测量, 得到${{\boldsymbol{g}}^1}$ :$ {{\boldsymbol{g}}^1} = \left[ \begin{array}{*{20}{c}} \left\langle y_1^2 \right\rangle - \left\langle y_1 \right\rangle^2 &{\left\langle {{y_1}{x_2}} \right\rangle - \left\langle {{y_1}} \right\rangle \left\langle {{x_2}} \right\rangle } \\ {\left\langle {{y_1}{x_2}} \right\rangle - \left\langle {{y_1}} \right\rangle \left\langle {{x_2}} \right\rangle }& \left\langle x_2^2 \right\rangle - \left\langle {{x_2}} \right\rangle ^2 \end{array} \right]. $ 第3步 利用(28)式的一阶最优条件来优化参数. 将求得的Fubini-Study度量张量
${\boldsymbol{g}}$ 代入(35)式即可得到更新后的参数值:$ {\boldsymbol{g}}({\theta _t})({\theta _{t + 1}} - {\theta _t}) = - \eta \nabla L({\theta _t}) , $ $ {\theta _{t + 1}} = {\theta _t} - \eta {{\boldsymbol{g}}^ + }({\theta _t})\nabla L({\theta _t}) . $ -
为验证分类器的性能, 本文采用3个公开的数据集进行实验, 分别是灰度图像数据集MNIST和FASHION_MNIST以及RGB图像数据集CIFAR. 图6(a)为MNIST手写数据样本示例, 包括数字0—9十大类. 图6(b)为FASHION_MNIST服饰数据样本示例, 包括T恤、牛仔裤、套衫、裙子、外套、凉鞋、衬衫、运动鞋、包、短靴十大类. 图6(c)为CIFAR数据样本示例, 包括飞机、汽车、鸟类、猫、鹿、狗、蛙类、马类、船、卡车十大类. 首先对3种数据集均进行一些必备的预处理操作, 包括图片平移、翻转、旋转、去噪、归一化. 之后各随机抽取30000样本作为训练集, 随机抽取10000样本作为测试集, 每一个灰度图片的尺寸为28 × 28, 彩色图片尺寸为32 × 32.
-
本文实验中LSTM, QLSTM[35]和HQLSTM网络模型参数如表1和表2所示.
参数 数量 Input_size 4 Hidden_size 4 Time_step 49 Dropout比率 0.15 Batch 128 网络层数 2 输出节点数 10 学习率 0.001 表 1 LSTM网络模型参数
Table 1. LSTM network model parameters.
参数 数量 输入量子比特数 4 Hidden_size 4 Time_step 49 Dropout比率 0.15 Batch 128 网络层数 2 输出节点数 10 学习率 0.001 表 2 QLSTM和HQLSTM网络模型参数
Table 2. QLSTM and HQLSTM network model parameters.
-
为验证本文所提出的HQLSTM网络模型的性能, 采用分类精度Accuracy和交叉熵验证损失值Loss两个方法对网络模型进行评价分析.
$ {\text{Accuracy}} = \frac{{\displaystyle\sum\nolimits_{i,i = j} {T_i}(j)}} {\displaystyle\sum\limits _{i,i = j}{T_i}(j) + \sum\limits_i \sum\limits_{j,i \ne j}{F_i}(j) } , $ $ {\text{Loss}} = \frac{1}{N}\sum\limits_{p = 0}^{N - 1} { - \log \left(\dfrac{{{{\text{e}}^{{y_p}}}}}{{\displaystyle\sum\nolimits_{j = 0}^{N - 1}{{\text{e}}^{{y_j}}}} }\right)} . $ (37)式中
${T_i}(j), i = j:$ 真实类别为$i$ , 正确分类为类别$i$ 的总数量.${F_i}(j), i \ne j:$ 真实类别为$j$ , 错误分类为$i$ 的总数量.$i, j = 1, 2, \cdots , N$ .$N$ 为总类别数. (38)式中${y_p}$ 为预测的类别,${y_i}$ 为真实的类别. -
本文采用LSTM, QLSTM, HQLSTM三种网络模型分别针对MNIST, FASHION-MNIST和CIFAR三种图像数据集进行分类实验, 其中MNIST, FASHION-MNIST为灰度图, CIFAR为彩色图.
-
图7(a)给出了在MNIST数据集上3种模型的分类精度随着迭代次数的变化情况. 可以看出, 当迭代次数大于80后, 3种模型的分类精度趋于稳定, 而HQLSTM模型由于深度的网络记忆功能以及量子计算的并行计算能力使分类精度最高达到99.154%, LSTM分类精度最低为97.306%. 图7(b)给出了在MNIST数据集上3种模型利用随机梯度下降(stochastic gradient descent, SGD)优化算法得到的交叉熵损失函数随着迭代次数的变化情况. 可以看出, 当迭代次数小于10时, 3种模型的损失值趋于一致. 但当迭代次数大于10后, 随着迭代次数增多, 量子网络模型深度记忆功能得以体现, HQLSTM的损失值达到最低. 图8为在HQLSTM模型中, 利用本文提出的量子自然梯度优化算法和普通批梯度下降算法两种不同优化算法的损失值对比, 可以看出, 在MNIST数据集中, 本文所采用的量子自然梯度优化算法具有的独特的参数更新策略使损失值下降的更快且更低.
-
图9(a)给出了在FASHION-MNIST数据集上QLSTM, LSTM, HQLSTM三种模型分类精度随着迭代次数的变化情况. 可以看出, 在更复杂的数据集中, 由于HQLSTM网络模型较强的泛化性以及较深的网络记忆功能, 整个迭代过程中HQLSTM的分类精度始终高于QLSTM和LSTM. 当迭代次数大于60后, 3种网络的分类精度均趋于稳定, HQLSTM的分类精度达到最高为98.273%, QLSTM和LSTM基本持平. 图9(b)给出了在FASHION-MNIST数据集上3种模型利用SGD优化算法得到的交叉熵损失函数随着迭代次数的变化情况. 可以看出, HQLSTM的损失值始终低于QLSTM和LSTM. 当迭代次数大于60次后, 3种模型的损失值基于趋于稳定, HQLSTM的损失值达到最低, LSTM达到最高. 图10为在HQLSTM模型中, 普通批梯度下降算法和量子自然梯度优化算法两种不同优化算法的损失值对比, 可以看出, 在FASHION-MNIST数据集中, 本文所采用的量子自然梯度优化算法也同样比普通批梯度下降算法达到的损失值更低.
-
为了进一步验证HQLSTM对复杂彩色图像数据集的分类效果, 本节利用CIFAR彩色图像数据集进行分类验证, 由于CIFAR为三通道RGB图像数据集且每幅图像的大小为32 × 32, 当采用Choquet积分算子得到1 × 4维的输入数据时, 需要将time_step设置为192. 图11(a)给出了在CIFAR彩色图像数据集上LSTM, QLSTM, HQLSTM三种模型分类精度随着迭代次数的变化情况. 可以看出, HQLSTM的分类精度也始终高于LSTM和QLSTM. HQLSTM最高分类精度为98.631%, QLSTM最高分类精度为96.334%, LSTM最高分类精度为92.671%. 图11(b)给出了在CIFAR彩色图像数据集上3种模型利用SGD优化算法得到的交叉熵损失函数随着迭代次数的变化情况. 可以看出, HQLSTM的损失值始终低于QLSTM和LSTM. 说明HQLSTM在彩色数据集上同样具有较快的收敛速度. 因此, 本文提出的HQLSTM网络模型无论对灰度图还是RGB图像, 均实现了较优的性能.
图 11 CIFAR彩色数据集 (a)分类精度对比; (b)损失函数值对比
Figure 11. CIFAR color dataset: (a) Classification accuracy; (b) comparison of loss value.
表3给出QLSTM[35], HQLSTM与经典LSTM三种网络模型在MNIST, FASHION-MNIST和CIFAR三种图片数据集下所实现的分类精度. 在MNIST数据集上, 本文提出的HQLSTM网络模型达到了最高的分类精度99.154%, LSTM和文献[35]中提出的量子LSTM网络模型分类精度基本持平, 分别为97.306%和97.894%; 在FASHION-MNIST数据集上, 本文提出的HQLSTM网络模型也达到了最高的分类精度98.273%, QLSTM的分类精度次之, 为96.865%, LSTM的分类精度最低为96.829%. 在CIFAR彩色数据集中, HQLSTM网络模型也达到了最高的分类精度98.631%, QLSTM的分类精度为96.334%, LSTM的分类精度为92.671%. 可以看出, 不管针对灰度图或者彩色图, HQLSTM均优于其他的两种模型, 进一步证明了HQLSTM网络模型的优势.
网络模型 数据集 类别总数 分类精度/% Ref. [35] MNIST 10 97.894 FASHION-MNIST 10 96.865 CIFAR 10 96.334 HQLSTM MNIST 10 99.154 FASHION-MNIST 10 98.273 CIFAR 10 98.631 经典LSTM MNIST 10 97.306 FASHION-MNIST 10 96.829 CIFAR 10 92.671 表 3 不同网络模型图像分类精度比较
Table 3. Comparison of image classification accuracy of different network models.
-
机器学习模型的复杂度通常由空间复杂度和时间复杂度来衡量, 因此下面主要从这两个方面进行分析.
-
空间复杂度取决于机器学习模型的参数数量. 在长短期记忆网络训练过程中, 总的参数数量与记忆细胞数量及时间步(time_step)数有关, 这里以一个记忆细胞在一个时间步的参数个数为例进行分析.
根据LSTM网络结构, 将一个记忆细胞在一个time_step的参数个数记为
${p_1}$ :$ {p_1} = 4 \times ((n + h) \times h + h) + h \times m + m, $ 式中,
$n$ 为输入大小,$h$ 为隐藏层大小,$m$ 为经过全连接层映射最终输出大小. 式中$4 \times ((n + h) \times h + h)$ 表示记忆细胞中所有权重参数个数,$h \times m + m$ 表示全连接层参数个数.对于QLSTM网络, 将一个记忆细胞在一个time_step的参数个数记为
${p_2}$ :$ {p_2} = 6 \times (N \times d) + N \times m + m, $ 其中,
$N$ 为VQC中量子比特的个数,$d$ 为VQC中变分层的深度. 式中$6 \times (N \times d)$ 为6个VQC电路中所有的角度参数个数,$N \times m + m$ 为全连接层参数个数.对于HQLSTM网络, 将一个记忆细胞在一个time_step的参数个数记为
${p_3}$ :$ {p_3} = 6 \times (N \times 2 \times d) + N \times m + m. $ 在本文中, LSTM网络的隐藏层大小h等于输入层大小n. 同时, 为保证QLSTM网络与HQLSTM网络具有相同的纠缠程度, 在具有1层VQC结构的QLSTM中, d = 2, 而在具有2层VQC结构的HQLSTM中, d = 1. 此外, 3种模型的全连接层的参数个数是相同的, 因此在比较三者的空间复杂度时, 忽略这一部分影响. 根据(39)式—(41)式可以得到3种模型除全连接层之外, LSTM网络的空间复杂度为
$O(8{n^2})$ , 而QLSTM网络与HQLSTM网络的空间复杂度均为$O(12 n)$ . 因此, 相比于经典LSTM网络, 量子LSTM网络的空间复杂度显著降低. -
对于经典机器学习模型, 当计算硬件资源能力一定的情况下, 时间复杂度主要取决于模型的浮点运算次数FLOPs (floating point operations).
根据2.1节中的经典LSTM的记忆细胞结构, 在一个time_step中, 一次细胞更新所需的FLOPs主要取决于遗忘门、输入门、输出门中的矩阵乘、加运算量, 根据 (1)—(3)式和(6)式, 可得一个LSTM记忆细胞更新的运算量C1(FLOPs)为
$ {C_{\text{l}}} = (n + h) \times h \times 8 + 12 \times h. $ 在本文中, LSTM网络的隐藏层大小h等于输入层大小n, 由(42)式可以得到LSTM网络的时间复杂度为
$O(16{n^2} + 12 n)$ .对于量子机器学习模型, 文献[37]指出执行量子电路算法的时间复杂度是由在给定的容错范围内成功执行该算法所需的操作数所决定. 在文献[38,39]中均采用量子电路中量子门的总数量衡量其时间复杂度. 参照该方法, 本文首先给出在一个time_step, 一次细胞更新过程中, QLSTM网络及HQLSTM网络的量子门数量.
一个QLSTM记忆细胞所需单量子比特操作数量为
$ 12 N + 6 \times Nd $ , 所需CNOT门操作数量为$ 6 \times 2 Nd $ . 根据3.1节HQLSTM网络结构, 一个HQLSTM记忆细胞所需单量子比特操作数量为$ 24 N + 6 \times 2 Nd $ 、所需CNOT门操作数为$ 6 \times 4 Nd $ .为保证QLSTM网络与HQLSTM网络具有相同的纠缠程度, 在具有1层VQC结构的QLSTM中, d = 2, 而在具有2层VQC结构的HQLSTM中, d = 1. 此外, 由于单比特量子门的操作时间远低于双比特量子门, 一般可以忽略单比特量子门的操作时间. 因此可以得到QLSTM网络及HQLSTM网络的时间复杂度均为
$O(24 n)$ .尽管如此, 并不能将经典LSTM网络的时间复杂度
$O(16{n^2} + 12 n)$ 与QLSTM网络及HQLSTM网络的时间复杂度$O(24 n)$ 直接进行比较, 也并不能简单地认为量子LSTM的时间复杂度优于经典LSTM. 下面主要从两个方面进行讨论.一方面, 在量子机器学习模型中, 由于执行双量子比特门CNOT操作所需时间较长, 为其计算优势带来了一定的挑战. 例如, 在离子阱量子计算机系统演示原型中, 单量子门操作需要几微秒, 双量子门操作需要10—100 μs. 而对于普通经典计算机, 一次浮点运算约需50 ps. 近年来, 实现更快的量子操作门成为量子计算机发展的重要目标. 2018年, Watson等[40]在天然硅锗量子点中利用电驱动自旋共振(electrically driven spin resonance, EDSR)在280 ns内演示了CNOT门操作. 2022年, Chew等[41]实现了在纳秒时间尺度上完成超快能量交换, 这种超快相干动力学产生的条件相位是量子门的关键资源, 开辟了量子模拟和量子计算在偶极-偶极相互作用设定的速度极限下运行的路径, Ohmori团队[41]使用10 ps的特殊激光束操纵铷原子, 实现了6.5 ns的双量子比特门. 以上研究的突破为提升量子机器学习模型的计算性能具十分积极的意义.
另一方面, 在以VQC为基础的经典-量子混合机器学习模型中, 对特定观测量的期望值的测量是不可缺少的环节. 为此, 在真实量子计算机上, 需要对大量的全同量子态进行多次重复测量从而求得其期望值. 这意味着对于同一组输入数据需要执行多次重复的量子编码、变分与测量过程, 从而造成计算时间的极大消耗, 成为制约VQC性能的关键瓶颈. 传统量子层析所需的测量复杂度为
$O({N^4})$ , 2017年, 杨靖北等[42]提出先利用量子态密度矩阵的对角元素进行观测, 再根据观测结果选择非零的非对角元素观测算符进行测量, 可得出对$d = {2^n}$ 维希尔伯特空间中任意n量子位中含有的l个非零本征值的叠加态进行重构所需最少测量次数为$d + 2 l - 3$ . 2020年, Gokhale等[43]将VQC电路所需的$O({N^4})$ 项单独测量划分为可同时测量的线性大小的可交换族, 最后通过算法演示可将$O({N^4})$ 缩减为$O({N^3})$ . 2021年, Huang等[44]通过设计以相干量子态为输入且经过希尔伯特空间映射的相干量子态为输出的量子机器学习模型, 分析得到该模型预测泡利观测期望值的测量复杂度仅为$O(n)$ . 以上研究的展开是实现量子变分方法及其应用的关键基础, 也将是作者后续研究工作的重要内容. 同时, VQC的优势也不容忽视. 一方面, VQC为量子神经网络提供了一个通用框架, 其参数数量与经典网络相比有明显降低, 已被应用于分类、深度强化学习等领域, 另一方面, 由于目前NISQ设备仍然缺乏量子纠错和容错量子计算能力, 而VQC已被证明对噪声具有鲁棒性, 因此VQC可避免现有NISQ设备存在的复杂量子误差. 相信随着研究的不断突破, 未来VQC还有广泛的应用空间. -
量子深度学习正处于快速发展的阶段, 但是现有量子神经网络未充分利用网络之间的记忆功能, 因此通过网络之间的记忆功能来增强网络性能有待提高. 本文提出了一种基于新的VQC的HQLSTM网络模型用于图像分类. 通过将6个不同参数的VQC嵌入HQLSTM网络模型中的不同位置, 从而降低了经典LSTM网络的复杂度, 而且利用量子电路中的纠缠等特性加深了网络模型中记忆细胞内和记忆细胞间的关联程度, 增强了图像数据特征的充分表达. 最后, 利用量子自然梯度优化算法, 能使梯度直接在量子空间模拟, 让参数不沿特定方向更新, 达到模型更快收敛的目的. 同时为了不损失图像的空间特征, 本文在网络模型中引入Choquet离散积分算子进一步聚合数据特征. 通过在MNIST, FASHION-MNIST和CIFAR彩色图像数据集上实验验证可知, HQLSTM实现了较高的分类精度以及较低的空间复杂度. 因此, HQLSTM模型实现了较好的可行性和有效性. 在之后的研究工作中, 也可将该模型广泛应用于医疗诊断、信号处理、语音识别、异常检测等领域.
-
长短期记忆(long-short term memory, LSTM)神经网络通过引入记忆单元来解决长期依赖、梯度消失和梯度爆炸问题, 广泛应用于时间序列分析与预测. 将量子计算与LSTM神经网络结合将有助于提高其计算效率并降低模型参数个数, 从而显著改善传统LSTM神经网络的性能. 本文提出一种可用于图像分类的混合量子LSTM (hybrid quantum LSTM, HQLSTM)网络模型, 利用变分量子电路代替经典LSTM网络中的神经细胞, 以实现量子网络记忆功能, 同时引入Choquet离散积分算子来增强数据之间的聚合程度. HQLSTM网络中的记忆细胞由多个可实现不同功能的变分量子电路(variation quantum circuit, VQC)构成, 每个VQC由三部分组成: 编码层利用角度编码降低网络模型设计的复杂度; 变分层采用量子自然梯度优化算法进行设计, 使得梯度下降方向不以特定参数为目标, 从而优化参数更新过程, 提升网络模型的泛化性和收敛速度; 测量层利用泡利 Z 门进行测量, 并将测量结果的期望值输入到下一层实现对量子电路中有用信息的提取. 在MNIST, FASHION-MNIST和CIFAR数据集上的图像分类实验结果表明, 与经典LSTM、量子LSTM相比, HQLSTM模型获得了较高的图片分类精度和较低的损失值. 同时, HQLSTM、量子LSTM网络空间复杂度相较于经典的LSTM网络实现了明显的降低.
-
关键词:
- 量子神经网络 /
- 变分量子电路 /
- 混合量子长短期记忆神经网络
Long-short term memory (LSTM) neural network solves the problems of long-term dependence, gradient disappearance and gradient explosion by introducing memory units, and is widely used in time series analysis and prediction. Combining quantum computing with LSTM neural network will help to improve its computational efficiency and reduce the number of model parameters, thus significantly improving the performance of traditional LSTM neural network. This paper proposes a hybrid quantum LSTM (hybrid quantum long-short term memory, HQLSTM) network model that can be used to realize the image classification. It uses variable quantum circuits to replace the nerve cells in the classical LSTM network to realize the memory function of the quantum network. At the same time, it introduces Choquet integral operator to enhance the degree of aggregation between data. The memory cells in the HQLSTM network are composed of multiple variation quantum circuits (VQC) that can realize different functions. Each VQC consists of three parts: the coding layer, which uses angle coding to reduce the complexity of network model design; the variation layer, which is designed with quantum natural gradient optimization algorithm, so that the gradient descent direction does not target specific parameters, thereby optimizing the parameter update process and improving the generalization and convergence speed of the network model; the measurement layer, which uses the Pauli Z gate to measure, and the expected value of the measurement result is input to the next layer to extract useful information from the quantum circuit. The experimental results on the MNIST, FASHION-MNIST and CIFAR datasets show that the HQLSTM model achieves higher image classification accuracy and lower loss value than the classical LSTM model and quantum LSTM model. At the same time, the network space complexity of HQLSTM and quantum LSTM are significantly reduced compared with the classical LSTM network.-
Keywords:
- quantum neural networks /
- variational quantum circuits /
- hybrid quantum long short-term memory neural networks
[1] Acharya U R, Oh S L, Hagiwara Y, HongTan J, Adam M, Gertych A, Tan R S 2017 Comput. Biol. Med. 89 389
Google Scholar
[2] Hage S R, Nieder A 2016 Trends Neurosci. 39 813
Google Scholar
[3] Xu S, Liu K, Li X G 2019 Neurocomputing 335 1
Google Scholar
[4] Zhao J, Yang S P, Li Q, Liu Y Q, Gu X H, Liu W P 2021 Measurement 176 109088
Google Scholar
[5] Feng X C, Qin B, Liu T 2018 Sci. China Inf. Sci. 61 092106
Google Scholar
[6] Tsai S T, Kuo E J, Tiwary P 2020 Nat. Commun. 11 5115
Google Scholar
[7] Yadav S S, Jadhav S M 2019 J. Big Data 6 96
Google Scholar
[8] Yan R, Ren F, Wang Z H, Wang L H, Zhang T, Liu Y D, Rao X S, Zheng C H, Zhang F 2020 Methods 173 52
Google Scholar
[9] Xin M, Wang Y 2019 EURASIP J. Image Video Process. 2019 40
Google Scholar
[10] Steane A 1998 Rep. Prog. Phys. 61 117
Google Scholar
[11] Gyongyosi L, Imre S 2019 Comput. Sci. Rev. 31 51
Google Scholar
[12] Egger D J, Gambella C, Marecek J, McFaddin S, Mevissen M, Raymond R, Simonetto A, Woerner S, Yndurain E 2020 IEEE Trans. Quantum Eng. 1 3101724
Google Scholar
[13] Wu N, Song F M 2007 Front. Comput. Sci. 1 1
Google Scholar
[14] He K Y, Geng X, Huang R T, Liu J S, Chen W 2021 Chin. Phys. B 30 080304
Google Scholar
[15] Harrow A W, Hassidim A, Lloyd S 2009 Phys. Rev. Lett. 103 150502
Google Scholar
[16] Grover L K 2005 Phys. Rev. Lett. 95 150501
Google Scholar
[17] Yoder T J, Low G H, Chuang I L 2014 Phys. Rev. Lett. 113 210501
Google Scholar
[18] Kouda N, Matsui N, Nishimura H, Peper F 2005 Neural Comput. Appl. 14 114
Google Scholar
[19] Li P C, Xiao H, Shang F H, Tong X F, Li X, Cao M J 2013 Neurocomputing 117 81
Google Scholar
[20] Li P C, Xiao H 2013 Neural Process. Lett. 40 143
[21] Zhou R G, Ding Q L 2007 Int. J. Theor. Phys. 46 3209
Google Scholar
[22] Cong I, Choi S, Lukin M D 2019 Nat. Phys. 15 1273
Google Scholar
[23] Henderson M, Shakya S, Pradhan S, Cook T 2020 Quantum Mach. Intell. 2 1
Google Scholar
[24] Niu X F, Ma W P 2021 Laser Phys. Lett. 18 025201
Google Scholar
[25] Houssein E H, Abohashima Z, Elhoseny M, Mohamed W M 2022 J. Comput. Des. Eng. 9 343
[26] Hur T, Kim L, Park D K 2022 Quantum Mach. Intell. 4 1
Google Scholar
[27] Chen G M, Chen Q, Long S, Zhu W H, Yuan Z D, Wu Y L 2022 Pattern Anal. Applic. 25 1
Google Scholar
[28] Xia R, Kais S 2020 Entropy 22 828
Google Scholar
[29] Mari A, Bromley T R, Izaac J, Schuld M, Killoran N 2020 Quantum 4 340
Google Scholar
[30] Yu Y, Si X S, Hu C H, Zhang J X 2019 Neural Comput. 31 1235
Google Scholar
[31] Shewalkar A 2019 J. Artif. Intell. Soft 9 235
[32] Hua Y, Mou L, Zhu X X 2019 ISPRS J. Photogramm. Remote Sens. 149 188
Google Scholar
[33] Takáč Z, Ferrero-Jaurrieta M, Horanská Ľ, Krivoňáková N, Dimuro G. P, Bustince H 2021 2021 International Conference on Electrical, Computer and Energy Technologies (ICECET) Malaysia, Kuala Lumpur, June 12–13, 2021 p1
[34] Ma A, Filippi A. M, Wang Z, Yin Z 2019 Remote Sens. 11 194
Google Scholar
[35] Chen S Y C, Yoo S, Fang Y L L 2022 2022 IEEE International Conference on Acoustics, Speech and Signal Processing Singapore May 22–27, 2022 p8622
[36] Stokes J, Izaac J, Killoran N, Carleo G 2020 Quantum 4 269
Google Scholar
[37] Wiebe N 2020 New J. Phys. 22 091001
Google Scholar
[38] Wei S J, Chen Y H, Zhou Z R, Long G L 2022 AAPPS Bull. 32 1
Google Scholar
[39] 赵娅, 郭嘉慧, 李盼池 2021 电子与信息学报 43 204
Google Scholar
Zhao Y, Guo J H, Li P C 2021 J. Electron. Inf. Techn. 43 204
Google Scholar
[40] Watson T F, Philips S G J, Kawakami E, Ward D R, Scarlino P, Veldhorst M, Savage D E, Lagally M G, Friesen M, Coppersmith S N, Eriksson M A, Vandersypen L M K 2018 Nature 555 633
Google Scholar
[41] Chew Y, Tomita T, Mahesh T P, Sugawa S, Léséleuc S D, Ohmori K 2022 Nat. Photonics. 16 724
Google Scholar
[42] 杨靖北, 丛爽, 陈鼎 2017 控制理论与应用 34 15144
Google Scholar
Yang J B, Cong S, Chen D 2017 J. Control Theory Appl. 34 15144
Google Scholar
[43] Gokhale P, Angiuli O, Ding Y, Gui K, Tomesh T, Suchara M, Martonosi M, Chong F T 2020 IEEE Trans. Quantum Eng. 1 1
Google Scholar
[44] Huang H Y, Kueng R, Preskill J 2021 Phys. Rev. Lett. 126 190505
Google Scholar
-
表 1 LSTM网络模型参数
Table 1. LSTM network model parameters.
参数 数量 Input_size 4 Hidden_size 4 Time_step 49 Dropout比率 0.15 Batch 128 网络层数 2 输出节点数 10 学习率 0.001 表 2 QLSTM和HQLSTM网络模型参数
Table 2. QLSTM and HQLSTM network model parameters.
参数 数量 输入量子比特数 4 Hidden_size 4 Time_step 49 Dropout比率 0.15 Batch 128 网络层数 2 输出节点数 10 学习率 0.001 表 3 不同网络模型图像分类精度比较
Table 3. Comparison of image classification accuracy of different network models.
网络模型 数据集 类别总数 分类精度/% Ref. [35] MNIST 10 97.894 FASHION-MNIST 10 96.865 CIFAR 10 96.334 HQLSTM MNIST 10 99.154 FASHION-MNIST 10 98.273 CIFAR 10 98.631 经典LSTM MNIST 10 97.306 FASHION-MNIST 10 96.829 CIFAR 10 92.671 -
[1] Acharya U R, Oh S L, Hagiwara Y, HongTan J, Adam M, Gertych A, Tan R S 2017 Comput. Biol. Med. 89 389
Google Scholar
[2] Hage S R, Nieder A 2016 Trends Neurosci. 39 813
Google Scholar
[3] Xu S, Liu K, Li X G 2019 Neurocomputing 335 1
Google Scholar
[4] Zhao J, Yang S P, Li Q, Liu Y Q, Gu X H, Liu W P 2021 Measurement 176 109088
Google Scholar
[5] Feng X C, Qin B, Liu T 2018 Sci. China Inf. Sci. 61 092106
Google Scholar
[6] Tsai S T, Kuo E J, Tiwary P 2020 Nat. Commun. 11 5115
Google Scholar
[7] Yadav S S, Jadhav S M 2019 J. Big Data 6 96
Google Scholar
[8] Yan R, Ren F, Wang Z H, Wang L H, Zhang T, Liu Y D, Rao X S, Zheng C H, Zhang F 2020 Methods 173 52
Google Scholar
[9] Xin M, Wang Y 2019 EURASIP J. Image Video Process. 2019 40
Google Scholar
[10] Steane A 1998 Rep. Prog. Phys. 61 117
Google Scholar
[11] Gyongyosi L, Imre S 2019 Comput. Sci. Rev. 31 51
Google Scholar
[12] Egger D J, Gambella C, Marecek J, McFaddin S, Mevissen M, Raymond R, Simonetto A, Woerner S, Yndurain E 2020 IEEE Trans. Quantum Eng. 1 3101724
Google Scholar
[13] Wu N, Song F M 2007 Front. Comput. Sci. 1 1
Google Scholar
[14] He K Y, Geng X, Huang R T, Liu J S, Chen W 2021 Chin. Phys. B 30 080304
Google Scholar
[15] Harrow A W, Hassidim A, Lloyd S 2009 Phys. Rev. Lett. 103 150502
Google Scholar
[16] Grover L K 2005 Phys. Rev. Lett. 95 150501
Google Scholar
[17] Yoder T J, Low G H, Chuang I L 2014 Phys. Rev. Lett. 113 210501
Google Scholar
[18] Kouda N, Matsui N, Nishimura H, Peper F 2005 Neural Comput. Appl. 14 114
Google Scholar
[19] Li P C, Xiao H, Shang F H, Tong X F, Li X, Cao M J 2013 Neurocomputing 117 81
Google Scholar
[20] Li P C, Xiao H 2013 Neural Process. Lett. 40 143
[21] Zhou R G, Ding Q L 2007 Int. J. Theor. Phys. 46 3209
Google Scholar
[22] Cong I, Choi S, Lukin M D 2019 Nat. Phys. 15 1273
Google Scholar
[23] Henderson M, Shakya S, Pradhan S, Cook T 2020 Quantum Mach. Intell. 2 1
Google Scholar
[24] Niu X F, Ma W P 2021 Laser Phys. Lett. 18 025201
Google Scholar
[25] Houssein E H, Abohashima Z, Elhoseny M, Mohamed W M 2022 J. Comput. Des. Eng. 9 343
[26] Hur T, Kim L, Park D K 2022 Quantum Mach. Intell. 4 1
Google Scholar
[27] Chen G M, Chen Q, Long S, Zhu W H, Yuan Z D, Wu Y L 2022 Pattern Anal. Applic. 25 1
Google Scholar
[28] Xia R, Kais S 2020 Entropy 22 828
Google Scholar
[29] Mari A, Bromley T R, Izaac J, Schuld M, Killoran N 2020 Quantum 4 340
Google Scholar
[30] Yu Y, Si X S, Hu C H, Zhang J X 2019 Neural Comput. 31 1235
Google Scholar
[31] Shewalkar A 2019 J. Artif. Intell. Soft 9 235
[32] Hua Y, Mou L, Zhu X X 2019 ISPRS J. Photogramm. Remote Sens. 149 188
Google Scholar
[33] Takáč Z, Ferrero-Jaurrieta M, Horanská Ľ, Krivoňáková N, Dimuro G. P, Bustince H 2021 2021 International Conference on Electrical, Computer and Energy Technologies (ICECET) Malaysia, Kuala Lumpur, June 12–13, 2021 p1
[34] Ma A, Filippi A. M, Wang Z, Yin Z 2019 Remote Sens. 11 194
Google Scholar
[35] Chen S Y C, Yoo S, Fang Y L L 2022 2022 IEEE International Conference on Acoustics, Speech and Signal Processing Singapore May 22–27, 2022 p8622
[36] Stokes J, Izaac J, Killoran N, Carleo G 2020 Quantum 4 269
Google Scholar
[37] Wiebe N 2020 New J. Phys. 22 091001
Google Scholar
[38] Wei S J, Chen Y H, Zhou Z R, Long G L 2022 AAPPS Bull. 32 1
Google Scholar
[39] 赵娅, 郭嘉慧, 李盼池 2021 电子与信息学报 43 204
Google Scholar
Zhao Y, Guo J H, Li P C 2021 J. Electron. Inf. Techn. 43 204
Google Scholar
[40] Watson T F, Philips S G J, Kawakami E, Ward D R, Scarlino P, Veldhorst M, Savage D E, Lagally M G, Friesen M, Coppersmith S N, Eriksson M A, Vandersypen L M K 2018 Nature 555 633
Google Scholar
[41] Chew Y, Tomita T, Mahesh T P, Sugawa S, Léséleuc S D, Ohmori K 2022 Nat. Photonics. 16 724
Google Scholar
[42] 杨靖北, 丛爽, 陈鼎 2017 控制理论与应用 34 15144
Google Scholar
Yang J B, Cong S, Chen D 2017 J. Control Theory Appl. 34 15144
Google Scholar
[43] Gokhale P, Angiuli O, Ding Y, Gui K, Tomesh T, Suchara M, Martonosi M, Chong F T 2020 IEEE Trans. Quantum Eng. 1 1
Google Scholar
[44] Huang H Y, Kueng R, Preskill J 2021 Phys. Rev. Lett. 126 190505
Google Scholar
计量
- 文章访问数: 289
- PDF下载量: 18
- 被引次数: 0