Processing math: 0%
  • 中文核心期刊要目总览
  • 中国科技核心期刊
  • 中国科学引文数据库(CSCD)
  • 中国科技论文与引文数据库(CSTPCD)
  • 中国学术期刊文摘数据库(CSAD)
  • 中国学术期刊(网络版)(CNKI)
  • 中文科技期刊数据库
  • 万方数据知识服务平台
  • 中国超星期刊域出版平台
  • 国家科技学术期刊开放平台
  • 荷兰文摘与引文数据库(SCOPUS)
  • 日本科学技术振兴机构数据库(JST)
微信公众号

微信公众号

基于深度强化学习的可重构智能超表面辅助无人机通信联合波束成形与轨迹优化

万诗晴, 仲伟志, 何艺, 靳昊文, 刘响, 朱秋明, 林志鹏

万诗晴,仲伟志,何艺,等. 基于深度强化学习的可重构智能超表面辅助无人机通信联合波束成形与轨迹优化[J]. 电波科学学报,2024,39(4):722-731. DOI: 10.12265/j.cjors.2023233
引用本文: 万诗晴,仲伟志,何艺,等. 基于深度强化学习的可重构智能超表面辅助无人机通信联合波束成形与轨迹优化[J]. 电波科学学报,2024,39(4):722-731. DOI: 10.12265/j.cjors.2023233
WAN S Q, ZHONG W Z, HE Y, et al. The optimization of beamforming and trajectory for reconfigurable intelligent surface assisted UAV communication system based on deep reinforcement learning[J]. Chinese journal of radio science,2024,39(4):722-731. (in Chinese). DOI: 10.12265/j.cjors.2023233
Citation: WAN S Q, ZHONG W Z, HE Y, et al. The optimization of beamforming and trajectory for reconfigurable intelligent surface assisted UAV communication system based on deep reinforcement learning[J]. Chinese journal of radio science,2024,39(4):722-731. (in Chinese). DOI: 10.12265/j.cjors.2023233

基于深度强化学习的可重构智能超表面辅助无人机通信联合波束成形与轨迹优化

基金项目: 国家自然科学基金面上项目(62271250);国家重大科研仪器研制项目(61827801);江苏省自然科学基金(BK20211182);江苏省重点研发计划(产业前瞻与关键核心技术)(BE2022067-1, BE2022067-2, BE2022067-3);东南大学移动通信国家重点实验室开放研究基金资助课题(2022D04)
详细信息
    作者简介:

    万诗晴: (2000—),女,辽宁人,南京航空航天大学硕士研究生,主要研究方向为无人机通信、智能反射面辅助无人机通信中的联合波束赋形。E-mail: sq_wan@nuaa.edu.cn

    仲伟志: (1980—),女,吉林人,南京航空航天大学副教授,主要研究方向为5G中的毫米波通信、大规模 MIMO 通信技术以及波束成形和波束跟踪技术。E-mail: zhongwz@nuaa.edu.cn

    何艺: (1999—),女,四川人,南京航空航天大学硕士研究生,主要研究方向为车载毫米波通信、智能反射面联合波束赋形。E-mail: heyi_89@nuaa.edu.cn

    通信作者:

    仲伟志 E-mail: zhongwz@nuaa.edu.cn

  • 中图分类号: TN929.5

The optimization of beamforming and trajectory for reconfigurable intelligent surface assisted UAV communication system based on deep reinforcement learning

  • 摘要:

    针对可重构智能超表面(reconfigurable intelligent surface, RIS)辅助无人机(unmanned aerial vehicle, UAV)通信中的相移矩阵和UAV轨迹设计高度耦合所带来的运算复杂度较高的问题,本文面向RIS辅助UAV通信服务多用户场景,提出采用一种基于双深度确定性策略梯度框架的优化方法。该方法利用两个深度确定性策略梯度框架分别解耦UAV轨迹和波束成形两个子问题,并通过在奖励函数中添加与UAV能耗相关的惩罚项,实现系统频谱效率和能源效率的联合优化。数值仿真结果证明,联合优化UAV轨迹和波束成形向量能够有效提升系统性能,恰当的奖励函数设计能够有效指导智能体在动态无线环境中学习到正确的UAV轨迹与波束成形策略。该联合优化方法和基础方法相比实现了至少12%的频谱效率提升和24%的能源效率提升。

    Abstract:

    Aiming at the highly coupled design of phase shift matrix of reconfigurable intelligent surface(RIS) and unmanned aerial vehicle(UAV) trajectory in RIS-assisted UAV communication system, the paper applies a twin deep deterministic policy gradient(TDDPG) framework for RIS-assisted UAV communication. The method applies two deep deterministic policy gradient(DDPG) structures to decouple the two sub-problems of beamforming matrix design and UAV trajectory and a penalty related to energy consumption of UAV is added into reward function to jointly optimize system spectral efficiency(SE) and energy efficiency(EE). Simulation results show that it is effective for the improvement of system performance by jointly optimizing UAV trajectory and beamforming matrix and correct design of reward function could effectively guide the agent to learn correct UAV trajectory and beamforming policy in dynamic wireless environment. Compared to baseline methods, TDDPG structure achieves at least 12% SE improvement and 24% EE improvement.

  • 部署无人机(unmanned aerial vehicle, UAV)作为飞行基站或中继节点有望成为超第五代(beyond the fifth-generation, B5G)或第六代(the sixth generation, 6G)移动网络中的重要组成部分[1]。UAV可以与高空平台系统(high-altitude platform stations, HAPS)、卫星一起组成非地面网络(non-terrestrial network, NTN)[2]。UAV可以补充地面基站覆盖范围以外的区域,并利用其灵活的三维移动支持现有的地基异构网络(heterogeneous network, HetNet)[1]。因UAV具有高机动性、低成本、可视距 (line-of-sight, LoS)传输等特点,诸多学者考虑通过联合优化UAV轨迹和通信资源的配置,在各种场景下实现通信质量的提升[3-4]。在一些复杂城市环境下,建筑物、基础设施等物体造成的阻塞会导致通信覆盖和连接的恶化。虽然UAV能够构建虚拟LoS链路,以减小城市环境中由于建筑物、树木等物体产生的阻塞,但UAV自身和用户的移动都会在非平稳的通信信道中引起过度的时间和空间变化[5]。鉴于此,研究人员考虑将可重构智能超表面(reconfigurable intelligent surface, RIS)引入UAV通信系统,以提供一种低能耗、灵活性更强的无源波束成形方案。

    RIS由大量可调控的电磁单元组成,RIS中的每个元件可以独立配置不同的相移,通过改变入射信号的幅度和相位,智能地反射来自不同传输路径的信号,从而实现定向信号增强或调零的波束成形[6]。此外,与传统的有源放大转发中继不同,RIS不需要额外的混频器和射频链[7],即可实现无线信号的调制,不仅降低了传输功耗,而且实现了对当前电磁传播环境的智能重构。

    针对结合RIS的UAV通信系统,研究者做了大量的研究。文献[7]研究了RIS辅助UAV通信系统中的UAV轨迹优化和RIS无源波束成形设计问题;文献[8]考虑了由UAV搭载定向天线,针对空对地RIS辅助通信网络,推导出了平均接收信噪比(signal-to-noise ratio, SNR)和UAV位置的函数关系;文献[9]利用逐次凸逼近(successive convex approximation, SCA)来交替迭代求解UAV轨迹、RIS相移矩阵设计和发射功率优化三个子问题,提升了系统安全能效(secure energy efficiency, SEE);文献[10]则进一步考虑了使用时分多址(time division multiple access, TDMA)协议的UAV通信场景,在窃听者信道状态信息(channel state information, CSI)不完美的情况下提高了平均保密率。

    除此之外,研究者还将RIS辅助无线通信和下一代无线通信中的先进技术相结合,以满足更复杂的无线通信需求。文献[11]利用RIS辅助UAV通信系统,解决了物联网设备(internet of things device, IoTD)在数据传输过程中的信息年龄(age of information, AoI)最小化问题;文献[12]针对存在随机阻塞的毫米波通信场景,利用RIS无源波束成形技术,增强了通信网路的可靠性和连接性;文献[13]将RIS应用到UAV辅助车辆通信系统中,并从误码率、块错误率、吞吐量等方面分析了系统性能;文献[14]研究了RIS辅助UAV通信在非正交多址(non-orthogonal multiple access, NOMA)网络中的应用,通过对UAV的三维位置、发射功率、RIS相移矩阵以及NOMA解码阶数进行联合优化,来实现网络和速率的最大化;文献[15]研究了RIS中继UAV辅助无线能量通信网络(wireless powered communication network, WPCN),通过联合优化UAV位置和反射波束成形矢量,解决了系统最小吞吐量的最大化问题。

    RIS辅助UAV通信进行系统性能优化所面临的一个主要问题是UAV位置和RIS相移矩阵的高度耦合。针对这一问题,研究人员提出采用交替优化(alternating optimization, AO)方法来解决,AO方法将原始问题分解成几个有着不同优化变量的子问题,并进行迭代求解。由于分解成的子问题往往是非凸的,难以解决,因此研究人员采用SCA[3,9-10]、半正定松弛(semi-definite relaxation, SDR)[3,16]、差分凸优化(difference of convex, DC)[17]等凸优化方法,将非凸子问题近似成凸函数进行求解,提升了系统的和速率[18]与SEE[11,17]。AO方法虽然能获得接近最优的性能,但面对高度动态变化的无线通信环境,很难通过传统的方法实现[18]。针对这一问题,文献[19]利用一种基于Q学习和神经网络的强化学习(reinforcement learning, RL)方法,对无线传输环境建模并联合优化了UAV位置和RIS反射系数;文献[20]则推导出了RIS辅助UAV通信中端到端中断概率(outage probability, OP)的近似闭式表达式,并通过构建一个深度神经网络(deep neural network, DNN)以精准预测OP;文献[21]将RL和DNN优势结合,为实现发射端波束成形和RIS相移矩阵的联合优化,开发出了一种基于深度确定性策略梯度(deep deterministic policy gradient, DDPG)算法的深度RL (deep RL, DRL)框架;文献[22]则进一步提出了一种基于双DDPG的DRL(twin-DDPG deep reinforcement learning, TDDRL)方法,其中两个DDPG架构分别用来优化波束成形和轨迹优化两个子问题,在CSI不确定的情况下解决了窃听者存在时的物理层安全(physical layer security, PLS)问题。然而,针对RIS辅助UAV通信系统中,采用联合轨迹优化与波束成形技术来提高系统频谱效率(spectral efficiency, SE)和能源效率(energy efficiency, EE)的研究较少。

    基于此,针对RIS辅助UAV通信中服务多用户的多输入单输出(multi-user multi-input single-output, MU-MISO)系统,本文提出采用一种面向SE与系统EE的联合优化方案。该方案利用双DDPG(twin DDPG, TDDPG)框架分别解耦波束成形和轨迹优化两个子问题,在给定的场景下输出波束成形策略和UAV轨迹优化方案。数值仿真结果证明,该方案能够实现至少12%的SE提升和24%的EE提升。

    本文考虑的RIS辅助UAV通信系统模型如图1所示。其中,UAV作为移动的空中基站(base station, BS),配备M根天线并以均匀线性阵列(uniform linear array, ULA)的方式排列。RIS上配备L个反射元件,并固定在建筑物墙面上。地面用户数量为K个,每个用户配备单根天线。

    图  1  RIS辅助UAV通信系统模型
    Fig.  1  The system model of RIS-assisted UAV communication

    假设UAV在有限的时间周期T内飞行,并将时间周期T分为N个时隙,即:

    T=Nδn (1)

    式中,δn为每个时隙的时间跨度。整个系统被放置在三维笛卡尔坐标系下,故第k个用户在时隙n的位置坐标可表示为{{{\boldsymbol{w}}}_k}[n] = {({x_k}[n],{y_k}[n],{{\textit{z}}_k}[n])^{\text{T}}}, RIS的位置坐标可表示为 {{{\boldsymbol{w}}}_{\text{R}}} = {({x_{\text{R}}},{y_{\text{R}}},{{\textit{z}}_{\text{R}}})^{\text{T}}} 。假设UAV飞行高度{H_{\text{U}}}固定,UAV在第n个时隙的坐标可表示为{{\boldsymbol{q}}}_{\mathrm{U}}[n] = {({x_{\text{U}}}[n],{y_{\text{U}}}[n],{H_{\text{U}}})^{\text{T}}},其移动受如下条件约束:

    \left\{\begin{gathered} \left|\right|\boldsymbol{q}_{\mathrm{U}}[n+1]-\boldsymbol{q}_{\mathrm{U}}[n]|{|}^{2}\leqslant {D}_{\mathrm{max}}^{2},n=1,\cdots ,N-1\\ |x_{\mathrm{U}}[n]|,|y_{\mathrm{U}}[n]|\leqslant B,n=1,\cdots ,N\\ {{\boldsymbol{q}}}[0] \equiv {(x_{\mathrm{U}}[0],y_{\mathrm{U}}[0],{H_{\text{U}}})^{\text{T}}} \end{gathered}\right. (2)

    式中:{D_{\max }}为UAV在每个时隙中移动的最大距离,其值和UAV飞行的最大速度值{v_{\max }}以及时隙{\delta _n}的长度有关,即{D_{\max }} = {v_{\max }}{\delta _n}B为UAV在该场景中的移动边界;{(x_{\mathrm{U}}[0],y_{\mathrm{U}}[0],{H_{\text{U}}})^{\text{T}}}为UAV的初始位置。UAV在第n个时隙的运动速度可由下式近似表示:

    ||{{\boldsymbol{v}}}_{\mathrm{U}}[n]|| = \sqrt {||{{\boldsymbol{q}}}_{\mathrm{U}}[n] - {{\boldsymbol{q}}}_{\mathrm{U}}[n - 1]|{|^2}} /{\delta _n} (3)

    假设每个时隙的CSI是已知的。针对UAV通信和RIS无源波束成形的特性,采用{\mathbb{C}^{n \times m}}表示n \times m维的复数集,{{\boldsymbol{h}}_{{\text{U-}} k}} \in {\mathbb{C}^{1 \times M}}{{\boldsymbol{h}}_{{\text{R-}} k}} \in {\mathbb{C}^{1 \times L}}{{\boldsymbol{H}}_{{\text{U-R}}}} \in {\mathbb{C}^{L \times M}}分别表示UAV到第k个用户、RIS到第k个用户、UAV到RIS之间的信道。

    假设U-k链路的信道服从瑞利衰落模型,即:

    {{\boldsymbol{h}}_{{\text{U-}} k}} = \sqrt {\rho d_{{\text{U-}} k}^{ - {\alpha _{{\text{U-}} k}}}} \tilde {\boldsymbol{h}} (4)

    式中:\sqrt {\rho d_{{\text{U-}} k}^{ - {\alpha _{{\text{U-}} k}}}} {{\boldsymbol{h}}_{{\text{U-}} k}}的信道系数,\rho 为参考距离{D_0} = 1\;{\text{m}}下的路径损耗,{\alpha _{{\text{U-}} k}}为对应的路径损耗指数, dU-k为U-k链路的距离;\tilde {\boldsymbol{h}} 为服从均值为0、方差为1复高斯分布的随机散射分量。

    U-R之间的链路服从莱斯衰落信道模型,即:

    {{\boldsymbol{H}}_{{\text{U-R}}}} = \sqrt {\rho d_{{\text{U-R}}}^{ - {\alpha _{{\text{U-R}}}}}} \left(\sqrt {\frac{{{K_1}}}{{1 + {K_1}}}} {\boldsymbol{H}}_{{\text{U-R}}}^{{\text{LoS}}} + \sqrt {\frac{1}{{1 + {K_1}}}} {\boldsymbol{H}}_{{\text{U-R}}}^{{\text{NLoS}}}\right) (5)

    式中: \sqrt{\rho d_{\text{U-}\mathrm{R}}^{-\alpha_{\text{U-}\mathrm{R}}}} \boldsymbol{H}_{\text{U-}\mathrm{R}} 的信道系数;{K_1}为U-R链路的莱斯因子;{\boldsymbol{H}}_{{\text{U-R}}}^{{\text{LoS}}}{\boldsymbol{H}}_{{\text{U-R}}}^{{\text{NLoS}}}分别为信道中的LoS分量和非视距 (non-line-of-sight, NLoS) 传输分量;{\boldsymbol{H}}_{{\text{U-R}}}^{{\text{NLoS}}}的元素是独立同分布的随机变量,服从均值为0、方差为1的复高斯分布。

    R-k之间的链路服从莱斯衰落信道模型,即:

    {{\boldsymbol{h}}_{{\text{R-}} k}} = \sqrt {\rho d_{{\text{R-}} k}^{ - {\alpha _{{\text{R-}} k}}}} \left(\sqrt {\frac{{{K_2}}}{{1 + {K_2}}}} {\boldsymbol{h}}_{{\text{R-}} k}^{{\text{LoS}}} + \sqrt {\frac{1}{{1 + {K_2}}}} {\boldsymbol{h}}_{{\text{R-}} k}^{{\text{NLoS}}}\right) (6)

    式中:\sqrt {\rho d_{{\text{R-}} k}^{ - {\alpha _{{\text{R-}} k}}}} {{\boldsymbol{h}}_{{{\text{R-}} k}}}的信道系数;{K_2}为R-k链路的莱斯因子;{\boldsymbol{h}}_{{\text{R-}}k}^{{\text{LoS}}}{\boldsymbol{h}}_{{\text{R-}}k}^{{\text{NLoS}}}分别为信道中的LoS分量和NLoS分量;{\boldsymbol{h}}_{{\text{R-}} k}^{{\text{NLoS}}}的元素是独立同分布的随机变量,服从均值为0、方差为1的复高斯分布。

    N元ULA的阵列响应为

    \boldsymbol{a}_N(\theta)=[1,\text{e}^{\text{j2π}\frac{d}{\lambda} \sin\;\theta},\cdots,\text{e}^{\text{j2π}(N-1)\frac{d}{\lambda} \sin\;\theta}] (7)

    式中:d为天线阵元间距;\lambda 为传输电磁波波长,满足d = 0.5\lambda \theta 为波束角。则U-R链路中的LoS分量{\boldsymbol{H}}_{{\text{U-R}}}^{{\text{LoS}}}可表示为

    {\boldsymbol{H}}_{{\text{U-R}}}^{{\text{LoS}}} = {\boldsymbol{a}}_L^{\mathrm{H}}(\theta _{{\text{R}}}^{\text{ r}}){{\boldsymbol{a}}_M}(\theta _{{\text{U}}}^{\text{ t}}) (8)

    式中:\theta _{{\text{R}}}^{\text{ r}}为RIS处的波束到达角;\theta _{{\text{U}}}^{\text{ t}}为UAV处的波束发射角。波束角的计算由发射端和接收端之间的位置决定,用{d_{{\text{U-R}}}}表示UAV和RIS在水平方向上的距离,则\theta _{{\mathrm{U}}}^{\text{ t}} = \arctan (({{{{\textit{z}}_{\text{R}}} - {H_{\text{U}}})} \mathord{\left/ {\vphantom {{{z_{\text{R}}} - {H_{\text{U}}})} {{d_{{\text{UR}}}}}}} \right. } {{d_{{\text{U-R}}}}}})\theta _{{\mathrm{R}}}^{\text{ r}} = \arctan (({H_{\text{U}}}{ - {{\textit{z}}_{\text{R}}})} / {{d_{{\text{U-R}}}}})

    同理,R-k链路中的LoS分量可表示为

    {\boldsymbol{h}}_{{\text{R-}} k}^{{\text{LoS}}} = {{\boldsymbol{a}}_L}(\theta _{{\text{R-}} k}^{\text{ t}}) (9)

    式中:\theta _{{\text{R-}} k}^{\text{ t}}为RIS对第k个用户的波束发射角, 用{d_{{\text{R-}} k}}表示RIS和用户k在水平方向上的距离,则 \theta _{{\text{R-}} k}^{\text{t}} = \arctan ({{({{\textit{z}}_k}[n] - {{\textit{z}}_{\mathrm{R}}})} \mathord{\left/ {\vphantom {{({z_k}[n] - {z_R})} {{d_{R - k}}}}} \right. } {{d_{{\text{R-}} k}}}})

    {\theta _i}表示第i个RIS单元的反射相移,用{\text{diag}}( \cdot )表示对角矩阵,则RIS相移矩阵{\boldsymbol{\varPhi }} \in {\mathbb{C}^{L \times L}}可表示为

    {\boldsymbol{\varPhi }} = {\text{diag}}({{\text{e}}^{{\text{j}}{\theta _1}}},{{\text{e}}^{{\text{j}}{\theta _2}}},\cdots ,{{\text{e}}^{{\text{j}}{\theta _L}}}) (10)

    UAV发射波束成形矩阵用{\boldsymbol{G}} \in {\mathbb{C}^{M \times K}}表示,{\boldsymbol{G}} = [{{\boldsymbol{g}}_1},\cdots , {{\boldsymbol{g}}_k},\cdots ,{{\boldsymbol{g}}_K}],则第k个用户接收到的基带信号{y_k}可以表示为

    {y_k} = ({{\boldsymbol{h}}_{{\text{R-}} k}}{\boldsymbol{\varPhi }}{{\boldsymbol{H}}_{{\text{U-R}}}} + {{\boldsymbol{h}}_{{\text{U-}} k}}){{\boldsymbol{g}}_k}{x_k} + {n_k} (11)

    式中:{x_k}为基带传输信号,满足E\{ {x_k}\} = 1{n_k}是均值为0、方差为{\sigma ^2}的复加性高斯白噪声。

    n个时隙下用户k接收到的信干噪比(signal to interference plus noise ratio, SINR)可表示为

    {\gamma _k}[n] = \frac{{|({{{\boldsymbol{h}}}_{{\text{R-}} k}}{\boldsymbol{\varPhi }}{{\boldsymbol{H}}_{{\text{U-R}}}} + {{{\boldsymbol{h}}}_{{\text{U-}} k}}){{{\boldsymbol{g}}}_k}{|^2}}}{{\displaystyle \sum\limits_{i = 1,i \ne k}^K {|({{{\boldsymbol{h}}}_{{\text{R-}} k}}{\boldsymbol{\varPhi }}{{\boldsymbol{H}}_{{\text{U-R}}}} + {{{\boldsymbol{h}}}_{{\text{U-}} k}}){{{\boldsymbol{g}}}_i}{|^2}} + {\sigma ^2}}} (12)

    基于上述SINR,第k个用户的频带利用率可表示为

    {R_k}[n] = {\log _2}(1 + {\gamma _k}[n]) (13)

    n个时隙下该系统SE可表示为

    R[n] = \sum\limits_{k = 1}^K {{R_k}[n]} (14)

    为简化问题并最大化接收端SINR,本文将级联信道{{\boldsymbol{H}}_{\text{C}}}作为TDDPG的状态输入,用户k的级联信道{{\boldsymbol{H}}_{{\text{C-}} k}}表达式如下:

    {{\boldsymbol{H}}_{{\text{C-}} k}} = {{\boldsymbol{h}}_{{{\text{R-}} }k}}{\boldsymbol{\varPhi }}{{\boldsymbol{H}}_{{{\text{U-}} {\mathrm{R}}}}} + {{\boldsymbol{h}}_{{{\text{U-}} }k}} (15)

    旋翼UAV在推进过程中的能耗{E_{{\mathrm{p}}}}[n]将作为其速度{\boldsymbol{v}}_{\mathrm{U}}[n]的函数给出[23]

    \begin{split} {E_{\mathrm{p}}}[n] \approx & {\delta _n}\left( {{P_0} + \frac{{3{P_0}||{\boldsymbol{v}}_{\mathrm{U}}[n]|{|^2}}}{{U_{{\text{tip}}}^{\text{2}}}} + \frac{1}{2}{d_0}{\rho _{{\text{air}}}}sA||{\boldsymbol{v}}_{\mathrm{U}}[n]|{|^3}} \right) \\ & +{\delta _n}{P_{\mathrm{i}}}{\left( {\sqrt {1 + \frac{{||{\boldsymbol{v}}_{\mathrm{U}}[n]|{|^4}}}{{4v_0^4}}} - \frac{{||{\boldsymbol{v}}_{\mathrm{U}}[n]|{|^2}}}{{2v_0^2}}} \right)^{1/2}} \end{split} (16)

    式中:{P_{{\mathrm{i}}}}{P_0}分别为悬停状态下的诱导功率和叶型功率;U_{{\mathrm{tip}}}^2为转子叶片的叶尖速度值;s{d_0}分别为旋翼实度和机身阻力比;{\rho _{{\text{air}}}}A分别为空气密度和转子盘面积;{v_0}为悬停状态下转子的平均诱导速度值。

    本文忽略了UAV加速度产生的能量消耗,这种假设对于加速度或加速度持续时间较小的场景是合理的[23]

    系统EE表示单位能量消耗下所产生的频带利用率,用于衡量频带利用率和能耗的关系,其表达式为

    {\eta _{{\mathrm{EE}}}}[n] = \frac{{R[n]}}{{{E_{\mathrm{p}}}[n]}} (17)

    本文的研究目的是通过联合优化波束成形向量{\boldsymbol{G}}{\boldsymbol{\varPhi }}与UAV轨迹{\boldsymbol{Q}} \triangleq \{ {\boldsymbol{q}}_{\mathrm{U}}[n],n = 1,2,\cdots ,N\} ,实现系统SE最大化,并同时提升系统EE,即:

    \mathop {\max }\limits_{{\boldsymbol{Q}},{\boldsymbol{G}},{\boldsymbol{\varPhi }}} \sum\limits_{n = 1}^N {R[n]} (18a)
    \mathop {\max }\limits_{{\boldsymbol{Q}},{\boldsymbol{G}},{\boldsymbol{\varPhi }}} \sum\limits_{n = 1}^N {{\eta _{{\mathrm{EE}}}}[n]} (18b)
    {\text{s}}{\text{.t}}{\text{.}}(2) (18c)
    {\text{tr}}({{\boldsymbol{G}}^{\text{H}}}{\boldsymbol{G}}) \leqslant {P_{\max }} (18d)
    {\theta _l} \in [0,2{\text{π }}),l = \{ 1,2,\cdots ,L\} (18e)
    \Pr \{ {R_k} \geqslant R_k^{{\text{th}}}\} \geqslant 1 - {\rho _k},k = \{ 1,2,\cdots , K\} (18f)

    式中:{P_{\max }}为UAV作为移动空中基站所提供的最大发射功率;约束(18f)是为了保证用户k在通信过程中其SE不小于门限值R_k^{{\text{th}}}的概率为1 - {\rho _k}。在RIS辅助UAV通信问题中,UAV位置的变化导致了CSI的时变特征。动态变化的无线环境和非凸的约束条件(18c)、(18e)、(18f)使得系统性能优化变得复杂。为了解决这一问题,本文考虑利用TDDPG方法在智能体和动态的无线环境交互的过程中学习波束成形和UAV轨迹优化的最佳策略。

    为了解决RIS辅助UAV通信中UAV轨迹和RIS相移矩阵设计高度耦合的问题,本文提出一种基于TDDPG结构的联合波束成形和轨迹优化方法。在TDDPG结构中,采用两个DDPG结构分别用于输出UAV轨迹和联合波束成形向量,以解耦UAV轨迹和联合波束成形向量的设计;此外,两个DDPG通过共享相同的奖励函数来指导智能体调整输出动作的策略,使得输出的轨迹和波束成形向量能够有效提升系统的SE和EE。

    传统的RL往往适用于动作空间和样本空间较小且离散的情况。然而类似RIS辅助的UAV通信的复杂任务往往有很大的状态空间和连续的动作空间,尤其是输入数据为图像等高维度数据时,RL很难处理此类任务。因此DeepMind团队构造了一种深度Q网络(deep Q network, DQN)[24],用DNN拟合Q学习(Q-learning)方法中的Q值函数,将深度学习和DL的优势相结合。DDPG算法则是在DQN的基础上,将确定性策略梯度(policy gradient, PG)算法和DQN算法中的经验回放池、目标网络相结合,使用行为-评判架构直接输出确定性动作[25],在DQN的基础上解决了连续控制问题,使得DRL方法能够更好地应用于无线通信问题。

    DDPG算法结构如图2所示。一个DDPG采用4个神经网络来拟合。其中,\pi (s|{\theta ^{\pi} })代表参数化的Actor网络,用以表示行为策略;Q(s,a|{\theta ^Q})表示参数化的Critic网络,用以表示当前状态下采取该行为的长期回报,即Q值;而目标网络{\pi '}(s|{\theta ^{\pi '}})Q'(s,a|{\theta ^{Q'}})是Actor网络和Critic网络的复制,用以解决参数更新过程中产生的自举问题,避免网络在学习的过程中过度震荡,导致学习过程坍塌。

    图  2  DDPG算法结构
    Fig.  2  The structure of DDPG

    Actor网络的输出即Agent采取的动作,其参数更新的目的是通过梯度上升法最大化累计期望回报,采用Adam优化器更新{\theta ^\pi }。Actor网络的参数通过梯度计算公式进行更新。由于DDPG涉及到从经验回放池中采样,因此策略梯度的计算采用蒙特卡洛方法,利用采样数据估计性能目标函数J相对{\theta ^\pi }的梯度,如式(19)所示:

    {\nabla _{{\theta ^\pi }}}J \approx \frac{1}{N}\sum\limits_i {{\nabla _a}Q(s,a|{\theta ^Q}){|_{s = {s_i},a = \pi ({s_i})}}{\nabla _{{\theta ^\pi }}}\pi (s|{\theta ^\pi }){|_{s = {s_i}}}} (19)

    性能目标函数J针对离线策略学习场景,评估一个策略的性能优劣,其定义如下:

    \begin{gathered} J = \int_s {{\rho ^\pi }{Q^\pi }(s,\pi (s)){\text{d}}s} \\ = {{ E}_{s\sim {\rho ^\pi }}}[{Q^\pi }(s,\pi (s))] \\ \end{gathered} (20)

    式中:s为环境的状态;{\rho ^\pi }为基于策略\pi 所产生状态的概率分布函数;{Q^\pi }(s,\pi (s))为在每个状态s下根据策略\pi 选择行动产生的Q值。Q值表达式如式(21),其更新满足贝尔曼方程:

    Q(s,a) = r + \gamma {\max_{a'}}Q(s',a') (21)

    该式描述了在给定状态s下采取行动aQ值构成,其值等于即时回报r加上折扣因子\gamma 乘以采取能带来最优未来长期回报的行为对应的回报。折扣因子\gamma 代表未来的可能回报相对于当前回报的重要性。

    DDPG算法中采用经验回放机制,其目的是建立一个记忆体以存储每次状态转移四元组({s_i},{a_i},{r_i},{s_{i + 1}}),在训练时从经验回放池中随机抽取样本用于网络参数的更新。这种机制使得样本之间相互独立,打破了样本之间的关联性。

    Critic网络用于拟合Q(s,a),输出给定状态s下执行动作aQ值。Critic网络参数{\theta ^Q}的更新通过最小化评估值Q(s,a|{\theta ^Q})与目标之间的误差来实现。其中,误差{L_{\text{c}}}表达式为

    {L_{\text{c}}} = \frac{1}{N}\sum\limits_i {{{({y_i} - Q({s_i},{a_i}|{\theta ^Q}))}^2}} (22)

    {y_i}可以看成标签,其表达式为

    {y_i} = {r_i} + \gamma Q'({s_{i + 1}},\pi '({s_{i + 1}}|{\theta ^{\pi '}})|{\theta ^{Q'}}) (23)

    {y_i}的计算用到了Target Actor网络\pi '和Target Critic网络Q',引入目标网络可使得Critic网络参数学习的过程更加稳定,易于收敛。

    DDPG方法中目标网络采用软更新的方式,软更新可以使得目标网络的参数缓慢更新继而使得利用目标网络计算的目标值更加平稳,保证了Critic网络学习过程中的稳定。用\tau 表示目标网络更新过程中的学习率,则目标网络的参数更新过程如下:

    {\theta ^{\pi '}} = \tau {\theta ^\pi } + (1 - \tau ){\theta ^{\pi '}} (24)
    {\theta ^{Q'}} = \tau {\theta ^Q} + (1 - \tau ){\theta ^{Q'}} (25)

    基于上述DDPG网络结构及参数更新过程,本文提出采用的TDDPG结构中,第一个DDPG将用于学习UAV轨迹的优化策略。每轮训练所产生的轨迹即UAV在一个飞行周期T下的轨迹,每轮训练中的一个时步代表了UAV的飞行时隙{\delta _n}。为了最大化系统SE,第一个DDPG在第n个时隙下的状态{s_{n,1}}、行为{a_{n,1}}、奖励{r_{n,1}}定义如下:

    1) 状态{s_{n,1}}:第一个DDPG用于UAV轨迹优化,位置信息W将作为该网络的状态输入。

    2) 行为{a_{n,1}}:表示该网络输出的动作,即UAV在下一个时隙的移动向量。当UAV沿固定高度{H_{\text{U}}}飞行时,用\Delta x\Delta y表示UAV沿x轴和y轴的移动量,则UAV在第n个时隙的移动可表示为

    {\boldsymbol{q}}_{\mathrm{U}}[n + 1] - {\boldsymbol{q}}_{\mathrm{U}}[n] = \Delta x{{\boldsymbol{e}}_x} + \Delta y{{\boldsymbol{e}}_y} (26)

    式中:{{\boldsymbol{e}}_x}{{\boldsymbol{e}}_y}分别为沿x轴和y轴的单位向量。

    3) 奖励{r_{n,1}}:作为对智能体行为的评判,其构造直接决定了训练结果的优劣。奖励函数构造如下:

    {r_{n,1}} = \tanh \left(\sum\limits_{k = 1}^K {{R_k}[n]} - {c_1}{p_{\text{b}}} - {c_2}{p_{\text{r}}} - {c_3}{p_{\text{g}}}\right) (27)

    式中:{p_{\text{b}}}{p_{\text{r}}}{p_{\text{g}}}分别为不满足约束(2)、(18f)、(18d)时的惩罚项;{c_1}{c_2}{c_3}则分别为各惩罚项对应的权重系数。约束(18f)的OP可以通过对CSI抽样计算得到,用{N_{{\mathrm{outage}}}}{N_{{\mathrm{sample}}}}分别表示中断样本数和采样数,则OP可由下式计算获得:

    1 - \Pr \{ {R_k} \geqslant R_k^{{\text{th}}}\} \approx {N_{{\mathrm{outage}}}}/{N_{{\mathrm{sample}}}} (28)

    TDDPG结构中的第二个DDPG模块用于波束成形优化。该模块将在给定状态下输出发射端波束成形向量G和RIS相移矩阵{\boldsymbol{\varPhi }}。第二个DDPG模块中的状态{s_{n,2}}、行为{a_{n,2}}以及奖励{r_{n,2}}定义如下:

    1) 状态{s_{n,2}}:级联信道{{\boldsymbol{H}}_{\text{C}}}将作为第二个DDPG的状态输入,即:

    {{\boldsymbol{H}}_{\text{C}}} = [{{\boldsymbol{H}}_{{\text{C-}} 1}},\cdots ,{{\boldsymbol{H}}_{{\text{C-}} K}}] (29)

    2) 行为{a_{n,2}}:由发射端波束成形向量G和RIS相移矩阵{\boldsymbol{\varPhi }}来定义。考虑到神经网络中的实数输入问题,G{\boldsymbol{\varPhi }}将被拆分成实部、虚部分别输入,即{\boldsymbol{G}} = [{{\mathrm{Re}}} \{ {\boldsymbol{G}}\} ,{{\mathrm{Im}}} \{ {\boldsymbol{G}}\} ]{\boldsymbol{\varPhi }} = [{{\mathrm{Re}}} \{ {\boldsymbol{\varPhi }}\} ,{{\mathrm{Im}}} \{ {\boldsymbol{\varPhi }}\} ]

    3) 奖励{r_{n,2}}:由于本文所采用的TDDPG算法的目的是联合优化发射端波束成形矩阵G、RIS相移矩阵{\boldsymbol{\varPhi }}和UAV轨迹Q使得系统SE最大化,因此,第二个DDPG模块与第一个DDPG模块共享同一个奖励函数,即式(27)中的奖励函数,以实现SE的提升。

    基于上述DDPG参数更新过程以及针对UAV轨迹和波束成形策略的DDPG网络设计,基于TDDPG的联合波束成形和轨迹优化方法结构如图3所示。

    图  3  TDDPG算法结构
    Fig.  3  The structure of TDDPG

    TDDPG流程如算法1所示。

    算法1 TDDPG算法
    1:初始化TDDPG中的第一个DDPG的Actor网络 {\pi _1}(s|\theta _1^\pi ) 、Critic网络{Q_1}(s,a|\theta _1^Q)、Target Actor网络 \pi _1'(s|\theta _1^{\pi '}) 以及Target Critic网络Q_1'(s,a|\theta _1^{Q'})
    2:初始化TDDPG中的第二个DDPG的Actor网络 {\pi _2}(s|\theta _2^\pi ) 、Critic网络{Q_2}(s,a|\theta _2^Q)、Target Actor网络\pi _2'(s|\theta _2^{\pi '})以及Target Critic网络Q_2'(s,a|\theta _2^{Q'})
    3:for {n_{{\text{ep}}}}=1, 2, \cdots , {N_{{\text{ep}}}} do
    4: 重置UAV和用户的位置;
    5: for n=1, 2, \cdots , {N_{{\text{step}}}} do
    6: 观测{{\boldsymbol{H}}_{\text{C}}}{s_{n,1}}{\boldsymbol{W}}{s_{n,2}}
    7: 选择对应的行为{a_{n,1}}{a_{n,2}},并添加方差为{\sigma _a}的高斯噪声{n_a},即: {a_{n,1}} = {\pi _1}(s|\theta _1^\pi ) + {n_a}{a_{n,2}} = {\pi _2}(s|\theta _2^\pi ) + {n_a}
    8: 根据式(27)或式(30)计算采取行为{a_{n,1}}{a_{n,2}}的即时奖励{r_{n,1}},并从环境中计算转移状态{s_{n + 1,1}}{s_{n + 1,2}}
    9: 将状态转移数据[{s_{n,1}},{a_{n,1}},{r_{n,1}},{s_{n + 1,1}}][{s_{n,2}},{a_{n,2}},{r_{n,2}}, {s_{n + 1,2}}]存储到经验重放池中。
    10: 从经验重放池中取{N_{{\text{sample}}}}个状态转移数据,以更新\theta _i^\pi ,\theta _i^Q,i \in \{ 1,2\}
    11: 更新\theta _i^{\pi '},\theta _i^{Q'},i \in \{ 1,2\}
    12: end for
    13:end for

    TDDPG算法将位置信息W和级联信道{{\boldsymbol{H}}_{\text{C}}}分别作为两个DDPG的状态输入,各自输出UAV轨迹和波束成形策略,实现了两个子问题的解耦。同时,奖励函数和无线环境信息的共享使得两个DDPG智能体能够互相协作,以各自学习到有效的轨迹规划和波束成形策略。TDDPG结构能够有效地捕捉到由UAV和用户的移动引起的CSI变化,从而适应动态的无线环境。

    利用TDDPG方法解决无线通信系统优化问题时,无线通信环境的构建、奖励函数的设计对系统优化起到至关重要的作用。由于UAV飞行过程中的能量是受限的,因此系统EE的提升同样重要。为了解决这一问题,本文通过在奖励函数中添加惩罚项[26],实现系统EE的优化。添加惩罚项后,式(27)可改写为

    {r_{n,1}} = \tanh \left( {\sum\limits_{k = 1}^K {{R_k}[n]} - {c_1}{p_{\text{b}}} - {c_2}{p_{\text{r}}} - {c_3}{p_{\text{g}}} - {c_4}{p_{\text{e}}}} \right) (30)

    {p_{\text{e}}}表示能耗限制下的惩罚项,

    {p_{\text{e}}} = \left\{ \begin{gathered} 0,\sum\limits_{k = 1}^K {{R_k}[n]} < 0 \\ 0.1\left( {\sum\limits_{k = 1}^K {{R_k}[n]} } \right){\tilde E _{\mathrm{p}}}[n],\sum\limits_{k = 1}^K {{R_k}[n]} \geqslant 0 \\ \end{gathered} \right. \\ (31)

    式中:{R_k}[n]为第k个用户在时隙n产生的SE;{\tilde E _{\text{p}}}[n]为时隙n内产生的归一化能耗,

    {\tilde E _{\mathrm{p}}}[n] = \frac{{{E_{\mathrm{p}}}[n] - {E_{{\mathrm{p}},\min }}}}{{{E_{{\mathrm{p}},\max }} - {E_{{\mathrm{p}},\min }}}} (32)

    p = {c_1}{p_{\text{b}}} + {c_2}{p_{\text{r}}} + {c_3}{p_{\text{g}}},则式(30)可整理为

    {r_{n,1}} = \tanh {\left( {\left( {1 - 0.1{c_4}{{\tilde E }_{\mathrm{p}}}[n]} \right)\sum\limits_{k = 1}^K {{R_k}[n]} - p} \right)_ \cdot } (33)

    文献[26]在设置{p_{\text{e}}}时考虑了SE和{E_{\mathrm{p}}}[n],而不是直接令惩罚项{p_{\text{e}}} = {\tilde E _{\mathrm{p}}}[n]。式(33)表明,这种设置方式等效于在SE前乘以比例系数\left( {1 - 0.1{c_4}{{\tilde E }_{\mathrm{p}}}[n]} \right),因此,该设置方式能够有效指导智能体以降低{\tilde E _{\mathrm{p}}}[n]、提升SE的方式提高采取行动所获得的奖励值,从而提升{\eta _{{\mathrm{EE}}}}[n],避免只降低{E_{\mathrm{p}}}[n]而不优化SE的情况。

    为了验证TDDPG联合优化算法的有效性,本节将对该算法下的SE和EE进行仿真。考虑一个{\text{50}}\;{\text{m}} \times {\text{30}}\;{\text{m}} \times {\text{50}}\;{\text{m}}的仿真场景。其中,两个用户和UAV的初始位置分别设置为(47 m, 26 m, 0 m)、(25 m, 5 m, 0 m)、(25 m, 30 m, 50 m)。RIS固定在位于(50 m, 30 m, 12.5 m)的建筑物墙面上。用户的移动考虑为沿x轴的匀速直线运动。系统其他参数设置如表1[22]

    表  1  系统参数
    Tab.  1  The system parameters
    参数取值参数取值
    {D_{\max }}0.25 m{P_{\max }}30 dBm
    {\delta _n}0.01 s{\sigma ^2}−114 dBm
    f2.4 GHz{K_1}10
    \rho 0.01{K_2}10
    {\alpha _{{{\text{U-R}} }}}2.2{\alpha _{{{\text{U-}} k}}}3.5
    {\alpha _{{{\text{R-}} }k}}2.8K2
    M4L4
    下载: 导出CSV 
    | 显示表格

    式(16)中与UAV能耗相关的参数[23]设置如表2

    表  2  UAV能耗参数
    Tab.  2  The parameters of UAV energy consumption
    参数 取值
    {P_0} 580.65 W
    {P_{\mathrm{i}}} 790.671 5 W
    {U_{{\mathrm{tip}}}} 200 m/s
    {d_0} 0.3
    {\rho _{{\mathrm{air}}}} 1.225 kg/m3
    s 0.05
    A 0.79 m2
    {v_0} 2.567 m/s
    下载: 导出CSV 
    | 显示表格

    TDDPG算法的超参数由表3给出。

    表  3  TDDPG超参数
    Tab.  3  The hyperparameters of TDDPG
    参数 取值
    DDPG-1隐藏层 [400, 300, 256, 128]
    DDPG-2隐藏层 [800, 600, 515, 256]
    Actor网络学习率 0.001
    Critic网络学习率 0.001
    训练轮次{N_{{\mathrm{ep}}}} 300
    时步长度N 100
    采样数量{N_{{\mathrm{sample}}}} 64
    经验重放池容量 30 000
    动作噪声方差{\sigma _a} 0.1
    目标网络学习率\tau 0.001
    下载: 导出CSV 
    | 显示表格

    为了验证本文采用的TDDPG结构对系统SE和EE优化的有效性,实验中对四种方式进行了仿真对比,即基线方式1(Baseline1)、基线方式 2(Baseline2)、TDDPG(SE)方式和TDDPG(SE+EE) 方式。Baseline1中,令UAV从初始位置向场景中心沿固定方向飞行,TDDPG提供发射端和RIS波束成形策略;Baseline2中,令RIS采用随机相移矩阵,TDDPG提供UAV轨迹策略和发射端波束成形策略;TDDPG(SE)中,令TDDPG输出UAV轨迹和波束成形策略,奖励函数如式(27)所示;TDDPG(SE+EE)中,令TDDPG输出UAV轨迹和波束成形策略,奖励函数如式(30)所示,即考虑了UAV的能耗。四组实验的结果将由5次独立实验的平均值给出,仿真结果如表4所示。

    表  4  仿真实验结果
    Tab.  4  The simulation results
    实验方式 SE/(bit/s/Hz) 能耗/kJ EE/(bit/s/Hz/kJ)
    Baseline1 9.42 13.13 71.84
    Baseline2 5.23 11.76 44.44
    TDDPG(SE) 10.01 11.89 84.37
    TDDPG(SE+EE) 10.59 11.83 89.27
    下载: 导出CSV 
    | 显示表格

    图4给出了四种方式下得到的UAV轨迹,结合表4的仿真结果可以发现:与Baseline1中固定UAV轨迹相比,TDDPG(SE)和TDDPG(SE+EE)中的优化UAV轨迹能够有效地提升系统的SE和EE;Baseline2方法对应的仿真结果表明,随机RIS相移会带来系统性能恶化,使得SE和EE均大幅下降。因此,Baseline2和其他三组的对比证明了优化RIS相移矩阵对系统性能的提升是有效的。此外,由于Baseline2中RIS相移矩阵是随机的,因此,图4中Baseline2优化的UAV轨迹策略是在靠近RIS的同时向两用户初始位置的中点飞行,即在考虑均衡服务两个用户时,以降低U-R链路路径损耗来提升接收端SINR。TDDPG(SE)和Baseline2的实验结果对比说明,TDDPG能够学习到有效的波束成形策略,提升系统性能。

    图  4  四组实验的UAV轨迹
    Fig.  4  The optimized UAV trajectory of 4 experiments

    而TDDPG(SE)和TDDPG(SE+EE)两组实验的对比证明了在奖励函数中添加惩罚项能够同时提升系统的SE和EE,且两组实验的UAV轨迹都靠近两用户末位置的中点,说明TDDPG设计的UAV轨迹考虑了两个用户的均衡服务。此外,TDDPG(SE+EE)输出的UAV轨迹具有较长的移动距离,说明在固定时隙下UAV具有较高的移动速度。式(16)表明UAV移动能耗将随着其移动速度的增加而减小,而TDDPG(SE+EE)输出的轨迹策略即是通过提升移动速度来有效降低能耗{E_{\text{p}}}[n] ,从而提升EE。

    图5给出了四种方式对应的SE和EE训练收敛曲线图。仿真结果表明,和Baseline方法相比,TDDPG方法既能实现系统SE的提升,也能实现EE的提升。TDDPG(SE+EE)中添加能量惩罚项{p_{\text{e}}}实现了SE和EE的联合优化,并和表4中的实验结果相互印证。此外,实验结果说明正确、恰当地构建奖励函数能够有效指导智能体学习到想要的动作策略,并且根据解决的问题恰当地设计奖励函数,是TDDPG方法能够有效解决实际问题的关键。

    图  5  系统性能收敛仿真对比
    Fig.  5  System performance vs. episodes

    图6给出了Actor网络和Critic网络的不同学习率对算法收敛性能的影响,即不同学习率下TDDPG(SE)和TDDPG(SE+EE)获得的即时奖励。其中Actor网络和Critic网络设置了相同的学习率,网络其他超参数如表3所示。纵轴表示每轮迭代中即时奖励的累计值,即\displaystyle \sum\limits_{n = 1}^N {{r_n}}

    图  6  不同学习率下每轮迭代的累计奖励
    Fig.  6  Accumulated reward performance vs. episodes under different learning rate

    图6(a)和图6(b)均表明,学习率为0.001时,能够得到较好的累计奖励。当学习率设置为0.0001时,虽然累计奖励能够收敛,但其收敛时所达到的值低于学习率为0.001的情况。当学习率为0.01时,TDDPG(SE)和TDDPG(SE+EE)的累计奖励均为负数,说明较高的学习率不利于动作策略的学习,使得经验重放池中缺少奖励值较高的状态转移数据,导致更新参数后神经网络无法输出有效的动作策略。由此可见,TDDPG中Actor网络和Critic网络的学习率须设置在合理的水平。较高的学习率会使得网络整体学习性能变差,而较低的学习率会使得输出的动作策略很难实现最优的系统性能优化。

    为了解决RIS辅助UAV通信中UAV轨迹和相移矩阵设计的高度耦合问题,本文针对RIS辅助UAV通信系统中服务MU-MISO场景,提出采用TDDPG结构输出波束成形和UAV轨迹策略,以提高系统SE和EE。仿真结果表明,TDDPG能够有效学习波束成形和轨迹优化策略,并且通过奖励函数中添加与UAV能耗相关的惩罚项,能够实现系统SE和EE的联合优化,证明了TDDPG方法能够适应动态变化的无线通信环境,在信道状态变化时输出有效的动作策略。同时,仿真结果也证明了恰当的奖励函数设计和神经网络超参数设置对网络优化起到了至关重要的作用。将DRL方法应用于无线通信系统能够实现感知和计算的融合,但其中奖励函数的设计、无线环境的构建、超参数的设置都对系统优化起到了至关重要的作用。此外,由于UAV移动所产生的CSI估计和CSI过时问题,使得DRL方法在应用到实际场景中出现性能损失。因此,未来需要进一步针对DRL算法设计、动态无线环境下的CSI估计等方面进行研究。

  • 图  1   RIS辅助UAV通信系统模型

    Fig.  1   The system model of RIS-assisted UAV communication

    图  2   DDPG算法结构

    Fig.  2   The structure of DDPG

    图  3   TDDPG算法结构

    Fig.  3   The structure of TDDPG

    图  4   四组实验的UAV轨迹

    Fig.  4   The optimized UAV trajectory of 4 experiments

    图  5   系统性能收敛仿真对比

    Fig.  5   System performance vs. episodes

    图  6   不同学习率下每轮迭代的累计奖励

    Fig.  6   Accumulated reward performance vs. episodes under different learning rate

    算法1 TDDPG算法
    1:初始化TDDPG中的第一个DDPG的Actor网络 {\pi _1}(s|\theta _1^\pi ) 、Critic网络{Q_1}(s,a|\theta _1^Q)、Target Actor网络 \pi _1'(s|\theta _1^{\pi '}) 以及Target Critic网络Q_1'(s,a|\theta _1^{Q'})
    2:初始化TDDPG中的第二个DDPG的Actor网络 {\pi _2}(s|\theta _2^\pi ) 、Critic网络{Q_2}(s,a|\theta _2^Q)、Target Actor网络\pi _2'(s|\theta _2^{\pi '})以及Target Critic网络Q_2'(s,a|\theta _2^{Q'})
    3:for {n_{{\text{ep}}}}=1, 2, \cdots , {N_{{\text{ep}}}} do
    4: 重置UAV和用户的位置;
    5: for n=1, 2, \cdots , {N_{{\text{step}}}} do
    6: 观测{{\boldsymbol{H}}_{\text{C}}}{s_{n,1}}{\boldsymbol{W}}{s_{n,2}}
    7: 选择对应的行为{a_{n,1}}{a_{n,2}},并添加方差为{\sigma _a}的高斯噪声{n_a},即: {a_{n,1}} = {\pi _1}(s|\theta _1^\pi ) + {n_a}{a_{n,2}} = {\pi _2}(s|\theta _2^\pi ) + {n_a}
    8: 根据式(27)或式(30)计算采取行为{a_{n,1}}{a_{n,2}}的即时奖励{r_{n,1}},并从环境中计算转移状态{s_{n + 1,1}}{s_{n + 1,2}}
    9: 将状态转移数据[{s_{n,1}},{a_{n,1}},{r_{n,1}},{s_{n + 1,1}}][{s_{n,2}},{a_{n,2}},{r_{n,2}}, {s_{n + 1,2}}]存储到经验重放池中。
    10: 从经验重放池中取{N_{{\text{sample}}}}个状态转移数据,以更新\theta _i^\pi ,\theta _i^Q,i \in \{ 1,2\}
    11: 更新\theta _i^{\pi '},\theta _i^{Q'},i \in \{ 1,2\}
    12: end for
    13:end for
    下载: 导出CSV

    表  1   系统参数

    Tab.  1   The system parameters

    参数取值参数取值
    {D_{\max }}0.25 m{P_{\max }}30 dBm
    {\delta _n}0.01 s{\sigma ^2}−114 dBm
    f2.4 GHz{K_1}10
    \rho 0.01{K_2}10
    {\alpha _{{{\text{U-R}} }}}2.2{\alpha _{{{\text{U-}} k}}}3.5
    {\alpha _{{{\text{R-}} }k}}2.8K2
    M4L4
    下载: 导出CSV

    表  2   UAV能耗参数

    Tab.  2   The parameters of UAV energy consumption

    参数 取值
    {P_0} 580.65 W
    {P_{\mathrm{i}}} 790.671 5 W
    {U_{{\mathrm{tip}}}} 200 m/s
    {d_0} 0.3
    {\rho _{{\mathrm{air}}}} 1.225 kg/m3
    s 0.05
    A 0.79 m2
    {v_0} 2.567 m/s
    下载: 导出CSV

    表  3   TDDPG超参数

    Tab.  3   The hyperparameters of TDDPG

    参数 取值
    DDPG-1隐藏层 [400, 300, 256, 128]
    DDPG-2隐藏层 [800, 600, 515, 256]
    Actor网络学习率 0.001
    Critic网络学习率 0.001
    训练轮次{N_{{\mathrm{ep}}}} 300
    时步长度N 100
    采样数量{N_{{\mathrm{sample}}}} 64
    经验重放池容量 30 000
    动作噪声方差{\sigma _a} 0.1
    目标网络学习率\tau 0.001
    下载: 导出CSV

    表  4   仿真实验结果

    Tab.  4   The simulation results

    实验方式 SE/(bit/s/Hz) 能耗/kJ EE/(bit/s/Hz/kJ)
    Baseline1 9.42 13.13 71.84
    Baseline2 5.23 11.76 44.44
    TDDPG(SE) 10.01 11.89 84.37
    TDDPG(SE+EE) 10.59 11.83 89.27
    下载: 导出CSV
  • [1]

    LEE J,FRIDERIKOS V. Interference-aware path planning optimization for multiple UAVs in beyond 5G networks[J]. Journal of communications and networks,2022,24(2):125-138. doi: 10.23919/JCN.2022.000006

    [2]

    MSADAA I C,ZAIRI S,DHRAIEF A. Non-terrestrial networks in a nutshell[J]. IEEE Internet of Things magazine,2022,5(2):168-174. doi: 10.1109/IOTM.007.2100121

    [3]

    DUO B,WU Q,YUAN X,et al. Energy efficiency maximization for full-duplex UAV secrecy communication[J]. IEEE transactions on vehicular technology,2020,69(4):4590-4595. doi: 10.1109/TVT.2020.2977948

    [4]

    ZHANG G,WU Q,CUI M,et al. Securing UAV communications via joint trajectory and power control[J]. IEEE transactions on wireless communications,2019,18(2):1376-1389. doi: 10.1109/TWC.2019.2892461

    [5]

    MAHBUB M,SHUBAIR R M. Intelligent reflecting surfaces in UAV-assisted 6G networks:an approach for enhanced propagation and spectral characteristics[C]//IEEE International IOT,Electronics and Mechatronics Conference (IEMTRONICS),2022:1-6.

    [6]

    WU Q,ZHANG R. Towards smart and reconfigurable environment:intelligent reflecting surface aided wireless network[J]. IEEE communications magazine,2020,58(1):106-112. doi: 10.1109/MCOM.001.1900107

    [7]

    LI S,DUO B,YUAN X,et al. Reconfigurable intelligent surface assisted UAV communication:joint trajectory design and passive beamforming[J]. IEEE wireless communications letters,2020,9(5):716-720. doi: 10.1109/LWC.2020.2966705

    [8]

    TYROVOLAS D,TEGOS S A,DIAMANTOULAKIS P D,et al. Synergetic UAV-RIS communication with highly directional transmission[J]. IEEE wireless communications letters,2022,11(3):583-587. doi: 10.1109/LWC.2021.3136912

    [9]

    LONG H,CHEN M,YANG Z,et al. Joint trajectory and passive beamforming design for secure UAV networks with RIS[C]//2020 IEEE Globecom Workshops (GC WKSHPS),2020:1-6.

    [10]

    LI S,DUO B,RENZO M D,et al. robust secure UAV communications with the aid of reconfigurable intelligent surfaces[J]. IEEE transactions on wireless communications,2021,20(10):6402-6417.

    [11]

    SAMIR M,ELHATTAB M,ASSI C,et al. Optimizing age of information through aerial reconfigurable intelligent surfaces:a deep reinforcement learning approach[J]. IEEE transactions on vehicular technology,2021,70(4):3978-3983. doi: 10.1109/TVT.2021.3063953

    [12]

    ZHOU G,PAN C,REN H,et al. Stochastic learning-based robust beamforming design for RIS-aided millimeter-wave systems in the presence of random blockages[J]. IEEE transactions on vehicular technology,2021,70(1):1057-1061. doi: 10.1109/TVT.2021.3049257

    [13]

    AGRAWAL N,BANSAL A,SINGH K,et al. performance evaluation of RIS-assisted UAV-enabled vehicular communication system with multiple non-identical interferers[J]. IEEE transactions on intelligent transportation systems,2021,23(7):9883-9894.

    [14]

    MU X,LIU Y,GUO L,et al. intelligent reflecting surface enhanced multi-UAV NOMA networks[J]. IEEE journal on selected areas in communications,2021,39(10):3051-3066.

    [15]

    PAN X,ZHANG Z,LIN H,et al. RIS relaying UAV-aided WPCN for throughput maximization[C]//The 6th world conference on computing and communication technologies (WCCCT),2023:100-105.

    [16]

    MOHAMED Z,AÏSSA S. Leveraging UAVS with intelligent reflecting surfaces for energy-efficient communications with cell-edge users[C]//2020 IEEE International Conference on Communications Workshops (ICC Workshops),2020:1-6.

    [17]

    JIANG L,JAFARKHANI H. Reconfigurable intelligent surface assisted mmwave UAV wireless cellular networks[C]//ICC 2021-IEEE International Conference on Communications,2021:1-6.

    [18]

    YE J,QIAO J,KAMMOUN A,et al. Nonterrestrial communications assisted by reconfigurable intelligent surfaces[J]. Proceedings of the IEEE,2022,110(9):1423-1465. doi: 10.1109/JPROC.2022.3169690

    [19]

    ZHANG Q,SAAD W,BENNIS M. Reflections in the sky:millimeter wave communication with UAV-carried intelligent reflectors[C]//2019 IEEE Global Communications Conference (Globecom),2019:1-6.

    [20]

    DO T N,KADDOUM G,NGUYEN T L,et al. Aerial reconfigurable intelligent surface-aided wireless communication systems[C]//2021 IEEE 32nd Annual International Symposium on Personal,Indoor and Mobile Radio Communications (PIMRC),2021:525-530.

    [21]

    HUANG C,MO R,YUEN C. Reconfigurable intelligent surface assisted multiuser MISO systems exploiting deep reinforcement learning[J]. IEEE journal on selected areas in communications,2020,38(8):1839-1850. doi: 10.1109/JSAC.2020.3000835

    [22]

    GUO X,CHEN Y,WANG Y. Learning-based robust and secure transmission for reconfigurable intelligent surface aided millimeter wave UAV communications[J]. IEEE wireless communications letters,2021,10(8):1795-1799. doi: 10.1109/LWC.2021.3081464

    [23]

    ZHAN C,LAI H. Energy minimization in internet-of-things system based on rotary-wing UAV[J]. IEEE wireless communications letters,2019,8(5):1341-1344. doi: 10.1109/LWC.2019.2916549

    [24]

    MNIH V,KAVUKCUOGLU K,SILVER D,et al. Human-level control through deep reinforcement learning[J]. Nature,2015,518(7540):529-533. doi: 10.1038/nature14236

    [25]

    LILLICRAP T P,HUNT J J,PRITZEL A,et al. Continuous control with deep reinforcement learning[C]//International Conference on Representation Learning (ICRL). 2016.

    [26]

    THAM M L,WONG Y J,IQBAL A,et al. Deep reinforcement learning for secrecy energy-efficient UAV communication with reconfigurable intelligent surface[C]//IEEE Wireless Communications and Networking Conference (WCNC),2023:1-6.

  • 期刊类型引用(2)

    1. 庞皓冰,崔林,周建山,田大新,段续庭,曲凯歌. 基于深度强化学习的空地协同组网与资源优化研究综述. 人工智能. 2025(01): 1-14 . 百度学术
    2. 仲伟志,万诗晴,段洪涛,范振雄,林志鹏,黄洋,毛开. 一种基于合作协同进化的智能超表面辅助无人机通信系统联合波束成形方法. 电子与信息学报. 2025(02): 334-343 . 百度学术

    其他类型引用(1)

图(6)  /  表(5)
计量
  • 文章访问数:  250
  • HTML全文浏览量:  167
  • PDF下载量:  80
  • 被引次数: 3
出版历程
  • 收稿日期:  2023-08-09
  • 录用日期:  2023-12-11
  • 网络出版日期:  2023-12-11
  • 刊出日期:  2024-08-29

目录

/

返回文章
返回