Multi-user dynamic spectrum allocation algorithm under hybrid spectrum sharing mode
-
摘要: 为解决混合overlay/underlay频谱共享方式下多用户动态频谱分配问题,构建了混合频谱共享方式下动态频谱分配模型,提出了基于Q学习的多用户动态频谱分配算法. 该算法在不对主用户产生有害干扰的前提下,以最大化次用户总吞吐量为目标,构建了与次用户相对应的虚拟次用户作为智能体. 通过与环境交互学习,进行信道和共享方式初选;频谱分配系统根据冲突情况和各智能体的学习结果调整信道分配策略直至次用户间无冲突. 仿真结果表明,该算法在无信道检测和信道先验知识的条件下,能根据前一时隙信道状态和次用户传输速率需求,实现动态信道分配和频谱共享方式确定,避免次用户间冲突,减少主次用户间冲突,有效提升次用户总吞吐量.Abstract: To solve the problem of multi-user spectrum resource allocation under hybrid overlay/underlay spectrum sharing mode, a dynamic spectrum allocation model under hybrid spectrum sharing is constructed, and a multi-user dynamic spectrum allocation algorithm based on Q learning is proposed. Aiming at maximizing the total throughput of secondary users without causing harmful interference to primary users, the proposed algorithm establishes some virtual secondary users (SUs) corresponding to the actual SUs, and treats them as agents. Through interactive learning with the environment, channels and sharing patterns allocated to SUs are selected preliminarily. The channel allocation strategy is adjusted by spectrum allocation system according to the conflict states and the learn results of each agent until there is no conflict between SUs. Simulation results show that according to the channel states of the previous time slot and the transmission rate requirements of the SUs without any channel detection and prior knowledge of the channels, the dynamic channel allocation and spectrum sharing patterns can be determined. The proposed algorithm can also effectively avoid conflicts between SUs and reduce conflicts between primary users and SUs so that it effectively improves the total throughput of SUs.
-
Keywords:
- Q-learning /
- spectrum allocation /
- multi-agent /
- heterogeneous users /
- hybrid spectrum sharing mode
-
引 言
随着无线通信业务的飞速增长,频谱资源日益短缺. 基于认知无线电(cognitive radio, CR) 技术[1]的频谱共享策略作为一种能够提升频谱利用效率,缓解频谱资源紧缺的有效方法,近年来引起了人们的广泛关注. 频谱共享方式可以分为填充式(overlay)和下垫式(underlay)两种[2]. overlay频谱共享方式中,系统将空闲信道分配给次用户,次用户能够以最大功率传输信息[3]. underlay频谱共享方式中,若次用户发射功率传输到主用户接收机时在干扰门限以下,即可与主用户共同使用信道[4]. 文献[5]采用overlay频谱共享方式,提出了基于频谱可用性的子载波功率分配算法,但该算法需要对信道状态进行周期性感知. 文献[6]提出了underlay频谱共享算法,可有效进行信道选择和功率控制. 但在信道负载率较低,即主用户占用信道的时隙较少的情况下,会对频谱资源造成一定程度浪费.
综合两种共享方式的优点和不足,学者们提出了面向混合频谱共享方式的动态频谱分配策略,使系统可根据次用户的异质性和信道状态,切换频谱共享方式,最大化系统吞吐量. 文献[7]提出了在不完美感知的场景下,根据用户间距离切换频谱共享方式的分配策略,提高了次用户吞吐量,但仍然依赖信道感知. 文献[8]将混合频谱共享方式问题建模为多臂赌博机(multi-armed bandit, MAB)问题,并通过组合多个单用户MAB策略提供了一种有效的信道分配算法,降低了用户间冲突率. 虽然系统不需要信道感知,但牺牲了系统吞吐量. 因此,混合频谱共享方式对信道感知性能提出了更高的要求. 当系统感知结果较差时,如何提高混合频谱共享模式下动态频谱分配的性能,是实际应用中亟需解决的问题.
Q学习是一种无模型强化学习算法,能够在无信道感知的情况下,通过Q值迭代找到最优策略. 近年来,Q学习技术在动态频谱分配中应用比较广泛,也取得了一些进展. 文献[9]提出了ε贪心策略下的多智能体Q学习(multi-agent Q-learning,MAQL)算法,将多个智能体的回报函数用期望回报矩阵的形式表示,而后跟踪每个智能体在学习过程中最大Q值对应的动作,进行频谱分配. 但该算法需要将所有动作组合枚举,系统复杂度较大. 文献[10]提出了多智能体抗干扰(collaborative multi-Agent anti-jamming, CMAA)算法,虽然该算法是解决通信抗干扰问题,但可将干扰源看成主用户,用以解决多智能体动态频谱分配问题. 该算法中多智能体依次学习外部环境,广播其选择的信道,其他智能体将其视为环境的一部分,继续学习. 但该文献研究对象是扫频干扰,系统状态转移规律性较强,易于学习. 实际应用中,主用户通常在各自信道中传输,主用户间的相关性较小,学习难度相对较大.
综上,Q学习在解决动态频谱分配问题中,存在一定优势,但大多应用于overlay频谱共享方式,这是因为Q学习方法擅长学习主用户忙闲规律,从而便于系统找到频谱空洞,而且普通的Q学习方法,只能根据信道Q值大小决定分配哪个信道,但无法判断应以何种共享方式共享信道. 因此,在某些无法实施信道感知的场景下,针对混合频谱共享方式,如何进行动态频谱分配,是频谱分配问题中面临的一个难点.
本文在上述算法的启发下,提出一种混合共享方式下动态频谱分配算法. 该算法可在无信道检测和信道先验知识的条件下,能根据前一时隙信道状态和次用户传输速率需求,实现动态信道分配和频谱共享方式确定,避免次用户间冲突,减少主次用户间冲突,有效提升次用户总吞吐量.
1 系统模型
1.1 网络模型
本文主要研究CR网络中的频谱分配问题,其网络模型如图1所示.
一个小区有
M 个次用户和N 个主用户通过基站进行通信(N⩾ . 有N 个带宽为B 的相互独立信道,分别授权给N 个主用户,主用户可随时接入授权信道,无需考虑次用户的传输情况. 同一时隙内,主用户忙闲状态保持不变,主用户在整个通信过程中只占用本授权信道. 次用户j 接入信道时,若主用户未占用信道,则次用户可采用overlay频谱共享方式,以最大发射功率P_j^{\max } 传输信息;若主用户占用信道,则次用户只能选择释放信道或降低发射功率P_j^{\text{c}} 以underlay频谱共享方式与主用户共用信道. 为便于分析,每个次用户同一时隙只能分配一个信道,且每个信道同一时隙只能分配给一个次用户.1.2 系统共存模型
系统共存模型如图2所示,图中
{\left| {{h_{{\text{uv,}}i}}} \right|^2} 、{\left| {{h_{{\text{ud,}}i}}} \right|^2} 、{\left| {{h_{{\text{sv,}}j}}} \right|^2} 和{\left| {{h_{{\text{sd,}}j}}} \right|^2} 分别表示主用户i 发射机u到主用户i 接收机v、主用户i 发射机u到次用户j 接收机d、次用户j 发射机s到主用户i 接收机v和次用户j 发射机s到次用户j 接收机d之间的信道衰落.本文只考虑大尺度衰落,根据自由空间的电波传播模型[11],设发射功率为
{P_{\text{t}}} ,以球面波辐射,接收功率为{P_{\text{r}}} ,则有{P_{{\rm{r}}} } = \frac{{{A_{\text{r}}}}}{{4{\text{π}}{d^2}}}{P_{\text{t}}}{G_{\text{t}}}. (1) 式中:
{A_{\text{r}}} = \dfrac{{{\lambda ^2}{G_{\text{r}}}}}{{4{\text{π}}}} ,{G_{\text{t}}} 、{G_{\text{r}}} 分别表示发射天线和接收天线增益,\lambda = \dfrac{c}{f} 为工作波长,c = 3 \times {10^8}\;{\text{m/s}} ,f 为工作频率;d 为发射机与接收机间距离. 则由式(1)可得,信道衰落为{\left| h \right|^2} = \frac{{{P_{\text{r}}}}}{{{P_{\text{t}}}}}\; = {\left(\frac{1}{{4{\text{π}}d}} \cdot \frac{c}{f}\right)^2} . (2) 实际情况中,传播并不总是发生在平坦地面,而是存在多条传播路径的可能性,视距路径也往往会存在被障碍物遮挡等情况,因此理论上功率以
{d^{ - 2}} 衰减. 但是由于实际信道的不同,功率以{d^{ - g}} 衰减,g 为衰减系数,根据测算,g \in (1.5,5.5) ,g = 4 为各种环境中的一个平均值[12].根据系统模型和香农公式,可得次用户
j 信噪比为{R_{{\text{SN}}}} = \left\{ \begin{array}{l} \dfrac{{P_j^{{\text{max}}}{{\left| {{h_{{\rm{s}}{\text{d,}}j}}} \right|}^2}}}{{{N_0}}}\;\;\;\;,a(i) = 0 \\ \dfrac{{P_{i,j}^{\text{c}}{{\left| {{h_{{{{\rm{sd}}}},j}}} \right|}^2}}}{{P_i^{\text{u}}{{\left| {{h_{{\text{ud}},i}}} \right|}^2} + {N_0}}},a(i) = 1 \end{array} \right.. (3) 式中:
P_{i,j}^{\text{c}} = \min (P_{j}^{{\text{max}}},{{P_{i}^{\text{m}}}}\Big/{{{{\left| {{h_{{\text{sv}},j}}} \right|}^2}}}) 为underlay共享方式下次用户j 在信道i 的发射功率,P_i^{\text{m}} 为主用户i 干扰门限;P^{\rm{u}}_i 为主用户i发射功率;{N_0} 为噪声功率.a(i) 为信道中主用户i 的忙闲状态,当主用户i 未占用信道,a(i) = 0 ,次用户可以overlay方式共享信道;当主用户i 占用信道,a(i) = 1 ,次用户只能以underlay方式共享信道,但不可对主用户i 产生有害干扰,即次用户j 发射功率P_{i,j}^{\text{c}} 经过信道衰落{\left| {{h_{{\text{sv,}}j}}} \right|^2} 传输到主用户i 接收机处,不能大于主用户i 的干扰门限P_i^{\text{m}} ,且次用户j的信道容量需满足自身最低传输速率C_j^{{\text{min}}} . 因此,underlay享方式下次用户j 发射功率约束条件为:P_{i,j}^{\text{c}}{\left| {{h_{{\text{sv}},j}}} \right|^2} \leqslant P_{ i}^{\text{m}}; (4) B{\log _2}(1 + {R_{{\text{SN}}}}) \geqslant C_j^{\min }. (5) 式中:
B 为信道带宽.根据式(3)~(5)可得
\frac{{\left({2^{\frac{{C_j^{\min }}}{B}}} - 1\right)\left(P_{i}^{\text{u}}{{\left| {{h_{{\text{ud}},i}}} \right|}^2} + {N_0}\right)}}{{{{\left| {{h_{{\text{sd}},j}}} \right|}^2}}} \leqslant P_{i,j}^{\text{c}} \leqslant \frac{{P_{i}^{\text{m}}}}{{{{\left| {{h_{{\text{sv}},j}}} \right|}^2}}}. (6) 当
P_{i}^{\text{m}} < \dfrac{{\left({2^{\frac{{C_j^{\min }}}{B}}} - 1\right)\left(P_{i}^{\text{u}}{{\left| {{h_{{\text{ud}},i}}} \right|}^2} + {N_0}\right){{\left| {{h_{{\text{sv}},j}}} \right|}^2}}}{{{{\left| {{h_{{\text{sd}},j}}} \right|}^2}}} 时,P_{i,j}^{\text{c}} 无法同时满足式(4)和(5),即当次用户j以最低速率传输时,也将对主用户i产生有害干扰.1.3 信道状态转移模型
假设主用户占用信道状态符合两状态马尔科夫过程,如图3所示.
主用户在空闲和忙碌状态下的持续时间,分别符合参数为λ(闲)和μ(忙)的指数分布,将传输过程离散为t个长度为
\tau 的时隙,则可得主用户状态转移概率矩阵为[13]\begin{split} {{\boldsymbol{P}}^{{{\rm{z}}}}} = &\left[ \begin{array}{l} {P_{00}^{\rm{z}}}\;\;\;\;{P_{01}^{\rm{z}}} \\ {P_{10}^{\rm{z}}}\;\;\;\;{P_{11}^{\rm{z}}} \end{array} \right] \\ =& {{\text{e}}^{{\boldsymbol{L}}\tau}} \\ =& \left[ \begin{array}{l} {\mu _0} + {\lambda _0}{{\text{e}}^{ - ({\lambda ^{ - 1}} + {\mu ^{ - 1}}){{\tau}}}}\;\;\;\;{\lambda _0}[1 - {{\text{e}}^{ - ({\lambda ^{ - 1}} + {\mu ^{ - 1}})\tau}}] \\ {\mu _0}[1 - {{\text{e}}^{ - ({\lambda ^{ - 1}} + {\mu ^{ - 1}})\tau}}]\;\;\;\;{\lambda _0} + {\mu _0}{{\text{e}}^{ - ({\lambda ^{ - 1}} + {\mu ^{ - 1}})\tau}} \end{array} \right] \end{split} . (7) 式中:
{P^{\rm{z}}_{00}} 、{P_{01}^{\rm{z}}} 、{P_{10}^{\text{z}}} 和{P_{11}^{\text{z}}} 分别为主用户由空闲状态转移到空闲状态、由空闲状态转移到忙碌状态、由忙碌状态转移到空闲状态和由忙碌状态转移到忙碌状态的概率;{\boldsymbol{L}} = \left[ \begin{array}{l} - {\lambda ^{ - 1}}\;\;\;\;{\lambda ^{ - 1}} \\ {\mu ^{ - 1}}\;\;\;\; - {\mu ^{ - 1}} \end{array} \right] ;{\lambda _0} = \dfrac{{{\lambda ^{ - 1}}}}{{{\lambda ^{ - 1}} + {\mu ^{ - 1}}}} ;{\mu _0} = \dfrac{{{\mu ^{ - 1}}}}{{{\lambda ^{ - 1}} + {\mu ^{ - 1}}}} .2 算法设计
根据状态转移概率矩阵
{{\boldsymbol{P}}^{\text{z}}} ,模拟出主用户在各时隙内忙闲状态.系统根据信道衰落、主用户干扰门限、次用户最大发射功率、最低传输速率,以及上一时隙各信道状态等信息,为次用户分配信道和共享方式. 若以overlay方式共享,但当前时隙信道被主用户占用,则记作主次用户间发生冲突,次用户无法传输信息. 若以underlay方式共享,但次用户以最低速率传输仍对主用户产生有害干扰,则记作主次用户间发生冲突,次用户无法传输信息. 当不止一个次用户共用信道时,则记作该信道内次用户间发生冲突,次用户无法传输信息.
本问题的目标是在次用户之间不发生冲突,不对主用户产生有害干扰,且满足自身最低传输速率的条件下,次用户总吞吐量最大,则目标函数为
\begin{array}{l} \displaystyle\mathop {\max }\limits_{{{\boldsymbol{B}}_{\boldsymbol{f}}}} \sum\limits_{i = 1}^N {\sum\limits_{j = 1}^M {{b_{i,j}}B{{\log }_2}(1 + {R_{{\text{SN}}}})} } \\ \;\;{\text{s}}{\text{.t}}{\text{.}}\;\;{C_1}:B{\log _2}(1 + {R_{{\text{SN}}}}) \geqslant C_j^{\min } \\ \quad\;\;\;\; {C_2}:P_{i,j}^{\text{c}} \leqslant \min \left(P_j^{\max },\dfrac{{P_i^{\text{m}}}}{{{{\left| {{h_{{\text{sv,}}j}}} \right|}^2}}}\right),a(i) = 1 \\ \quad\;\;\;\; {C_3}:\displaystyle\sum\limits_{i = 1}^N {{b_{i,j}} \leqslant 1} \\ \quad\;\;\;\; {C_4}:\displaystyle\sum\limits_{j = 1}^M {{b_{i,j}} \leqslant 1}. \end{array} (8) 式中:
{{\boldsymbol{B}}_{\boldsymbol{f}}} = {\{ {b_{i,j}}|{b_{i,j}} \in \{ 0,1\} \} _{M \times N}} 为信道分配矩阵,当信道i 分配给次用户j 时{b_{i,j}} = 1 ,当信道i 未分配给次用户j 时{b_{i,j}} = 0 ;{C_1} 表示次用户j 在信道i 中的传输速率满足最低传输速率需求;{C_2} 表示underlay共享方式下,次用户j 在信道i 中的发射功率不得超过自身最大发射功率,且经过信道衰落后不得超过主用户i 的干扰门限;{C_3} 表示每个次用户同一时隙只能分配一个信道;{C_4} 表示每个信道同一时隙只能接入一个次用户.将Q学习算法应用于动态频谱分配问题,需将上述问题建模为一个有限马尔科夫决策过程,定义智能体、状态集、动作集等要素,并通过如下迭代规则更新Q矩阵[14]:
\begin{split} {{\boldsymbol{Q}}_{t + 1}}(s,a) =& {{\boldsymbol{Q}}_t}(s,a) + \\ & \alpha ({r_t} + \gamma \mathop {\max }\limits_a {{\boldsymbol{Q}}_t}(s',a') - {{\boldsymbol{Q}}_t}(s,a)). \end{split} (9) 式中:α为学习速率,表示Q矩阵更新的步长;
\gamma 为折现因子,\gamma 越大表示未来的回报越重要.令\alpha = \frac{1}{{1 + {\rm{visi}}{{\rm{t}}_{s,a}}}},\alpha \in (0,1], (10) {\boldsymbol{V}} = {\{ {\rm{visi}}{{\rm{t}}_{s,a}}|{\rm{visi}}{{\rm{t}}_{s,a}} \in {{\boldsymbol{N}}^{*}}\} _{{2^N} \times 2N}} 为状态动作对访问计数矩阵. 在初始阶段,各状态动作对访问次数少,学习速率\alpha 较大,学习步长较大;随着状态动作对访问次数增多,\alpha 逐渐减小,最终趋向于0,Q矩阵收敛,得到最优策略[15].智能体:系统中与各次用户对应的虚拟次用户.
状态集S:
{\boldsymbol{S}} = \left\{ {{s_1},{s_2},\cdots,{s_N}} \right\} ,{s_i} \in \left\{ {0,1} \right\} ,表示系统的状态集合.{s_i} = 0 表示信道i 中无主用户占用,{s_i} = 1 表示信道i 中有主用户占用,因此状态空间由2N个状态构成.动作集A:
{\boldsymbol{A}} \in \left\{ {{a_{{\text{1o}}}},{a_{{\text{1u}}}},{a_{{\text{2o}}}},{a_{{\text{2u}}}},\cdots,{a_{M{\text{o}}}},{a_{M{\text{u}}}}} \right\} ,表示智能体可以采取的动作集合. 每个智能体有N 个信道可供选择,每个信道存在overlay和underlay两种共享方式,因此动作空间由2N 个动作构成.{a_{i{\text{o}}}} 表示选择第i 个信道,并以overlay方式共享信道;{a_{i{\text{u}}}} 表示选择第i 个信道,并以underlay方式共享信道.回报值
r :回报值r 是与次用户吞吐量相关的反馈值,本文定义为r = \frac{{{C_{i,j}}}}{B} . (11) 式中:
C_{i,j} =Blog2(1+RSN)为用户j在信道i内的吞吐量.3 算法实现流程
从提升次用户总吞吐量,同时尽量降低主次用户间冲突率角度出发,本文提出了针对混合频谱共享方式的基于Q学习的动态频谱分配方案,具体算法流程如下:
步骤1 初始化. 将各虚拟次用户的Q矩阵
{\boldsymbol{Q}} = {\{ {Q_{s,a}}|{Q_{s,a}} \in {\bf{R}}\} _{{2^N} \times 2N}} 、选择概率矩阵{\boldsymbol{P}} = \{ {p_{s,a}}|{p_{s,a}} \in [0, 1]\} _{{2^N} \times 2N} 、状态动作对访问计数矩阵{\boldsymbol{V}} = {\{ {\rm{visi}}{{\rm{t}}_{s,a}}|{\rm{visi}}{{\rm{t}}_{s,a}} \in {{\bf{N}}^{*}}\} _{{2^N} \times 2N}} 初始化为零矩阵. 初始化传输时隙数t 、折现因子\gamma 、退火温度T 等参数以及系统初始状态{{\boldsymbol{s}}_{\text{0}}} ,初始化信道状态统计向量{{\boldsymbol{s}}_{\boldsymbol{t}}} = \left\{ {{s_1},{s_2},\cdots,{s_N}} \right\} 为{{\boldsymbol{s}}_{\text{0}}} .步骤2 信道初选. 各虚拟次用户统计前一时隙各信道主用户的占用状态,更新信道状态统计向量
{{\boldsymbol{s}}_{\boldsymbol{t}}} ,在状态集S中找到对应的状态序号s = \{ {s_1}{s_2}\cdots{s_N}\} ,根据Q矩阵和玻尔兹曼学习策略[16],更新选择概率矩阵P中s状态下各动作的选择概率,并根据概率进行信道初选,有较高Q值的动作则有较大概率被选中. 虚拟次用户选择概率矩阵P中各元素p(s,a) 通过如下规则更新:p(s,a) =\, \rho (a/s) = \dfrac{{{{\text{e}}^{\frac{{Q(s,a)}}{{T}}}}}}{{\displaystyle\sum\limits_{i = 1}^N {{{\text{e}}^{\frac{{Q(s,a)}}{{T}}}}} }} . (12) 式中:
\,\rho (a/s) 为在s 状态下选择动作a 的概率;Q\left(s, \right. \left. a\right) 为Q矩阵中s 状态下动作a 的Q值;T 为退火温度,表示Q值大小对概率的影响程度,T 较大时,Q值对概率影响较小,反之则影响较大.步骤3 信道再分配. 建立并初始化冲突统计矩阵
{\boldsymbol{H}} = {\{ {h_{x,y}}|{h_{x,y}} \in \{ 0,1\} \} _{M \times M}} 为零矩阵,用来统计M 个虚拟次用户信道初选的冲突情况,{h_{x,y}} = 1 表示次用户y 初选信道与次用户x 初选信道冲突,{h_{x,y}} = 0 表示次用户y 初选信道与次用户x 初选信道不冲突. 对没有发生冲突的虚拟次用户,按其初选信道进行分配. 对发生冲突的虚拟次用户,系统需根据其选择概率矩阵P,进行信道再分配:在发生冲突的各虚拟次用户选择概率矩阵P中,找到与其状态动作对(s,a) 相对应的概率值\,\rho (a/s) ,并进行比较,概率值最大的虚拟次用户可使用此信道,剩余虚拟次用户在剩余信道中,选择状态s 下各自最大概率值对应的动作,更新冲突统计矩阵H;若仍有冲突,继续比较所选动作对应的概率值,直到无虚拟次用户冲突,本时隙信道分配结束,找到所选动作对应的信道和共享方式,并下发信道分配方案.步骤4 得到回报值. 执行信道分配方案,根据式(11)计算本时隙各虚拟次用户的回报值.
步骤5 更新Q矩阵. 各虚拟次用户根据回报值
{r_j} 、访问计数矩阵V和式(9),更新Q矩阵.步骤6 参数更新. 时隙结束后,传输时隙数
t 加1,退火温度T 以倒数规律随t 增加而减小,信道状态统计向量{{\boldsymbol{s}}_{\boldsymbol{t}}} 更新为前一时隙各信道主用户的忙闲状态.步骤7 判断
t 是否满足结束条件,若不满足,进入步骤2,若满足则算法结束. 算法流程如图4所示.4 仿真结果与分析
本文考虑一个由
N 个主用户、M 个次用户构成的CR网络,为验证混合频谱共享方式的可行性和优越性以及本文算法的有效性,本节采用仿真对比方法分析算法的性能.系统仿真参数设置如表1所示.
表 1 系统仿真参数Tab. 1 System simulation parameters参数 取值 主用户数量N 4 信道数量N 4 次用户数量M 3 各信道带宽B 150 kHz 中心频率f 2 GHz 主用户发射机到
接收机距离d12 km 次用户发射机到
接收机距离d22 km 主用户发射机到
次用户接收机距离d35 km 次用户发射机到
主用户接收机距离d45 km 信道衰落|h|2 −(32.45+40lg(d(km))+
20lg(f(MHz)) dB发射天线增益Gt 0.5 dB 接收天线增益Gr 0.5 dB 噪声功率N0 −(174−10lg(B)) dBm 折现因子γ 0.9 时隙长度\tau 1 ms 主用户在各自信道内占用和空闲状态符合两状态马尔科夫链,其参数
\lambda 和\mu 、主用户发射功率P_i^{\text{u}} 以及干扰门限P_i^{\text{m}} 如表2所示,次用户最大发射功率P_j^{{\text{max}}} 和最低传输速率需求C_j^{{\text{min}}} 如表3所示.表 2 主用户仿真参数Tab. 2 Simulation parameters of each primary user主用户 {\lambda _0}/{\text{ms}} {\mu _0}/{\text{ms}} P_{i}^{\text{u} }/{\text{dBm} } P_{i}^{\text{m} }/{\text{dBm} } 1 10 3 30 −96.5 2 10 5 30 −97.5 3 10 7 30 −99.5 4 10 9 30 −101.5 表 3 次用户仿真参数Tab. 3 Simulation parameters of each secondary user次用户 P_{j}^{\max }/{\text{dBm} } C_{j}^{\min }/{\text{kbps} } 1 30 700 2 30 600 3 27 500 设置退火起始温度
T_{\text{s}} = 30\;000 ,终止温度T_{\text{e}} = 1 ,退火温度T 随着传输时隙数t 增加,以参数为1.5的倒数规律递减,减小至终止温度后停止递减. 仿真长度为30 000个时隙,为了便于分析,将30 000个时隙分为100个相等的学习阶段,每个学习阶段300个时隙,统计各学习阶段次用户总吞吐量和用户间冲突率,同时采用蒙特卡洛实验策略,每个时隙进行200次相互独立实验并取其平均值为最后实验结果.4.1 不同共享方式下性能分析
将本文算法与CMAA算法[10]和underlay频谱分配算法[6]进行比较. CMAA算法和underlay频谱分配算法分别为overlay共享方式和underlay共享方式,且均不依赖信道检测,与本文场景相似,因此加入对比.
图5是CMAA算法、本文算法和underlay频谱分配算法的次用户总吞吐量对比. 可以看出,在学习初期,三种算法吐量均较低,且CMAA算法高于本文算法和underlay频谱分配算法. 这是因为在学习初期,三种算法分别接近于在overlay、混合和underlay三种共享方式中随机选择,且仿真中系统各信道负载率较低. 所以在接近随机选择情况下,吞吐量方面overlay共享方式大于underlay共享方式,混合共享方式居中. 随着传输时隙增加,三种算法均能够不断与外部环境进行交互学习,优化信道分配策略,提升系统性能,并分别在第35、30和40学习阶段逐渐收敛. 收敛后,本文算法与CMAA算法相比,次用户总吞吐量提高约6.5%. underlay频谱分配算法受主用户发射功率和干扰门限等因素影响,总吞吐量较低,但波动较小,可保持长时间稳定通信.
图6是CMAA算法、本文算法和underlay频谱分配算法的主次用户间冲突率对比. 可以看出,在学习初期,三种算法冲突率较高,且CMAA算法高于本文算法和underlay频谱分配算法,原因与图5类似. 在接近随机选择情况下,overlay共享方式冲突率大于underlay共享方式,混合共享方式居中. 随着传输时隙增加,三种算法冲突率均有所降低,并分别在第35、30和40学习阶段逐渐收敛. 收敛后,本文算法相对于CMAA算法主次用户间冲突率下降约66.7%. underlay频谱分配算法无需考虑各时隙主用户忙闲变化情况,因此当系统找到与所有次用户均匹配的信道后,主次用户间冲突率可下降为0.
综上,图5、图6以三种可实现的强化学习算法为例,分析了混合共享方式的优势和不足. 在三种共享方式中,次用户总吞吐量方面:混合共享方式优于单一共享方式;在主次用户间冲突率方面:undelay共享方式最低、混合共享方式其次、overlay共享方式最高,但underlay共享方式需要牺牲较大吞吐量.
4.2 混合共享方式下性能分析
仿真参数不变,将本文算法与MAB算法[8]、随机算法和遍历算法进行比较. 其中,随机算法为每个时隙从N个信道中随机挑选M个信道,并随机选择共享方式分配给次用户传输信息. 遍历算法为每个时隙遍历所有信道和共享方式的组合,最终以次用户总吞吐量最大的方案进行分配,用以计算理论上吞吐量和冲突率的最优值. MAB算法为混合共享方式,且不依赖信道检测,与本文场景相似,因此加入对比.
图7是本文算法、MAB算法、随机算法和遍历算法的次用户总吞吐量对比. 可以看出,在学习初期,本文算法和MAB算法的吞吐量较低,与随机算法相近,通过不断学习交互,更新
{\boldsymbol{Q}} 矩阵,优化分配策略,提升吞吐量,并分别在第30和45学习阶段逐渐收敛. 收敛后本文算法与MAB算法相比,次用户总吞吐量提高约16.7%,且收敛更快;与随机算法相比,吞吐量提高78.2%;但与遍历算法的最优策略相比,总吞吐量为遍历算法的91.3%.图8是本文算法、MAB算法、随机算法和遍历算法的主次用户间冲突率对比. 可以看出,各算法性能与图7基本一致,本文算法和MAB算法的冲突率随传输时隙增加而降低,并在第30和45学习阶段逐渐收敛. 收敛后,本文算法相对于MAB算法,主次用户间冲突率下降约53.8%,且收敛更快;与随机算法相比,冲突率下降约73.9%. 但与遍历算法的最优策略相比,仍存在差距,遍历算法冲突率可逼近于0.
综上,本文算法相比MAB算法和随机算法,在次用户总吞吐量和主次用户间冲突率方面均具有明显优势,但与遍历算法相比仍存在差距. 这是因为系统的状态是由N个服从马尔科夫随机过程的主用户忙闲状态构成,系统相邻状态存在一定的相关性,同时状态转移也存在不确定性,依靠学习算法无法完美预测所有时隙主用户的忙闲状态,当信道状态预测错误时,会造成冲突率升高,吞吐量降低.
4.3 不同参数λ和μ下性能分析
系统各主用户的参数λ和μ分别等比例扩大3倍和9倍,其他参数不变,将本文算法和遍历算法进行仿真对比,如图9所示. 可以看出,随着参数λ和μ增大,遍历算法性能没有影响,因为各信道负载率不变,次用户在最优策略下的总吞吐量不变. 但随着系统相邻状态相关性增强,本文算法通过学习,可对信道状态预测的准确性提高,导致吞吐量增大,性能逼近遍历算法.
4.4 扩展性分析
将信道数分别设置为4个、6个和8个,主用户数与信道数相等,次用户数设置为3个,其他参数不变,对本文算法的性能进行仿真,如图10所示. 可以看出,在不同信道数的情况下,系统均能随着传输时隙增加,优化信道分配策略,提升次用户总吞吐量,并最终收敛. 随着信道数和主用户数的增加,收敛值逐渐升高,但收敛速度下降,这是因为,信道数增多导致探索时间增加.
将信道数和主用户数设置为8个,次用户数分别设置为3个、5个和7个,其他参数不变,对本文算法的性能进行仿真,如图11所示. 可以看出,在不同次用户数的情况下,系统均能随着传输时隙增加,优化信道分配策略,提升次用户总吞吐量,并最终收敛.
4.5 复杂度分析
以系统一个时隙的分配过程为例,本文算法中状态空间为
{2^N} ,动作空间为2N ,次用户个数为M ,则在信道初选过程运算次数为M \times (2N) \times {2^N} ,信道再分配过程运算次数为{M^2} ,由于系统中M \leqslant N ,因此本文算法信道分配过程复杂度约为O(M \times (2N) \times {2^N}) + O({M^2}) \approx O(M \times N \times {2^{N + 1}}) .CMAA算法的状态空间为
{2^N} ,动作空间为N ,次用户个数为M ,与本文算法复杂度类似,但没有信道再分配过程,因此CMAA算法复杂度约为O(M \times N \times {2^N}) .underlay频谱分配算法的状态空间为
{2^N} ,动作空间为N ,次用户个数为M ,与本文算法复杂度类似,但没有信道再分配过程,因此underlay频谱分配算法复杂度约为O(M \times N \times {2^N}) .MAB算法的状态空间为1,动作空间为
2N ,次用户个数为M ,信道选择过程运算次数为2N \times M ,策略组合过程运算次数为{M^2} ,因此MAB算法复杂度为O((2N + M) \times M) .随机算法为任意选取信道和共享方式进行分配,因此复杂度为
O(1) .遍历算法需要从
2N 个动作中选择M 个动作分配给次用户. 由于次用户为异质用户,信道分配有顺序要求,因此信道分配过程的运算量为A_{2N}^M = \dfrac{{(2N)!}}{{(2N - M)!}} ,复杂度为O\left(\dfrac{{(2N)!}}{{(2N - M)!}}\right) .各算法复杂度对比表4所示.
表 4 复杂度对比Tab. 4 Comparison of complexity算法 复杂度 本文算法 O(M \times N \times {2^{N + 1}}) CMAA算法 O(M \times N \times {2^N}) underlay频谱分配算法 O(M \times N \times {2^N}) MAB算法 O((2N + M) \times M) 随机算法 O(1) 遍历算法 O\left(\dfrac{ {(2N)!} }{ {(2N - M)!} }\right) 综上所述,本文算法与CMAA算法、underlay频谱分配算法、MAB算法、随机算法相比,复杂度较高,但性能有显著提升. 由于本文为多次用户和多信道场景,
M \geqslant 2 ,N \geqslant 2 ,所以本文算法的时间复杂度小于遍历算法,且随着次用户和信道数量增加,复杂度差距将逐渐增大.5 结 论
本文构建了混合频谱共享方式下的动态频谱分配模型,并将Q学习思想加以改进,提出了一种解决混合共享方式下多次用户频谱分配问题的算法. 仿真结果表明,混合共享方式与单一共享方式相比,在主次用户间冲突率方面,低于overlay共享方式,高于underlay共享方式;但在次用户吞吐量方面,明显优于两种单一共享方式.
在混合共享方式的4种算法对比中,本文算法能够在避免次用户间冲突前提下,在次用户总吞吐量、主次用户间冲突率两个方面优于MAB算法和随机算法,且随着系统相邻状态相关性提高,算法性能可逼近遍历算法. 此外,本算法无需信道检测,并考虑了次用户传输速率需求的差异,更符合实际情况.
-
表 1 系统仿真参数
Tab. 1 System simulation parameters
参数 取值 主用户数量N 4 信道数量N 4 次用户数量M 3 各信道带宽B 150 kHz 中心频率f 2 GHz 主用户发射机到
接收机距离d12 km 次用户发射机到
接收机距离d22 km 主用户发射机到
次用户接收机距离d35 km 次用户发射机到
主用户接收机距离d45 km 信道衰落|h|2 −(32.45+40lg(d(km))+
20lg(f(MHz)) dB发射天线增益Gt 0.5 dB 接收天线增益Gr 0.5 dB 噪声功率N0 −(174−10lg(B)) dBm 折现因子γ 0.9 时隙长度\tau 1 ms 表 2 主用户仿真参数
Tab. 2 Simulation parameters of each primary user
主用户 {\lambda _0}/{\text{ms}} {\mu _0}/{\text{ms}} P_{i}^{\text{u} }/{\text{dBm} } P_{i}^{\text{m} }/{\text{dBm} } 1 10 3 30 −96.5 2 10 5 30 −97.5 3 10 7 30 −99.5 4 10 9 30 −101.5 表 3 次用户仿真参数
Tab. 3 Simulation parameters of each secondary user
次用户 P_{j}^{\max }/{\text{dBm} } C_{j}^{\min }/{\text{kbps} } 1 30 700 2 30 600 3 27 500 表 4 复杂度对比
Tab. 4 Comparison of complexity
算法 复杂度 本文算法 O(M \times N \times {2^{N + 1}}) CMAA算法 O(M \times N \times {2^N}) underlay频谱分配算法 O(M \times N \times {2^N}) MAB算法 O((2N + M) \times M) 随机算法 O(1) 遍历算法 O\left(\dfrac{ {(2N)!} }{ {(2N - M)!} }\right) -
[1] HAYKIN S. Cognitive radio: brain-empowered wireless communications[J]. IEEE journal on selected areas in communications,2005,23(2):201-220. doi: 10.1109/JSAC.2004.839380
[2] 赵澄, 郝茵茵. 基于混合overlay/underlay方式的认知无线电能效优化策略[J]. 浙江工业大学学报,2017,45(3):330-335. doi: 10.3969/j.issn.1006-4303.2017.03.019 ZHAO C, HAO Y Y. Energy efficiency optimization strategy of cognitive radio based on hybrid overlay/underlay transmission[J]. Journal of Zhejiang University of Technology,2017,45(3):330-335. (in Chinese) doi: 10.3969/j.issn.1006-4303.2017.03.019
[3] NGUYEN V D, SHIN O S. Cooperative prediction-and-sensing-based spectrum sharing in cognitive radio networks[J]. IEEE transactions on cognitive communications and networking,2017,4(1):108-120.
[4] ZHENG K, LIU X Y, LIU X, et al. Hybrid overlay-underlay cognitive radio networks with energy harvesting[J]. IEEE transactions on communications,2019,67(7):4669-4682. doi: 10.1109/TCOMM.2019.2912605
[5] 任丙印. 基于Overlay模型的认知无线电频谱分配技术研究[D]. 郑州: 解放军信息工程大学, 2012. REN B Y. Research on overlay model based spectrum allocation in cognitive radio system[D]. Zhengzhou: PLA Information Engineering University, 2012. (in Chinese)
[6] YAN Z, ZHANG X, LIU H, et al. An efficient transmit power control strategy for underlay spectrum sharing networks with spatially random primary users[J]. IEEE transactions on wireless communications, 17(7): 4341-4351.
[7] YAO H, ZHOU Z, ZHANG L, et al. An efficient power allocation scheme in joint spectrum overlay and underlay cognitive radio networks[C]//The 9th International Symposium on Communications and Information Technology. IEEE, 2009: 102-105.
[8] LEE H, LEE J. A channel allocation algorithm for cognitive radio systems using restless multi-armed bandit[C]//2013 IEEE 78th Vehicular Technology Conference (VTC Fall).
[9] 黄云霞. 基于改进Q学习的认知无线网络动态频谱接入算法研究[D]. 成都: 电子科技大学, 2012. HUANG Y X. Research on dynamic spectrum access algorithm of cognitive wireless network based on improved Q-learning[D]. Chengdu: University of Electronic Science and Technology, 2012. (in Chinese)
[10] YAO F, JIA L. A collaborative multi-agent reinforcement learning anti-jamming algorithm in wireless networks[J]. IEEE wireless communications letters,2019,8(4):1024-1027. doi: 10.1109/LWC.2019.2904486
[11] 啜钢, 王文博, 常永宇, 全庆一. 移动通信原理与系统[M]. 3版. 北京: 北京邮电大学出版社, 2018: 17. [12] 莫利希. 无线通信[M]. 田斌. 帖翊. 任光亮. 译. 2版. 北京: 电子工业出版社, 2015: 46. [13] MIN R, QU D, CAO Y, et al. Interference avoidance based on multi-step-ahead prediction for cognitive radio[C]//The 11th IEEE Singapore International Conference on Communication Systems. IEEE, 2008: 227-231.
[14] 张亚洲, 周又玲. 基于Q-learning的动态频谱接入算法研究[J]. 海南大学学报(自然科学版),2018,36(1):9-15. ZHANG Y Z, ZHOU Y L. Dynamic spectrum access algorithm based on q-learning[J]. Natural Science Journal of Hainan University,2018,36(1):9-15. (in Chinese)
[15] 张凯, 李鸥, 杨白薇. 基于Q-learning的机会频谱接入信道选择算法[J]. 计算机应用研究,2013,30(5):1467-1470. doi: 10.3969/j.issn.1001-3695.2013.05.047 ZHANG K, LI O, YANG B W. Q-learning based channel selection algorithm for opportunistic spectrum access[J]. Application research of computers,2013,30(5):1467-1470. (in Chinese) doi: 10.3969/j.issn.1001-3695.2013.05.047
[16] 范文翰, 赵旦峰. 基于Q-Learning的机会频谱接入算法[J]. 电子技术与软件工程,2018(12):24-26. FAN W H, ZHAO D F. Opportunistic spectrum access algorithm based on Q-learning[J]. Electronic Technology & Software Engineering,2018(12):24-26. (in Chinese)
-
期刊类型引用(6)
1. 刘志勇,王小红. 一种多用户频谱分配优化模型建立与求解. 科技通报. 2024(03): 57-63 . 百度学术
2. 滕志军,张爱玲,付雨珊. 基于博弈论的认知无线电动态频谱分配策略. 计算机科学. 2024(S1): 784-788 . 百度学术
3. 吴佳丽,刘向南,孙春蕾,张海君. 海洋移动通信网络无线资源管控. 移动通信. 2024(11): 77-85 . 百度学术
4. 杨伊君,汪西明,葛斌,熊涛,卢迅. 智能感知辅助的快速动态频谱抗干扰方法. 通信技术. 2023(04): 462-470 . 百度学术
5. 吴波,胡磊. 基于频谱位示图的光网络路由频谱分配研究. 激光杂志. 2023(07): 160-164 . 百度学术
6. 胡林林,班勃. 通信功率干扰下电力邻域信道频谱分配仿真. 计算机仿真. 2023(07): 77-81 . 百度学术
其他类型引用(1)