欢迎光临小豌豆知识网!
当前位置:首页 > 电学技术 > 电通讯技术> 基于信道-带宽联合决策的多域智能通信模型及通信方法独创技术25145字

基于信道-带宽联合决策的多域智能通信模型及通信方法

2021-03-14 20:59:42

基于信道-带宽联合决策的多域智能通信模型及通信方法

  技术领域

  本发明属于无线通信技术领域,特别是一种基于信道-带宽联合决策的多域智能通信模型及智能抗干扰方法。

  背景技术

  随着通信对抗、认知无线电与人工智能等新兴技术的快速发展与深度融合,无线业务需求迅速增长、各种类型的无线设备密集部署。电磁环境日益复杂、干扰智能化水平不断提升、频谱资源日渐紧张,这也使得抗干扰决策问题需要面对“干扰动态”、“构成复杂”的新型干扰环境。因此,为了有效应对新型干扰环境下的抗干扰问题,在未来的通信抗干扰问题中,具有感知、学习和决策能力的智能抗干扰通信算法是研究的重点。此外,在实际的物理场景中,复杂的地形地貌、动态移动的物体以及自然气候、温度湿度等因素也会直接或间接影响无线信道的传输特性。这些因素导致了信号在传输过程中会产生多径衰落和阴影效应,在一定程度上增加了信道参数的随机性和不稳定性。因此,如何处理衰落信道条件下的智能抗干扰问题也成为迫切需要解决的难题。

  由于干扰攻击的快速变化,用户很难实时采用抗干扰策略。然而,现有的大多数抗干扰工作都需要获得干扰机的一些事先信息,才能制定相应的抗干扰策略。传统的抗干扰方法对于频谱资源要求较高,难以应用于频谱资源比较紧张的场景。而且传统的抗干扰方法大多采用较为盲目的抗干扰方式,即它们的抗干扰参数提前设定,所考虑的外界电磁环境与干扰模式相对固定,极少考虑外界干扰的动态性,即使一些具有自适应能力的抗干扰方法也只适用于干扰缓慢变化的场景。由于上述原因导致传统的通信抗干扰方法难以满足新型干扰环境条件下的抗干扰使用需求。

  考虑到干扰环境的动态特性,深度强化学习成为研究智能抗干扰问题最优决策的一种热门工具(参考文献:X.Liu et al.,``Aheterogeneous information fusion deepreinforcement learning for intelligent frequency selection of HFcommunication,”in China Communications,vol.15,no.9,pp.73-84,Sept.2018)。而如果只是单纯的强化学习抗干扰算法对于外界复杂多变的干扰模式会随着系统规模的增长,抗干扰算法的复杂度将呈爆炸式增长。最终导致其算法无效。如果的使用普通的深度强化学习模型(深度Q神经网络抗干扰模型)在外界干扰种类切换速度较快的情况下,很难进行较为准确的状态预测以及了抗干扰决策,且基于单一抗干扰域的抗干扰方法在一定程度上,会出现不同外界干扰环境对于所提抗干扰算法产生较大的影响,导致单一干扰方式的抗干扰算法效能低下,导致算法的普适性不强,对于外界干扰环境的适应性差。

  发明内容

  本发明的目的在于提供一种基于信道-带宽联合决策的多域智能通信模型及智能抗干扰方法,并带宽调整以及信道切换因子,很好地刻画基于时频多域联合抗干扰决策的通信场景。

  实现本发明目的的技术解决方案为:在动态未知的干扰环境中,将接收端所收集的历史频谱瀑布图作为所搭建的深度神经网络的输入状态,将其神经网络进行拟合。建立了无线通信网络中的通用信道模型,提出了基于带宽-信道联合决策的多域智能抗干扰算法。首先将抗干扰通信中的功率与信道选择问题建模为马尔科夫过程。并运用长短期记忆层、卷积层、池化层重新设计了深度强化学习的网络结构并进行了网络优化,然后将频率、时间和带宽等实时信息输入所设计的算法中,实现了在外界信道动态未知的状态下的实时抗干扰深度强化学习的决策。考虑块衰落信道模型,信道的特征参数在每个传输时隙中不发生变化,而在不同时隙之间会发生变化。在相邻帧间具有一定的相关性。然而,同一时隙的不同频段的信道状态被认为是独立的,并遵循准平坦衰落与频率选择性衰落模型。特别是当发射端和接收端之间的距离一定时,大尺度的路损分量保持不变,阴影衰落分量在每个传输帧内保持不变,并且在不同的传输帧内变化。因此本文将用户发送端和接收端之间的传输链路信道增益可定义为:

  Wt=(d-α)PL*(z)shadowing1=ht(1)

  d-α表示通信信道由于信息传输时路径损耗所引起的大尺度衰落,d表示用户通信双方的距离,α为路径损耗因子取值范围在2~5.5。(z)shadowing1表示传输链路中由于外界障碍物的阻碍所产生的阴影损耗(瞬时衰落系数)。zdB服从(对数正态分布)log-normal分布,其概率分布函数如下所示:

  

  类似地,干扰和用户接收端之间的干扰链路信道增益可表示为

  Wj=(d-β)PL*(z)shadowing2(3)

  其中,d-β,β和(z)shadowing2分别表示干扰和用户接收端之间的距离、路径衰落因子和瞬时衰落系数。

  用户接收端的信干噪比(Signal-to-Interference-plus-Noise Ratio,SINR)主要受当前通信信道质量以及干扰机干扰的影响。而接收机所收到的干扰功率不仅与干扰机的干扰功率Pj有关,还取决于当前干扰信道增益hj以及对于用户产生的有效干扰系数η(ζ)。基于此,可以根据信号功率、信道增益、干扰功率定义接收机的SINR如下式所示:

  

  其中Pt表示发射机的发射功率,Wt为用户发送端和接收端之间的传输链路信道增益,Wj为干扰和用户接收端之间的干扰链路信道增益,Bt表示发射机的通信带宽。接收机处的噪声谱密度为N0。将用户所受到干扰的有效程度定义为有效干扰系数η(ζ),可知有效干扰系数η(ζ)取决于用户中心频点ft、干扰中心频点fj、干扰带宽Bj与通信带宽Bt。所以有效干扰系数η(ζ)的数学表达式为(0≤η(ζ)≤1):

  

  公式中(5)中,ft表示用户在代理指导下所选频率,t表示当前时刻;在接收终端部署了一个代理,该接收终端的功率谱密度函数如式(7)所示:

  

  其中,U(f)表示用户的功率谱密度,gu表示用户发送端到接收端的信道增益,gj表示干扰机到用户接收端的信道增益,表示干扰机选择的干扰频率,表示干扰的功率谱密度函数,n(f)表示噪声的功率谱密度函数。

  模型中的离散频谱采样值定义为:

  

  其中,Δf表示频谱分辨率;i表示采样数,S(f+fL)为式(3)所述功率谱密度函数、f表示采样频率、fL为所选频率的下界;

  此外,用βth表示成功传输所需要的SINR门限,定义归一化门限如公式(6)所示:

  

  在接收终端部署了一个代理,该接收终端的功率谱密度函数如式(7)所示:

  

  其中,U(f)表示用户的功率谱密度,gu表示用户发送端到接收端的信道增益,gj表示干扰到用户接收端的信道增益,表示干扰选择的干扰频率,表示干扰的功率谱密度函数,n(f)表示噪声的功率谱密度函数;

  模型中的离散频谱采样值定义为:

  

  其中,Δf表示频谱分辨率;i表示采样数,S(f+fL)为式(3)所述功率谱密度函数、f表示采样频率、fL为所选频率的下界;

  代理通过频谱向量st={st,1,st,2,...,st,N}决定传输频率,并通过可靠链路通知发送端;st,N为t时刻所决定的第N段传输频率。

  当频段受到严重干扰或者频段不可用时,用户必须切换频段来躲避干扰;当用户受到的干扰较弱时,用户可以仍在原频段通信,但是需要调整信道带宽来应对干扰的攻击。用户在时隙t选择信道ρ(t)进行信息传输,当前通信链路的传输损失吞吐量可定义为:

  

  其中Oio表示当前信道是否处于可用状态,其中Oio∈{0,1}(0表示信道不可用,1表示信道可用)。

  为了实现在信道状态恶劣或者存在恶意干扰条件下的通信可靠传输,用户需要通过选择最佳的传输信道以及传输带宽的大小。由于信道的切换以及改变传输带宽大小都会带来数据包的丢失、传输时延以及协议开销等,它们将一定程度上影响通信系统的吞吐量。因而,在通信过程中应该避免频繁的信道切换以及传输带宽的改变。同时从节能的角度出发,若当前所有信道状态都不适合通信传输,则该时隙暂定通信。为了有效地应对干扰的攻击以及多变的信道衰落,避免频繁的信道切换以及改变传输带宽,减少通信系统的能量损耗,本文拟提出一种基于信道-带宽联合决策的多域智能抗干扰算法。以当前信道传输的瞬时通信吞吐量为主体优化指标,并引入信道切换开销以及传输带宽改变损耗。用户切换信道的损耗公式为:

  

  其中c为信道切换开销系数,用户带宽改变的代价公式为:

  

  v为传输信道改变损耗系数。根据所给出的通信传输效用函数,以及系统代价函数,可以得到通信系统在当前时隙的通信评估函数为:

  μ(mt,ft,Bt,t)=mt[C(t,Bt,ft)-Cswitch(ft-1,ft)-Vswitch(Bt-1,Bt)](12)

  其中mt表示当前时隙时候是否进行通信(mt∈{0,1}),0为表示当前时隙不进行通信行为,1为进行通信传输。

  为了有效地应对干扰的攻击以及恶劣的信道状态,本发明拟构建一个基于信道重构以及信道切换的联合决策通信抗干扰算法。首先,发射机通过特定信号传输实现进行外界电磁环境环境的感知,感知的情景信息主要包括信道可用状态、位置划分,接入内容以及能量等。信道可用状态指当前信道是否可用(是否已被占用),位置信息主要指的是用户和干扰机的位置距离,接入内容与业务类型相关(如数据、图像以及语音等),能量与发射功率相关。根据获得的情景信息,多域抗干扰方案可以采用多种抗干扰手段灵活地应对干扰的攻击,如“躲避”(频域)、“功率压制”(功率域)或者“暂定发送”。本发明主要采用“躲避”(信道切换)、“硬抗”(带宽控制)或者“暂停发送”(时域)等方式进行多域联合抗干扰。

  本发明结合卷积神经网络(CNN)和时间残差网络(LSTM)网络的特点结构,设计了一种具有探测干扰规律和预测信道状态变化能力的深度Q-网络结构。新的网络结构主要分为以下四个模块。第一部分是池化层(pooling layer,PL),用于压缩收集到的实时信息,减少特征不明显的参数数量。状态矩阵在池化层中向下采样。它可以提高深度强化学习网络的容错能力,减少计算量。第二部分是卷积层(convolutional layer,CL),用于从外部频谱中提取相关的信道特性和干扰规律特征。该层中的卷积网络将输入与大小为2*2,步长为2的过滤器进行卷积步。第三个模块是LSTM层,用于实现后续时刻信道状态的预测。本文中的LSTM层被设计成由128个长-短期内存单元组成。最后一个层是全连接(Fc)层。它直接输出所有决策的奖励(所有操作的Q值)。

  本发明对于所提算法的状态、动作以及激励函数进行了定义:

  状态空间:在时隙t时,各信道的信道状态定义为,其中Pt1=(pt,1,pt,2,...,pt,n)表示信道n的频谱信息(包括信道增益和外部时频信息)。智能体可以将前φ时间的历史信息与当前时间槽的通道信息结合起来。具有时频特性的矩阵如下所示:

  

  动作空间:a(t)定义为用户在时隙t所选择的动作。代理根据用户当前观察到的环境信息对操作空间A(t)=A(mt,ft,Bt,t)中的所有操作进行评估,其中Bt和ft是用户选择的带宽和信道。mt表示是否在当前时隙t进行通信。

  激励函数:R表示在环境状态S下执行A行为的奖励。rt=R(St,At)是当用户在状态St执行操作时的即时奖励。奖励函数如下所示

  

  一种基于信道-带宽联合决策的多域智能抗干扰通信方法,包括以下步骤:

  初始化:体验回放池L(大小为1000帧)置空。初始迭代次数为i=0。对设计的神经网络进行初始化。网络参数θ初始化一个随机值。目标Q-network参数是θ-=θ。使用随机探索填充体验回放池L。设置相关的学习参数(初始学习率、迭代次数、单次测试数据量等)、学习次数以及损失函数等,搭建所设计的神经网络;

  步骤1,用户通过信道感知观察当前状态,并根据以下规则进行抗干扰决策选择:

  1)通信传输的动作a(t)以ε概率进行随机选择;

  2)接收机的智能体所选择的抗干扰通信动作以概率为1-ε进行选择,

  (a(t)=argmaxQ(s(t),a,θ));

  步骤2,在用户执行通信操作a(t)后,接收机的智能体立即获得当前奖励rt(s(t),a(t));

  步骤3,将生成的数据输入设计的Q-network进行拟合,

  步骤4,接收机的智能体在下一时隙t+1中观察一个新的外界状态信息s(t+1);

  步骤5,接收机上的DRL智能体将经验<s(t),a(t),r(t),s(t+1)>存储在经验回访池L中;

  步骤6,从经验回放池L中随机选择小样本用于神经网络参数θ训练和更新;

  步骤7,每C=100帧,使用θ-=θ更新目标Q-network的参数;

  循环迭代,直至达到最大迭代次数,算法结束。

  其中步骤6所述的根据该策略的回报值和下一时刻环境状态进行样本训练,并将训练经验rn(s,a,t)储存到经验回访池L中,继续进行样本训练,并从经验回访池中随机选择小样本用于神经网络参数θ训练和更新,实现神经网络的拟合。经验回访池L主要指的对于历史数据专门开辟的存储数据栈。

  基于动态干扰以及信道状态,定义传统的Q函数表示如下:

  

  Q(s,a)←(1-α)Q(s,a)+α[r(s,a)+μmaxa∈AQ(s′,a′)](16)

  其中,S′表示在状态S采用策略a所产生的下一个状态,(s′,a′)表示算法执行在状态为s下操作动作a之后的下一个状态-动作对。μ表示折扣因子。π*(s)表示每个环境状态的s找到最优的抗干扰策略;表示长期报酬用递归的形式,(s,a)表是当前的状态-动作对。

  在深度强化学习拟合过程中在第i次迭代使用如式(8)所示损失函数:

  Li(θi)=Ee~U(D)[(yi-St)2](17)

  其中,θi表示深度学习卷积神经网络在i次迭代的参数。依据梯度下降法,对损失函数求微分,求得损失函数的梯度,如式(9)所示:

  

  其中,Li(θi)表示损失函数,表示求梯度运算。

  本发明与现有技术相比,其显著优点在于:(1)与传统单一域深度强化学习抗干扰算法不同,本算法为多域抗干扰智能学习算法,通过引入LSTM网络对于神经网络进行重新搭建以及设计,并使用实时接收到的外界状态信息进行所搭建的卷积神经网络进行拟合,从而实现通信系统的吞吐量最大。同时在不影响性能的情况下,引入信道切换以及带宽调整因子,从而实现用户在信道切换以及带宽调整过程中的系统成本控制;(2)模型完备,物理意义清晰,提出的基于信道-带宽联合决策的多域智能抗干扰通信的智能抗干扰算法,实现对提出模型的有效求解,(3)能够有效地应对动态及智能干扰,并很好地刻画基于多域深度强化学习算法的抗干扰场景。

  附图说明

  图1是本发明基于信道-带宽联合决策的多域智能抗干扰通信模型的系统模型图。

  图2是本发明中基于信道-带宽联合决策的多域智能抗干扰通信的架构图。

  图3是本发明中基于信道-带宽联合决策的深度强化学习的算法架构图。

  图4是本发明中基于信道-带宽联合决策的深度强化学习网络结构图

  图5是本发明实施例1中对抗动态随机周期干扰的不同抗干扰算法的吞吐量对比图。

  图6本发明实施例1中对抗动态随机周期干扰的不同抗干扰算法的通信成功率对比图。

  具体实施方式

  本发明所提出的基于信道-带宽联合决策的多域智能抗干扰通信模型及智能抗干扰算法,旨在提供方案以解决多域智能抗干扰问题。本发明基于深度强化学习与多域抗干扰的理念相结合,将接收端的频谱瀑布图以及信道增益信息作为学习的输入状态,并在即时奖励中考虑通道切换和带宽调整开销,避免频繁的通道切换和带宽调整。同时引入LSTM网络对于神经网络进行了重新设计,然后将频率、时间和带宽等实时信息输入所设计的神经网络结构中,通过算法的迭代,从而得出适应当前频谱环境中的时频域联合决策。仿真结果表明,该算法在动态干扰环境中具有极强有效性与适应性。与其他抗干扰算法相比,验证了算法的优越性。

  图1是抗干扰系统模型图。该模型中,在通信场景中包含一个主用户(基站)、一个次级用户(收发机对)和一个干扰机。一个次级用户进行通信,一个或多个干扰机对次级用户通信进行干扰,当基站占用次级用户的通信信道时,该信道对于次级用户是不可用的。

  图2是本发明中基于信道-带宽联合决策的多域智能抗干扰通信的架构图。基于外界实际干扰环境以及各个信道的信道状态,通过数学建模以及相关历史信道数据处理,可以得到当前环境状态下的外界环境信息矩阵St,在抗干扰通信过程中,用户通过一系列的获取外界状态(St)动作(at)和奖励(Rt)与外界情景进行信息交互。如图所示,我们给出了多域抗干扰的基本构架。其中所做出的抗干扰决策也就是动作a可以是频率、功率、编码方式,信道带宽等多种抗干扰决策或者这些决策的组合。例如a=(B;F)则表示带宽(B)与频率(F),并定义动作(at)与环境(St)相关的激励函数(R(a)=R(B;F)),该激励函数应与比特率有关。

  图3是深度强化学习的算法架构图。

  图4是深度强化学习网络结构图。本发明结合卷积神经网络(CNN)和时间残差网络(LSTM)网络的特点结构,设计了一种具有探测干扰规律和预测信道状态变化能力的深度q-网络结构。新的网络结构主要分为以下四个模块。第一部分是池化层(pooling layer,PL),用于压缩收集到的实时信息,减少特征不明显的参数数量。状态矩阵在池化层中向下采样。它可以提高深度强化学习网络的容错能力,减少计算量。第二部分是卷积层(convolutional layer,CL),用于从外部频谱中提取相关的信道特性和干扰规律特征。该层中的卷积网络将输入与大小为2*2,步长为2的过滤器进行卷积步。第三个模块是LSTM层,用于实现后续时刻信道状态的预测。本文中的LSTM层被设计成由128个长-短期内存单元组成。最后一个层是全连接(Fc)层。它直接输出所有决策的奖励(所有操作的Q值)。

  实施例1

  本发明的实施例具体描述如下,系统仿真采用python语言,基于TensorFlow深度学习框架,参数设定不影响一般性。该实施例验证所提模型与方法的有效性,外界环境参数设置为双扫频干扰与扫频干扰两种干扰模式,并要求按照随机动态的模式进行干扰切换,在仿真中,我们考虑由一对次级用户(包括接收机与发射机)和一个干扰机所组成的系统。系统中可用信道的信道数为5。但是由于主用户的存在,当前的5个可用信道中会有一定概率存在其中一条信道被占用,且当主用户占用该信道,其具有75%保持当前信道占用状态不变,25%转移至下一信道,信道传输的最大传输带宽为4MHZ,次级用户可通过在通信信道中改变传输带宽实现SINR的提高,次级信道可选择的带宽分别为4MHZ,3MHZ,2MHZ,1MHZ。所以当前刺激用户可选动作集为20种,将用户和干扰机在20Mhz频段内进行对抗,本文设定用户传输帧的帧长0.05s,每帧的传输信息时间为0.04s,频谱与信道感知、智能算法学习、抗干扰策略传递的总时间为0.01s。允许用户每帧(0.05s)可以进行信道切换以及带宽的改变。信道带宽为4MH。设定信号和干扰均为上升余弦波形。并将所有频率的解调阈值th设为2.5dB。设定系统所处通信环境的归一化噪声功率N0服从高斯分布,均值μ=1,方差σ=0.2。接收机与发射机距离为10km,传输链路路径损耗因子定义为2.4。干扰机与发射机距离为20km,干扰链路路径损耗因子定义为3.2。阴影效应服从对数正态分布,均值μ=1,方差λ=0.5。除非另有说明,干扰功率定义为Pj=5000N0,通信功率Pt=3000N0。通信系统信道切换因子设定为2。带宽调整的影响因子为0.2。通过图5,图6可以看出所提算法的有效性以及实用性。实现了实时、快速、稳健的带宽—信道联合多域抗干扰决策。其他对比算法机理如下所示:

  信道切换DQN(DRL-基于信道切换的抗干扰算法):仅通过信道切换进行干扰躲避并选择信道增益最大信道进行传输的抗干扰算法(引入切换开销)。

  状态Q学习(基于干扰躲避的Q学习):第三种方案是Q学习算法,状态仅有干扰信息,无信道信息。动作与反馈和本文所提算法相同

  基于信道感知的抗干扰算法:基于当前所有信道增益感知的方案,选择信道增益最大的信道直接进行通信传输而不具有智能性的算法

  最佳方案:最佳方案假设每个时隙都可以获得当前所有信道的信道增益以及干扰信息,直接选择信道以及传输带宽进行传输。在此基础上不考虑信道探测干扰以及数据运算所带来的延迟。

  由图5可知吞吐量最低的为基于Q学习的抗干扰通信方案,分析原因是由于处理外界环境的能力受限,只能实现躲避干扰,很难选择信道增益较好的信道进行传输。导致其系统吞吐量较低。其次是基于信道感知的通信传输方案由于该方案不考虑当前传输信道的干扰影响,导致干扰机对于信道传输的影响较大。基于信道切换的DRL算法,同时考虑了外界信道状态以及干扰环境,并引入切换因子,尽可能的降低了通信切换频率,使系统的通信质量获得极大地提升。但是由于抗干扰模式单一,信道状态复杂,信道切换频率依旧较高。导致系统吞吐量与最优信道吞吐量之间仍具有一定的差距。而本文所提的基于信道-带宽的DRL算法进一步降低信道切换次数,并减小在同一信道中干扰对于通信的影响。实现了系统吞吐量的进一步提升。

  通过分析外界动态干扰以及信道衰落对于通信传输成功率的影响,不同的抗干扰方案的通信成功率如图6所示,图中的各点为取1000次迭代的平均值生成的,从图中可以看出所有算法的通信成功率都达到80%以上(由于门限设置的原因),基于信道-带宽的方案和基于Q学习的传输成功率较高,分析原因是由于以上两种算法都可以通过改变信道传输带宽增加SINR值,极大地提高了通信成功率。而基于信道切换的DRL算法以及基于信道感知的方案仅仅通过改变信道实现通信传输,外界的可用信道数有限、信道衰落等原因导致其通信成功率受到了一定的约束。

  结合吞吐量我们分析可以发现所提的基于信道-带宽的联合决策智能算法具有较强的抗干能力。证明了该算法综上所述,本发明提出的深度Q神经网络抗干扰模型,充分考虑了抗干扰问题中干扰智能性强、干扰决策估计困难、学习决策空间庞大的问题,比传统模型更有实际意义;提出的基于深度Q神经网络抗干扰模型的智能抗干扰算法,能够实现对提出模型的有效求解,求出用户的抗干扰多域联合决策策略,有效地应对动态及智能干扰。

《基于信道-带宽联合决策的多域智能通信模型及通信方法.doc》
将本文的Word文档下载到电脑,方便收藏和打印
推荐度:
点击下载文档

文档为doc格式(或pdf格式)