当前位置：首页 > 电学技术 > 电通讯技术> 基于生成式对抗网络的网络攻击流量生成系统独创技术12380字

基于生成式对抗网络的网络攻击流量生成系统

2021-03-19 22:16:25

基于生成式对抗网络的网络攻击流量生成系统

　　技术领域

　　本发明属于网络安全技术领域，具体涉及一种基于生成式对抗网络的网络攻击流量生成系统。

　　背景技术

　　在网络空间中，网络攻击可以被描述为任何试图危害网络的恶意活动。在定义中可以包括非常广泛的网络行为，例如试图破坏网络的稳定性，获得未授权文件的或提升访问权限。目前来讲，计算机网络安全所面临的威胁主要可分为两大类：一是对网络中信息的威胁，二是对网络中设备的威胁。保证物理安全、网络系统安全、数据安全、信息内容安全和信息基础设备的安全，才能保护信息的保密性、完整性和可用性。

　　为了验证网络环境的安全性，目前网络安全靶场已经成为支撑网络空间安全技术验证、网络工具试验、攻防对抗演练和网络风险评估的重要手段。构建可脱离实体设备与环境、计算与存储资源灵活共享的虚拟化平台，形成针对现场网络空间网络和设备的仿真实验环境，提升虚拟演练培训服务能力。同时可利用靶场开展对抗演习、实战教学、工具测评等活动，让工作人员在实施任务前在接近真实的场景中开展演练，学习各种先前积累的技战法经验，有效提升工作人员解决实际问题的能力。

　　网络靶场建设的一个重点以及难点问题是模拟接近实际网络的网络攻击流量。逼真的网络攻击流量一方面能够更加准确的验证安全防护系统的防护能力，另一方面能够产生接近实际效果的网络攻击事件，更好的提升工作人员解决问题能力。

　　发明内容

　　(一)要解决的技术问题

　　本发明要解决的技术问题是：如何设计一种网络攻击流量生成系统。

　　(二)技术方案

　　为了解决上述技术问题，本发明提供了一种基于生成式对抗网络的网络攻击流量生成系统，包括：生成式对抗网络GAN、流量生成器和代理系统；

　　其中，所述GAN用于学习目标流量的特征分布规律并生成流量特征，然后将生成的流量特征发送给流量生成器；

　　所述流量生成器用于根据所述流量特征生成带有随机性的包序列，并将包序列混合真实攻击流量，通过流量生成算法将包序列生成模拟流量；

　　所述代理系统包括本地代理服务器，本地代理服务器用于将模拟流量变形并将负载装入模拟流量中，得到所需的最终模拟攻击流量输出。

　　优选地，所述GAN由一个生成器和一个判别器构成，生成器在接收真实数据样本之后，自我学习样本特征训练生成新的数据样本，判别器作为分类器，判断输入是真实数据还是生成的样本数据；

　　设变量z为随机噪声，x为输入的样本数据，G代表生成模型，D代表判别模型，V表示流量特征函数，将D作为一个二分类器，EP(x)(α)表示α的似然函数，GAN表示为：

　　其中，log(1-D(G(z)))表示训练生成的新的数据样本判断，通过持续的极大极小值的相互博弈，循环交替不停优化G和D，直到两个模型达到纳什均衡，GAN的最小化目标函数可能会发生梯度弥散，使目标函数很难再去更新生成器，LSGANs会惩罚远离决策边界的样本，这些样本的梯度是梯度下降的决定方向，在LSGANs中交叉熵并不关心距离，而是仅仅关注于是否正确分类，其判别器的目标函数为：

　　GAN的目标函数为：

　　其中，a，b，c为可变参数，在训练模型的过程中，a,b,c满足b-c＝1和b-a＝2。

　　优选地，所述流量生成器能够根据GAN的流量特征生成具体的包序列，混合真实攻击流量的包序列生成模拟流量，在混合时使用的流量生成算法中，使用流量的累计表示cUMUL来指导流量生成过程，对于一条含有包序列Pa＝[pa1，pa2，…，pai]的流量，pai的绝对值表示第i个包的长度，pai>0表示第i个包是向外发出的包，而pai<0表示第i个包是收到的包；流量的cUMUL表示是一个序列c＝[c1，c2，…，cN]，其中，c0＝0，ci＝ci－1+pi，i∈{1，2，…，N}，N表示序列的长度。

　　优选地，所述本地代理服务器根据生成的流量模式将模拟流量变形，作为最终模拟攻击流量输出。

　　优选地，所述GAN用于生成流量特征的过程中，选定GAN的尺寸参数，有两种选择方式：一是选择全数据集；二是选择最小数量样本训练，即每次只训练一个样本。

　　优选地，所述GAN用于生成流量特征的过程中，根据GAN训练第一次输入的数据设置不平衡比例为：

　　num＝N-/N+

　　其中，N-为UAL样本数量；N+设置为NORMAL样本数量，在重复利用GAN生成样本的过程中，num会随之不断增大，直到为1，此时停止生成样本，样本比例达到平衡。

　　优选地，所述GAN用于生成流量特征的过程中，对于不同类型的样本迭代的次数也不一样，GAN的迭代生成次数为：

　　count＝(N+-N')/x

　　其中，count为不同类型数据需要的迭代次数；N’设置为需要生成的数据类型的初始样本数量；x为GAN设置的尺寸参数。

　　本发明还提供了一种利用所述的系统实现网络攻击流量生成的方法。

　　优选地，包括以下步骤：

　　所述GAN学习目标流量的特征分布规律并生成流量特征，然后将生成的流量特征发送给流量生成器；

　　所述流量生成器根据所述流量特征生成带有随机性的包序列，并将包序列混合真实攻击流量，通过流量生成算法将包序列生成模拟流量；

　　所述本地代理服务器将模拟流量变形并将负载装入模拟流量中，得到所需的最终模拟攻击流量输出。

　　本发明还提供了一种所述的系统在网络安全技术领域中的应用。

　　(三)有益效果

　　本发明通过应用生成式对抗网络算法通过训练生成网络攻击流量，用来模拟网络环境中的攻击流量，可用于验证安全防护系统对异常数据的处理能力，同时也可以应用于网络靶场中作为一种攻击流量的生成源。

　　附图说明

　　图1为生成式对抗网络基本框架图；

　　图2为本发明的生成式对抗网络的网络攻击流量生成系统组成图；

　　图3为本发明的生成式对抗网络的网络攻击流量生成系统工作流程图。

　　具体实施方式

　　为使本发明的目的、内容、和优点更加清楚，下面结合附图和实施例，对本发明的具体实施方式作进一步详细描述。

　　生成式对抗网络的网络攻击流量生成系统包括生成式对抗网络GAN(GeneratingAdversarial Network)、流量生成器和代理系统，系统总体设计如图2所示。

　　其中，所述GAN用于学习目标流量的特征分布规律并生成流量特征，然后将生成的流量特征发送给流量生成器；所述流量生成器用于根据所述流量特征生成带有随机性的包序列，并将包序列混合真实攻击流量，通过流量生成算法将所述包序列生成模拟流量；所述代理系统包括本地代理服务器，本地代理服务器用于将模拟流量变形并将负载装入模拟流量中，得到所需的最终模拟攻击流量输出。

　　生成式对抗网络模仿博弈论中的二人零和博弈的模式，由一个生成器和一个判别器构成。生成器在接收真实数据样本之后，自我学习样本特征生成新的数据样本。判别器作为分类器，判断输入是真实数据还是生成的样本数据。GAN网络的基本框架如图1所示。

　　其中，log D(x)是判别器的判断；log(1-D(G(z)))表示生成数据的判断，通过持续的极大极小值的相互博弈，循环交替不停优化G和D，直到两个模型达到纳什均衡。GAN的最小化目标函数可能会发生梯度弥散，使目标函数很难再去更新生成器，导致GAN的训练过程不稳定。LSGANs会惩罚远离决策边界的样本，解决上述问题。这些样本的梯度是梯度下降的决定方向。在LSGANs中交叉熵并不关心距离，而是仅仅关注于是否正确分类，其判别器的目标函数为：

　　GAN的目标函数为：

　　其中，a，b，c为可变参数，在训练模型的过程中，a,b,c满足b-c＝1和b-a＝2，模型可以缓解训练时的不稳定并且提高GAN生成特征的多样性。

　　所述流量生成器能够根据GAN的流量特征生成具体的包序列，混合真实攻击流量的包序列生成模拟攻击流量。在流量生成算法中，本发明使用流量的累计表示(cUMUL)来指导流量生成过程。对于一条含有包序列Pa＝[pa1，pa2，…，pai]的流量，其中，pai的绝对值表示第i个包的长度，pai>0表示第i个包是向外发出的包，而pai<0表示第i个包是收到的包；流量的cUMUL表示是一个序列c＝[c1，c2，…，cN]，其中，c0＝0，ci＝ci－1+pi，i∈{1，2，…，N}，N表示序列的长度。

　　代理系统包括一个本地代理服务器，客户端先连接本地代理服务器并将流量生成器生成的模拟流量发送给它，随后本地代理服务器根据生成的流量模式将模拟流量变形，作为最终模拟攻击流量输出。

　　下面以预先采集的未授权本地超级登陆攻击流量(UAL)为例来说明生成式对抗网络攻击流量生成系统的工作过程，参考图3，包括以下步骤：

　　步骤1提取数据的特征类型

　　UAL网络流量特征如下：

　　步骤2数据样本特征分析

　　(1)数值化。将字符型特征转化为数值型特征。

　　(2)标准化。在分析过程中，首先对数值化后的数据进行数据标准化处理。

　　(3)归一化。将数值进行归一化处理至[0，1]区间，得到适用于GAN的数据集，从而适于在其中进行训练。

　　步骤3数据样本生成

　　将UAL数据类型的潜在特征分次训练GAN，生成足量样本数据之后，再混入原始数据中，解决该类型样本较少的情况。选定GAN的Batch_Size，即尺寸参数，Batch_Size有两种选择方式：一是选择全数据集，可以更好地进行训练代表样本特征；二是选择最小数量样本训练，即每次只训练一个样本，可以使函数达到最快收敛。选择UAL数据流量50份数据类型作为整块数据输入至GAN的模型之中。

　　根据GAN训练第一次输入的数据设置不平衡比例为：

　　num＝N-/N+

　　其中，N-为UAL样本数量；N+设置为NORMAL样本数量。在重复利用GAN生成样本的过程中，num会随之不断增大，直到为1。此时停止生成样本，样本比例达到平衡。该过程中对于不同类型的样本迭代的次数也不一样，GAN的迭代生成次数为：

　　count＝(N+-N')/x

　　其中，count为不同类型数据需要的迭代次数；N’设置为需要生成的数据类型的初始样本数量；x为GAN设置的Batch_Size。在将UAL样本X+导入至GAN的模型之后，GAN函数变化情况为：