当前位置：首页 > 电学技术 > 电通讯技术> 一种流量传输策略的确定方法及装置独创技术70104字

一种流量传输策略的确定方法及装置

2021-02-01 20:26:18

一种流量传输策略的确定方法及装置

　　技术领域

　　本发明涉及通信技术领域，特别是涉及一种流量传输策略的确定方法及装置。

　　背景技术

　　随着计算机网络的快速发展，网络业务日益多样化，流量呈爆炸性增长。为了提高整个网络中流量的传输效率，需要实时调整各个通信设备中的流量传输策略，以使通信设备基于调整后的流量传输策略传输流量，进而使整个网络中流量的传输效率达到最优。

　　目前，常见的流量传输策略的确定方式有以下几种。

　　第一种，网络管理员手动在不同的通信设备上配置相应的流量传输策略。当需要修改流量传输策略时，网络管理员再手动地修改通信设备上的流量传输策略。采用这种流量传输策略的确定方式来实现调整通信设备传输的流量，其效率较低，且人工成本较高。

　　第二种，在通信设备中配置Q-learning(状态动作学习)算法，通过Q-learning算法，可实现根据网络流量负载的变化，自适应地调整通信设备中的流量传输策略。采用这种流量传输策略的确定方式来实现调整通信设备传输的流量，可以提高流量传输调整效率，降低人工成本。但是，当有新的通信设备加入网络中时，需要在新加入的通信设备上配置Q-learning算法，使得上述流量传输策略的确定方式的延展性较差。

　　第三种，在通信设备中配置一种基于深度强化学习的路由优化算法，该算法可以学习不同的流量传输策略，从而可实现根据网络流量负载的变化，通过该算法自适应地调整通信设备中的流量传输策略。采用这种流量传输策略的确定方式来实现调整通信设备传输的流量，可以提高流量传输调整效率，降低人工成本。但这种流量传输策略的确定方式所依赖的算法，在学习流量传输策略时没有考虑到多个通信设备的状态之间的联系，使得学习到的流量传输策略的准确率较低，进而使这种流量传输策略的确定方式的准确率较低。

　　第四种，采用SDN(Software Defined Network，软件定义网络)来确定流量传输策略。网络管理员可以在SDN控制器上层的控制应用中定义流量传输策略，然后通过网络接口将流量传输策略传送给SDN控制器。SDN控制器接收到网络流量传输策略后，通过南向协议(如Openflow)将流量传输策略发送给与SDN控制器连接的通信设备(如交换机)中，使得通信设备根据流量传输策略调整通信设备传输的流量。通过上述方法，当网络管理员需要更新流量传输策略时，网络管理员只需要在控制应用中定义新的流量传输策略，无需在每个通信设备中逐一配置新的网络流量传输策略，降低了人工成本。但每当网络中流量的负载发生改变时，网络管理员都需要在控制应用中相应地修改流量传输策略，SDN无法自身根据网络中的流量负载修改流量传输策略，使得流量传输调整的效率较低。

　　发明内容

　　本发明实施例的目的在于提供一种流量传输策略的确定方法与装置，以提高流量传输调整效率，并且提高流量传输策略的确定方式的延展性和准确率。具体技术方案如下：

　　为达到上述目的，本发明实施例提供了一种流量传输策略的确定方法，应用于软件定义网络的控制器，所述方法包括：

　　获取所述软件定义网络中所有节点对的第一通信状态，所述节点对包括通信连接的两个节点，所述节点对包括的两个节点之间存在至少一条传输路径；

　　将所述所有节点对的第一通信状态输入预设学习模型，得到每一所述节点对的控制动作，所述控制动作包括所述节点对对应的每条传输路径的负载比例，所述预设学习模型为基于预设训练集对深度强化学习网络进行训练得到的模型，所述预设训练集包括多个样本组，每一样本组包括多个样本节点对的样本控制动作、以及每一样本节点对执行所述样本控制动作前的第一样本通信状态和执行所述样本控制动作后的第二样本通信状态；

　　基于每一所述节点对的控制动作，生成该节点对对应的流量传输策略。

　　可选的，所述深度强化学习网络包括动作网络和评判网络，其中，所述动作网络，用于基于输入的节点对的通信状态，输出每一节点对的控制动作；所述评判网络，用于基于输入的各个节点对的通信状态和控制动作，输出各个节点对对应的通信评判值；所述预设学习模型采用以下步骤训练得到：

　　获取所述预设训练集，所述预设训练集包括多个样本组，每一样本组包括多个样本节点对的样本控制动作、以及每一样本节点对执行所述样本控制动作前的第一样本通信状态和执行所述样本控制动作后的第二样本通信状态；

　　从所述预设训练集包括的多个样本组中，获取多个目标样本组；

　　基于每一目标样本组包括的第二样本通信状态，确定该目标样本组对应的多步收益值；

　　将每一目标样本组包括的第一样本通信状态和样本控制动作分别输入所述评判网络，输出每一目标样本组对应的通信评判值；

　　基于各个所述目标样本组对应的通信评判值和多步收益值，更新所述动作网络和所述评判网络的参数，并累计所述预设学习模型的训练次数，返回所述从所述预设训练集包括的多个样本组中，获取多个目标样本组的步骤，直至所述训练次数达到预设训练次数阈值。

　　可选的，所述获取所述预设训练集的步骤，包括：

　　获取多个样本节点对的第一样本通信状态；

　　将所述多个样本节点对的第一样本通信状态分别输入所述动作网络，得到每一所述样本节点对对应的输出控制动作；

　　基于所述输出控制动作，确定所述多个样本节点对的样本控制动作；

　　控制所述多个样本节点对执行所述样本控制动作，得到所述多个样本节点对执行所述样本控制动作后的第二样本通信状态；

　　基于所述多个样本节点对的第一样本通信状态、所述多个样本节点对的样本控制动作、以及所述多个样本节点对执行所述样本控制动作后的第二样本通信状态确定多个样本组。

　　可选的，所述基于所述输出控制动作，确定所述多个样本节点对的样本控制动作的步骤，包括：

　　获取预设的基础控制动作；

　　按照预设的选择所述基础控制动作的概率，选取所述输出控制动作或所述基础控制动作，作为样本控制动作。

　　可选的，所述基于每一目标样本组包括的第二样本通信状态，确定该目标样本组对应的多步收益值的步骤，包括：

　　针对每一目标样本组，获取以该目标样本组为起始点的连续多个关联样本组，在该目标样本组和所述多个关联样本组中，每两个相邻的样本组中，后一个样本组的第一样本通信状态与在前一个样本组包括的第二样本通信状态相同；基于每一关联样本组包括的第二样本通信状态，确定该关联样本组对应的当前收益值，并基于该目标样本组包括的第二样本通信状态，确定该目标样本组对应的当前收益值；基于每一关联样本组对应的当前收益值和每一目标样本组对应的当前收益值，确定该目标样本组的多步收益值。

　　可选的，所述第二样本通信状态包括平均通信时延和平均通信速率；

　　所述基于每一关联样本组包括的第二样本通信状态，确定该关联样本组对应的当前收益值，并基于该目标样本组包括的第二样本通信状态，确定该目标样本组对应的当前收益值的步骤，包括：

　　针对每一相关样本组，通过以下公式计算该相关样本组的当前收益值，所述相关样本组为该目标样本组或该目标样本组的关联样本组：

　　其中，W表示该相关样本组的当前收益值，K表示该相关样本组包括的节点对的总数，k表示该相关样本组包括的节点对k，xk表示所述节点对k的平均通信时延，α表示所述节点对k的预设通信时延参数，dk表示所述节点对k的平均通信速率，β表示所述节点对k的预设通信速率参数，δ表示所述节点对k的平均通信速率的比重参数；

　　所述基于每一关联样本组对应的当前收益值和每一目标样本组对应的当前收益值，确定该目标样本组的多步收益值的步骤，包括：

　　利用以下公式，确定该目标样本组的多步收益值：

　　其中，t表示该目标样本组t，n表示该目标样本组t的关联样本组的总数，k表示该目标样本组t的关联样本组k，表示该目标样本组t的多步收益值，Rt+k表示所述关联样本组k的当前收益值，表示所述关联样本组k相对于该目标样本组t的折扣指数。

　　可选的，所述从所述预设训练集包括的多个样本组中，获取多个目标样本组的步骤，包括：

　　获取所述预设训练集中每一样本组的第一优先级；

　　根据每一所述样本组的第一优先级确定每一所述样本组的采样概率；

　　根据采样概率，从所述预设训练集中选取多个样本组，作为目标样本组。

　　可选的，在将每一目标样本组包括的第一样本通信状态和样本控制动作分别输入所述评判网络，输出每一目标样本组对应的通信评判值之后，所述方法还包括：

　　针对每一目标样本组，根据该目标样本组对应的通信评判值和多步收益值，计算该目标样本组的第二优先级；将该目标样本组的第一优先级更新为该目标样本组的第二优先级。

　　可选的，所述根据每一所述样本组的第一优先级确定每一所述样本组的采样概率的步骤，包括：

　　针对每一所述样本组，利用以下公式，确定该样本组的采样概率；

　　其中，i表示样本组i，Pi表示所述样本组i的采样概率，pi表示所述样本组i的第一优先级，N表示所述多个样本组总数，k表示样本组k，pk表示所述样本组k的第一优先级，α0表示预设优先级参数；

　　所述根据该目标样本组对应的通信评判值和多步收益值，计算该目标样本组的第二优先级的步骤，包括：

　　利用以下公式，计算该目标样本组的第二优先级；

　　pt＝Rt+γQ′(st+n，π′(st+n|θπ′)|θQ′)-Q(st,at|θQ)

　　其中，t表示目标样本组t，pt表示所述目标样本组t的第二优先级，n表示所述目标样本组t对应的关联样本组n，Rt表示所述目标样本组t的多步收益值，γ表示预设参数，Q表示所述评判网络，st表示所述目标样本组t的第一样本通信状态，at表示所述目标样本组t的样本控制动作，st+n表示所述关联样本组n的第一样本通信状态，π′表示所述动作网络对应的目标网络，Q′表示所述评判网络对应的目标网络，θQ表示所述评判网络的参数，θπ′表示所述动作网络对应的目标网络的参数，θQ′表示所述评判网络对应的目标网络的参数。

　　为达到上述目的，本发明实施例还提供了一种流量传输策略的确定装置，应用于软件定义网络的控制器，所述装置包括：

　　获取模块，用于获取所述软件定义网络中所有节点对的第一通信状态，所述节点对包括通信连接的两个节点，所述节点对包括的两个节点之间存在至少一条传输路径；

　　输入模块，用于将所述所有节点对的第一通信状态输入预设学习模型，得到每一所述节点对的控制动作，所述控制动作包括所述节点对对应的每条传输路径的负载比例，所述预设学习模型为基于预设训练集对深度强化学习网络进行训练得到的模型，所述预设训练集包括多个样本组，每一样本组包括多个样本节点对的样本控制动作、以及每一样本节点对执行所述样本控制动作前的第一样本通信状态和执行所述样本控制动作后的第二样本通信状态；

　　生成模块，用于基于每一所述节点对的控制动作，生成该节点对对应的流量传输策略。

　　可选的，所述深度强化学习网络包括动作网络和评判网络，其中，所述动作网络，用于基于输入的节点对的通信状态，输出每一节点对的控制动作；所述评判网络，用于基于输入的各个节点对的通信状态和控制动作，输出各个节点对对应的通信评判值；所述装置还包括训练模块，用于训练得到所述预设学习模型，所述训练模块包括：

　　第一获取子模块，用于获取所述预设训练集，所述预设训练集包括多个样本组，每一样本组包括多个样本节点对的样本控制动作、以及每一样本节点对执行所述样本控制动作前的第一样本通信状态和执行所述样本控制动作后的第二样本通信状态；

　　第二获取子模块，用于从所述预设训练集包括的多个样本组中，获取多个目标样本组；

　　确定子模块，用于基于每一目标样本组包括的第二样本通信状态，确定该目标样本组对应的多步收益值；

　　输入子模块，用于将每一目标样本组包括的第一样本通信状态和样本控制动作分别输入所述评判网络，输出每一目标样本组对应的通信评判值；

　　更新子模块，用于基于各个所述目标样本组对应的通信评判值和多步收益值，更新所述动作网络和所述评判网络的参数，并累计所述预设学习模型的训练次数，返回所述从所述预设训练集包括的多个样本组中，获取多个目标样本组的步骤，直至所述训练次数达到预设训练次数阈值。

　　可选的，所述获取子模块包括：

　　第一获取单元，用于获取多个样本节点对的第一样本通信状态；

　　输入单元，用于将所述多个样本节点对的第一样本通信状态分别输入所述动作网络，得到每一所述样本节点对对应的输出控制动作；

　　第一确定单元，用于基于所述输出控制动作，确定所述多个样本节点对的样本控制动作；

　　控制单元，用于控制所述多个样本节点对执行所述样本控制动作，得到所述多个样本节点对执行所述样本控制动作后的第二样本通信状态；

　　第二确定单元，用于基于所述多个样本节点对的第一样本通信状态、所述多个样本节点对的样本控制动作、以及所述多个样本节点对执行所述样本控制动作后的第二样本通信状态确定多个样本组。

　　可选的，所述第一确定单元具体用于：

　　获取预设的基础控制动作；

　　按照预设的选择所述基础控制动作的概率，选取所述输出控制动作或所述基础控制动作，作为样本控制动作。

　　可选的，所述确定子模块，具体用于：

　　针对每一目标样本组，获取以该目标样本组为起始点的连续多个关联样本组，在该目标样本组和所述多个关联样本组中，每两个相邻的样本组中，后一个样本组包括的第一样本通信状态与前一个样本组包括的第二样本通信状态相同；基于每一关联样本组包括的第二样本通信状态，确定该关联样本组对应的当前收益值，并基于该目标样本组包括的第二样本通信状态，确定该目标样本组对应的当前收益值；基于每一关联样本组对应的当前收益值和每一目标样本组对应的当前收益值，确定该目标样本组的多步收益值。

　　可选的，所述第二样本通信状态包括平均通信时延和平均通信速率；所述确定子模块还具体用于：

　　针对每一相关样本组，通过以下公式计算该相关样本组的当前收益值，所述相关样本组为该目标样本组或该目标样本组的关联样本组：

　　利用以下公式，确定该目标样本组的多步收益值：

　　可选的，所述第二获取子模块包括：

　　第二获取单元，用于获取所述预设训练集中每一样本组的第一优先级；

　　第三确定单元，用于根据每一所述样本组的第一优先级确定每一所述样本组的采样概率；

　　选取单元，用于根据采样概率，从所述预设训练集中选取多个样本组，作为目标样本组。

　　可选的，所述第二获取子模块还包括：

　　计算单元，用于在将每一目标样本组包括的第一样本通信状态和样本控制动作分别输入所述评判网络，输出每一目标样本组对应的通信评判值之后，针对每一目标样本组，根据该目标样本组对应的通信评判值和多步收益值，计算该目标样本组的第二优先级；将该目标样本组的第一优先级更新为该目标样本组的第二优先级。

　　可选的，所述第三确定单元具体用于：

　　针对每一所述样本组，利用以下公式，确定该样本组的采样概率；

　　所述计算单元，具体用于：

　　针对每一所述目标样本组，利用以下公式，计算该目标样本组的第二优先级；

　　pt＝Rt+γQ′(st+n，π′(st+n|θπ′)|θQ′)-Q(st,at|θQ)

　　为达到上述目的，本发明实施例还提供了一种电子设备，所述电子设备包括处理器、通信接口、存储器和通信总线，其中，处理器，通信接口，存储器通过通信总线完成相互间的通信；

　　存储器，用于存放计算机程序；

　　处理器，用于执行存储器上所存放的程序时，实现上述任一所述的方法步骤。

　　为达到上述目的，本发明实施例还提供了一种计算机可读存储介质，所述计算机可读存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现上述任一所述的方法步骤。

　　为达到上述目的，本发明实施例还提供了一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行上述任一所述的流量传输策略的确定方法。

　　本发明实施例提供的技术方案的有益效果：

　　本发明实施例提供的一种流量传输策略的确定方法及装置，软件定义网络的控制器基于节点对的第一通信状态和预设学习模型，得到该节点对的控制动作，然后基于该节点对的控制动作生成该节点对的流量传输策略，使得该节点对根据流量传输策略传输流量。

　　其中，预设学习模型是基于多个样本节点对的样本控制动作、以及每一样本节点对执行样本控制动作前的第一样本通信状态和执行样本控制动作前的第二样本通信状态训练得到的，考虑到了节点对之间的第一通信状态对流量传输的影响，使得基于上述预设学习模型得到的流量传输策略更加精确。

　　并且，上述预设学习模型配置在控制器中，当在软件定义网络中添加新的节点对时，控制器获取新添加的节点对的第一通信状态即可为新添加的节点对配置相应的流量传输策略，无需在新添加的节点对中配置预设学习模型或其他调整流量传输策略的算法，提高了上述方法的延展性。

　　此外，当网络中流量的负载发生变化时，节点对间的第一通信状态相应发生变化，上述控制器中的预设学习模型可以基于获取到的所有节点对的第一通信状态，相应地生成适用于负载发生变化的网络的流量调整策略，无需网络管理员手动地修改流量传输策略，降低了人工成本，提高了流量传输调整效率。

　　当然，实施本发明的任一产品或方法并不一定需要同时达到以上所述的所有优点。

　　附图说明

　　为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的实施例。

　　图1为本发明实施例提供的一种流量传输策略的确定方法的一种流程示意图；

　　图2为本发明实施例提供的一种软件定义网络的一种架构图；

　　图3为本发明实施例提供的一种预设学习模型的训练方法的一种流程示意图；

　　图4为本发明实施例提供的一种获取预设训练集方法的一种流程示意图；

　　图5为本发明实施例提供的一种获取预设训练集方法的另一种流程示意图；

　　图6为本发明实施例提供的一种确定目标样本组方法的一种流程示意图；

　　图7为本发明实施例提供的一种更新优先级的方法的一种流程示意图；

　　图8a为本发明实施例提供的一种流量需求与流量传输速率的一种关系图；

　　图8b为本发明实施例提供的一种流量需求与流量传输时延的一种关系图；

　　图8c为本发明实施例提供的一种流量需求与目标值的一种关系图；

　　图9a为本发明实施例提供的一种流量需求与流量传输速率的另一种关系图；

　　图9b为本发明实施例提供的一种流量需求与流量传输时延的另一种关系图；

　　图9c为本发明实施例提供的一种流量需求与目标值的另一种关系图；

　　图10a为本发明实施例提供的一种预设学习模型学习过程中通信评判值的一种变化图；

　　图10b为本发明实施例提供的一种预设学习模型学习过程中通信评判值的另一种变化图；

　　图11为本发明实施例提供的一种流量传输策略的确定装置的一种结构图；

　　图12为本发明实施例提供的一种电子设备的结构图。

　　具体实施方式

　　下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

　　为提高提高流量传输调整效率，并且提高流量传输策略的确定方式的延展性和准确率，本发明实施例提供了一种流量传输策略的确定方法及装置，下面对本发明实施例提供的一种流量传输策略的确定方法及装置进行详细说明。

　　如图1所示，图1为本发明实施例提供的一种流量传输策略的确定方法的流程示意图，该方法应用于SDN的控制器，上述方法包括以下步骤。

　　步骤101，获取软件定义网络中所有节点对的第一通信状态，节点对包括通信连接的两个节点，节点对包括的两个节点之间存在至少一条传输路径。

　　SDN为一种新型的网络架构，如图2所示，SDN中包括控制器和和设备层，其中设备层包括多台通信设备。通信设备包括但不限于交换机、路由器等。SDN中所有通信设备均可以由控制器统一进行控制。其中，SDN中的节点指通信设备，节点对包括通信连接的两个节点，也就是包括通信连接的两个通信设备，每对通信设备间都存在至少一条传输路径，以实现流量的传输。通信状态是指两个节点间通过这两个节点间存在的所有传输路径进行通信的网络状态。通信状态包括但不限于平均通信时延和平均通信速率等。

　　本发明实施例中，控制器可以周期性获取SDN中所有节点对的第一通信状态。为了便于区分理解，这里采用第一通信状态，并不起限定作用。

　　例如，SDN中包括节点1-3，存在的节点对包括节点1-节点2，节点1-节点3。则控制器获取节点1-节点2的第一通信状态，以及获取节点1-节点3的第一通信状态，以确定节点1-节点2、以及节点1-节点3的对应的流量传输策略。

　　一个实施例中，控制器可以周期性向节点下发获取请求；节点基于获取请求，向控制器上报该节点与其他节点构成节点对的通信状态；控制器获取到该通信状态后，将该通信状态作为第一通信状态。

　　另一个实施例中，节点可以周期性向控制器主动上报该节点与其他节点构成节点对的通信状态；控制器获取到该通信状态后，将该通信状态作为第一通信状态。

　　本发明实施例中，对控制器获取节点对的第一通信状态的方式不做限定。

　　步骤102，将所有节点对的第一通信状态输入预设学习模型，得到每一节点对的控制动作，控制动作包括节点对对应的每条传输路径的负载比例。其中，预设学习模型为基于预设训练集对深度强化学习网络进行训练得到的模型，预设训练集包括多个样本组，每一样本组包括多个样本节点对的样本控制动作、以及每一样本节点对执行样本控制动作前的第一样本通信状态和执行样本控制动作后的第二样本通信状态。

　　本发明实施例中，通信状态是指两个节点间通过这两个节点间存在的所有传输路径进行通信的网络状态，通信状态可以包括平均传输速率和平均传输时延。基于此，可确定第一样本通信状态可以包括两个样本节点之间通过这两个节点间存在的所有传输路径进行通信时的平均传输速率和平均传输时延。第二样本通信状态为两个样本节点在执行了样本控制动作后，这两个样本节点通过这两个节点间存在的所有传输路径进行通信时的平均传输速率和平均传输时延。节点对的控制动作包括该节点对对应的每条传输路径的负载比例。样本节点对的样本控制动作包括该样本节点对对应的每条传输路径的负载比例。

　　预设学习模型运行在软件定义网络的控制器中。预设学习模型为对深度强化学习网络进行训练得到的模型，预设学习模型内设置有深度强化学习算法，如DDPG(DeepDeterministic Policy Gradient，深度确定性策略梯度)算法。以预设学习模型内设有DDPG算法为例，控制器获取到SDN中所有节点对的第一通信状态后，控制器将所有节点对的第一通信状态输入预设学习模型中，预设学习模型通过DDPG算法对所有节点对的第一通信状态进行处理，输出每一节点对的控制动作。

　　本发明实施例中，预设学习模型基于SDN中每一节点对的第一通信状态生成该节点对的控制动作，因此预设学习模型可以通过多个样本节点对的样本控制动作、以及每一样本节点对执行样本控制动作前的第一样本通信状态和执行样本控制动作后的第二样本通信状态，对深度强化学习网络进行训练得到。预设学习模型的训练过程后续会展开说明，此处不再赘述。

　　步骤103，基于每一节点对的控制动作，生成该节点对对应的流量传输策略。

　　本发明实施例中，在控制器生成每一节点对的流量传输策略后，控制器将每一节点对的流量传输策略发送给该节点对，使得每一节点对基于流量传输策略传输流量。

　　一个实施例中，针对每一节点对，控制器可以先将该流量传输策略转化为流表项，然后再基于Openflow(开放流量)协议，将该流表项发送给该节点对中的两个节点。

　　本发明实施例中，上述预设学习模型是基于多个样本节点对的样本控制动作、以及每一样本节点对执行样本控制动作前的第一样本通信状态和执行样本控制动作前的第二样本通信状态训练得到的，考虑到了节点对之间的第一通信状态对流量传输的影响，使得基于上述预设学习模型得到的流量传输策略更加精确。并且，上述预设学习模型配置在控制器中，当在软件定义网络中添加新的节点对时，控制器获取新添加的节点对的第一通信状态即可为新添加的节点对配置相应的流量传输策略，无需在新添加的节点对中配置预设学习模型或其他调整流量传输策略的算法，提高了上述方法的延展性。

　　一种实施例中，如图2所示，深度强化学习网络可以包括动作网络A和评判网络C，其中，动作网络A，用于基于输入的节点对的通信状态，输出每一节点对的控制动作。评判网络C，用于基于输入的各个节点对的通信状态和控制动作，输出各个节点对对应的通信评判值。基于图2所示的深度强化学习网络，预设学习模型的训练过程如图3所示。

　　步骤301，获取预设训练集，预设训练集包括多个样本组，每一样本组包括多个样本节点对的样本控制动作、以及每一样本节点对执行样本控制动作前的第一样本通信状态和执行样本控制动作后的第二样本通信状态。

　　本发明实施例中，每一样本组中均包括多个样本节点对的样本控制动作以及样本节点对的第一样本通信状态和第二样本通信状态。

　　一个实施例中，为便于训练，可以使多个样本组中各个样本组包括的信息对应的样本节点对相同，但每一样本组包括的样本节点对的样本控制动作、第一样本通信状态及第二样本通信状态不完全相同。

　　另一个实施例中，为使训练数据更加全面，也可以使多个样本组中每一样本组中包括的信息对应的样本节点对不完全相同，每一样本组包括的样本节点对的样本控制动作、第一样本通信状态及第二样本通信状态可以相同，也可以不同。本发明实施实例对此不作具体限定。

　　其中，预设训练集中样本组的数量可以根据实际情况设定，本发明实施例对此不作具体限定。

　　步骤302，从预设训练集包括的多个样本组中，获取多个目标样本组。

　　本发明实施例中，目标样本组可以理解为用于进行训练的样本组。目标样本组的数量可以根据实际需要设定，本发明实施例对此不作具体限定。

　　本发明实施例中，可以基于预设的选择条件，从预设训练集中选取多个样本组，作为目标样本组。该预设的选择条件可以根据实际需求设定。例如，预设的选择条件可以为从预设训练集中随机地选取样本组，预设的选择条件还可以为从预设训练集中优先选择未被选取过的样本组。

　　步骤303，基于每一目标样本组包括的第二样本通信状态，确定该目标样本组对应的多步收益值。

　　一种实施例中，确定每一目标样本组对应的多步收益的方式可以包括：针对每一目标样本组，获取以该目标样本组为起始点的连续多个关联样本组，在该目标样本组和多个关联样本组中，每两个相邻的样本组中，后一个样本组包括的第一样本通信状态与前一个样本组包括的第二样本通信状态相同。基于每一关联样本组包括的第二样本通信状态，确定该关联样本组对应的当前收益值，并基于该目标样本组包括的第二样本通信状态，确定该目标样本组对应的当前收益值。基于每一关联样本组对应的当前收益值和每一目标样本组对应的当前收益值，确定该目标样本组的多步收益值。

　　本发明实施例中，基于目标样本组的第二样本通信状态确定该目标样本组的当前收益值，并且根据每一关联样本组包括的第二样本通信状态，确定该关联样本组的当然收益值，然后结合目标样本组的当前收益值和多个关联样本组的当前收益值确定目标样本组的多步收益值。其中，多个关联样本组的数量可以根据实际情况设定，对此不作具体限定。通过上述方法在计算目标样本组的多步收益值时，不仅考虑到该目标样本组的当前收益值，还考虑到与目标样本组相关联的多个关联样本组的当前收益值，使计算得到的目标样本组的多步收益值更加准确。

　　一种实施例中，目标样本组和目标样本组的关联样本组统称为相关样本组，针对每一相关样本组，可以通过以下公式计算该相关样本组的当前收益值。

　　其中，W表示该相关样本组的当前收益值，K表示该相关样本组包括的节点对的总数，k表示该相关样本组包括的节点对k，xk表示节点对k的平均通信时延，α表示节点对k的预设通信时延参数，dk表示节点对k的平均通信速率，β表示节点对k的预设通信速率参数，δ表示节点对k的平均通信速率的比重参数。

　　一种实施例中，针对每一目标样本组，可以利用以下公式确定该目标样本组的多步收益值。

　　其中，t表示该目标样本组t，n表示该目标样本组t的关联样本组的总数，k表示该目标样本组t的关联样本组k，表示该目标样本组t的多步收益值，Rt+k表示关联样本组k的当前收益值，表示关联样本组k相对于该目标样本组t的折扣指数，其中，上述折扣指数可根据实际情况设定，本发明实施例对此不作具体限定。

　　一种实施例中，针对每一目标样本组，还可以利用以下公式确定该目标样本组的多步收益值。

　　其中，t表示该目标样本组t，n表示该目标样本组t的关联样本组的总数，k表示该目标样本组t的关联样本组k，表示该目标样本组t的多步收益值，Rt+k表示关联样本组k的当前收益值。

　　步骤304，将每一目标样本组包括的第一样本通信状态和样本控制动作分别输入评判网络，输出每一目标样本组对应的通信评判值。

　　本发明实施例中，针对每一目标样本组，将该目标样本组包括的第一样本通信状态和样本控制动作输入评判网络，输出该目标样本组对应的通信评判值。

　　步骤305，基于各个目标样本组对应的通信评判值和多步收益值，更新动作网络和评判网络的参数，并累计预设学习模型的训练次数，返回步骤302。

　　本发明实施例中，上述训练过程为循环训练过程，在累计预设学习模型的训练次数后，返回步骤302继续进行训练，直至预设学习模型的训练次数达到预设训练次数阈值。也就是，当预设学习模型的训练次数达到预设训练次数阈值时，不再返回步骤302，停止预设学习模型的训练。

　　一种实施例中，执行完成步骤302-305的过程为一个训练周期。在更新动作网络和评判网络的参数后，可以获取当前训练周期的当前训练时长，也就是执行完成步骤302-305所消耗的时长，并且获取一个周期的理论训练时长，然后将当前训练时长与理论训练时长相比较，若当前训练时长小于等于理论训练时长，则代表当前训练周期没有完成，就舍弃当前的训练周期，返回步骤302，开始新的训练周期；当实际训练时长大于理论训练时长时，累计预设学习模型的训练次数，返回步骤302，直至训练次数大于预设训练次数阈值，结束训练。

　　一种实施例中，如图4所示，步骤301可以细化为以下步骤。

　　步骤3011，获取多个样本节点对的第一样本通信状态。

　　一个实施例中，控制器可以周期性向样本节点下发获取请求，多个样本节点基于获取请求，向控制器上报该样本节点与其他样本节点构成样本节点对的通信状态；控制器获取到该通信状态后，将该通信状态作为第一样本通信状态。其中，样本节点对的数量可以根据实际需要设定，本发明实施例对此不作具体限定。

　　另一个实施例中，样本节点可以周期性向控制器主动上报该样本节点与其他样本节点构成样本节点对的通信状态；控制器获取到该通信状态后，将该通信状态作为第一样本通信状态。

　　本发明实施例中，对控制器获取多个样本节点对的第一通信状态的方式不做限定。

　　步骤3012，将多个样本节点对的第一样本通信状态分别输入动作网络，得到每一样本节点对对应的输出控制动作。

　　本发明实施例中，控制器在获取到多个样本节点对的第一样本通信状态后，将多个样本节点对的第一样本通信状态输入深度强化学习网络中的动作网络中，动作网络对多个样本节点对的第一样本通信状态进行处理，输出每一样本节点对的输出控制动作。

　　步骤3013，基于输出控制动作，确定多个样本节点对的样本控制动作。

　　一种实施例中，可以从输出控制动作中，确定多个样本节点对的样本控制动作。

　　另一种实施例中，如图5所示，步骤3013可以细化为以下步骤。

　　步骤30131，获取预设的基础控制动作。

　　本发明实施例中，基础控制动作为具有规律的控制动作。

　　一个实施例中，基础控制动作可以为：样本节点对对应的每条传输路径的负载均相同。以样本节点对B之间包括路径a、路径b及路径c三条路径为例，每条路径的负载相同就是，路径a、路径b及路径c的负载比例为1:1:1。

　　另一个实施例中，基础控制动作也可以为：在样本节点对对应的至少1条传输路径中，仅以最短的路径传输流量。仍以样本节点对B之间包括路径a、路径b及路径c三条路径为例，若路径b为最短的路径，仅以最短的路径传输流量就是，路径a、路径b及路径c的负载比例为0:1:0。

　　本发明实施例中，基础控制动作还可以为其他的控制动作，对此不作具体限定。

　　步骤30132，按照预设的选择基础控制动作的概率，选取输出控制动作或基础控制动作，作为样本控制动作。

　　本发明实施例中，预设的选择基础控制动作的概率可以根据实际情况设定。

　　一个实施例中，为降低操作复杂度，可以将预设的选择基础控制动作的概率设为0，直接将输出控制动作作为样本控制动作。

　　另一个实施例中，可以使预设的选择基础动作的概率大于50％，也就是先采用预先设置的基础控制动作作为样本控制动作，控制样本节点对执行样本控制动作。并且使深度强化学习网络学习采用基础控制动作获取样本组的过程，从而后期在以输出控制动作作为样本控制动作时，以该过程为参考，从而提高以输出控制动作作为样本控制动作进行训练时的准确度。

　　以执行完成步骤3011-3013的过程为一个获取周期，为确保在获取样本组的过程中，不仅可以将基础控制动作作为样本控制动作，还可以将输出控制动作作为样本控制动作，可以使在第1获取周期时，预设的选择基础动作的概率大于50％，然后每增加1个获取周期，预设的选择基础动作的概率就按照预设规则逐渐减小，直至预设的选择基础动作的概率小于50％。

　　其中，预设规则可以为每增加1个获取周期，预设的选择基础动作的概率就减少预设数量个百分比。预设规则还可以为，随着周期数的增加，预设的选择基础动作的概率的降低率逐渐增加，如第二个周期降低5％，第三个周期降低10％，以此类推。本发明实施实例中，预设规则还可以为其他规则，对此不作具体限定。

　　一种实施例中，为了准确模仿在实际应用过程中的网络情况，还可以在选择样本控制动作时，在样本控制动作上添加随机过程N。其中，随机过程N可以用来表示随机现象，如流量传输过程中网络的扰动等。

　　当在获取样本组的过程中添加随机过程N时，样本控制动作可以用以下公式来表示：

　　ay＝ab+σ·N或ay＝ao+σ·N

　　其中，ay表示样本控制动作，ab表示基本控制动作，ao表示输出控制动作，σ表示预设的选择基础动作的概率，N表示随机过程。

　　本发明实施例中，当在样本控制动作上添加随机过程后，以获取到一个样本组为一个周期，每一周期的随机过程不同。基于此，每一周期的预设的基本控制动作可以相同也可以不同。当每一周期的预设的基本控制动作相同时，通过不同的随机过程N使得每一周期的样本控制动作不同，从而使得样本节点对执行样本控制动作后的第二样本通信状态不同，进而获得不同的样本组。

　　步骤3014，控制多个样本节点对执行样本控制动作，得到多个样本节点对执行样本控制动作后的第二样本通信状态。

　　本发明实施例中，控制器将样本控制动作发送给相应的节点对，并控制每一节点对执行相应的样本控制动作，然后获取每一节点对执行样本控制动作后的第二样本通信状态。

　　步骤3015，基于多个样本节点对的第一样本通信状态、多个样本节点对的样本控制动作、以及多个样本节点对执行样本控制动作后的第二样本通信状态，确定多个样本组。

　　本发明实施例中，每一个样本组中可以包括多个样本节点对的第一样本通信状态、多个样本节点对的样本控制动作及多个样本节点对的第二控制状态。每一样本组除多个样本节点对的第一样本通信状态、多个样本节点对的样本控制动作及多个样本节点对的第二控制状态外，还可以包括用于评判样本控制动作、第一样本通信状态及第二样本通信状态好坏的参数值。本发明实施实例对此不作具体限定。

　　一种实施例中，如图6所示，步骤302可以细化为以下步骤。

　　步骤3021，获取预设训练集中每一样本组的第一优先级。

　　本发明实施例中，可以根据每一样本组的第一优先级，确定该样本组被选中作为目标样本组的概率，即该样本组的采样概率。为防止预设训练集中存在无法被选择为目标样本组的样本组，当每一样本组最初防止在预设训练集中时，将该样本组的第一优先级设置为最大值，如1。

　　步骤3022，根据每一样本组的第一优先级确定每一样本组的采样概率。

　　一种实施例中，针对每一样本组，可以利用以下公式，确定该样本组的采样概率。

　　其中，i表示样本组i，Pi表示样本组i的采样概率，pi表示样本组i的第一优先级，N表示多个样本组总数，k表示样本组k，pk表示样本组k的第一优先级，α0表示预设优先级参数，其中，该预设优先级参数表示在计算采样概率时，第一优先级所占的比重，可根据实际情况设定。

　　一种实施例中，针对每一样本组，还可以利用以下公式，确定该样本组的采样概率。

　　其中，i表示样本组i，Pi表示样本组i的采样概率，pi表示样本组i的第一优先级，N表示多个样本组总数，k表示样本组k，pk表示样本组k的第一优先级，α0表示预设优先级参数，h表示预设概率参数。

　　步骤3023，根据采样概率，从预设训练集中选取多个样本组，作为目标样本组。

　　本发明实施例中，样本组的采样概率越大，则代表该样本组作为目标样本组的概率越大，样本组的采样概率越小，则代表该样本组作为目标样本组的概率越小。

　　一种实施例中，为降低计算难度及计算复杂度，还可以根据每一样本组的第一优先级由高到低的顺序，直接由预设训练集中选取多个样本组，作为目标样本组。

　　基于每一样本组的第一优先级确定该样本组的采样概率，使得选取出的目标样本组更加具有代表性，从而使得通过上述目标样本组对深度强化学习网络进行训练得到的模型更加准确。

　　一种实施例中，如图7所示，在步骤304后，上述方法还可以包括：

　　步骤306，针对每一目标样本组，根据该目标样本组对应的通信评判值和多步收益值，计算该目标样本组的第二优先级。

　　一种实施例中，如图2所示，深度强化学习网络中还可以包括总目标网络，总目标网络中包括动作网络的目标网络和评判网络的目标网络。总目标网络基于动作网络和评判网络进行更新，由于在目标网络中参数的更新迟于动作网络与评判网络的更新，使得在训练过程中暂时固定动作网络与评判网络的输出值，使得深度强化学习网络的训练过程更加稳定。

　　基于此，针对每一目标样本组，可以利用以下公式，计算该目标样本组的第二优先级。

　　pt＝Rt+γQ′(st+n，π′(st+n|θπ′)|θQ′)-Q(st,at|θQ)

　　其中，t表示目标样本组t，pt表示目标样本组t的第二优先级，n表示目标样本组t对应的关联样本组n，Rt表示目标样本组t的多步收益值，γ表示预设参数，Q表示评判网络，st表示目标样本组t的第一样本通信状态，at表示目标样本组t的样本控制动作，st+n表示关联样本组n的第一样本通信状态，π′表示动作网络对应的目标网络，Q′表示评判网络对应的目标网络，θQ表示评判网络的参数，θπ′表示动作网络对应的目标网络的参数，θQ′表示评判网络对应的目标网络的参数。

　　一种实施例中，针对每一目标样本组，还可以利用以下公式，计算该目标样本组的第二优先级。

　　pt＝Rt+γQ′(st+n，π′(st+n|θπ′)|θQ′)-Q(st,at|θQ)+x

　　步骤307，将该目标样本组的第一优先级更新为该目标样本组的第二优先级。

　　本发明实施例中，为防止预设训练集中存在无法被选择为目标样本组的样本组，在最初获得每一样本组并将该样本组放置在预设训练集中时，将该样本组初始优先级(最大值)设置为第一优先级。因此，在选取的多个目标样本组中，多个目标样本组的第一优先级可能为更新后的优先级，多个目标样本组的第一优先级也可能为初始优先级。为防止样本组被重复选取，在选取多个目标样本组后，对目标样本组的第一优先级进行更新，即将目标样本组的第一优先级更新为该目标样本组的第二优先级。后续就可以根据第二优先级，从预设训练集中获取目标样本组。

　　下面将本发明实施例提供的流量传输策略的确定方法分别应用于美国国家科学基金会网络和欧洲教育科研网络，并结合应用结果对本发明实施例提供的流量传输策略的确定方法进行进一步说明。

　　图8a体现了在美国国家科学基金会网络中，流量需求与流量传输速率的关系，横坐标为流量需求，纵坐标为传输速率。其中线条1表示基于控制动作为等比例传输流量，来确定流量传输策略时，流量传输速率和流量需求的关系。线条2表示基于控制动作为最小路径传输流量，来确定流量传输策略时，流量传输速率和流量需求的关系。线条3表示在通过DDPG算法确定流量传输策略时，传输速率和流量需求的关系。线条4表示在通过本发明实施例提供的方法确定流量传输策略时，传输速率和流量需求的关系。如图8a所示，通过本发明实施例提供的方法确定流量传输策略，在流量需求发生变化时，流量传输速率最高。

　　图8b体现了在美国国家科学基金会网络中，流量需求与流量传输时延的关系，横坐标为流量需求，纵坐标为流量传输时延。其中线条5表示基于控制动作为等比例传输流量，来确定流量传输策略时，流量传输时延和流量需求的关系。线条6表示基于控制动作为最小路径传输流量，来确定流量传输策略时，流量传输时延和流量需求的关系。线条7表示在通过DDPG算法确定流量传输策略时，流量传输时延和流量需求的关系。线条8表示在通过本发明实施例提供的方法确定流量传输策略时，流量传输时延和流量需求的关系。如图8b所示，通过本发明实施例提供的方法确定流量传输策略，在流量需求发生变化时，流量传输时延最低。

　　图8c体现了在美国国家科学基金会网络中，流量需求与目标值的关系，横坐标为流量需求，纵坐标为目标值。其中线条9表示基于控制动作为等比例传输流量，来确定流量传输策略时，目标值和流量需求的关系。线条10表示基于控制动作为最小路径传输流量，来确定流量传输策略时，目标值和流量需求的关系。线条11表示在通过DDPG算法确定流量传输策略时，目标值和流量需求的关系。线条12表示在通过本发明实施例提供的方法确定流量传输策略时，目标值和流量需求的关系。如图8c所示，通过本发明实施例提供的方法确定流量传输策略，在流量需求发生变化时，目标值最高。

　　图9a体现了在欧洲教育科研网络中，流量需求与流量传输速率的关系，横坐标为流量需求，纵坐标为传输速率。其中线条13表示基于控制动作为等比例传输流量，来确定流量传输策略时，流量传输速率和流量需求的关系。线条14表示基于控制动作为最小路径传输流量，来确定流量传输策略时，流量传输速率和流量需求的关系。线条15表示在通过DDPG算法确定流量传输策略时，传输速率和流量需求的关系。线条16表示在通过本发明实施例提供的方法确定流量传输策略时，传输速率和流量需求的关系。如图9a所示，通过本发明实施例提供的方法确定流量传输策略，在流量需求发生变化时，流量传输速率最高。

　　图9b体现了在欧洲教育科研网络中，流量需求与流量传输时延的关系，横坐标为流量需求，纵坐标为流量传输时延。其中线条17表示基于控制动作为等比例传输流量，来确定流量传输策略时，流量传输时延和流量需求的关系。线条18表示基于控制动作为最小路径传输流量，来确定流量传输策略时，流量传输时延和流量需求的关系。线条19表示在通过DDPG算法确定流量传输策略时，流量传输时延和流量需求的关系。线条20表示在通过本发明实施例提供的方法确定流量传输策略时，流量传输时延和流量需求的关系。如图9b所示，通过本发明实施例提供的方法确定流量传输策略，在流量需求发生变化时，流量传输时延最低。

　　图9c体现了在欧洲教育科研网络中，流量需求与目标值的关系，横坐标为流量需求，纵坐标为目标值。其中线条21表示基于控制动作为等比例传输流量，来确定流量传输策略时，目标值和流量需求的关系。线条22表示基于控制动作为最小路径传输流量，来确定流量传输策略时，目标值和流量需求的关系。线条23表示在通过DDPG算法确定流量传输策略时，目标值和流量需求的关系。线条24表示在通过本发明实施例提供的方法确定流量传输策略时，目标值和流量需求的关系。如图9c所示，通过本发明实施例提供的方法确定流量传输策略，在流量需求发生变化时，目标值最高。

　　图10a体现了在美国国家科学基金会网络中，基于DDPG算法的学习模型与本发明实施例提供的预设学习模型在学习过程中，通信评判值的变化情况。线条M表示本发明实施例提供的预设学习模型的学习情况，线条N表示基于DDPG算法的学习模型的学习情况，如图10a所示，本发明实施实例提供的预设学习模型在学习过程中，获得的通信评判值高于基于DDPG算法的学习模型，也就是，本发明实施例提供的预设学习模型的学习能力高于基于DDPG算法的学习模型。

　　图10b体现了在欧洲教育科研网络中，基于DDPG算法的学习模型与本发明实施例提供的预设学习模型在学习过程中，通信评判值的变化情况。线条O表示本发明实施例提供的预设学习模型的学习情况，线条P表示基于DDPG算法的学习模型的学习情况，如图10b所示，本发明实施实例提供的预设学习模型在学习过程中，获得的通信评判值高于基于DDPG算法的学习模型，也就是，本发明实施例提供的预设学习模型的学习能力高于基于DDPG算法的学习模型。

　　为提高提高流量传输调整效率，并且提高流量传输策略的确定方法的延展性和准确率，本发明实施例提供了一种流量传输策略的确定装置，如图11所示，上述装置包括：

　　获取模块1101，用于获取软件定义网络中所有节点对的第一通信状态，节点对包括通信连接的两个节点，节点对包括的两个节点之间存在至少一条传输路径。

　　输入模块1102，用于将所有节点对的第一通信状态输入预设学习模型，得到每一节点对的控制动作，控制动作包括节点对对应的每条传输路径的负载比例，预设学习模型为基于预设训练集对深度强化学习网络进行训练得到的模型，预设训练集包括多个样本组，每一样本组包括多个样本节点对的样本控制动作、以及每一样本节点对执行样本控制动作前的第一样本通信状态和执行样本控制动作后的第二样本通信状态。

　　生成模块1103，用于基于每一节点对的控制动作，生成该节点对对应的流量传输策略。

　　一种实施例中，深度强化学习网络可以包括动作网络和评判网络，其中，动作网络，用于基于输入的节点对的通信状态，输出每一节点对的控制动作；评判网络，用于基于输入的各个节点对的通信状态和控制动作，输出各个节点对对应的通信评判值。上述装置还可以包括训练模块，用于训练得到预设学习模型，训练模块包括：

　　第一获取子模块，用于获取预设训练集，预设训练集包括多个样本组，每一样本组包括多个样本节点对的样本控制动作、以及每一样本节点对执行样本控制动作前的第一样本通信状态和执行样本控制动作前的第二样本通信状态。

　　第二获取子模块，用于从预设训练集包括的多个样本组中，获取多个目标样本组。

　　确定子模块，用于基于每一目标样本组包括的第二样本通信状态，确定该目标样本组对应的多步收益值。

　　输入子模块，用于将每一目标样本组包括的第一样本通信状态和样本控制动作分别输入评判网络，输出每一目标样本组对应的通信评判值。

　　更新子模块，用于基于每一目标样本组对应的通信评判值和多步收益值，更新动作网络和评判网络的参数，并累计预设学习模型的训练次数，返回从预设训练集包括的多个样本组中，获取多个目标样本组的步骤，直至训练次数大于预设训练次数阈值。

　　一种实施例中，获取子模块可以包括：

　　第一获取单元，用于获取多个样本节点对的第一样本通信状态。

　　输入单元，用于将多个样本节点对的第一样本通信状态分别输入动作网络，得到每一样本节点对对应的输出控制动作。

　　第一确定单元，用于基于输出控制动作，确定多个样本节点对的样本控制动作。

　　控制单元，用于控制多个样本节点对执行样本控制动作，得到多个样本节点对执行样本控制动作后的第二样本通信状态。

　　第二确定单元，用于基于多个样本节点对的第一样本通信状态、多个样本节点对的样本控制动作、以及多个样本节点对执行样本控制动作后的第二样本通信状态确定多个样本组。

　　一种实施例中，第一确定单元具体可以用于：

　　获取预设的基础控制动作。

　　按照预设的选择基础控制动作的概率，选取输出控制动作或基础控制动作，作为样本控制动作。

　　一种实施例中，确定子模块，具体可以用于：

　　针对每一目标样本组，获取以该目标样本组为起始点的连续多个关联样本组，在该目标样本组和多个关联样本组中，每两个相邻的样本组种，后一个样本组包括的第一样本通信状态与前一个样本组包括的第二样本通信状态相同；基于每一关联样本组包括的第二样本通信状态，确定该关联样本组对应的当前收益值，并基于每一目标样本包括的第二样本通信状态，确定该目标样本组对应的当前收益值；基于每一关联样本组对应的当前收益值和每一目标样本组对应的当前收益值，确定该目标样本组的多步收益值。

　　一种实施例中，第二样本通信状态可以包括平均通信时延和平均通信速率。确定子模块还可以具体用于：

　　针对每一关联样本组，利用以下公式，确定该关联样本组的当前收益值。

　　其中，W表示关联样本组的当前收益值，K表示关联样本组包括的节点对的总数，k表示关联样本组包括的节点对k，xk表示节点对k的平均通信时延，α表示节点对k的预设通信时延参数，dk表示节点对k的平均通信速率，β表示节点对k的预设通信速率参数，δ表示节点对k的平均通信速率的比重参数。

　　针对每一目标样本组，利用以下公式确定该目标样本组的多步收益值。

　　其中，t表示目标样本组t，n表示目标样本组t的关联样本组的总数，k表示目标样本组t的关联样本组k，表示目标样本组t的多步收益值，Rt+k表示关联样本组k的当前收益值，表示关联样本组k相对于目标样本组t的折扣指数。

　　一种实施例中，第二获取子模块可以包括：

　　第二获取单元，用于获取预设训练集中每一样本组的第一优先级。

　　第三确定单元，用于根据每一样本组的第一优先级确定每一样本组的采样概率。

　　选取单元，用于根据采样概率，从预设训练集中选取多个样本组，作为目标样本组。

　　一种实施例中，第二获取子模块还可以包括：

　　计算单元，用于在将每一目标样本组包括的第一样本通信状态和样本控制动作分别输入评判网络，输出每一目标样本组对应的通信评判值之后，针对每一目标样本组，根据该目标样本组对应的通信评判值和多步收益值，计算该目标样本组的第二优先级；将该目标样本组的第一优先级更新为该目标样本组的第二优先级。

　　一种实施例中，第三确定单元具体可以用于：

　　针对每一样本组，利用以下公式，确定该样本组的采样概率。

　　其中，i表示样本组i，Pi表示样本组i的采样概率，pi表示样本组i的第一优先级，N表示样本组总数，k表示样本组k，pk表示样本组k的第一优先级，α0表示预设优先级参数。

　　计算单元，具体可以用于：

　　针对每一目标样本组，利用以下公式，计算该目标样本组的第二优先级。

　　pt＝Rt+γQ(st+n，π′(st+n|θπ′)|θQ′)-Q(st,at|θQ)

　　本发明实施例还提供了一种电子设备，如图12所示，包括处理器1201、通信接口1202、存储器1203和通信总线1204，其中，处理器1201，通信接口1202，存储器1203通过通信总线1204完成相互间的通信，

　　存储器1203，用于存放计算机程序；

　　处理器1201，用于执行存储器1203上所存放的程序时，实现上述任一流量传输策略的确定方法的步骤。

　　上述电子设备提到的通信总线可以是外设部件互连标准(Peripheral ComponentInterconnect，PCI)总线或扩展工业标准结构(Extended Industry StandardArchitecture，EISA)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示，图中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

　　通信接口用于上述电子设备与其他设备之间的通信。

　　存储器可以包括随机存取存储器(Random Access Memory，RAM)，也可以包括非易失性存储器(Non-Volatile Memory，NVM)，例如至少一个磁盘存储器。可选的，存储器还可以是至少一个位于远离前述处理器的存储装置。

　　上述的处理器可以是通用处理器，包括中央处理器(Central Processing Unit，CPU)、网络处理器(Network Processor，NP)等；还可以是数字信号处理器(Digital SignalProcessing，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

　　在本发明提供的又一实施例中，还提供了一种计算机可读存储介质，该计算机可读存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现上述任一流量传输策略的确定方法的步骤。

　　在本发明提供的又一实施例中，还提供了一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行上述实施例中任一流量传输策略的确定方法。

　　在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时，全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如，DVD)、或者半导体介质(例如固态硬盘Solid State Disk(SSD))等。

　　需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

　　本说明书中的各个实施例均采用相关的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于装置、电子设备及计算机可读存储介质实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

　　以上所述仅为本发明的较佳实施例，并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等，均包含在本发明的保护范围内。

《一种流量传输策略的确定方法及装置.doc》

将本文的Word文档下载到电脑，方便收藏和打印

推荐度：

点击下载文档

文档为doc格式(或pdf格式)

电通讯技术图文推荐

上一篇：三维图像展示的方法、装置、电子设备及存储介质

下一篇：一种语音识别智能对话装置