欢迎光临小豌豆知识网!
当前位置:首页 > 物理技术 > 调节控制> 一种信息处理方法及相关设备独创技术52279字

一种信息处理方法及相关设备

2021-03-17 14:08:46

一种信息处理方法及相关设备

  技术领域

  本发明涉及信息处理领域,特别涉及一种信息处理方法及相关设备。

  背景技术

  油气集输系统涵盖集输管网和油田站库,集输管网是将单井的产液汇聚到联合站等站库,联合站一般由油站、污水站与注水站构成。

  目前联合站库针对不同状态的处置措施手册还不能覆盖可能出现的全部情况。在这种情况下,为了安全生产和高效生产,需要可以在避免危险的情况下,找到不同生产状态下的最优处置措施。同时目前的处置措施手册只能定性的描述处置措施,比如开大阀门。针对这种情况,希望能够更精确的找到定量的处置措施。

  油气集输联合站库的生产具有时间滞后性,进行相关操作后,需要继续进行一定时间的模拟,才可以看到操作后的结果。油气集输联合站库的生产具有的状态空间十分巨大,不同设备的液位、流量、压力等等信息构成的乘积空间维度十分的惊人,基本不可能密集的遍历到所有的状态。同时操作方案也十分的多,不同设备都有多个可控阀门,构成的乘积空间也十分巨大。想要全部遍历几乎不可能。

  发明内容

  本发明实施例提供了一种信息处理方法及相关设备,用于帮助油气集输联合站库优化生产决策。

  本发明实施例第一方面提供了一种信息处理方法,具体包括:

  获取油气集输联合站库中设备的第一运行状态;

  将所述第一运行状态进行向量化处理;

  将向量化处理后的所述第一运行状态输入预设动作模型以确定目标动作概率分布,所述目标动作概率分布中的动作用于对所述油气集输联合站库中的设备进行操作,所述预设动作模型为基于分布式节点对状态空间和动作空间进行训练后得到,所述分布式节点包括至少一个第一节点以及第二节点,所述状态空间包括所述油气集输联合站库中的设备的静态参数,所述动作空间包括所述油气集输联合站库中的设备的操作动作,且所述操作动作与所述静态参数具有关联关系。

  可选地,所述获取油气集输联合站库中设备的第一运行状态之前,所述方法还包括:

  构建所述油气集输联合站库的模拟系统,所述模拟系统包括所述油气集输联合站库中的设备对应的物理模型。

  可选地,所述将所述第一运行状态输入预设动作模型以确定目标动作之前,所述方法还包括:

  确定所述状态空间以及所述动作空间;

  确定所述油气集输联合站库对应的初始动作模型,所述初始动作模型包括第一模块以及第二模块,所述第一模块以及所述第二模块均由人工神经网络构成;

  基于所述分布式节点,根据所述初始动作模型以及所述模拟系统对所述状态空间以及所述动作空间进行训练,以确定所述预设动作模型。

  可选地,所述基于所述分布式节点,根据所述初始动作模型以及所述模拟系统对所述状态空间以及所述动作空间进行训练,以确定所述预设动作模型包括:

  步骤1、根据所述初始动作模型确定目标网络,所述目标网络包括第三模块、第四模块、第五模块以及第六模块,所述第一模块、所述第三模块以及所述第五模块具有关联关系,所述第二模块、所述第四模块以及所述第六模块具有关联关系,且所述第三模块以及第四模块均存储在每个所述第一节点内,所述第五模块以及所述第六模块存储在所述第二节点内;

  步骤2、分别在每个所述第一节点中确定K条长度为T的模拟路径,所述K为大于1的正整数,所述T为大于1的正整数,所述长度为T的模拟路径指示所述状态空间中的任意T个第二运行状态与所述动作空间中的T个第一动作的对应关系,所述T个第一动作为所述任意T个第二运行状态输入所述第一模块后输出得到的,所述T为大于1的正整数;

  步骤3、根据所述K条长度为T的模拟路径确定时序差分误差;

  步骤4、根据所述K条长度为T的模拟路径更新所述第一模块的第一参数的参数值;

  步骤5、通过更新后所述第一模块的第一参数的参数值更新所述第一模块的第二参数的参数值;

  步骤6、根据所述时序差分误差更新所述第二模块的第三参数的参数值;

  步骤7、基于预设的增量更新策略,通过更新后所述第一模块的第二参数的参数值更新所述第三模块的第一参数的参数值,以及通过更新后所述第二模块的第三参数的参数值更新所述第四模块的第三参数的参数值;

  重复执行步骤1至步骤7,直至满足预置迭代终止条件;

  在所述第二节点内获取每次迭代时得到的所述第一模块的第一参数的参数值以及所述第二模块的第三参数的参数值;

  通过所述每次迭代时得到的所述第一模块的第一参数的参数值以及所述第二模块的第三参数的参数值更新所述第五模块的第一参数的参数值以及所述第六模块的第三参数的参数值;

  根据更新参数值后的所述第五模块以及更新参数值后的所述第六模块确定为所述预设动作模型。

  可选地,所述根据所述K条长度为T的模拟路径更新所述第一模块的第一参数包括:

  通过计算如下公式,对所述第一模块的第一参数的参数值进行更新:

  

  其中,π为所述第一模块的函数,A为所述时序差分误差,所述时序差分误差通过对所述第二运行状态的奖励值、所述第三运行状态的价值以及所述第二运行状态的价值计算后得到的,所述第三运行状态为将所述第一动作输入所述模拟系统后得到,所述第三运行状态的价值以及所述第一运行状态的价值为根据所述第二模块计算后得到的,θold为所述第三模块的第一参数的参数值,θ为所述第一模块的第一参数的参数值,KL为所述第三模块与所述第一模块的相对熵,s为所述K条长度为T的模拟路径中的任意一个第二运行状态,a为所述s对应的动作,ρ为所述s的概率分布,β为常数。

  可选地,所述方法还包括:

  根据所述目标动作概率分布中概率最高的目标动作确定所述模拟系统的第四运行状态;

  确定所述第一运行状态的价值以及所述第四运行状态的价值;

  确定所述第四运行状态的奖励值,所述第四运行状态的奖励值指示所述模拟系统处于所述第四运行状态时是否正常运行;

  通过所述第一运行状态价值、所述第四运行状态的价值以及所述第四运行状态的奖励值更新所述预设动作模型的参数。

  本发明实施例第二方面提供了一种信息处理装置,包括:

  获取单元,用于获取油气集输联合站库中设备的第一运行状态;

  处理单元,用于将所述第一运行状态进行向量化处理;

  确定单元,用于将向量化处理后的所述第一运行状态输入预设动作模型以确定目标动作概率分布,所述目标动作概率分布中的动作用于对所述油气集输联合站库中的设备进行操作,所述预设动作模型为基于分布式节点对状态空间和动作空间进行训练后得到,所述分布式节点包括至少一个第一节点以及第二节点,所述状态空间包括所述油气集输联合站库中的设备的静态参数,所述动作空间包括所述油气集输联合站库中的设备的操作动作,且所述操作动作与所述静态参数具有关联关系。

  可选地,所述装置还包括:

  构建单元,用于构建所述油气集输联合站库的模拟系统,所述模拟系统包括所述油气集输联合站库中的设备对应的物理模型。

  可选地,所述装置还包括训练单元,所述训练单元用于:

  确定所述状态空间以及所述动作空间;

  确定所述油气集输联合站库对应的初始动作模型,所述初始动作模型包括第一模块以及第二模块,所述第一模块以及所述第二模块均由人工神经网络构成;

  基于所述分布式节点,根据所述初始动作模型以及所述模拟系统对所述状态空间以及所述动作空间进行训练,以确定所述预设动作模型。

  可选地,所述训练单元基于所述分布式节点,根据所述初始动作模型以及所述模拟系统对所述状态空间以及所述动作空间进行训练,以确定所述预设动作模型包括:

  步骤1、根据所述初始动作模型确定目标网络,所述目标网络包括第三模块、第四模块、第五模块以及第六模块,所述第一模块、所述第三模块以及所述第五模块具有关联关系,所述第二模块、所述第四模块以及所述第六模块具有关联关系,且所述第三模块以及第四模块均存储在每个所述第一节点内,所述第五模块以及所述第六模块存储在所述第二节点内;

  步骤2、分别在每个所述第一节点中确定K条长度为T的模拟路径,所述K为大于1的正整数,所述T为大于1的正整数,所述长度为T的模拟路径指示所述状态空间中的任意T个第二运行状态与所述动作空间中的T个第一动作的对应关系,所述T个第一动作为所述任意T个第二运行状态输入所述第一模块后输出得到的,所述T为大于1的正整数;

  步骤3、根据所述K条长度为T的模拟路径确定时序差分误差;

  步骤4、根据所述K条长度为T的模拟路径更新所述第一模块的第一参数的参数值;

  步骤5、通过更新后所述第一模块的第一参数的参数值更新所述第一模块的第二参数的参数值;

  步骤6、根据所述时序差分误差更新所述第二模块的第三参数的参数值;

  步骤7、基于预设的增量更新策略,通过更新后所述第一模块的第二参数的参数值更新所述第三模块的第一参数的参数值,以及通过更新后所述第二模块的第三参数的参数值更新所述第四模块的第三参数的参数值;

  重复执行步骤1至步骤7,直至满足预置迭代终止条件;

  在所述第二节点内获取每次迭代时得到的所述第一模块的第一参数的参数值以及所述第二模块的第三参数的参数值;

  通过所述每次迭代时得到的所述第一模块的第一参数的参数值以及所述第二模块的第三参数的参数值更新所述第五模块的第一参数的参数值以及所述第六模块的第三参数的参数值;

  根据更新参数值后的所述第五模块以及更新参数值后的所述第六模块确定为所述预设动作模型。

  可选地,所述训练单元根据所述K条长度为T的模拟路径更新所述第一模块的第一参数包括:

  通过计算如下公式,对所述第一模块的第一参数的参数值进行更新:

  

  其中,π为所述第一模块的函数,A为所述时序差分误差,所述时序差分误差通过对所述第二运行状态的奖励值、所述第三运行状态的价值以及所述第二运行状态的价值计算后得到的,所述第三运行状态为将所述第一动作输入所述模拟系统后得到,所述第三运行状态的价值以及所述第一运行状态的价值为根据所述第二模块计算后得到的,θold为所述第三模块的第一参数的参数值,θ为所述第一模块的第一参数的参数值,KL为所述第三模块与所述第一模块的相对熵,s为所述K条长度为T的模拟路径中的任意一个第二运行状态,a为所述s对应的动作,ρ为所述s的概率分布,β为常数。

  可选地,所述确定单元还用于:

  根据所述目标动作概率分布中概率最高的目标动作确定所述模拟系统的第四运行状态;

  确定所述第一运行状态的价值以及所述第四运行状态的价值;

  确定所述第四运行状态的奖励值,所述第四运行状态的奖励值指示所述模拟系统处于所述第四运行状态时是否正常运行;

  通过所述第一运行状态价值、所述第四运行状态的价值以及所述第四运行状态的奖励值更新所述预设动作模型的参数。

  本发明实施例第三方面提供了一种处理器,所述处理器用于运行计算机程序,所述计算机程序运行时执行如上述各方面所述的信息处理方法的步骤。

  本发明实施例第四方面提供了一种计算机可读存储介质,其上存储有计算机程序,其特征在于:所述计算机程序被处理器执行时上述各方面所述的信息处理方法的步骤。

  综上所述,可以看出,本发明提供的实施例中,通过对油气集输联合站库中设备当前时刻的状态进行向量后,之后输出油气集输联合站库中的设备的目标动作概率分布,该目标动作概率分布用于对油气集输联合站库中设备进行操作,由于在对预设动作模型的训练过程是基于分布式节点进行训练,也即至少一个第一节点和第二节点,大大加快了运算速度,由此可以真实生产中,通过物理模型仿真系统模拟出更长时间和更多次实验,提高算法最优操作策略的性能,大大提高了联合站库中自动化得到当前状态对应的最优操作的稳定性。

  附图说明

  图1为本发明实施例提供的信息处理方法的实施例示意图;

  图2为本发明实施例提供的预设动作模型的训练流程示意图;

  图3为本发明实施例提供的信息处理装置的实施例示意图;

  图4为本发明实施例提供的服务器的硬件结构示意图。

  具体实施方式

  本发明实施例提供了一种信息处理方法及相关设备,用于帮助油气集输联合站库优化生产决策。

  本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的实施例能够以除了在这里图示或描述的内容以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

  下面从信息处理装置的角度对本发明的信息处理方法进行说明,该信息处理装置可以是服务器,也可以是服务器中的服务单元,具体不做限定。

  请参阅图1,图1为本发明实施例提供的信息处理方法的实施例示意图,包括:

  101、获取油气集输联合站库中设备的第一运行状态。

  本实施例中,在油气集输联合在库中的设备在运行的过程中,信息处理装置可以获取当前时刻油气集输联合站库中的设备的第一运行状态。该第一运行状态例为油气集输联合站库中的设备当前时刻的状态,例如油气集输联合站库中水罐的液面高度、以及油气集输联合站库中阀门的开关状态等等。

  需要说明的是,在获取油气集输联合站库中设备的第一运行状态之前,还可以构建油气集输联合站库的模拟系统,该模拟系统包括油气集合联合站库中的设备对应的物理模型,下面进行具体说明:首先确定油气集输联合站库中的多个设备,以及多个设备的静态参数,其中,静态参数用于表示多个设备自身固有的属性,多个设备可以包括但不限于以下几种:三相分离器、沉降罐、核桃壳过滤器、纤维球过滤器等。上述静态参数表示多个设备自身的固有属性,以三相分离器为例,三相分离器的静态参数可以包括但不限于以下几种:三相分离器等效长度、三相分离器的半径、三相分离器罐内总体积、三相分离器的水室横截面积、三相分离器的油室横截面积、三相分离器的溢油挡板的高度、水密度、油密度、气体平均分子质量、气体常数、重力加速度等。

  其次,根据多个设备的静态参数构建多个设备中每个设备的物理模型。也就是说,可以根据多个设备中每个设备的信息,随机初始化每个设备的物理模型中的参数,并根据每个设备的历史运行参数,计算每一个时刻的预测数据与真实生产数据之间的二次损失函数,采用随机梯度下降算法,估计每个设备中的参数。

  再次,确定油气集输联合站库的多个设备中每个设备之间的连接关系。例如,可以根据油气集输联合站库中各个设备之间的连接方式确定多个设备的物理模型的连接方式。具体地,可以将多个设备中每个设备作为一个节点,将多个设备中的每个设备对应的节点按照上述油气集输联合站库中各个设备之间的连接方式以边的形式进行连接。例如,在真实生产中三相分离器的出水口连接沉降罐的进水口,则将三相分离器节点和沉降罐节点相连接。采用相同的方式实现对多个设备中每个设备的物理模型的连接。具体地,可以根据各个设备之间的可调节控制的阀门、水泵等信息搭建边,根据节点和边连接成站库系统。

  最后,基于连接关系将多个设备中每个设备的物理模型进行连接,构建油气集输联合站库的模拟系统。具体地,可以重复下述过程进行系统模拟:根据可控信息,更新各个边的信息;对于每个节点,集成流向该节点的所有边的信息,根据每个节点本身的信息和集成的边的信息,更新各个节点的信息。

  102、将第一运行状态进行向量化处理。

  本实施例中,信息处理装置在获取到第一运行状态之后,可以将该第一运行状态进行向量化处理,例如可以通过word2rvec向量化工具对第一运行状态进行向量化,当然也还可以通过其他的方式进行向量化,具体不做限定。

  103、将向量化处理后的第一运行状态输入预设动作模型以确定目标动作概率分布。

  本实施例中,信息处理装置可以预先训练一个动作输出模型,即预设动作模型,之后将向量化后的第一运行状态输入预设动作模型以确定目标动作概率分布,该目标动作概率分布中的动作用于对油气集输联合站库中的设备进行操作,该预设动作模型用于根据运行状态的向量输出运行状态对应的动作,预设动作模型为基于分布式节点对状态空间和动作空间进行训练后得到,该分布式节点包括至少一个第一节点以及第二节点,同时在分布式节点的至少一个第一节点内使用模拟路径的方式对状态空间以及动作空间进行训练,该模拟路径指示状态空间中的运行状态与动作空间中的动作的对应关系(也就是说,将状态空间中的一个运行状态与动作空间中与该运行状态对应的动作作为一条模拟路径来进行训练),该状态空间包括所述油气集输联合站库中的设备的静态参数,比如水罐液面高度是从0m到10m,则可以得到(0m-10m)这样一个水罐液面高度多个不同的状态的连续空间作为液面高度的空间,同理还有油气集输联合站库中的所有设备的压力、流量等动态参数和比热容、长度、密度等静态参数采用如上述的方式形成的空间,之后将油气集输联合站库中所有设备的连续空间做乘积空间,构成了状态空间(该状态空间中的所有设备的状态以向量的形式存在),该动作空间包括油气集输联合站库中的设备的操作动作,也即动作空间为所有单独的操作拼接而成,即认为同一时刻之后进行一种操作,比如调节油气集输联合站库中的设备的某个阀门或者某个水泵,例如单个阀门的连续空间就是{最小至最大}中多个不同的动作构成的空间,之后,将油气集输联合站库中所有设备的连续动作空间拼接形成动作空间,(该动作空间中的所有操作动作均以向量的形式存在)。该状态空间与该动作空间具有关联关系,也就是说,状态空间中的每个状态向量均可以在动作空间找到一个与之对应的操作动作。

  需要说明的是,在通过预设动作模型确定目标动作概率分布之后,可以将该目标动作概率分布向用户展示,以使得用户根据所述目标概率分布中概率最高的目标动作对油气集输联合站库中的设备进行操作,或者,信息处理设备直接基于该目标动作概率分布中概率最高的目标动作对油气集输联合站库中的设备进行操作,例如调节液面的高度等。

  综上所述,可以看出,本发明提供的实施例中,通过对油气集输联合站库中设备当前时刻的状态进行向量后,之后输出油气集输联合站库中的设备的目标动作概率分布,该目标动作概率分布用于对油气集输联合站库中设备进行操作,由于在对预设动作模型的训练过程是基于分布式节点进行训练,也即至少一个第一节点和第二节点,大大加快了运算速度,由此可以真实生产中,通过物理模型仿真系统模拟出更长时间和更多次实验,提高算法最优操作策略的性能,大大提高了联合站库中自动化得到当前状态对应的最优操作的稳定性。

  下面结合图2对预设动作模型的训练进行说明。

  请参阅图2,图2为本发明实施例提供的预设动作模型的训练流程示意图,包括:

  201、确定状态空间以及动作空间。

  本实施例中,可以确定状态空间以及动作空间,该状态空间包括所述油气集输联合站库中设备的静态参数,比如油气集输联合站库中水罐的液面高度是从0m到10m,则可以得到(0m-10m)这样一个水罐液面高度的多个不同的状态的连续空间作为液面高度的空间,同理还有油气集输联合站库中的所有设备的压力、流量等动态参数和比热容、长度、密度等静态参数采用如上述的方式形成的空间,之后将油气集输联合站库中所有设备的空间做乘积空间,构成了状态空间(该状态空间中的所有设备的状态以向量的形式存在),该动作空间包括油气集输联合站库中设备的操作动作,也即动作空间为所有单独的操作拼接而成,即认为同一时刻之后进行一种操作,比如调节油气集输联合站库中的设备的某个阀门或者某个水泵,例如单个阀门的连续空间就是{最小至最大}中多个不同的动作构成,之后,将这些空间拼接形成动作空间,(该动作空间中的所有操作动作以向量的形式存在)。该状态空间与该动作空间具有关联关系,也就是说,状态空间中的每个状态向量均可以在动作空间找到一个与之对应的操作动作。

  需要说明的是,状态空间由油气集输联合站库中的所有的设备的所有流量、压力、液位高度等状态信息构成的向量和阀门开度、水泵压力、流量等动作信息构成的向量拼接而成的向量表示;动作空间是由油气集输联合站库中所有可以操作的阀门开度、水泵压力等拼接而成的向量表示,其中操作分为两种,一种是只有有限种选项的操作,比如阀门只能开或者关,在这种情况下使用一个二维向量表示,其中至多一个位置为1,其余为0;另一种是连续可控制操作,比如水泵压力可以调整到指定数值范围内,这种情况下用一个三维向量表示,分别代表[增大10%,不变,减小10%],其中至多有一个位置为1,其余为0。

  可以理解的是,上述数值仅为举例说明,并不代表对其的限定。

  202、确定油气集输联合站库对应的初始动作模型。

  本实施例中,信息处理装置可以确定一个初始动作模型,该初始动作模型包括第一模块以及第二模块,该第一模块以及第二模块均由人工神经网络构成,此处以第一模块为Actor模块,第二模块为Critic模块为例进行说明,其中,该Actor模块由隐藏层为5层的MLP(Multi-Layer Perceptron,多层感知器)组成,输入是状态空间中模拟系统的运行状态的向量,即油气集输联合站库中的每一个设备的所有静态参数以及每一个可控制的操作信息,输出是长度为所有的可控制信息的向量,即每一个位置表达对系统的一种操作方式,Critic模块由隐藏层为3层的MLP组成,输入与Actor模块完全相同,输出是一个数值,表示输入的状态对应的价值。

  需要说明的是,通过步骤201可以确定状态空间以及动作空间,通过步骤202可以确定油气集输联合站库对应的初始动作模型,然而这两个步骤之间并没有先后执行顺序的限制,可以先执行步骤201,也可以先执行步骤202,或者同时执行,具体不做限定。

  203、基于分布式节点,根据初始动作模型以及模拟系统对状态空间以及动作空间进行训练,以确定预设动作模型。

  本实施例中,在得到油气集输联合站库的状态空间以及动作空间之后,信息处理装置可以基于分布式节点,联合初始动作模型以及模拟系统对油气集输联合站库的状态空间以及动作空间进行训练,以确定预设动作模型,该模拟系统为预先设置的用于对油气集输联合站库中设备的状态以及动作进行模拟的系统,下面进行具体说明:

  步骤1、根据初始动作模型确定目标网络。

  本实施例中,信息处理装置可以根据初始动作模型确定目标网络,该目标网络包括第三模块、第四模块、第五模块以及第六模块,其中,第一模块、第三模块以及第五模块具有关联关系,第二模块、第四模块以及第六模块具有关联关系,且该第三模块以及第四模块均存储在每个第一节点内,该第五模块以及第六模块存储在第二节点内,也就是说,可以将初始动作模型中的第一模块复制得到第三模块以及第五模块,将初始动作模型中的第二模块复制得到第四模块以及第六模块,之后将第三模块以及第四模块存储在每个第一节点内,将第五模块以及第六模块存储至第二节点内。

  需要说明的是,此处以分布式节点包括多个第一节点以及一个第二节点为例进行说明,当然不代表对其的限定。

  步骤2、分别在每个第一节点中确定K条长度为T的模拟路径。

  也就是说,信息处理装置可以分别在每个第一节点内确定K条长度为T的模拟路径,其中K为大于1的正整数,T为大于1的正整数,长度为T的模拟路径指示状态空间中任意T个第二运行状态与动作空间中的T个第一动作的对应关系,该T个第一动作为任意T个第二运行状态分别输入第一模块后输出得到的,也就是说,在每个第一节点内,信息处理装置可以从状态空间中随机挑选一个状态向量,例如液面高度的状态向量输入第一模块,输出一个动作,该状态向量与该动作即作为一个模拟路径,之后重复执行T次,得到1条长度为T的模拟路径,最后重复执行上述动作K次,得到K条长度为T的模拟路径。

  步骤3、根据K条长度为T的模拟路径确定时序差分误差。

  本实施例中,在每个第一节点内,在得到N条长度为T的模拟路径之后,信息处理装置可以将每个模拟路径中的第一动作输入模拟系统得到该第一动作对应的第三运行状态,之后,计算每个模拟路径中的第二运行状态的奖励值,并通过第二模块计算每个模拟路径中的第二运行状态的价值,以及每个第三运行状态的价值,之后通过每个模拟路径中的第二运行状态的奖励值、每个第三运行状态的价值以及每个模拟路径中的第二运行状态的价值计算得到多个时序差分误差,具体的,可以先计算每个模拟路径中的第二运行状态的奖励值与每个第三运行状态的价值之后,之后减去每个第二运行状态的价值,得到时序差分误差,可以理解的是,在每个第一节点内都包括K*T个时序差分误差。

  需要说明的是,该第二运行状态的奖励值指示模拟系统处于第二运行状态下是否是正常运行的,具体的,可以提前定义模拟系统的奖励函数R,即当模拟系统正常运行时该奖励函数R的奖励值为0.01,当模拟系统出现预警时,该奖励函数R的奖励值为-1,此处可以根据第二运行状态确定该模拟系统的是否正常运行,当模拟系统正常运行时,该第二运行状态的奖励值为0.01,当模拟系统出现异常预警时,该第二运行状态的奖励值-1,上述奖励函数R的奖励值仅为举例说明,并不代表对其的限定。

  步骤4、根据N条长度为T的模拟路径更新第一模块的第一参数的参数值。

  本实施例中,信息处理装置可以通过求解如下公式,以更新第一模块的第一参数的参数值(其中,该第一参数为第一模块中状态决定动作的参数):

  通过计算如下公式,对所述第一模块的第一参数的参数值进行更新:

  

  其中,π为第一模块的函数,A为时序差分误差,时序差分误差通过对第二运行状态的奖励值、第三运行状态的价值以及第二运行状态的价值计算后得到的,第三运行状态为将第一动作输入模拟系统后得到,第三运行状态的价值以及第一运行状态的价值为根据第二模块计算后得到的,θold为第三模块的第一参数的参数值,θ为第一模块的第一参数的参数值,KL为第三模块与第一模块的相对熵,s为K条长度为T的模拟路径中的任意一个第二运行状态,a为s对应的动作,ρ为s的概率分布,β为常数。

  步骤5、通过更新后第一模块的第一参数的参数值更新第一模块的第二参数的参数值。

  本实施例中,可以通过更新后第一模块的第一参数的参数值更新第一模块的第二参数的参数自,也即是上述公式中的β的参数值,该β为用于调整进行随机梯度下降法更新第一参数后的性能下降的参数,可以理解的是,在对第一模块的第一参数的参数值进行更新时,该β为一个固定的常数。

  也就是说,在每次通过随机梯度下降法对第一模块的θ进行更新之后,可以通过第一模块的θ的参数值更新第一模块的β的参数值,以防止随机梯度法更新过程中短期内的性能下降问题。

  步骤6、根据时序差分误差更新第二模块的第三参数的参数值。

  本实施例中,在每个第一节点内得到N*T个时序差分误差之后,可以通过最小二次时序差分误差更新第二模块的第三参数的参数值,该第三参数为第二模块中状态决定价值的参数。

  步骤7、基于预设的增量更新策略,通过更新后第一模块的第二参数的参数值更新第三模块的第一参数的参数值,以及通过更新后第二模块的第三参数的参数值更新第四模块的第三参数的参数值。

  本实施例中,在将第一模块以及第二模块的参数更新之后,可以基于预设的增量更新策略,只更新第三模块中第一参数的参数值以及第四模块的第三参数的参数值。

  步骤8、重复执行步骤1至步骤7,直至满足预置迭代终止条件。

  本实施例中,可以在每次迭代之后,判断迭代次数是否达到预置数值,若是,则确定满足预置的迭代终止条件;或,判断第一模块的第一参数的参数值和/或第二模块的第三参数的参数值是否收敛,若是,则确定满足预置的迭代终止条件。

  步骤9、在所述第二节点内获取每次迭代时得到的第一模块的第一参数的参数值以及第二模块的第三参数的参数值。

  本实施例中,在对第一模块的第一参数的参数值更新后,以及对第二模块的第三参数的参数值更新之后,可以将该更新后的第一模块的第一参数的参数值以及更新后的第二模块的第三参数的参数值进行存储,或者存储之后将该更新后的第一模块的第一参数的参数值以及更新后的第二模块的第三参数的参数值发送至第二节点。

  步骤10、通过每次迭代时得到的第一模块的第一参数的参数值以及第二模块的第三参数的参数值更新第五模块的第一参数的参数值以及第六模块的第三参数的参数值。

  本实施例中,在第二节点内,通过每次迭代时得到的第一模块的第一参数的参数值更新第五模块的第一参数的参数值,同时,通过每次迭代时得到第二模块的第三参数的参数值更新第六模块的第三参数的参数值。

  需要说明的是,在第二节点内,可以每收到一个第一模块的第一参数的参数值即对第五模块的第一参数的参数值进行更新,直至更新至上述迭代完成;也可以在收到多个之后(例如50个),集合通过第一模块的第一参数的参数值对第五模块的第一参数的参数值进行更新,同样是需要更新至迭代完成之后;也可以在迭代中止时,对第五模块的第一参数的参数值进行更新,同理对第六模块的第三参数的参数值进行更新也是如此。

  步骤11、将更新参数值后的第五模块以及更新参数值后的第六模块确定为预设动作模型。

  需要说明的是,在实际操作的过程中,基于目标动作对油气集输联合站库中的设备进行操作之后,还可以对预设动作模型的参数进行更新,具体如下:根据目标动作概率分布中概率最高的目标动作确定模拟系统的第四运行状态(也即是将目标动作概率分布中概率最高的目标动作输入模拟系统,输出模拟系统的第四运行状态);确定第一运行状态的价值以及第四运行状态的价值(该第一运行状态的价值以及第四运行状态的价值可以通过将第一运行状态以及第四运行状态分别输入第六模块输出得到);确定第四运行状态的奖励值,第四运行状态的奖励值指示模拟系统处于第四运行状态时是否正常运行;通过第一运行状态价值、第四运行状态的价值以及第四运行状态的奖励值更新所述预设动作模型的参数。具体的更新预设动作模型中的参数可以参数上述步骤3至步骤7以及步骤10的说明,上述已经进行了具体说明,此处不再赘述。

  综上所述,可以看出,本发明提供的实施例中,在对预设动作模型的训练过程中加入了分布式训练,只需要一阶导数就可以完成对第一模块的第一参数的更新,大大加快了运算速度,可以真实生产中,通过物理模型仿真系统模拟出更长时间和更多次实验,提高算法最优操作策略的性能,大大提高了联合站库中自动化得到当前状态对应的最优操作的稳定性。

  上面对本发明实施例提供的信息处理方法进行说明,下面结合图3对本发明实施例提供的信息处理装置进行说明。

  请参阅图3,图3为本发明实施例提供的信息处理装置的实施例示意图,该信息处理装置包括:

  获取单元301,用于获取油气集输联合站库中设备的第一运行状态;

  处理单元302,用于将所述第一运行状态进行向量化处理;

  确定单元303,用于将向量化处理后的所述第一运行状态输入预设动作模型以确定目标动作概率分布,所述目标动作概率分布中的动作用于对所述油气集输联合站库中的设备进行操作,所述预设动作模型为基于分布式节点对状态空间和动作空间进行训练后得到,所述分布式节点包括至少一个第一节点以及第二节点,所述状态空间包括所述油气集输联合站库中的设备的静态参数,所述动作空间包括所述油气集输联合站库中的设备的操作动作,且所述操作动作与所述静态参数具有关联关系。

  可选地,所述装置还包括:

  构建单元304,用于构建所述油气集输联合站库的模拟系统,所述模拟系统包括所述油气集输联合站库中的设备对应的物理模型。

  可选地,所述装置还包括训练单元305,所述训练单元305用于:

  确定所述状态空间以及所述动作空间;

  确定所述油气集输联合站库对应的初始动作模型,所述初始动作模型包括第一模块以及第二模块,所述第一模块以及所述第二模块均由人工神经网络构成;

  基于所述分布式节点,根据所述初始动作模型以及所述模拟系统对所述状态空间以及所述动作空间进行训练,以确定所述预设动作模型。

  可选地,所述训练单元305基于所述分布式节点,根据所述初始动作模型以及所述模拟系统对所述状态空间以及所述动作空间进行训练,以确定所述预设动作模型包括:

  步骤1、根据所述初始动作模型确定目标网络,所述目标网络包括第三模块、第四模块、第五模块以及第六模块,所述第一模块、所述第三模块以及所述第五模块具有关联关系,所述第二模块、所述第四模块以及所述第六模块具有关联关系,且所述第三模块以及第四模块均存储在每个所述第一节点内,所述第五模块以及所述第六模块存储在所述第二节点内;

  步骤2、分别在每个所述第一节点中确定K条长度为T的模拟路径,所述K为大于1的正整数,所述T为大于1的正整数,所述长度为T的模拟路径指示所述状态空间中的任意T个第二运行状态与所述动作空间中的T个第一动作的对应关系,所述T个第一动作为所述任意T个第二运行状态输入所述第一模块后输出得到的,所述T为大于1的正整数;

  步骤3、根据所述K条长度为T的模拟路径确定时序差分误差;

  步骤4、根据所述K条长度为T的模拟路径更新所述第一模块的第一参数的参数值;

  步骤5、通过更新后所述第一模块的第一参数的参数值更新所述第一模块的第二参数的参数值;

  步骤6、根据所述时序差分误差更新所述第二模块的第三参数的参数值;

  步骤7、基于预设的增量更新策略,通过更新后所述第一模块的第二参数的参数值更新所述第三模块的第一参数的参数值,以及通过更新后所述第二模块的第三参数的参数值更新所述第四模块的第三参数的参数值;

  重复执行步骤1至步骤7,直至满足预置迭代终止条件;

  在所述第二节点内获取每次迭代时得到的所述第一模块的第一参数的参数值以及所述第二模块的第三参数的参数值;

  通过所述每次迭代时得到的所述第一模块的第一参数的参数值以及所述第二模块的第三参数的参数值更新所述第五模块的第一参数的参数值以及所述第六模块的第三参数的参数值;

  根据更新参数值后的所述第五模块以及更新参数值后的所述第六模块确定为所述预设动作模型。

  可选地,所述训练单元305根据所述K条长度为T的模拟路径更新所述第一模块的第一参数包括:

  通过计算如下公式,对所述第一模块的第一参数的参数值进行更新:

  

  其中,π为所述第一模块的函数,A为所述时序差分误差,所述时序差分误差通过对所述第二运行状态的奖励值、所述第三运行状态的价值以及所述第二运行状态的价值计算后得到的,所述第三运行状态为将所述第一动作输入所述模拟系统后得到,所述第三运行状态的价值以及所述第一运行状态的价值为根据所述第二模块计算后得到的,θold为所述第三模块的第一参数的参数值,θ为所述第一模块的第一参数的参数值,KL为所述第三模块与所述第一模块的相对熵,s为所述K条长度为T的模拟路径中的任意一个第二运行状态,a为所述s对应的动作,ρ为所述s的概率分布,β为常数。

  可选地,所述确定单元303还用于:

  根据所述目标动作概率分布中概率最高的目标动作确定所述模拟系统的第四运行状态;

  确定所述第一运行状态的价值以及所述第四运行状态的价值;

  确定所述第四运行状态的奖励值,所述第四运行状态的奖励值指示所述模拟系统处于所述第四运行状态时是否正常运行;

  通过所述第一运行状态价值、所述第四运行状态的价值以及所述第四运行状态的奖励值更新所述预设动作模型的参数。

  本实施例中的信息处理装置的各单元之间的交互方式如前述图1以及图2所示实施例中的描述,具体此处不再赘述。

  综上所述,可以看出,本发明提供的实施例中,通过对油气集输联合站库中设备当前时刻的状态进行向量后,之后输出油气集输联合站库中的设备的目标动作概率分布,该目标动作概率分布用于对油气集输联合站库中设备进行操作,由于在对预设动作模型的训练过程是基于分布式节点进行训练,也即至少一个第一节点和第二节点,大大加快了运算速度,由此可以真实生产中,通过物理模型仿真系统模拟出更长时间和更多次实验,提高算法最优操作策略的性能,大大提高了联合站库中自动化得到当前状态对应的最优操作的稳定性。

  请参阅图4,图4是本发明实施例提供的一种服务器的结构示意图,该服务器400可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上中央处理器(centralprocessing units,CPU)422(例如,一个或一个以上处理器)和存储器432,一个或一个以上存储应用程序442或数据444的存储介质430(例如一个或一个以上海量存储设备)。其中,存储器432和存储介质430可以是短暂存储或持久存储。存储在存储介质430的程序可以包括一个或一个以上模块(图示没标出),每个模块可以包括对服务器中的一系列指令操作。更进一步地,中央处理器422可以设置为与存储介质430通信,在服务器400上执行存储介质430中的一系列指令操作。

  服务器400还可以包括一个或一个以上电源426,一个或一个以上有线或无线网络接口450,一个或一个以上输入输出接口458,和/或,一个或一个以上操作系统441,例如Windows ServerTM,Mac OS XTM,UnixTM,LinuxTM,FreeBSDTM等等。

  上述实施例中由信息处理装置所执行的步骤可以基于该图4所示的服务器结构。

  所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统,装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。

  本发明实施例还提供了一种存储介质,其上存储有程序,该程序被处理器执行时实现所述信息处理方法。

  本发明实施例还提供了一种处理器,所述处理器用于运行程序,其中,所述程序运行时执行所述信息处理方法。

  本发明实施例还提供了一种设备,设备包括处理器、存储器及存储在存储器上并可在处理器上运行的程序,处理器执行程序时实现以下步骤:

  获取油气集输联合站库中设备的第一运行状态;

  将所述第一运行状态进行向量化处理;

  将向量化处理后的所述第一运行状态输入预设动作模型以确定目标动作概率分布,所述目标动作概率分布中的动作用于对所述油气集输联合站库中的设备进行操作,所述预设动作模型为基于分布式节点对状态空间和动作空间进行训练后得到,所述分布式节点包括至少一个第一节点以及第二节点,所述状态空间包括所述油气集输联合站库中的设备的静态参数,所述动作空间包括所述油气集输联合站库中的设备的操作动作,且所述操作动作与所述静态参数具有关联关系。

  在具体实施过程中,处理器执行程序时可以实现图1以及图2对应的实施例中任一实施方式。

  本文中的设备可以是服务器、PC、PAD、手机等。

  本发明还提供了一种计算机程序产品,当在数据处理设备上执行时,适于执行初始化有如下方法步骤的程序:

  获取油气集输联合站库中设备的第一运行状态;

  将所述第一运行状态进行向量化处理;

  将向量化处理后的所述第一运行状态输入预设动作模型以确定目标动作概率分布,所述目标动作概率分布中的动作用于对所述油气集输联合站库中的设备进行操作,所述预设动作模型为基于分布式节点对状态空间和动作空间进行训练后得到,所述分布式节点包括至少一个第一节点以及第二节点,所述状态空间包括所述油气集输联合站库中的设备的静态参数,所述动作空间包括所述油气集输联合站库中的设备的操作动作,且所述操作动作与所述静态参数具有关联关系。

  在具体实施过程中,执行计算机程序产品时可以实现图1以及图2对应的实施例中任一实施方式。

  本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

  本发明是参照本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

  这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

  这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

  在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。

  存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。存储器是计算机可读介质的示例。

  计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。

  还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括要素的过程、方法、商品或者设备中还存在另外的相同要素。

  本领域技术人员应明白,本发明的实施例可提供为方法、系统或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

  以上仅为本发明的实施例而已,并不用于限制本发明。对于本领域技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本发明的权利要求范围之内。

《一种信息处理方法及相关设备.doc》
将本文的Word文档下载到电脑,方便收藏和打印
推荐度:
点击下载文档

文档为doc格式(或pdf格式)