欢迎光临小豌豆知识网!
当前位置:首页 > 物理技术 > 调节控制> 多移动机器人控制/分派模型获取方法、装置、电子设备独创技术27011字

多移动机器人控制/分派模型获取方法、装置、电子设备

2021-03-16 12:00:50

多移动机器人控制/分派模型获取方法、装置、电子设备

  技术领域

  本发明涉及机器人技术领域,尤其涉及一种多移动机器人控制/分派模型获取方法、装置、电子设备。

  背景技术

  随着科技的发展和机器人技术相关应用的深入,多移动机器人被应用到越来越多的场景中,场景的复杂多样性对多移动机器人的控制提出了更高的要求。其中,对多移动机器人的控制,重点在于对多移动机器人的位置指派和运动规划。

  传统的多移动机器控制方法中,在位置指派时通常是先确定好前后两个编队的状态,然后再采取优化算法分配机器人与终点位置的对应关系,在运动规划时则采取例如顺序指派或者优先指派等方法,让移动机器人达到分配好的目标位置,以达到避免冲突和碰撞的目的。这种方法的效率较低,无法应对复杂场景。

  为此,需要寻求一种多移动机器人控制方法,能够快速地完成位置指派以及实时的运动规划,使多个移动机器人可以同时行动,无碰撞地完成位置指派任务。

  发明内容

  鉴于上述现有技术的不足之处,本申请实施例的目的在于提供一种多移动机器人控制/分派模型获取方法、装置、电子设备,能够快速地完成位置指派以及实时的运动规划,使多个移动机器人可以同时行动,无碰撞地完成位置指派任务。

  第一方面,本申请实施例提供一种多移动机器人分派模型获取方法,包括步骤:

  A1.根据多个移动机器人的初始位置信息、碰撞半径和优先等级信息、应用场景的障碍物中心位置信息和碰撞半径信息、以及目标位置信息,建立多智能体强化学习算法模拟场景;在所述模拟场景中以每一个移动机器人作为一个智能体,并设定了每个智能体的可移动方向;

  A2.基于多智能体深度确定性策略梯度算法对每个智能体设置一个Actor网络和Critic网络;

  A3.根据预设的奖惩机制对所述Actor网络和Critic网络进行重复训练,以所有智能体的总奖励最大作为目标 ,直至各个智能体都已到达目标位置,且所有智能体获得的平均奖励不再提升;

  所述预设的奖惩机制为:以智能体与最接近的目标位置之间的距离为基础奖励,所述智能体发生碰撞时增加一个第一负值,在到达目标位置之前每多执行一次探索则增加一个第二负值。

  所述的多移动机器人分派模型获取方法中,步骤A3中,以移动机器人的优先等级信息作为对应智能体的权重值;以所有智能体获取的奖励值的加权重和作为所述总奖励;且所述平均奖励用以下公式计算:

  

  其中,为平均奖励,为第i个智能体的奖励值,为第i个智能体的权重值。

  第二方面,本申请实施例提供一种多移动机器人控制方法,包括步骤:

  S1.获取各移动机器人的初始位置信息和身份识别信息;

  S2.获取目标位置信息;

  S3.获取多移动机器人分派模型;所述多移动机器人分派模型通过所述的多移动机器人分派模型获取方法得到;

  S4.把所述初始位置信息、身份识别信息和目标位置信息输入所述多移动机器人分派模型中,以获取指派给各移动机器人的目的地信息和运动路径信息;

  S5.把所述目的地信息和运动路径信息发送至对应的移动机器人。

  所述的多移动机器人控制方法中,步骤S5中,把运动路径信息分步发送至对应的移动机器人,每一步的运动路径信息包括运动方向信息和推动力信息。

  所述的多移动机器人控制方法中,在步骤S1之前,还包括:

  S0.向各移动机器人发送引导指令,以把各移动机器人引导至预设的初始位置。

  第三方面,本申请实施例提供一种多移动机器人分派模型获取装置,包括:

  第一执行模块,用于根据多个移动机器人的初始位置信息、碰撞半径和优先等级信息、应用场景的障碍物中心位置信息和碰撞半径信息、以及目标位置信息,建立多智能体强化学习算法模拟场景;在所述模拟场景中以每一个移动机器人作为一个智能体,并设定了每个智能体的可移动方向;

  第二执行模块,用于基于多智能体深度确定性策略梯度算法对每个智能体设置一个Actor网络和Critic网络;

  第三执行模块,用于根据预设的奖惩机制对所述Actor网络和Critic网络进行重复训练,以所有智能体的总奖励最大作为目标 ,直至各个智能体都已到达目标位置,且所有智能体获得的平均奖励不再提升;

  所述预设的奖惩机制为:以智能体与最接近的目标位置之间的距离为基础奖励,所述智能体发生碰撞时增加一个第一负值,在到达目标位置之前每多执行一次探索则增加一个第二负值。

  所述的多移动机器人分派模型获取装置中,所述第三执行模块以移动机器人的优先等级信息作为对应智能体的权重值;以所有智能体获取的奖励值的加权重和作为所述总奖励;且所述平均奖励用以下公式计算:

  

  其中,为平均奖励,为第i个智能体的奖励值,为第i个智能体的权重值。

  第四方面,本申请实施例提供一种多移动机器人控制装置,包括:

  第一获取模块,用于获取各移动机器人的初始位置信息和身份识别信息;

  第二获取模块,用于获取目标位置信息;

  第三获取模块,用于获取多移动机器人分派模型;所述多移动机器人分派模型通过所述的多移动机器人分派模型获取方法得到;

  第四获取模块,用于把所述初始位置信息、身份识别信息和目标位置信息输入所述多移动机器人分派模型中,以获取指派给各移动机器人的目的地信息和运动路径信息;

  第一发送模块,用于把所述目的地信息和运动路径信息发送至对应的移动机器人。

  所述的多移动机器人控制装置中,所述第一发送模块把运动路径信息分步发送至对应的移动机器人,每一步的运动路径信息包括运动方向信息和推动力信息。

  第五方面,本申请实施例提供一种电子设备包括处理器和存储器,所述存储器中存储有计算机程序,所述处理器通过调用所述存储器中存储的所述计算机程序,用于执行所述的多移动机器人控制方法。

  有益效果:

  本申请实施例提供的一种多移动机器人控制/分派模型获取方法、装置、电子设备,通过获取各移动机器人的初始位置信息和身份识别信息;获取目标位置信息;获取多移动机器人分派模型;把所述初始位置信息、身份识别信息和目标位置信息输入所述多移动机器人分派模型中,以获取指派给各移动机器人的目的地信息和运动路径信息;把所述目的地信息和运动路径信息发送至对应的移动机器人;其中多移动机器人分派模型是基于多智能体强化学习算法的用于为多移动机器人指派目的地和规划运动路径的模型;从而能够快速地完成位置指派以及实时的运动规划,使多个移动机器人可以同时行动,无碰撞地完成位置指派任务。

  附图说明

  图1为本申请实施例提供的多移动机器人控制方法的流程图。

  图2为本申请实施例提供的多移动机器人控制装置的模块图。

  图3为本申请实施例提供的电子设备的结构示意图。

  图4为本申请实施例提供的多移动机器人分派模型获取方法的流程图。

  图5为本申请实施例提供的多移动机器人分派模型获取装置的模块图。

  具体实施方式

  下面将结合本申请实施例中附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围,而是仅仅表示本申请的选定实施例。基于本申请的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本申请保护的范围。

  应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。同时,在本申请的描述中,术语“第一”、“第二”等仅用于区分描述,而不能理解为指示或暗示相对重要性。

  请参阅图4,本申请实施例提供的一种多移动机器人分派模型获取方法,包括步骤:

  A1.根据多个移动机器人的初始位置信息、碰撞半径和优先等级信息、应用场景的障碍物中心位置信息和碰撞半径信息、以及目标位置信息,建立多智能体强化学习算法模拟场景;在模拟场景中以每一个移动机器人作为一个智能体,并设定了每个智能体的可移动方向;

  A2.基于多智能体深度确定性策略梯度算法对每个智能体设置一个Actor网络和Critic网络;

  A3.根据预设的奖惩机制对Actor网络和Critic网络进行重复训练,以所有智能体的总奖励最大作为目标 ,直至各个智能体都已到达目标位置,且所有智能体获得的平均奖励不再提升;

  预设的奖惩机制为:以智能体与最接近的目标位置之间的距离为基础奖励R,该智能体发生碰撞时增加一个第一负值R1,在到达目标位置之前每多执行一次探索则增加一个第二负值R2。

  由于上述奖惩机制和训练目标的设定,使用该方法得到的多移动机器人分派模型,是用于为各移动机器人指派目的地位置并规划运动路径的,且可保证多个移动机器人能够同时行动,且无碰撞地抵达目的地。其中,在多智能体深度确定性策略梯度算法中,由于Critic网络在迭代回合中是不断加强期望回报大的动作,在多移动机器人位置指派场景(即上述的模拟场景)中,此动作会使得状态位置不断朝着场景内最优状态位置改进,利用训练好的收敛的参数和稳定的模型,最终得到最优状态序列,也就是对于场景的最优路径。

  在一些实施方式中,步骤A3中,以移动机器人的优先等级信息作为对应智能体的权重值;以所有智能体获取的奖励值的加权重和()作为总奖励;且平均奖励用以下公式计算:

  

  其中,为平均奖励,为第i个智能体的奖励值,为第i个智能体的权重值。

  通过引入权重,在进行任务指派时会优先指派优先等级高的移动机器人,用户可根据实际需要预先设定好每个移动机器人的优先等级(例如可用数字1-10来表示优先等级,数值越高优先等级越高)从而使指派结果更符合用户的期望。

  其中,步骤A1中,设定的每个智能体的可移动方向包括保持不动、上移、下移、左移和右移 。在一些实施方式中,在步骤A3中对Actor网络和Critic网络进行重复训练时,通过在指定方向上对智能体施加一个力f来实现智能体运动状态的改变;从而在得到的运动路径包括多步运动(运动状态改变一次即为一步),并可获取每一步运动的运动方向和驱动力,当移动机器人需要按照规划的路径运动时,只需按照每一步的运动方向和驱动力逐步执行即可。

  其中,在步骤A3的训练过程中,通过计算智能体与其他智能体之间的距离,若该距离小于两者的碰撞距离之和,则认为该智能体与其他智能体发生碰撞,则该智能体的奖励值增加一个第一负值R1;同时还计算智能体与障碍物之间的距离,若该距离小于两者的碰撞距离之和,则认为该智能体与障碍物发生碰撞,则该智能体的奖励值增加一个第一负值R1。

  由上可知,通过该多移动机器人分派模型获取方法获取的多移动机器人分派模型具有以下优点:

  1. 将多智能体强化学习算法应用在移动机器人的位置指派和运动规划中,在实现位置指派的同时还完成运动规划,与传统方法中位置指派和运动规划分开设计的方式相比,效率更高;

  2.在奖励累积计算时引入权重,使得算法能与实际中移动机器人的优先级对应起来,更具备实际意义;

  3.对于复杂的环境,只需在模拟场景中根据障碍物的中心位置和碰撞半径建立对应的障碍物模型即可,适用于复杂场景,适用空间更大,可扩展性更强。

  请参阅图5,本申请实施例还提供一种移动机器人分派模型获取装置,包括第一执行模块1、第二执行模块2、第三执行模块3;

  其中,第一执行模块1,用于根据多个移动机器人的初始位置信息、碰撞半径和优先等级信息、应用场景的障碍物中心位置信息和碰撞半径信息、以及目标位置信息,建立多智能体强化学习算法模拟场景;在模拟场景中以每一个移动机器人作为一个智能体,并设定了每个智能体的可移动方向;

  其中,第二执行模块2,用于基于多智能体深度确定性策略梯度算法对每个智能体设置一个Actor网络和Critic网络;

  其中,第三执行模块3,用于根据预设的奖惩机制对Actor网络和Critic网络进行重复训练,以所有智能体的总奖励最大作为目标 ,直至各个智能体都已到达目标位置,且所有智能体获得的平均奖励不再提升;

  预设的奖惩机制为:以智能体与最接近的目标位置之间的距离为基础奖励R,智能体发生碰撞时增加一个第一负值R1,在到达目标位置之前每多执行一次探索则增加一个第二负值R2。

  一些实施方式中,第三执行模块3以移动机器人的优先等级信息作为对应智能体的权重值;以所有智能体获取的奖励值的加权重和()作为总奖励;且平均奖励用以下公式计算:

  

  其中,为平均奖励,为第i个智能体的奖励值,为第i个智能体的权重值。

  由上可知,通过该移动机器人分派模型获取装置具有以下优点:

  1. 将多智能体强化学习算法应用在移动机器人的位置指派和运动规划中,在实现位置指派的同时还完成运动规划,与传统方法中位置指派和运动规划分开设计的方式相比,效率更高;

  2.在奖励累积计算时引入权重,使得算法能与实际中移动机器人的优先级对应起来,更具备实际意义;

  3.对于复杂的环境,只需在模拟场景中根据障碍物的中心位置和碰撞半径建立对应的障碍物模型即可,适用于复杂场景,适用空间更大,可扩展性更强。

  另外,本申请实施例还提供一种电子设备,包括处理器和存储器,存储器中存储有计算机程序,处理器通过调用存储器中存储的计算机程序,用于执行上述的多移动机器人分派模型获取方法。

  其中,处理器与存储器电性连接。处理器是电子设备的控制中心,利用各种接口和线路连接整个电子设备的各个部分,通过运行或调用存储在存储器内的计算机程序,以及调用存储在存储器内的数据,执行电子设备的各种功能和处理数据,从而对电子设备进行整体监控。

  存储器可用于存储计算机程序和数据。存储器存储的计算机程序中包含有可在处理器中执行的指令。计算机程序可以组成各种功能模块。处理器通过调用存储在存储器1的计算机程序,从而执行各种功能应用以及数据处理。

  在本实施例中,电子设备中的处理器会按照如下的步骤,将一个或一个以上的计算机程序的进程对应的指令加载到存储器中,并由处理器来运行存储在存储器中的计算机程序,从而实现各种功能:根据多个移动机器人的初始位置信息、碰撞半径和优先等级信息、应用场景的障碍物中心位置信息和碰撞半径信息、以及目标位置信息,建立多智能体强化学习算法模拟场景;在模拟场景中以每一个移动机器人作为一个智能体,并设定了每个智能体的可移动方向;基于多智能体深度确定性策略梯度算法对每个智能体设置一个Actor网络和Critic网络;根据预设的奖惩机制对Actor网络和Critic网络进行重复训练,以所有智能体的总奖励最大作为目标 ,直至各个智能体都已到达目标位置,且所有智能体获得的平均奖励不再提升;预设的奖惩机制为:以智能体与最接近的目标位置之间的距离为基础奖励R,该智能体发生碰撞时增加一个第一负值R1,在到达目标位置之前每多执行一次探索则增加一个第二负值R2。

  由上可知,通过该电子设备具有以下优点:

  1. 将多智能体强化学习算法应用在移动机器人的位置指派和运动规划中,在实现位置指派的同时还完成运动规划,与传统方法中位置指派和运动规划分开设计的方式相比,效率更高;

  2.在奖励累积计算时引入权重,使得算法能与实际中移动机器人的优先级对应起来,更具备实际意义;

  3.对于复杂的环境,只需在模拟场景中根据障碍物的中心位置和碰撞半径建立对应的障碍物模型即可,适用于复杂场景,适用空间更大,可扩展性更强。

  请参阅图1,本申请实施例还提供一种多移动机器人控制方法,包括步骤:

  S1.获取各移动机器人的初始位置信息和身份识别信息;

  S2.获取目标位置信息;

  S3.获取多移动机器人分派模型;该多移动机器人分派模型通过上述的多移动机器人分派模型获取方法得到;

  S4.把初始位置信息、身份识别信息和目标位置信息输入该多移动机器人分派模型中,以获取指派给各移动机器人的目的地信息和运动路径信息;

  S5.把目的地信息和运动路径信息发送至对应的移动机器人。

  该多移动机器人控制方法应用于多移动机器人的控制服务器。

  由于使用该多移动机器人分派模型来实现对多个移动机器人的位置指派和运动路径规划,能够快速地完成位置指派以及实时的运动规划,使多个移动机器人可以同时行动,无碰撞地完成位置指派任务;当多移动机器人分派模型中的奖励累积计算引入了权重时,使得算法能与实际中移动机器人的优先级对应起来,更具备实际意义;且适用于复杂场景,适用空间更大,可扩展性更强。

  其中,身份识别信息可以是用户自定义的移动机器人的编号信息,也可以是移动机器人的通信模块的MAC地址。多移动机器人分派模型中,通过身份识别信息把各移动机器人与各智能体对应起来。

  在一些实施方式中,多移动机器人分派模型在训练时,通过在指定方向上对智能体施加一个力f来实现智能体运动状态的改变;从而在得到的运动路径包括多步运动(运动状态改变一次即为一步),并可获取每一步运动的运动方向和驱动力。于此对应地,在步骤S5中,可把运动路径信息分步发送至对应的移动机器人,每一步的运动路径信息包括运动方向信息和推动力信息。机器人只需按照每一步的运动方向和驱动力逐步执行,即可实现按照相应的路径到达指派的目的地,逻辑简单,实现方便。

  对于预先训练好的多移动机器人分派模型,其要求各多移动机器人的初始位置与训练时使用的初始位置不能相差过大,否则需要重新训练;因此,在一些优选的实施方式中,在步骤S1之前,还包括:

  S0.向各移动机器人发送引导指令,以把各移动机器人引导至预设的初始位置。

  其中,导引指令包括移动机器人身份识别信息与预设的初始位置坐标之间的查询表,以及引导触发信号;移动机器人识别到引导触发信号后,根据自身的身份识别信息在查询表中查询得到对应的初始位置坐标,然后根据该初始位置坐标移动至该初始位置,到达该初始位置后向服务器发送初始位置信息和身份识别信息。

  由上可知,该多移动机器人控制方法,通过获取各移动机器人的初始位置信息和身份识别信息;获取目标位置信息;获取多移动机器人分派模型;把所述初始位置信息、身份识别信息和目标位置信息输入所述多移动机器人分派模型中,以获取指派给各移动机器人的目的地信息和运动路径信息;把所述目的地信息和运动路径信息发送至对应的移动机器人;其中多移动机器人分派模型是基于多智能体强化学习算法的用于为多移动机器人指派目的地和规划运动路径的模型;从而能够快速地完成位置指派以及实时的运动规划,使多个移动机器人可以同时行动,无碰撞地完成位置指派任务。

  请参阅图2,本申请实施例还提供一种多移动机器人控制装置,包括第一获取模块91、第二获取模块92、第三获取模块93、第四获取模块94、第一发送模块95;

  其中,第一获取模块91,用于获取各移动机器人的初始位置信息和身份识别信息;

  其中,第二获取模块92,用于获取目标位置信息;

  其中,第三获取模块93,用于获取多移动机器人分派模型;多移动机器人分派模型通过上述的多移动机器人分派模型获取方法得到;

  其中,第四获取模块94,用于把初始位置信息、身份识别信息和目标位置信息输入多移动机器人分派模型中,以获取指派给各移动机器人的目的地信息和运动路径信息;

  其中,第一发送模块95,用于把目的地信息和运动路径信息发送至对应的移动机器人。

  在一些实施方式中,第一发送模块95把运动路径信息分步发送至对应的移动机器人,每一步的运动路径信息包括运动方向信息和推动力信息。

  由上可知,该多移动机器人控制装置,通过获取各移动机器人的初始位置信息和身份识别信息;获取目标位置信息;获取多移动机器人分派模型;把所述初始位置信息、身份识别信息和目标位置信息输入所述多移动机器人分派模型中,以获取指派给各移动机器人的目的地信息和运动路径信息;把所述目的地信息和运动路径信息发送至对应的移动机器人;其中多移动机器人分派模型是基于多智能体强化学习算法的用于为多移动机器人指派目的地和规划运动路径的模型;从而能够快速地完成位置指派以及实时的运动规划,使多个移动机器人可以同时行动,无碰撞地完成位置指派任务。

  请参阅图3,本申请实施例还提供一种电子设备100,包括处理器101和存储器102,存储器102中存储有计算机程序,处理器101通过调用存储器102中存储的计算机程序,用于执行上述的多移动机器人控制方法。

  其中,处理器101与存储器102电性连接。处理器101是电子设备100的控制中心,利用各种接口和线路连接整个电子设备的各个部分,通过运行或调用存储在存储器102内的计算机程序,以及调用存储在存储器102内的数据,执行电子设备的各种功能和处理数据,从而对电子设备进行整体监控。

  存储器102可用于存储计算机程序和数据。存储器102存储的计算机程序中包含有可在处理器中执行的指令。计算机程序可以组成各种功能模块。处理器101通过调用存储在存储器102的计算机程序,从而执行各种功能应用以及数据处理。

  在本实施例中,电子设备100中的处理器101会按照如下的步骤,将一个或一个以上的计算机程序的进程对应的指令加载到存储器102中,并由处理器101来运行存储在存储器102中的计算机程序,从而实现各种功能:获取各移动机器人的初始位置信息和身份识别信息;获取目标位置信息;获取多移动机器人分派模型;把所述初始位置信息、身份识别信息和目标位置信息输入所述多移动机器人分派模型中,以获取指派给各移动机器人的目的地信息和运动路径信息;把所述目的地信息和运动路径信息发送至对应的移动机器人。

  由上可知,该电子设备,通过获取各移动机器人的初始位置信息和身份识别信息;获取目标位置信息;获取多移动机器人分派模型;把所述初始位置信息、身份识别信息和目标位置信息输入所述多移动机器人分派模型中,以获取指派给各移动机器人的目的地信息和运动路径信息;把所述目的地信息和运动路径信息发送至对应的移动机器人;其中多移动机器人分派模型是基于多智能体强化学习算法的用于为多移动机器人指派目的地和规划运动路径的模型;从而能够快速地完成位置指派以及实时的运动规划,使多个移动机器人可以同时行动,无碰撞地完成位置指派任务。

  综上所述,虽然本发明已以优选实施例揭露如上,但上述优选实施例并非用以限制本发明,本领域的普通技术人员,在不脱离本发明的精神和范围内,均可作各种更动与润饰,其方案与本发明实质上相同。

《多移动机器人控制/分派模型获取方法、装置、电子设备.doc》
将本文的Word文档下载到电脑,方便收藏和打印
推荐度:
点击下载文档

文档为doc格式(或pdf格式)