当前位置：首页 > 物理技术 > 调节控制> 基于学习组件库的辅助型移动机器人导航控制系统和方法独创技术38088字

基于学习组件库的辅助型移动机器人导航控制系统和方法

2020-12-24 09:24:09

基于学习组件库的辅助型移动机器人导航控制系统和方法

　　技术领域

　　本发明涉及一种基于学习组件库的辅助型移动机器人导航控制系统和方法，属于机器人控制技术领域。

　　背景技术

　　近几年来，随着机器人技术的发展，功能辅助型移动机器人在农业、商业、物流、医疗辅助、军工等各个领域有着广泛的应用。比如，在国内新冠病毒疫情期间，辅助型移动机器人凭借其自主性，在医院、小区消毒、快递物流配送、体温检测、隔离区智能问诊等方面起到重要的作用，推动了我国的防疫抗议的进程。

　　辅助型移动机器人是一个综合系统，其集成了环境感知、自主定位、路径规划、底层导航控制与执行特定辅助功能等于一体。以疫情期间执行公共场合消毒任务的移动机器人为例，其在执行消毒工作的过程中，通过自身搭载的多种外部传感器，比如单目视觉摄像头、双目视觉摄像头、激光雷达、毫米波雷达，超声波传感器等获取需要消毒的区域环境信息；接着结合自身内部传感器，如惯性传感器、GPS等估计自身在当前所处区域的全局位置与姿态信息；在上述两步的基础上，结合具体任务需求，使用路径规划算法，如人工势场法、启发式快速扩展随机树等，规划出一条从初始位置到目标位置的最优路径；最后，结合自身动力学与运动学特性、执行器特点与底盘驱动构型，通过底层导航控制器对规划轨迹进行精确的导航跟踪控制，使移动机器人按照预先规划的路径行驶。

　　但是目前传统的导航控制方法缺少特定的辅助型移动机器人的仿真平台，配置训练过程复杂繁琐，缺乏系统性；并且现阶段每一种强化学习导航控制算法都是建立在特定的机器人以及特定的场景之上，模拟场景与实际场景的强化学习环境搭建方法不同，缺乏灵活性。

　　发明内容

　　本发明针对上述传统统辅助型移动机器人导航控制方法中存在的以上技术问题，提供一种基于学习组件库的辅助型移动机器人导航控制方法，方便使用者根据自身需求进行快速的强化学习闭环控制系统搭建，且方便进行参数调试与性能优化的移动机器人导航控制方法。

　　本发明采用以下技术方案。

　　一方面，本发明提供一种基于学习组件库的辅助型移动机器人导航控制系统，包括学习组件库，所述学习组件库包括：初始化组件、环境建模组件、路径规划组件、核心算法组件、测试组件、优化组件和可视化组件；所述初始化组件，用于完成特定移动机器人类型对应的状态空间、动作空间的初始化，以及用于设立奖励函数；所述环境建模组件，用于读取并处理移动机器人搭载的传感器数据，以及用于确定定位机器人所处的全局位置数据以及在进行仿真任务时，建立虚拟的与移动机器人交互的环境；所述路径规划组件，用于提供能够选择的路径规划算法以实现最优导航路径规划；所述核心算法组件，用于提供多种强化学习算法供选择，配合底层控制算法组件或者直接使得输出控制器指令，动作后再次通过环境建模组件获得当前信息，以完成强化学习闭环控制；所述测试组件，用于提供供选择的扰动方法，以测试利用核心算法组件确定的强化学习算法的性能；所述优化组件，用于提供供选择的优化算法对利用核心算法组件确定的强化学习算法的选定参数进行调节，以提升导航控制算法的性能；所述可视化组件，用于将核心算法组件以及测试组件的输出数值实现可视化。

　　进一步地，所述核心组件库包括同策略模块、异策略模块以及综合策略模块，所述同策略模块用于封装同策略的强化学习算法，所述异策略用于封装异策略的强化学习算法；所述综合策略模块，用于封装综合策略算法，所述综合策略算法为综合同策略与异策略的数据驱动强化算法。所述综合策略算法包括：通过及时将学习的新策略反馈给移动机器人系统，收集特定系统数据来优化强化学习算法的适应能力；同时考虑系统的原始特性，将重新收集的数据与以往回放的经验数据结合，再次学习最终确定强化学习算法。

　　进一步地，所述系统还包括：底层控制算法组件，所述底层控制算法组件能够直接用于提供作为与强化学习算法对比的基准组件，也能够与上层强化学习算法结合，搭建从状态直接到执行器指令的闭环控制强化学习系统。进一步地，所述环境建模组件包括：传感器数据处理模块、移动机器人定位模块和强化学习环境建模模块，所述传感器数据处理模块用于读取并处理移动机器人搭载的传感器数据，所述移动机器人定位模块用于实时定位机器人所处的全局位置数据；所述强化学习环境建模模块用于在进行仿真任务时，建立虚拟的与移动机器人交互的环境。

　　进一步地，所述优化组件提供的供选择的优化算法包括正则化算法，所述正则化算法包括L1和L2正则化算法、熵正则化算法和/或早停算法。

　　进一步地，所述路径规划组件和核心算法组建中分别设置评价函数模块，用于提供性能评价函数实现对所述路径规划组件和核心算法组件的参数调节和算法选择的性能评价。

　　第二方面，本发明提供一种基于学习组件库的辅助型移动机器人导航控制方法，所述方法基于以上技术方案所述的基于学习组件库的辅助型移动机器人导航控制系统，所述方法包括以下步骤：从预先构建的初始化组件选择与特定移动机器人类型对应的状态空间和动作空间，并设立强化学习的奖励函数完成初始化；

　　利用预先构建的环境建模组件构建强化学习仿真环境；通过环境建模组件获取障碍物相对位置与移动机器人自身位置，利用预先构建的路径规划组件选择所需的路径规划算法，规划最优导航路径；根据路径规划结果，调节导航控制算法的奖励函数；

　　从预先构建的核心算法组件选择确定强化学习算法，联合定义的动作空间、状态空间、奖励函数与强化学习环境，选择核心算法模块，进行训练；通过底层控制模块或者直接输出控制器指令进行动作，接着再次通过环境建模组件获取障碍物相对位置与移动机器人自身位置，重复步骤完成输出控制器指令完成强化学习闭环控制；

　　从测试组件选择扰动方法，测试从核心算法组件选择确定的强化学习算法的性能；

　　从优化组件中选择确定优化算法对利用核心算法组件确定的强化学习算法的选定参数进行调节，以提升导航控制算法的性能；

　　利用可视化组件将核心算法组件以及测试组件的输出数值实现可视化。

　　第三方面，本发明提供一种基于学习组件库的辅助型移动机器人导航控制方法，所述方法基于学习组件库的辅助型移动机器人导航控制系统，所述系统包括学习组件库，所述学习组件库包括：初始化组件、环境建模组件、路径规划组件、核心算法组件、测试组件、优化组件、可视化组件和底层控制算法组件；所述初始化组件，用于完成特定移动机器人类型对应的状态空间、动作空间的初始化，以及用于设立奖励函数；所述路径规划组件，用于提供能够选择的路径规划算法以实现最优导航路径规划；所述核心算法组件，用于提供多种强化学习算法供选择，使得输出控制器指令完成强化学习闭环控制；所述测试组件，用于提供供选择的扰动方法，以测试利用核心算法组件确定的强化学习算法的性能；所述优化组件，用于提供供选择的优化算法对利用核心算法组件确定的强化学习算法的选定参数进行调节，以提升导航控制算法的性能；所述可视化组件，用于将核心算法组件以及测试组件的输出数值实现可视化；所述底层控制算法组件用于提供作为与强化学习算法对比的基准组件；

　　所述方法包括以下步骤：

　　从预先构建的初始化组件选择与特定移动机器人类型对应的状态空间和动作空间，并设立强化学习的奖励函数完成初始化；

　　调用环境建模组件获得移动机器人搭载的传感器数据和移动机器人所处的全局位置数据；

　　结合定义的动作空间、状态空间、奖励函数与移动机器人搭载的传感器数据和移动机器人所处的全局位置数据，从预先构建的核心算法组件选择确定强化学习算法，配合底层控制组件或者直接使得输出控制器指令，动作后再次通过环境建模组件各个传感器数值，重复上述过程完成强化学习闭环控制；

　　从测试组件选择扰动方法，利用测试组件进行算法评估与测试，并实时反馈传感器处理模块输出状态观测值，判断是否达到控制要求；

　　从优化组件中选择确定优化算法对利用核心算法组件确定的强化学习算法的选定参数进行调节，直到移动机器人在导航控制任务中获得预定的执行效果；利用可视化组件将核心算法组件以及测试组件的输出数值实现可视化。

　　进一步的，所述路径规划组件和核心算法组建中分别设置性能评价函数模块，所述方法还包括，利用评价函数模块确定性能评价函数，对所述路径规划组件和核心算法组件的参数调节和算法选择的性能评价，利用可视化组件对性能评价函数的评价结果进行可视化。

　　本发明所取得的有益技术效果：本发明中各个组件之间相互交互，灵活调用，使用过程中可以根据移动机器人类型，快速构建多种适应其导航任务场景的仿真或者实际应用的强化学习训练与可视化闭环学习系统；通过测试组件，可以对配置算法的稳定性、鲁棒性、泛化能力进行测试，若需优化算法，学习组件库中的优化组件，可以方便快捷得进行参数优化与正则化操作，避免算法过拟合，提高算法性能；同时，若要更改移动机器人传感器配置、或者驱动构型，无需重新搭建整个导航控制算法工作流，直接替换相应组件模块即可，具有良好的灵活性与通用性。

　　本发明所述基于学习组件的辅助型移动过机器人导航与控制方法，既可以通过组件之间完整的工作流应用于实际的移动机器人控制，也可以使用仿真环境对移动机器人的导航控制算法效果进行仿真测试；具有良好的灵活性和通用性，可以方便地应用于搭载多种传感器方案与驱动构型的辅助型移动机器人的导航控制任务之中。在实际应用过程中，即可以通过传统控制算法控制移动机器人进行导航任务，也可以通过快速搭建强化学习环境进行基于强化学习的导航控制，同时，该方法不仅可以利用于实际工作的机器人导航控制之中，也可以构建仿真环境进行算法性能研究。使用时可以模块化更改路径规划算法、奖励函数构建方法、核心学习算法模块等，并且可以方便监测各个算法的各种评价指标，设立作为对比的基准算法。

　　另一方面，该导航控制学习组件库中提供了包含主流控制算法的底层控制算法组件，方便对学习算法进行性能对比验证。

　　附图说明

　　图1是本发明实施例给出的一种基于学习组件的辅助型移动机器人导航控制系统的总体架构；

　　图2是本发明实施例给出的一种基于学习组件的辅助型移动机器人导航控制方法的第一种构建方法；

　　图 3 是本发明实施例给出的一种基于学习组件的辅助型移动机器人导航控制方法的第二种构建方法；

　　图4是本发明实施例中综合策略算法架构图。

　　具体实施方式

　　以下结合附图和具体实施例对本发明做进一步说明。

　　实施例一、一种基于学习组件库的辅助型移动机器人导航控制系统，包括预先建立的用于辅助型移动机器人的导航控制的学习组件库，所述学习组件库包括：初始化组件、环境建模组件、路径规划组件、核心算法组件、测试组件、优化组件和可视化组件；

　　所述初始化组件，用于完成特定移动机器人类型对应的状态空间、动作空间的初始化，以及用于设立奖励函数；

　　所述环境建模组件，用于读取并处理移动机器人搭载的传感器数据，以及用于确定定位机器人所处的全局位置数据以及在进行仿真任务时，建立虚拟的与移动机器人交互的环境；

　　所述路径规划组件，用于提供能够选择的路径规划算法以实现最优导航路径规划；所述核心算法组件，用于提供多种强化学习算法供选择，使得输出控制器指令完成强化学习闭环控制；所述优化组件用于提供正则化方法以使得实现强化学习算法的优化；所述测试组件，用于提供供选择的扰动方法，以测试利用核心算法组件确定的强化学习算法的性能；所述优化组件，用于提供供选择的正则化算法对利用核心算法组件确定的强化学习算法的选定参数进行调节，以提升导航控制算法的性能；所述可视化组件，用于将核心算法组件以及测试组件的输出数值实现可视化。

　　用于导航控制的学习组件库，是一种计算机数据库，是用于移动机器人导航控制的标准化计算机软件模块。导航控制学习组件库，根据输入信息，调用预先封装好的算法与模块，最后得到各个组件所返回结果。本发明提供的学习组件库可以直接应用于实际的移动机器人的导航控制，也可以将核心强化学习算法作为控制闭环中的一个上层控制环节，用于学习复杂的移动机器人行为，输出底层控制器的参考量。

　　在移动机器人跟踪规划路径的导航控制问题中，本实施例组件主要有以下几类：

　　包含不同驱动构型的移动机器人的动作空间、状态空间、奖励函数设计的初始化组件；包含搭建环境模型所需各个模块的环境建模组件；包含不同路径规划算法的路径规划组件；包含不同的同策略、异策略、综合策略算法的核心算法组件；包含提高控制算法鲁棒性、泛化性，避免过拟合的正则化模块的优化组件；包含用于测试算法性能的测试组件。包含实现各种性能参数可视化的可视化组件。

　　例如，路径规划组件中，输入上一环境建模组件输出的环境信息，机器人自身位置与目标点位置，选择需要的路径规划算法后，可以得到规划的路径。

　　又例如，在核心算法组件中，通过输入所选算法类型，调用该算法模块进行训练，实时返回训练过程中的性能评价参数，用于监测训练过程中的算法表现。

　　在具体实施例中，可选地，所述初始化组件，主要包括状态空间设计模块、动作空间设计模块、奖励函数设计模块。所述环境建模组件，主要包括视觉传感器处理模块、激光雷达传感器处理模块、机器人定位传感器处理模块、强化学习环境建模模块。所述路径规划组件，包括启发式路径规划模块、人工势场路径规划模块、机器学习路径规划模块等。所述核心算法组件，包括同策略算法模块、异策略算法模块、综合策略算法模块。所述优化组件，包括超参数优化模块、正则化模块等，其中正则化模块中封装来常用的正则化算法，如L1/L2正则化算法、熵正则化算法、早停算法等，可根据需要进行添加，用于提高强化学习算法的泛化性能。所述扰动组件，包括动态障碍物扰动模块、风力扰动模块、水流扰动模块等。所述可视化组件，包括学习曲线可视化模块、导航控制误差可视化模块、执行器数值可视化模块等。

　　本发明所提出的学习组件库中的各类组件，是用于辅助型移动机器人导航控制的学习算法的标准化计算机软件模块。各个组件根据输入信息，调用预先封装好的算法与模块，最后得到各个组件所返回结果。本领域的技术人员可以基于本发明所提供的系统架构，根据实际应用的需求，利用现有技术实现各组件的构建和组件之间的调用，即自行封装智能算法并转换成标准模块，加入到包含对应功能的组件中。本发明中学习组件库中的各个组件可以相互交互，相互调用。

　　本实施例中所述导航控制学习组件库，既可以通过组件之间完整的工作流应用于实际的移动机器人控制，也可以使用仿真环境对移动机器人的导航控制算法效果进行仿真测试。在对移动机器人进行仿真控制时，可以通过环境建模组件中的强化学习环境建模模块来进行虚拟环境的搭建，使用者可以直接测试核心算法库总的算法性能，也可以将自己设计的强化学习算法进行对接，进而快速完成算法训练环境的搭建。同时，避免来直接在实际机器人上训练带来的一些时间、硬件成本损耗。

　　若使用场景相对单纯，可以直接应用于实际的移动机器人控制，一方面，通过各传感器的观测值，策略网络输出执行器指令，同时为了防止执行器损坏，对各个执行器指令的阈值进行来限定，保证实际运行时的安全性。另一方面，也可以基于该导航控制学习组件库，将核心强化学习算法作为控制闭环中的一个上层控制环节，用于学习复杂的移动机器人行为，输出底层控制器的参考量，这样通过结合强化学习于传统闭环控制器的优势，更加确保来最终算法性能。

　　优选地，所述导航控制学习组件库，各个组件参数调节与算法选择可由各个组件的性能评价函数来决定，各个性能评价函数均可以通过可视化模块进行可视化，方便监测与评估算法表现。

　　在路径规划组件中，依据时间指标、能量消耗指标来评价最终规划路径结果。

　　可选地，在核心算法组件中，由最终学习曲线、跟踪精度、执行器数值变化曲线来评价最终导航控制效果。

　　优选地，组件中，各个模块的使用与否，由任务需求决定；可以根据不同的任务情况，灵活地增加、删除、替换各个模块。比如，希望比较深度确定性策略梯度算法与综合策略算法的导航控制效果，只需在核心算法组件中，进行替换，根据最终的评价指标进行比较即可。

　　实施例二、在实施例一的基础上，本实施例提供了一种基于学习组件库的辅助型移动机器人导航控制系统，所述系统还包括：底层控制算法组件，所述底层控制算法组件用于提供作为与强化学习算法对比的基准组件。所述底层控制算法组件，是一个可选组件，包括一些常用的控制算法模块，该组件主要是作为对比基准或者配合和核心算法组件构建导航控制闭环系统。所述底层控制算法组件一方面可直接用于提供作为与强化学习算法对比的基准组件，另一方面可与上层强化学习算法结合，搭建从状态直接到执行器指令的闭环控制强化学习系统。将强化学习输出（x,y,psi..)上层指令作为控制器的输入，控制器通过调用底层控制算法组件输出执行器指令进行跟踪。这样的分层架构，可以有效减小强化学习的数据纬度，提高效率。

　　实施例三、在实施例二的基础上，本实施例提供了一种基于学习组件库的辅助型移动机器人导航控制系统（如图3所示），所述核心组件库包括同策略模块、异策略模块以及综合策略模块，所述同策略模块用于封装同策略的强化学习算法，所述异策略用于封装异策略的强化学习算法；所述综合策略模块，用于封装综合策略算法，所述综合策略算法为综合同策略与异策略的数据驱动强化算法。

　　传统的导航控制方法，通过传感器读取的数据，先要进行特征提取，融合，进行状态估计，然后进行底层的执行器控制或者上层的任务控制。常用的如反馈线性化控制、线性二次型控制、模型预测控制、反步控制等，这些方法存在一些局限性限制了移动机器人在复杂场景下的应用。比如，对于运动模型的线性化难以精准描述复杂系统的动态；并且，一些非线性控制方法，依赖于精准的被控对象的数学物理模型，这往往需要大量的先验知识与专家经验，控制器设计过程繁琐费时。随着人工智能技术的飞速发展，深度强化学习在智能体控制领域有着广泛的应用，基于深度强化学习的控制，直接避免来繁琐的数据处理过程，根据传感器的观测值，通过策略网络，直接输出需要执行的动作。但是，传统深度强化学习算法在机器人控制方面仍存在如下问题：1. 同策略的主流强化学习算法对环境变化具有较强的适应能力，但是由于其依赖于大量的实时数据，需要耗费巨大的计算资源，收敛速度较慢；2. 异策略的强化学习算法虽然具有较好的计算效率，但是其由于其重复采样原始状态序列数据，对环境变化适应能力不强；3. 倾向于对特定任务过拟合，算法泛化能力弱。

　　本实施例通过提供综合策略算法，实现一种综合同策略与异策略算法优势且能够提高强化学习控制算法的泛化能力。所述综合策略算法包括：通过及时将学习的新策略反馈给移动机器人系统，收集特定系统数据来优化强化学习算法的适应能力；同时考虑系统的原始特性，将重新收集的数据与以往回放的经验数据结合，再次学习最终确定强化学习算法。具体说明如下：

　　本实施例中综合策略算法架构图如图4所述。主流的强化学习算法都是基于同策略或者异策略，这两种方法都存在上述问题，本实施例提出的综合策略算法集合来以上两种的优势，具体说明如下：

　　比如最典型的异策略强化学习算法，Q-Learning，其动作状态Q值的更新过程如下：

　　其中，R(s)是奖励函数，(s’,a’)是最优状态动作对；该算法在计算下一状态的预期收益时一直使用最优的Q值，选择最优动作，但是当前的策略并不一定能选择到最优的动作，所以其并不关心采取的策略是什么。生成样本的策略与学习时的策略不同，又叫异策略机制。异策略的优势在于可以得到全局最优，通用行强，但是训练过程曲折，收敛速度慢。

　　再比如最典型的同策略强化学习算法，SARSA算法，其Q值的更新过程如下

　　可以发现，在典型同策略强化学习算法，网络参数更新时使用的策略与生成样本的策略是相同的，该种策略算法比较直接，具有很快的计算速度，但是由于其只是利用了目前已知的最优选择，有可能学不到最优解，陷入局部最优。

　　本实施例中综合策略模块所封装的综合策略算法，建立在上述两种策略算法的基础之上，其主要流程如下：

　　S41进行状态、动作等初始化操作；S42执行初始动作，与DQN等异策略算法类似，进行经验池填充；

　　S43强化学习算法主题部分，进行策略评估与策略优化，并通过S44判断是否达到收敛，若没有，此时，进行S45，综合策略算法的不同在除了正常执行动作获得奖励后进行经验池填充以外，会从上一状态序列中抽取特定的数据填充进经验池，组成新的采样数据，接着再次重复以上步骤，直到收敛，这样不仅减少了数据之间的相关程度，而且又利用了之前的有用的数据，结合了异策略与同策略的算法优势，因此提高了收敛性能。

　　通过本实施例提供的核心算法组件提供的综合策略模块，通过综合策略机制，相比于异策略算法，对环境的变换具有较强的适应能力；另一方面，相比于同策略算法，具有更好的计算效率与收敛表现。

　　本实施例综合策略模块集成了一种综合策略的数据驱动强化学习算法，使得本方法不仅可以应用于一般的辅助型移动机器人应用场景，也可以用于具有强非线性且环境变化的复杂场景。同时，通过测试组件，可以方便的对算法的稳定性、鲁棒性、泛化能力进行测试，而且，优化组件的联动，可以方便的进行算法调节于优化。

　　结合附图阅读本发明实施方式的详细描述后，本发明的其他特点和优势将变得更加清楚。

　　图1可以看出，基于学习组件库的辅助型移动机器人导航控制系统总共有八大组件，S11为初始化组件，其中包括S111状态空间设计模块、S112行为空间设计模块、S113奖励函数设计模块；状态空间设计和行为空间设计是强化学习工作流中的第一步，根据任务需求，可以设计为离散空间或者连续空间；奖励函数设计需要结合具体的路径规划路线进行，其形式主要有末状态奖励、单步奖励、连续奖励、非线性奖励等。

　　S12为环境建模组件，其中包括S121传感器数据处理模块、S122移动机器人定位模块、S123强化学习环境建模模块；其中传感器数据处理模块用于读取并处理移动机器人搭载的传感器数据，比如对于视觉传感器，可以通过降噪、去雾等处理算法增强观测信息；移动机器人定位模块用于实时定位机器人所处的全局位置；强化学习环境建模模块用于在进行仿真任务时，建立虚拟的与智能体交互的环境。

　　S13为路径规划组件，目的在于利用环境信息，根据目标任务需求，实时规划出一条最优的移动机器人运动路径；其主要包括了一些常用的路径规划算法模块，如S131的启发式路径规划模块、S132人工势场路径规划模块、S133机器学习路径规划模块等。

　　S14为核心算法组件，主要有三大模块，S141同策略算法模块、S142异策略算法模块、S143综合策略算法模块; 该组件包括了各种强化学习算法的封装，并集成了一种结合同策略与异策略优势的数据驱动的综合策略强化学习算法用于处理非线性强，对环境变化具有较强适应能力的任务场景。

　　S15为可视化组件，其中包括S151路径规划可视化模块、S152学习曲线可视化模块、S153导航控制误差可视化模块、S154执行器数值可视化模块。

　　S16为优化组件，主要用于优化算法的稳定性、鲁棒性，提高泛化能力；其中包括了如S161参数优化模块、S162正则化模块等。

　　S17为测试组件，该组件通过给环境增加扰动，测试算法性能表现，如S171动态障碍物模块、S172风力扰动模块、S173水流扰动模块等。

　　S18为底层控制算法组件，该组件是可以作为与强化学习算法对比的基准组件，可以直接用来实际的移动机器人控制，也可以用于与强化学习算法组件结合提升实际移动机器人的算法性能；主要有S181线性二次型优化控制模块、S182模型预测控制模块、S183反馈线性化控制模块。

　　实施例四、一种基于学习组件库的辅助型移动机器人导航控制方法，本方法基于实施三提供的基于学习组件库的辅助型移动机器人导航控制系统，所述控制方法包括：建立用于辅助型移动机器人的导航控制学习组件库；根据不同的辅助型移动机器人驱动构型、传感器方案等特点，从初始化组件中选择对应不同移动机器人类型的状态空间与动作空间；依据真实的使用场景需求，构建仿真环境，并选择所需的路径规划算法，规划最优导航路径；根据实际任务特点，设立奖励函数；并从算法组件中选择同策略、异策略或者结合两者优势的综合策略算法中的一种作为学习算法，对算法超参数进行配置；根据使用场景扰动的情况，从优化组件中选择所需的正则化方法；查看训练效果，并且可以依据使用场景的需求自行加入扰动组件，来测试所选择算法的稳定性、鲁棒性与泛化能力；根据控制要求，可以使用优化组件来对主要组件参数进行调节，以提升导航控制算法表现。

　　实施例五、一种基于学习组件库的辅助型移动机器人导航控制方法,基于实施例三提供的基于学习组件库的辅助型移动机器人导航控制系统，本实施例提供的方法直接基于学习组件库的核心算法组件，直接输出控制器指令。下面根据说明书附图2进行介绍。本实例将以一台配备视觉传感器、激光雷达传感器、定位传感器的消毒移动机器人在室内公共场合自主向目标位置移动并进行消毒为例进行说明。

　　如图2所示，本发明给出的直接通过学习组件库的核心算法组件，输出控制器指令，完成强化学习闭环控制的构建步骤：

　　步骤S21，根据该消毒移动机器人底盘构型与驱动方式，结合运动模型，利用预先构建的环境建模组件初始化该机器人的状态空间与动作空间；

　　步骤S22，分为两种情况，一种是进行该消毒机器人的导航控制算法仿真研究，此时只需根据其运动模型建立强化学习环境，即可进入下一步；

　　若应用于实际控制场景，则需要调用传感器数据处理模块与定位模块，获得环境信息与消毒移动机器人状态观测值，同时获得定位信号，更新状态信息；

　　步骤S23，依据环境信息，通过环境建模组件获得障碍物相对位置与消毒移动机器人自身位置，利用预先构建的路径规划组件调用路径规划组件获得最优路径；

　　步骤24-A根据路径规划结果，调节根据环境建模组件设立的导航控制算法的奖励函数；

　　步骤24-B，联合定义的动作空间、状态空间、奖励函数与强化学习环境，从预先构建的核心算法组选择核心算法模块选择确定强化学习算法，进行训练，通过底层控制模块或者直接输出控制器指令完成强化学习闭环控制；

　　步骤S25，为可选步骤，利用底层控制算法组件选择用于最终比较的主流控制算法基准；

　　步骤S26对S24进行测试，评估，比如在仿真环境中，可以从测试组件动态障碍模块，来测试消毒机器人遇到行人时的行为等；

　　S27验证导航控制效果是否达到要求，否则可以通过优化组件对利用核心算法组件确定的强化学习算法进行算法优化，提高任务执行效果。

　　在同一个任务中，反复执行S24-S28，直到消毒移动机器人在导航控制任务中获得理想的执行效果。利用可视化组件将核心算法组件以及测试组件的输出数值实现可视化，以实时监测学习训练过程。

　　实施例六、一种基于学习组件库的辅助型移动机器人导航控制方法,基于实施例三提供的基于学习组件库的辅助型移动机器人导航控制系统，如图3所示，本发明给出学习组件库的核心算法与传统控制方法结合，搭建闭环控制学习组件系统的构建步骤：

　　步骤S31，利用预先构建的初始化组件初始化该机器人的状态空间与动作空间；

　　步骤S32，调用环境建模组件获得移动机器人搭载的传感器数据和移动机器人所处的全局位置数据（可选的，环境建模组件包括传感器数据处理模块与移动机器人定位模块，通过传感器数据处理模块获得移动机器人搭载的传感器数据，通过移动机器人定位模块获得移动机器人所处的全局位置数据）；

　　步骤S33，结合任务需求，利用环境建模组件设计奖励函数，通过核心算法组件确定核心算法，通过输入观测值，集中于学习移动机器人的运动策略，作为传统控制器的参考输入；

　　步骤S34与步骤S35，加入传统控制器，构建导航控制闭环，联合底层控制算法组件或者直接使得输出控制器指令，执行指令后，再次通过环境建模模块获得当前移动机器人信息，重复以上步骤，完成强化学习闭环控制；

　　同时利用测试组件进行算法评估与测试，并实时反馈传感器处理模块输出状态观测值；步骤S36判断是否达到控制要求；

　　步骤S37，在上一步的基础上，若需继续优化，则调用优化组件进行参数优化与正则化进行算法优化，提高任务执行效果。

　　同样，反复执行S33-S38，直到消毒移动机器人在导航控制任务中获得理想的执行效果。利用可视化组件将核心算法组件以及测试组件的输出数值实现可视化。

　　联合底层控制算法组件的方法为：将强化学习输出（x,y,psi..)上层指令作为控制器的输入，控制器通过调用底层控制算法组件输出执行器指令进行跟踪。这样的分层架构，可以有效减小强化学习的数据纬度，提高效率。其中底层控制算法组件封装的算法可包括LQR、PID、MPC或Backstepping。

　　此外，需要额外说明的是，第二种构建方法相较于第一种方法，图2中底层控制组件只是用作比较性能的环节，图3中底层控制算法组件是作为整个学习闭环中的一环，用于输出底层控制指令，这样的好处是可以结合传统控制与强化学习的优势，降低了状态空间与动作空间的维度，使强化学习集中于学习复杂行为策略，结合传统主流控制算法的优势，提高了算法的稳定性与算法性能，但是另一方面，引入传统控制算法，增加了总体的算法复杂度。特别地，利用控制学习组件库中的组件，可以按照任务需求，构建除了上述两种以外的多种闭环学习控制系统。

　　本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质（包括但不限于磁盘存储器、CD-ROM、光学存储器等）上实施的计算机程序产品的形式。

　　本申请是参照根据本申请实施例的方法、设备（系统）、和计算机程序产品的流程图和／或方框图来描述的。应理解可由计算机程序指令实现流程图和／或方框图中的每一流程和／或方框、以及流程图和／或方框图中的流程和／或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能的装置。

　　这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能。

　　这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能的步骤。

　　以上结合附图对本发明的实施例进行了描述，但是本发明并不局限于上述的具体实施方式，上述的具体实施方式仅仅是示意性的，而不是限制性的，本领域的普通技术人员在本发明的启示下，在不脱离本发明宗旨和权利要求所保护的范围情况下，还可做出很多形式，这些均属于本发明的保护之内。

《基于学习组件库的辅助型移动机器人导航控制系统和方法.doc》

将本文的Word文档下载到电脑，方便收藏和打印

推荐度：

点击下载文档

文档为doc格式(或pdf格式)

调节控制图文推荐

上一篇：数控加工和检测的管控系统、方法及数控加工和检测系统

下一篇：一种基于PMAC的五轴高精度定位控制系统及工作方法