当前位置：首页 > 物理技术 > 调节控制> 学习装置、学习方法及其程序独创技术40041字

学习装置、学习方法及其程序

2021-02-01 05:14:39

学习装置、学习方法及其程序

　　技术领域

　　本发明涉及一种学习装置、学习方法及其程序。

　　背景技术

　　在使用冲压机等控制装置进行了材料的加工及组装等的情况下，通常进行了一次加工等的材料无法恢复原状。因此，无法一面对同一个材料进行重复加工等，一面适当地调整控制量。因此，对材料的性质与控制输入的关系进行定量化，在新进行加工等时提供适当的控制输入，获得适当的控制量变得重要。

　　例如，在专利文献1中公开有一种当制造冲压加工品时，可减少板厚的偏差的影响的冲压系统。专利文献1的冲压系统包含冲压机、及朝所述冲压机供给工件的供给装置，且包括：板厚获得部件，在利用冲压机的冲压前获得工件的板厚信息；以及模高设定部件，根据来自所述板厚获得部件的板厚信息，设定冲压机的模高(H)。

　　现有技术文献

　　专利文献

　　专利文献1：日本专利特开2005-211928号公报

　　发明内容

　　发明所要解决的问题

　　此外，在专利文献1中记载的冲压系统中，必须利用实际的冲压机对所设想的所有板厚分别进行多次试错，由此调整应设定的最佳的模高。另外，实际上在冲压机等对处理对象物进行加工及组装等处理的控制系统中，模高等控制量的适当值并不限定于受到板厚的影响，有时受到处理对象物的硬度或温度、材质等与处理对象物相关的各种参数的影响。调整如下的校正量需要大量的时间，所述校正量用于利用实机对所述各种参数的所有组合实际地进行多次试错来获得适当的控制量。

　　因此，本发明的目的在于提供一种在对处理对象物进行加工及组装等处理的控制系统的预测控制中，有效率地学习用于生成提供给控制对象的指令值的适当的校正量的技术。

　　解决问题的技术手段

　　本发明的一方面的学习装置是在包括控制器与控制对象的控制系统中，对包含学习完毕模型的调整器提供学习完毕模型的学习装置，所述控制器输出根据校正量对目标值进行校正所得的指令值，所述控制对象是对处理对象物进行规定的处理而受到控制，且输入从控制器输出的指令值，并输出作为所述指令值的响应的控制量，所述学习完毕模型根据处理对象物的特定的参数，对控制器输出规定的校正量而得到学习，所述学习装置包括：学习部，根据包含目标值、指令值及控制量的动作数据，来生成校正量候补，将已生成的校正量候补与处理对象物的特定的参数作为示教数据进行学习，生成或更新学习完毕模型；以及设定部，将已生成或更新的学习完毕模型提供给调整器。根据所述形态，学习装置不使控制对象实际地运行而生成校正量候补，因此可不准备处理对象物或使处理对象物破损，而有效率地进行学习。另外，“参数”包含处理对象物的特征量或物理量、其他任意的数值信息。特征量例如为处理对象物的材质等，物理量例如为处理对象物的硬度或温度等。

　　在所述构成中，学习部也可以通过数据驱动控制来生成校正量候补。此时，作为数据驱动控制，可使用虚拟参考反馈整定(Virtual Reference Feedback Tuning，VRFT)、虚拟参考迭代整定(Fictitious Reference Iterative Tuning，FRIT)或估计响应迭代整定(Estimated Response Iterative Tuning，ERIT)的任一者。根据所述形态，学习部通过使用VRFT或FRIT、ERIT等数据驱动控制的方法，可不求出控制对象的动态特性模型而生成校正量候补，并生成示教数据。由此，学习装置可不使控制对象的实际的动作重复进行而生成校正量候补。其结果，学习装置可不准备处理对象物或使处理对象物破损，而更有效率地进行学习。

　　另外，学习部能够以如下方式构成：在已生成的校正量候补并非从学习完毕模型用于学习的示教数据中所含有的校正量候补偏离规定的阈值以上的值的情况下、或为学习完毕模型用于学习的示教数据中所含有的校正量候补的范围内的情况下，采用所述校正量候补。由此，可防止在学习部已生成的校正量候补不适当的情况下进行不需要的学习。

　　另外，还包括评估部，所述评估部获取动作数据，对控制量的品质进行评估，所述动作数据包含将根据学习完毕模型已输出的校正量对目标值进行校正所得的指令值提供给控制对象时的控制量，学习部能够以在品质的评估不满足容许范围的情况下，进行学习的方式构成。另外，学习部能够以如下方式构成：在处理对象物的特定的参数为从已作为示教数据得到学习的参数偏离规定的阈值以上的值的情况下，进行学习。由此，可防止学习部对可利用当前的学习完毕模型来应对的处理对象物进行不需要的学习。

　　本发明的一方面的学习方法是在学习装置中执行的学习方法，所述学习装置在包括控制器与控制对象的控制系统中，对包含学习完毕模型的调整器提供学习完毕模型，所述控制器输出根据校正量对目标值进行校正所得的指令值，所述控制对象是对处理对象物进行规定的处理而受到控制，且输入从控制器输出的指令值，并输出作为所述指令值的响应的控制量，所述学习完毕模型根据处理对象物的特定的参数，对控制器输出规定的校正量而得到学习，学习装置执行如下的步骤：根据包含目标值、指令值及控制量的动作数据，来生成校正量候补，在校正量候补满足规定的采用基准的情况下，将已生成的校正量候补与处理对象物的特定的参数作为示教数据进行学习，生成或更新学习完毕模型的步骤；以及将已生成或更新的学习完毕模型提供给所述调整器的步骤。

　　本发明的一方面的程序是使学习装置发挥功能的程序，所述学习装置在包括控制器与控制对象的控制系统中，对包含学习完毕模型的调整器提供学习完毕模型，所述控制器输出根据校正量对目标值进行校正所得的指令值，所述控制对象是对处理对象物进行规定的处理而受到控制，且输入从控制器输出的指令值，并输出作为所述指令值的响应的控制量，所述学习完毕模型根据处理对象物的特定的参数，对控制器输出规定的校正量而得到学习，使学习装置作为如下的部件发挥功能：根据包含目标值、指令值及控制量的动作数据，来生成校正量候补，在校正量候补满足规定的采用基准的情况下，将已生成的校正量候补与处理对象物的特定的参数作为示教数据进行学习，生成或更新学习完毕模型的部件；以及将已生成或更新的学习完毕模型提供给所述调整器的部件。

　　发明的效果

　　根据本发明，可提供一种在对处理对象物进行加工及组装等处理的控制系统的预测控制中，有效率地学习用于生成提供给控制对象的指令值的适当的校正量的技术。

　　附图说明

　　图1是表示本发明一实施方式的控制系统的系统构成例的示意图。

　　图2是表示本发明一实施方式的学习装置的功能构成例的框图。

　　图3是表示本发明一实施方式的管理表的一例的图。

　　图4是表示本发明一实施方式的管理图的一例的图。

　　图5是用于说明本发明一实施方式的学习装置的处理的一例的流程图。

　　图6是表示本发明一实施方式的学习装置的硬件构成的示意图。

　　图7是表示本发明另一实施方式的控制系统的系统构成例的示意图。

　　具体实施方式

　　[实施方式]

　　以下，根据附图对本发明的一形态的实施方式(以下也表述成“本实施方式”)进行说明。但是，以下所说明的实施方式在所有方面只不过是本发明的例示。当然可不脱离本发明的范围而进行各种改良或变形。即，在实施本发明时，也可以适宜采用对应于实施方式的具体构成。另外，通过自然语言来对本实施方式中出现的数据进行说明，更具体而言，由计算机可识别的拟语言(quasi-language)、命令、参数、机器语言(machine language)等来指定。

　　§1应用例

　　首先，一面参照图1，一面对应用本发明的场景的一例进行说明。图1是表示本发明的控制系统1的构成的一例的图。控制系统1包括：控制器10、伺服机构20、调整器30、以及学习装置40。

　　控制器10生成根据从调整器30输出的校正量ρ对目标值r(t)进行校正所得的指令值u(t)，并朝伺服机构20输出。目标值r(t)可以由控制器10生成(包含使用经存储的目标值)，也可以从外部提供给控制器10。若设为控制器10的传递函数C(ρ)，则在控制器10中进行以下的式(1)中所示的运算，由此生成指令值u。

　　＜控制器的运算式＞

　　u(t)＝C(ρ)×r(t)…式(1)

　　伺服机构20由控制器10控制，以对处理对象物(以下也称为“工件”)进行规定的处理。从控制器10朝伺服机构20提供指令值u(t)，伺服机构20输出作为所述输入值的响应的控制量y(t)。若将伺服机构20的传递函数设为P，则控制量y(t)由以下的式(2)表示。

　　＜伺服机构的运算式＞

　　y(t)＝P×u(t)…式(2)

　　另外，在本实施方式中，伺服机构20表示以规定量的压力对工件进行冲压的冲压机的例子，但并不限定于此。另外，伺服机构20是本发明的“控制对象”的一例。

　　调整器30输出提供给控制器10的校正量ρ。在本实施方式中，调整器30具有学习完毕模型，所述学习完毕模型以根据工件所具有的参数中的特定的参数输出适当的校正量的方式得到学习。例如，也可以将工件的板厚的大小作为特定的参数。所述学习完毕模型可由学习装置40提供。另外，调整器30也可以从传感器(未图示)获取工件的参数。另外，例如伺服机构20也可以具有传感器。

　　学习装置40在生成学习完毕模型时，首先针对具有某一参数α的处理对象物，使控制系统实际运行一次，获取此时的目标值r(t)、指令值u(t)、及控制量y(t)的关系。接着，学习装置40根据所述三个值来算出与参数α对应的校正量候补ρ﹡。学习装置40根据已算出的校正量候补ρ﹡与参数α，生成示教数据。通过对多个参数执行所述处理，学习装置40可生成多个具有各参数与对应于各参数的校正量候补的示教数据。而且，学习装置40使用已生成的一个或多个示教数据进行学习，由此生成学习完毕模型。另外，是否将已生成的示教数据实际用于学习也可以对照规定的采用基准来决定。

　　当生成校正量候补ρ﹡时，学习装置40可使用VRFT(Virtual Reference FeedbackTuning)或FRIT(Fictitious Reference Iterative Tuning)、ERIT(Estimated ResponseIterative Turning)等数据驱动控制的方法。数据驱动控制可不求出控制对象(在本实施方式的情况下为伺服机构20)的动态特性模型，而使用已获得的数据来设定控制参数。通过使用数据驱动控制的方法，不反复进行实验，即不重复进行伺服机构20的实际的动作，根据一组动作数据来生成校正量候补ρ﹡，并将其用作示教数据。由此，缩短至生成适当的示教数据为止的时间，可有效率地生成用于输出适当的校正量的学习完毕模型。其结果，学习装置可不准备处理对象物或使处理对象物破损，而更有效率地进行学习。

　　§2构成例

　　参照图2至图4，对学习装置40的功能构成的一例进行说明。图2是表示学习装置40的功能构成的一例的功能框图。如图2所示，学习装置40具有：存储部41、品质评估部42、学习部43、以及设定部44。

　　在存储部41中存储有参照模型Td与管理表。

　　参照模型Td是表示针对目标值r(t)的控制量y(t)的理想的响应的传递函数的模型。若使用参照模型Td，则针对目标值r(t)的理想的控制量(以下也称为“目标响应”)yd(t)由下式(3)表示。

　　＜参照模型Td的式＞

　　yd(t)＝Td×r(t)…(3)

　　另外，参照模型Td并不限定于传递函数，也可以使用根据使伺服机构20在无工件的状态下运行时的目标值r(t)、控制量y(t)，通过机器学习所生成的模型。

　　在管理表中管理学习部43用于学习的示教数据。图3是表示管理表的一例的图。示教数据是针对各工件，将作为输入数据的所述工件的特定的参数(图3的例子中为硬度)、与作为输出数据的对所述工件输出指令值时的最佳的校正量(以下也称为“最佳校正量”)建立了对应的数据。在管理表中，将伺服机构20响应指令值所输出的控制量的评估结果(以下也称为“品质评估”)建立对应，所述指令值根据与各工件建立了对应的最佳校正量而生成。

　　另外，在管理表中追加新的示教数据的记录后，在伺服机构20尚未对与所述记录对应的工件进行处理的情况下，也可以在管理表的评估结果一栏中例如登记未实施。

　　如此，在管理表中管理学习部43已用于学习的示教数据、及使用所述示教数据所新生成(或经更新)的学习完毕模型的评估的结果。所谓学习完毕模型的评估的结果，是表示对应的记录的示教数据中所含有的最佳校正量是否适当的指标。更详细而言，是针对作为示教数据而新追加的记录中的最佳校正量，表示在根据所述最佳校正量所生成的指令值已被输入伺服机构20的情况下，作为响应所输出的控制量是否为规定的容许范围内的指标。

　　进而，在存储部41中存储有学习部43已生成的学习完毕模型LM。优选存储部41存储多代的学习部43已生成的学习完毕模型。

　　品质评估部42从控制器10及伺服机构20获取动作数据，对控制量的品质进行评估。作为一例，对作为品质评估部42相对于目标值r(t)所提供的指令值u(t)的响应，从伺服机构20输出了控制量y(t)的情况进行说明。此时，品质评估部42将目标值r(t)输入至参照模型Td，获取对于目标值r(t)的目标响应yd(t)。

　　接着，品质评估部42对目标响应yd(t)、控制量y(t)进行品质换算，算出品质的代替指标。例如，品质评估部42对目标响应yd(t)、控制量y(t)进行品质换算，算出下死点位置或稳定时间(settling time)。更详细而言，品质评估部42根据目标响应yd(t)、控制量y(t)的最大值来算出下死点位置。另外，品质评估部42从目标响应yd(t)已进入目标位置的时刻、及控制量y(t)已进入目标位置的时刻分别减去指令值已到达目标位置的时刻，由此算出各自的稳定时间。另外，下死点位置是伺服机构20的冲程长度变成最大的位置。另外，稳定时间是从伺服机构20的冲程长度已进入稳定宽度时至到达目标位置时为止的经过时间，稳定宽度是指从目标位置起规定的范围的宽度(例如为目标位置±10μm)。

　　品质评估部42根据进行品质换算所算出的作为代替指标的下死点位置与稳定时间，进行控制量y(t)的品质评估。例如，品质评估部42可根据下死点位置是否与目标位置一致、或下死点位置是否包含在稳定宽度中，判定控制量y(t)是否为规定的容许范围内，由此进行品质评估。

　　另外，例如品质评估部42也可以使用Xbar-R管理图进行控制量y(t)的品质评估。Xbar-R管理图是用于管理品质评估对象的平均值的变化与偏差的变化的管理图。图4表示品质评估部42用于品质评估的Xbar-R管理图中的x管理图的一例。在图4中，纵轴表示冲程长度。图表L1、图表L2是对下死点位置在各批次中的平均值进行了绘制的图表的一例，所述下死点位置是针对伺服机构20对多个批次的工件进行了处理时的各自的控制量y(t)进行品质换算所算出的下死点位置。在图4中，实线表示规格值L3的上限及下限，虚线L4表示管理值的上限及下限。规格值例如为对工件委托加工的顾客的要求值。管理值是用于以不超过规格值的方式进行管理的值。在图表的中心表示品质的目标值。图表L2是表示品质处于管理值的范围内的情况的一例的图表，图表L1是表示品质未处于规格值内的情况的一例的图表。另外，在图4的例子中，表示对各批次进行了图表的绘制的例子，但各绘制的值并不限定于以批次单位所算出的值，也可以使用根据对于一个或多个工件的处理进行品质换算所得的值。品质评估部42也可以根据在图4中所示的Xbar-R管理图中，控制量y(t)的下死点位置是否为管理值的范围内、或是否为规格值的范围内，判定控制量y(t)是否为规定的容许范围内，由此进行品质评估。例如，也可以根据使用图4中所示的Xbar-R管理图等进行品质评估的结果，即控制量y(t)是否为规定的容许范围内，登记所述图3的管理表中的品质评估的结果。更详细而言，例如当响应根据登记在图3的第一行的记录中的最佳校正量候补(图3的例子中为0.5mm)所生成的指令值时，从伺服机构20输出控制量y(β)。此时，使用图4中所示的Xbar-R管理图，根据控制量y(β)的下死点位置是否为管理值的范围内、或是否为规格值的范围内，进行控制量y(β)的品质评估的结果作为图3的管理表的第一行的记录中的品质评估的结果来登记。

　　学习部43根据使用动作数据所算出的校正量候补ρ﹡来生成示教数据，并生成学习完毕模型。优选学习部43在算出校正量候补ρ﹡时，使用VRFT或FRIT、ERIT等数据驱动控制。数据驱动控制是不求出控制对象(在本实施方式的情况下为伺服机构20)的动态特性模型，使用数据来设定控制参数的方法。VRFT、FRIT及ERIT是不反复进行实验，可根据一组动作数据来确定校正量的方法。一组动作数据是目标值r、根据所述目标值所提供的指令值、以及作为指令值的响应所输出的控制量。

　　对学习部43的校正量候补生成处理进行更详细的说明。例如，对如下例子进行说明，即：学习部43参考参照模型Td，根据伺服机构20基于任意的指令值uini对任意的工件(以下称为“工件X”)进行了动作时的动作数据(以下，将基于任意的指令值uini对工件X进行了动作时的动作数据特别称为“动作数据Y”)，来生成校正量候补ρ﹡。将所述指令值uini设为根据某一校正量ρini对目标值r进行校正所生成的指令值。此处，若将动作数据Y中所包含的目标值设为目标值r，将指令值设为指令值uini，将控制量设为控制量yini，则动作数据Y由{r、uini、yini}表示。

　　学习部43在使用VRFT来算出校正量候补ρ﹡的情况下，使用参照模型Td的逆模型Td-1，首先通过以下的式(4)来算出虚拟参照信号。

　　[数学式1]

　　虚拟参照信号

　　进而，学习部43算出使由以下的式(5)表示的评估函数Jv(ρ)最小化的校正量候补ρ﹡。另外，在式(5)中，C(ρ)表示所述控制器10的传递函数。

　　[数学式2]

　　另一方面，学习部43在使用FRIT来算出校正量候补ρ﹡的情况下，首先通过以下的式(6)来算出疑似参照信号。另外，在式(6)中，C(ρ)-1表示控制器10的逆传递函数。

　　[数学式3]

　　疑似参照信号

　　进而，学习部43算出使由以下的式(7)表示的评估函数Jf(ρ)最小化的校正量候补ρ﹡。

　　[数学式4]

　　学习部43将已算出的校正量候补ρ﹡设为最佳校正量ρ'，与工件X的参数建立对应来作为示教数据追加至管理表中。另外，学习部43也可以是进行判定是否将校正量候补ρ﹡采用为最佳校正量ρ'的采用与否判定的构成。在此情况下，学习部43判定已算出的校正量候补ρ﹡是否满足规定的采用基准，在满足的情况下用作最佳校正量ρ'，并追加至管理表中。采用基准例如为已算出的校正量候补ρ﹡是否并非从登记在管理表中的示教数据中所含有的最佳校正量偏离规定的值以上的值(例如离群值(outlier))。另外，采用基准也可以是校正量候补ρ﹡是否并非从所述示教数据中所含有的最佳候补量的平均值偏离固定值以上的值、或是否并非从最佳候补量的最大值或最小值偏离固定值以上的值。另外，例如，采用基准也可以是已算出的校正量候补ρ﹡是否包含在管理表中登记的示教数据中所含有的最佳校正量的范围内。

　　学习部43根据已登记在管理表中的示教数据执行学习，生成学习完毕模型LM﹡。另外，生成学习完毕模型时进行的学习例如也可以使用现有的神经网络或回归分析的技术。学习部43将本次生成的学习完毕模型LM﹡追加存储在存储部41中。另外，学习部43也可以是利用本次生成的学习完毕模型LM﹡覆盖存储在存储部41中的学习完毕模型LM的构成。

　　另外，学习部43也可以是在生成校正量候补ρ﹡时，进行是否需要学习的判定的构成。在此情况下，学习部43判定是否满足规定的是否需要学习的判定基准，当满足时，为了进行学习而生成校正量候补ρ﹡。规定的是否需要学习的判定基准例如为品质评估部42对于动作数据Y的结果是否为容许范围内。另外，规定的是否需要学习的判定基准也可以是工件X的参数是否为过去已学习，即当前在设定在调整器30中的学习完毕模型中已学习的参数的范围外。此外，规定的是否需要学习的判定基准也可以是当对工件X进行了动作时，伺服机构20的外部环境是否从其以前的外部环境发生了变化。在此情况下，学习部43可以根据用户的任意的输入，检测外部环境的变化，也可以从传感器获取包含伺服机构20的外部环境的图像数据，根据已获取的图像数据来检测外部环境的变化。

　　设定部44朝调整器30设定学习部43已生成的学习完毕模型LM﹡。此时，设定部44也可以在设定学习完毕模型LM﹡前，对学习完毕模型LM﹡的品质进行评估，根据评估结果来判定是否设定在调整器30中。

　　所谓学习完毕模型LM﹡的评估，例如将工件X的参数与最佳校正量ρ'作为示教数据，学习部43进行追加学习，新生成学习完毕模型LM﹡。此时，设定部44在具有与工件X相同的参数的工件已被提供给伺服机构20时，将已学习的最佳校正量ρ'提供给控制器10。在控制器10中，根据最佳校正量ρ'来生成指令值u(x)，并朝伺服机构20输出。品质评估部42对伺服机构20已输出的作为对于指令值u(x)的响应的控制量y(x)进行品质评估。若品质评估的结果是控制量y(x)为规定的容许范围内，则设定部44可将新生成的学习完毕模型LM﹡设定在调整器30中。另一方面，在不满足规定的容许范围的情况下，设定部44也可以是选择上一代的学习完毕模型LM来设定在调整器30中的构成。另外，在本次生成的学习完毕模型LM﹡的品质不满足规定的容许范围的情况下，当已在调整器30中设定有学习完毕模型时，设定部44也可以不进行学习完毕模型的更新。

　　另外，当在存储部41中登记有多个未实施评估的学习完毕模型LM﹡时，设定部44例如也可以按新生成的顺序进行学习完毕模型LM﹡的评估，选择评估的结果最先处于容许范围内的学习完毕模型LM﹡来设定在调整器30中。另外，例如设定部44也可以实施所有学习完毕模型LM﹡的评估，选择评估结果最佳的学习完毕模型LM﹡来设定在调整器30中。

　　另外，设定部44也可以从存储部41中删除评估不满足规定的容许范围的学习完毕模型LM﹡。

　　如此，设定部44针对新生成(或更新)的学习完毕模型LM﹡，在实际设定在调整器30中之前实施评估，由此可防止控制系统1的处理精度下降。

　　§3动作流程

　　参照图5对本实施方式的控制系统1的处理流程的一例进行说明。首先，学习装置40生成参照模型Td(S101)。此时，学习装置40获取作为基准的动作数据[r、yd]。作为基准的动作数据例如可设为进行了无工件的动作时的目标值r、及伺服机构20的控制量y。学习装置40根据已获取的动作数据[r、yd]，生成参照模型Td。

　　接着，在提供了工件的情况(S101：是(YES))下，设定针对目标值的校正量的初期值ρini(S102)。校正量的初期值ρini也可以由用户手动来设定。另外，当已在调整器30中设定有学习完毕模型时，所述学习完毕模型也可以生成校正量的初期值ρini。

　　在控制器10中，根据已设定的校正量ρini来生成指令值uini，并朝伺服机构20输出。在伺服机构20中，输出作为对于指令值uini的响应的控制量yini。学习装置40获取此时的动作数据[r，uini，yini](S103)。

　　接着，判定是否需要学习(S104)。例如，学习部43可根据品质评估部42对已获取的动作数据[r，uini，yini]进行的品质评估的结果，判定是否需要学习。另外，是否需要学习的判定基准并不限定于此，也可以将本次的工件的参数是否为过去已学习的参数的范围内、或外部环境是否已变化用于判定基准。另外，例如也可以由人判定是否需要学习。

　　在判定不需要学习的情况(S104：否(NO))下，回到S101，对下一个工件进行处理。另一方面，在判定需要学习的情况(S104：是)下，学习部43参考参照模型Td，生成校正量候补ρ﹡(S105)。学习部43在生成校正量候补ρ﹡时，可使用VRFT或FRIT、ERIT等方法。

　　接着，学习部43判定是否将已生成的校正量候补ρ﹡、与在S102中提供给伺服机构20的工件的参数建立对应来作为示教数据进行追加(S106)。判定是否进行追加的采用基准例如为已算出的校正量候补ρ﹡是否并非从登记在管理表中的示教数据中所含有的校正量偏离规定的值以上的值。另外，例如，采用基准也可以是已算出的校正量候补ρ﹡是否包含在管理表中登记的示教数据中所含有的校正量的范围内。

　　在判定进行追加的情况(S106：是)下，学习部43将已生成的校正量候补ρ﹡设为最佳校正量ρ'，与在S102中提供给伺服机构20的工件的参数建立对应来生成记录，并作为示教数据来追加至管理表中(S107)。另一方面，在判定不进行追加的情况(S106：否)下，回到S101，对下一个工件进行处理。另外，学习部43也可以是不进行S106的判定，将已生成的校正量候补ρ﹡直接设为最佳校正量ρ'，生成示教数据并追加至管理表中的构成。

　　若追加示教数据，则学习部43实施追加学习，新生成(或更新)学习完毕模型(S108)。

　　接着，设定部44判定是否将已生成的学习完毕模型设定在调整器30中(S109)。作为一例，设定部44也可以根据品质评估部42对于控制量的评估结果，判定是否将学习完毕模型设定在调整器30中，所述控制量是将根据已学习的最佳校正量ρ'进行校正所得的指令值提供给伺服机构20时的控制量。

　　在品质评估为规定的容许范围内的情况下，设定部44将新生成的学习完毕模型设定在调整器30中(S110)。另一方面，在品质评估不满足容许范围的情况下，回到S101，对下一个工件进行处理。另外，设定部44也可以是不进行S109的处理，直接将新生成的学习完毕模型设定在调整器30中的构成。

　　§4优点

　　在本实施方式的控制系统1中，学习装置40根据动作数据来生成校正量候补，所述动作数据包含按照指令值对处理对象进行了处理的伺服机构20的控制量、与控制器10已生成的目标值及指令值。在学习装置40中，当已生成的校正量候补满足规定的采用基准时，将所述校正量候补用作示教数据，进行学习完毕模型的生成。优选学习装置40在生成校正量候补时，利用VRFT或FRIT、ERIT等数据驱动控制的方法，不求出控制对象的动态特性模型而调整校正量。VRFTFRIT、ERIT是不反复进行实验，即不重复进行控制对象的实际的动作，可根据一组动作数据来确定校正量ρ的方法。学习装置40不反复进行实验而生成校正量候补，由此可不准备处理对象物或使处理对象物破损而有效率地进行学习，可缩短至生成适当的示教数据为止的时间。

　　§5硬件构成

　　接着，一面参照图6，一面对通过计算机800来实现所述学习装置40时的硬件构成的一例进行说明。另外，也可以分成多台装置来实现各个装置的功能。

　　如图6所示，计算机800包含：处理器801、存储器803、存储装置805、输入接口(Interface，I/F)部807、数据I/F部809、通信I/F部811、以及显示装置813。

　　处理器801通过执行存储在存储器803中的程序，来控制计算机800中的各种处理。例如，学习装置40的品质评估部42、学习部43、及设定部44等可作为暂时存储在存储器803中后，主要在处理器801上运行的程序来实现。即，处理器801通过解释执行暂时存储在存储器803中的程序，来实现品质评估部42、学习部43、及设定部44的功能。

　　存储器803例如为随机存取存储器(Random Access Memory，RAM)等存储介质。存储器803暂时存储由处理器801所执行的程序的程序代码、或程序的执行时所需要的数据。

　　存储装置805例如为硬盘驱动器(Hard Disk Drive，HDD)或闪速存储器等非易失性的存储介质。存储装置805存储操作系统、或用于实现所述各构成的各种程序。此外，存储装置805也可以存储参照模型Td或管理表。此种程序或数据视需要被加载至存储器803中，由此从处理器801进行参照。

　　输入I/F部807是用于受理来自用户的输入的元件。作为输入I/F部807的具体例，可列举：键盘或鼠标、触摸屏、各种传感器、可穿戴设备等。输入I/F部807例如也可以经由通用串行总线(Universal Serial Bus，USB)等接口而连接于计算机800。

　　数据I/F部809是用于从计算机800的外部输入数据的元件。作为数据I/F部809的具体例，有用于读取存储在各种存储介质中的数据的驱动装置等。也可以考虑将数据I/F部809设置在计算机800的外部。在此情况下，数据I/F部809例如经由USB等接口而与计算机800连接。

　　通信I/F部811是用于通过有线或无线，经由国际互联网N与计算机800的外部的装置进行数据通信的元件。也可以考虑将通信I/F部811设置在计算机800的外部。在此情况下，通信I/F部811例如经由USB等接口而连接于计算机800。

　　显示装置813是用于显示各种信息的元件。作为显示装置813的具体例，例如可列举：液晶显示器或有机电致发光(Electro-Luminescence，EL)显示器、可穿戴设备的显示器等。显示装置813也可以设置在计算机800的外部。在此情况下，显示装置813例如经由显示电缆等而连接于计算机800。

　　§6其他实施方式

　　参照图7对本发明的其他实施方式的控制系统2的构成进行说明。图7是表示控制系统2的构成的一例的图。另外，省略对于与已述的实施方式共同的事项的记述，仅对不同点进行说明。尤其，对已述的构成附加相同的符号，关于由相同的构成所产生的相同的作用效果，不在各实施方式中依次谈及。

　　控制系统2具有控制器11来代替控制系统1中的控制器10。另外，调整器30对控制器11输入校正量ρ。其他构成、功能与已述的实施方式相同。

　　控制器11将从调整器30输入的校正量ρ与已生成的目标值r(t)相加来生成指令值u(t)，并将指令值u(t)输入至伺服机构20。即，控制器11的运算式为以下的式(8)。

　　u(t)＝r(t)+ρ…式(8)

　　根据控制器11，可不使用传递函数，简单地将目标值与校正量相加来算出指令值。由此，不需要传递函数的设计，因此控制模型的设计变得容易。

　　以上，对本发明的实施方式进行了详细说明，但所述为止的说明在所有方面只不过是本发明的例示。当然可不脱离本发明的范围而进行各种改良或变形。

　　另外，在所述为止的说明中，将学习装置40设为新生成学习完毕模型的构成进行了说明，但也可以设为对现有的学习完毕模型进行更新的构成。在新生成学习完毕模型的构成的情况下，学习装置40可通过使用在生成现有的学习完毕模型时所使用的示教数据中加入了本次新生成的示教数据的数据集的学习，而生成新的学习完毕模型。另一方面，在对学习完毕模型进行更新的构成的情况下，学习装置40可通过使用本次新生成的示教数据对现有的学习完毕模型进行追加学习，而对学习完毕模型进行更新。

　　所述实施方式的一部分或全部也可以如以下的附记那样记载，但并不限定于以下的附记。

　　(附记1)

　　一种学习装置(40)，是在包括控制器(10)与控制对象(20)的控制系统(1)中，对包含学习完毕模型的调整器(30)提供所述学习完毕模型的学习装置(40)，

　　所述控制器(10)输出根据校正量(ρ)对目标值(r)进行校正所得的指令值(u)，

　　所述控制对象(20)是以对处理对象物进行规定的处理的方式受到控制的控制对象(20)，且输入从所述控制器(10)输出的指令值(u)，并输出作为所述指令值(u)的响应的控制量，

　　所述学习完毕模型以根据所述处理对象物的特定的参数，对所述控制器(10)输出规定的所述校正量(ρ)的方式得到学习，

　　所述学习装置(40)包括：

　　学习部(43)，根据包含所述目标值(r)、所述指令值(u)及所述控制量(y)的动作数据，来生成校正量候补(ρ﹡)，将已生成的校正量候补(ρ﹡)与所述处理对象物的特定的参数作为示教数据进行学习，生成或更新学习完毕模型；以及

　　设定部(44)，将所述已生成或更新的学习完毕模型提供给所述调整器(30)。

　　(附记2)

　　根据附记1中记载的学习装置，其中所述学习部通过数据驱动控制来生成所述校正量候补。

　　(附记3)

　　根据附记2中记载的学习装置(40)，其中

　　所述数据驱动控制是VRFT、FRIT或ERIT的任一者。

　　(附记4)

　　根据附记1至3的任一项中记载的学习装置(40)，其中

　　所述学习部(43)在已生成的所述校正量候补(ρ﹡)并非从所述学习完毕模型用于学习的示教数据中所含有的校正量候补(ρ﹡)偏离规定的阈值以上的值的情况、或为所述学习完毕模型用于学习的示教数据中所含有的校正量候补(ρ﹡)的范围内的情况下，将所述校正量候补用作示教数据。

　　(附记5)

　　根据附记1至4的任一项中记载的学习装置(40)，还包括评估部(42)，所述评估部(42)获取包含将根据所述学习完毕模型已输出的校正量(ρ)对目标值(r)进行校正所得的指令值(u)提供给所述控制对象(20)时的控制量(y)的动作数据，对所述控制量的品质进行评估，

　　所述学习部(43)在所述品质的评估不满足容许范围的情况下，进行所述学习。

　　(附记6)

　　根据附记1至5的任一项中记载的学习装置(40)，其中

　　所述学习部(43)在所述处理对象物的所述特定的参数为从已作为所述示教数据得到学习的参数偏离规定的阈值以上的值的情况下，进行所述学习。

　　(附记7)

　　一种学习方法，是在学习装置(40)中执行的学习方法，所述学习装置(40)在包括控制器(10)与控制对象(20)的控制系统(1)中，对包含学习完毕模型的调整器(30)提供所述学习完毕模型，

　　所述控制器(10)输出根据校正量(ρ)对目标值(r)进行校正所得的指令值(u)，

　　所述学习完毕模型以根据所述处理对象物的特定的参数，对所述控制器(10)输出规定的所述校正量(ρ)的方式得到学习，

　　所述学习装置(40)执行如下的步骤：

　　根据包含所述目标值(r)、所述指令值(u)及所述控制量(y)的动作数据，来生成校正量候补(ρ﹡)，将已生成的校正量候补(ρ﹡)与所述处理对象物的特定的参数作为示教数据进行学习，生成或更新学习完毕模型的步骤；以及

　　将所述已生成或更新的学习完毕模型提供给所述调整器(30)的步骤。

　　(附记8)

　　一种程序，是使学习装置(40)发挥功能的程序，所述学习装置(40)在包括控制器(10)与控制对象(20)的控制系统(1)中，对包含学习完毕模型的调整器(30)提供所述学习完毕模型，

　　所述控制器(10)输出根据校正量(ρ)对目标值(r)进行校正所得的指令值(u)，

　　所述学习完毕模型以根据所述处理对象物的特定的参数，对所述控制器(10)输出规定的所述校正量(ρ)的方式得到学习，

　　所述程序使所述学习装置(40)作为如下的部件发挥功能：

　　根据包含所述目标值(r)、所述指令值(u)及所述控制量(y)的动作数据，来生成校正量候补(ρ﹡)，将已生成的校正量候补(ρ﹡)与所述处理对象物的特定的参数作为示教数据进行学习，生成或更新学习完毕模型的部件(43)；以及

　　将所述已生成或更新的学习完毕模型提供给所述调整器(30)的部件(44)。

《学习装置、学习方法及其程序.doc》

将本文的Word文档下载到电脑，方便收藏和打印

推荐度：

点击下载文档

文档为doc格式(或pdf格式)

调节控制图文推荐

上一篇：一种理疗设备的波形输出控制模块

下一篇：一种基于大数据分析的智能水产养殖池