基于相似度多源域迁移学习策略的间歇过程质量预测方法
技术领域
本发明涉及一种质量预测方法,具体是一种基于相似度多源域迁移学习策略的间歇过程质量预测方法,属于工业生产过程质量预测技术领域。
背景技术
随着经济的迅猛发展以及国际产品市场竞争的日趋激烈,产品质量的标准与要求也变得越来越高,特别是在间歇生产过程中,产品质量的稳定不仅直接关乎于企业的经济效益,而且也是实现间歇过程生产优化的前提。
精确的质量预测则是确保间歇过程安全运行、获得高质量产品的必要条件;随着数据技术的迅速发展,数据驱动方法因其建模速度快、模型精度高、成本效益好等优点正成为过程建模的主流,被广泛地应用于间歇过程的产品质量预测。数据驱动建模的前提是要拥有充足的过程数据,只有从大量的过程数据中最大限度地提取出间歇过程的潜在信息来实现过程的建模才会使得预测结果更加准确。在实际间歇生产过程中,不同的产品规格应采用特定的操作条件甚至设备进行生产,操作状态需要频繁更新,数据驱动模型的性能会降低,此时则需要重新构建新过程;但是,新过程由于运行时间相对较短而无法获得丰富的过程数据,难以建立准确可靠的数据驱动模型。
在大数据时代背景下,注意到在现代间歇工业过程中,有很多使用相同或相似的工艺原理生产相同或相似规格产品的相似过程,这些过程中存在着大量相似的历史数据没有得到充分利用,造成了资源的浪费,针对上述问题,一些学者提出了迁移学习的概念,迁移学习方法因其可以利用相似源域的知识来帮助完成目标域的学习任务而越来越受到重视。而数据迁移作为迁移学习技术的一种形式,能够充分利用旧过程的数据和模型,并将有用的数据信息迁移到新过程中以辅助其建模和控制。Jaeckle and MacGregor提出了一种用于数据迁移的EPCR(Extended principal component regression)方法(出自Jaeckle CM,Macgregor JF.Product transfer between plants using historical process data[J].Aiche Journal,2000,46(10)),该方法通过结合两个相似过程的输出数据矩阵来建立EPCR模型,能够有效利用两个相似过程的数据信息对产品质量进行预测,然而,EPCR仅使用相似过程中的输出数据进行迁移,而忽略了对建模非常重要的输入数据中所包含的过程信息;随后,Salvador等人提出了一种新的用于数据迁移的JYPLS(Joint-Y partial leastsquares)方法(出自Salvador G M,Macgregor J F,Kourti T.Product transfer betweensites using Joint-Y PLS[J].Chemometrics&Intelligent Laboratory Systems,2005,79(1-2):101-114),该方法通过构建联合质量指标空间,利用所有相似过程的数据矩阵进行建模,而且JYPLS模型只要求相似过程具有相同的质量指标构成,对于输入变量矩阵没有任何限制;此外,针对JYPLS方法不适用于非线性较强的间歇过程,在该模型上引入核函数,提出了一种改进的过程迁移的JYKPLS(Joint-Y kernel partial least squares)方法(出自Chu F,Cheng X,Jia R,et al.Final quality prediction method for new batchprocesses based on improved JYKPLS process transfer model[J].Chemometrics andIntelligent Laboratory Systems,2018,183:1-10),并成功地应用于非线性新间歇过程的产品质量预测。最近,Luo等人提出了一种新的多过程数据分析的非参数方法(出自LuoL,Yao Y,Gao F,et al.Mixed-effects Gaussian process modeling approach withapplication in injection molding processes[J].Journal of Process Control,2018,62:37-43),其中每个过程被建模为固定效应和随机效应高斯过程(GP)回归模型的组合,即混合效应高斯过程(ME-GP)模型,该方法提供了一种灵活的方法来组合所有流程的公共方面,并描述不同流程之间的异构性,通过迁移建模的概率密度分布可以实现对多个过程的预测。
根据以上分析,使用迁移学习的数据驱动建模可以利用大量获得的知识和经验来解决当前的新问题,可以大大降低学习新任务的难度,具有广阔的应用前景;但是,上述基于迁移学习的数据驱动建模方法仅限于在默认情况下直接确定单个源域或多个源域进行迁移,没有明确分析影响迁移效果的具体因素,这在实际应用中也没有讨论迁移建模中不可避免的两个关键问题,即“何时迁移”和“如何迁移”,不恰当的迁移时间和迁移方法不仅不能促进学习任务的完成,还会带来“负迁移”的问题。
因此,目前的迁移学习方法存在着在数据驱动建模中效率低、多个源域可用数据资源浪费、数据和知识从源域到目标域迁移的效率低以及“负迁移”的问题。
发明内容
本发明的目的是提供一种基于相似度多源域迁移学习策略的间歇过程质量预测方法,在尽可能避免“负迁移”的同时,充分利用多个相似源域中旧流程的数据信息,减少数据资源的浪费,提高迁移学习的效率和灵活性,更好地协助并加速目标域中新过程的建模,从而提高质量预测的准确性;现场操作人员依据质量预测的结果,可以及时调整生产操作,实时优化间歇工业生产过程,保证产品的质量,提高企业的生产效率和综合经济效益。
为了实现上述目的,本发明提供一种基于相似度多源域迁移学习策略的间歇过程质量预测方法,对于目标域新过程T而言,存在多个与其相似的源域旧过程Si(i=1,2,...,M),它们的生产设备完全一样,但是内部参数的设置存在差异,目标域新过程T由于刚投入运行,生产数据很稀少;而多个源域旧过程由于投入生产时间早而拥有充足的数据,设间歇生产过程的三维输入数据矩阵和输出矩阵分别为X∈RI×J×K、Y∈RI×K,其中,I表示过程批次数,K表示采样时间,J表示过程变量数,具体方法包括以下步骤:
步骤1、数据采集:对于给定的目标域新过程T,基于过程相似度和先验知识找到与之相似的多个源域旧过程Si(i=1,2,...,M),采集目标域和源域各个过程的输入和输出数据;
步骤2、数据预处理:将多个源域旧过程Si(i=1,2,...,M)和目标域新过程T的三维输入数据按批次方向展开为二维数据矩阵,然后对所有过程的输入和输出数据进行标准化;
步骤3、相似度评估、计算以及源域样本量的统计:通过数据之间的欧式距离计算每个源域旧过程与目标域新过程的相似度,记录为θ1,θ2,...,θM,且θ∈(0,1),同时计算每个源域旧过程的样本数量,并记录为:N1,N2,...,NM;如公式(1)所示,
式中:Si为第i个源域旧过程;
T为目标域新过程;
d(Si,T)表示源域内的每个旧过程与目标域内的新进程之间的欧氏距离;
θi表示相似度;
步骤4、根据判别式
步骤5、选择迁移方法:根据判别式
如果
步骤6、根据步骤5所选择的迁移方法,对目标域新过程建立合适的多源迁移学习模型,开始一个新的批次并获得输入数据xnew,进而对新间歇过程的产品质量进行预测;
步骤7、新的批次运行结束后,获得实际质量指标ynew,并计算其和原始目标域数据之间的相似度θnew;
步骤8、根据判别式θnew>β,其中,β为预设常数,用来判断产生的新数据与原来的数据的偏差程度,初步确定是否需要同时更新目标域和迁移策略,如果θnew>β成立,则转到步骤9,否则执行步骤1;
步骤9、根据累计新生产的批次总数n是否满足判别式n>m,其中m为预设常数,再次确定目标域和迁移策略是否需要同时更新,如果n>m成立,则同时更新目标域和迁移策略,目标域更新公式如公式(2)所示,然后执行步骤1,否则转到步骤10;
式中:xnew和ynew代表新产生的新过程数据;
XT,old和YT,old代表目标域新过程已有的建模数据;
步骤10、首先,计算当前的最新质量预测误差δnew,最新质量预测误差
式中:(xSi,ySi)代表源域旧过程数据;
θ(xSi,ySi)代表新旧过程数据之间的相似度;
步骤11、模型更新后,对下一个新批次进行预测,然后转到步骤7,直到所有批次都被预测完毕,迁移结束。
与现有技术相比,本发明通过采集目标域和源域各个过程的输入和输出数据,将多个源域旧过程和目标域新过程T的三维输入数据按批次方向展开为二维数据矩阵,然后对所有过程的输入和输出数据进行标准化;并通过数据之间的欧式距离计算每个源域旧过程与目标域新过程的相似度,同时计算每个源域旧过程的样本数量,即确定了影响迁移效果的两个主要因素,然后,基于这两个主要影响因素给出了三个具体的选择和标准:拒绝迁移、择优单迁、多源集成迁移,在尽可能避免“负迁移”的同时,充分利用多个相似源域中旧流程的数据信息,减少数据资源的浪费,提高迁移学习的效率和灵活性,更好地协助并加速目标域中新过程的建模,从而提高质量预测的准确性;此外,对于多源集成迁移,提出了多源域迁移建模容纳性的概念,可以合理灵活地选择源域的数量进行迁移,进一步提高了数据的利用率;同时,本发明还提出利用在线数据更新预测模型和基于工作条件变化及时更新迁移策略以保证迁移学习策略的及时性和可靠性,由现场操作人员依据质量预测的结果,可以及时调整生产操作,实时优化间歇工业生产过程,保证产品的质量,提高企业的生产效率和综合经济效益。
附图说明
图1是本发明的方法流程图;
图2是本发明实施例中草酸钴的合成工艺示意图;
图3是新过程非迁移模型的预测结果与实际值的比较;
图4是单源域迁移模型的同一相似度下不同批次数量的预测结果与实际值的比较;
图5是多个源域迁移模型和单个源域迁移模型的预测值与实际值的比较。
具体实施方式
下面结合附图对本发明作进一步说明。
如图1所示,一种基于相似度多源域迁移学习策略的间歇过程质量预测方法,对于目标域新过程T而言,存在多个与其相似的源域旧过程Si(i=1,2,...,M),它们的生产设备完全一样,但是内部参数的设置存在差异,目标域新过程T由于刚投入运行,生产数据很稀少;而多个源域旧过程由于投入生产时间早而拥有充足的数据,设间歇生产过程的三维输入数据矩阵和输出矩阵分别为X∈RI×J×K、Y∈RI×K,其中,I表示过程批次数,K表示采样时间,J表示过程变量数,具体方法包括以下步骤:
步骤1、数据采集:对于给定的目标域新过程T,基于过程相似度和先验知识找到与之相似的多个源域旧过程Si(i=1,2,...,M),采集目标域和源域各个过程的输入和输出数据;
步骤2、数据预处理:将多个源域旧过程Si(i=1,2,...,M)和目标域新过程T的三维输入数据按批次方向展开为二维数据矩阵,然后对所有过程的输入和输出数据进行标准化;
步骤3、相似度评估、计算以及源域样本量的统计:通过数据之间的欧式距离计算每个源域旧过程与目标域新过程的相似度,记录为θ1,θ2,...,θM,且θ∈(0,1),同时计算每个源域旧过程的样本数量,并记录为:N1,N2,...,NM;如公式(1)所示,
式中:Si为第i个源域旧过程;
T为目标域新过程;
d(Si,T)表示源域内的每个旧过程与目标域内的新进程之间的欧氏距离;
θi表示相似度;
步骤4、根据判别式
步骤5、选择迁移方法:根据判别式
如果
步骤6、根据步骤5所选择的迁移方法,对目标域新过程建立合适的多源迁移学习模型,开始一个新的批次并获得输入数据xnew,进而对新间歇过程的产品质量进行预测;
步骤7、新的批次运行结束后,获得实际质量指标ynew,并计算其和原始目标域数据之间的相似度θnew;
步骤8、根据判别式θnew>β,其中,β为预设常数,用来判断产生的新数据与原来的数据的偏差程度,初步确定是否需要同时更新目标域和迁移策略,如果θnew>β成立,则转到步骤9,否则执行步骤1;
步骤9、根据累计新生产的批次总数n是否满足判别式n>m,其中m为预设常数,再次确定目标域和迁移策略是否需要同时更新,如果n>m成立,则同时更新目标域和迁移策略,目标域更新公式如公式(2)所示,然后执行步骤1,否则转到步骤10;
式中:xnew和ynew代表新产生的新过程数据;
XT,old和YT,old代表目标域新过程已有的建模数据;
步骤10、首先,计算当前的最新质量预测误差δnew,最新质量预测误差
式中:(xSi,ySi)代表源域旧过程数据;
θ(xSi,ySi)代表新旧过程数据之间的相似度;
步骤11、模型更新后,对下一个新批次进行预测,然后转到步骤7,直到所有批次都被预测完毕,迁移结束。
建立多源迁移学习模型具体为:
假设有M个相似过程,其中某个m过程的数据都可以如下表示,
式中:Nm代表第m个过程的数据样本;
第m个过程的响应由如下的混合效应高斯过程模型给出:
ε~N(0,σ2)
响应由固定效应
式中:
δmn是克罗内克函数,如果m=n,则δmn=1,否则δmn=0;
所有类似过程的数据都可以用集合的形式如下表示:
式中:
混合效应高斯过程(ME-GP)模型可以实现对任意过程新测试点的预测,给出一个q过程的新的测试点
训练数据包括其他相似过程的所有数据和q过程的数据,对于过程q,在高斯分布的假设下,由输出值组成的联合高斯分布
式中:
输出值的后验概率分布
通过利用来自所有过程的信息,可提高预测性能;
式中:
首先,求负对数似然函数参数的偏导数
Nq表示第q个过程数据的样本量,如果q是一个新过程,一般包含一个特别小的样本量,难以精准建模。这样,通过迁移学习,我们可以使用更少的新过程数据来提高预测性能。这再次证明了混合效应高斯过程模型(ME-GP)方法的优越性,它不仅高效,而且具有成本效益。
实施例
以下为草酸钴合成工艺的具体实施例:
草酸钴的合成工艺也是典型的间歇生产工艺,为了能够及时掌握产品的质量,以本发明的方法对草酸钴的合成工艺进行质量预测;利用草酸钴合成过程的机理模型来代替实际生产过程,为数据模型提供合理的建模数据,并在仿真过程中利用机理模型来代替实际生产过程,因此,有必要对草酸钴的生产过程进行机理分析,在其合成过程中,为了获得所需的草酸钴晶体,草酸铵与氯化钴在溶液中的化学反应是最重要的步骤,其液相反应方程为:
CoCl2+(NH4)2C2O4→CoC2O4↓+2NH4Cl
一般来说,由于草酸钴的结晶过程比较复杂,使用纯粹的批次处理操作容易导致反应失控,所以一般采用补料分批处理方法;如图2所示,草酸钴生产的合成过程主要包括草酸铵的溶解、草酸钴的干燥以及结晶两个过程;首先,将纯水放入草酸铵溶解釜中,然后在其中加入一定量的固体草酸,并加热至固体草酸完全溶解,然后将氨气加入到含有草酸溶液的溶解釜中,再加热到一定温度形成草酸铵溶液;下一步,将固定浓度和体积的氯化钴溶液放入草酸钴结晶反应器中,并用蒸汽加热到合适的反应温度,以一定的速率通过草酸铵溶液,然后继续经过一段时间,直到反应结束,得到草酸铵悬浮液,悬浮液进入压滤机进行三次加压过滤,三次洗涤,最后烘干得到成品草酸钴;在操作过程中,PI控制器使反应温度保持恒定,反应釜的搅拌速率一般保持恒定。
本发明利用草酸钴结晶过程的机理模型,生成源域过程和目标域过程的数据,即用相同的动力学方程和相似但不同的参数模拟草酸钴合成的多个过程,从而构建多个相似的生产流程;从这些多个过程中,选择过程T作为目标域新过程,其余的相似过程S表示为多个源域旧过程;为了实现这一目标,通过改变与工作环境、工艺水平相对应的仿真参数来实现;通过对草酸钴生产过程的深入分析并考虑现场的实际生产过程,可选取6个过程变量来用于草酸钴的质量预测;这6个过程变量分别是:反应温度、搅拌速率、草酸铵浓度、氯化钴浓度、氯化钴的初始体积、1个输出变量是草酸钴粒度大小;各参数与变量如表1所示:
表1生产过程参数变量
1)模拟过程数据的获取
利用MATLAB软件对不同操作条件下草酸钴生产过程的反应温度、搅拌速率、草酸铵流速、草酸铵浓度、氯化钴浓度以及氯化钴的初始体积等进行仿真,建立机理模型以产生各个过程的数据,根据仿真参数设置,在目标域中随机生成4个批次的过程数据作为新过程T的建模数据集,生成40个批次的过程数据作为新过程T的测试数据集;在多个源域S中,每个过程随机生成100个批次的旧过程数据作为旧过程数据集;对于源域的每个旧过程,将通过机理模型获得的数据进行划分。首先,随机选择10个批次的数据,然后从其余数据中随机选择20个批次数据进行累积,最后,构建了具有不同批次数据量的五个数据集,包括10个批次,30个批次,50个批次,70个批次和90个批次,通过将每个源域中的旧过程的五种数据集和目标域中新过程生成的4个批次数据作为训练集,来建立混合效应高斯过程模型,将之前目标域生成的40个批次的新过程数据作为测试集,进行预测性能的比较;首先,在一定相似度的条件下,优先验证迁移数据量对预测效果的影响,然后,验证源域旧过程和目标域新过程之间的相似度在迁移数据量一定的情况下对预测效果的影响。
2)单源域迁移建模与质量预测结果
为了验证多源域迁移学习策略的有效性,我们先进行了针对单源域迁移学习的预测,探究了源域过程数据量以及源域旧过程与目标域新过程的相似度大小对迁移效果的影响。
为了研究源域内迁移数据量对预测效果的影响,将某个源域固定,以相似度为0.82的S2源域的旧过程数据为例进行迁移建模,以10批和90批的预测值和实测值的比较结果为代表,具体如图4所示,从图3和图4的对比中可以看出,采用从相似的旧过程中迁移数据进行建模的方法,可以有效辅助和加快新过程的建模。从图4可以看出,在一定的相似度下,迁移的数据量对预测效果有较大的影响,迁移90个批次的预测结果明显优于迁移10个批次的预测结果。同理,也验证了相似度对预测效果的影响,在迁移数据量一定的情况下,相似度对预测效果的影响较大,迁移相似度高的旧过程的预测结果明显优于迁移相似度低的旧过程的结果。为了更好地研究单源域迁移模型的预测效果与多个待迁移源域中旧过程的数据量和相似性之间的关系,对每个源域中不同批次旧过程的数据进行了迁移建模,并给出了相应的预测结果并得到均方根误差,结果显示,待迁移源域的批次数和相似度与预测精度呈正相关,但随着数据量的不断增加,建模数据趋于饱和,当数据量达到一定阈值时,预测精度的提高往往不显著。此外,当源域的旧过程数据与目标域的新过程数据之间的相似性低于一定阈值时,转移建模的预测精度将低于非转移建模的预测精度,这将导致“负转移”。
3)多源域迁移建模与质量预测结果
基于两大影响因素对预测效果的影响,本发明进一步验证了在一定条件下多源域迁移的可行性和有效性,即当与目标域相似度最高的源域中的旧过程数据量不足,且存在与目标域相似度较高的源域过程数据时,考虑是否迁移多个源域以及如何迁移。
如图5所示,本发明选取源域内与目标域新过程相似度为0.91和0.82的10个批次的旧过程数据作为多源域迁移建模做质量预测的代表,单源迁移模型预测值和多源迁移模型预测值与实际值的比较如图1所示,多源域转移建模方法可以提高模型预测的准确性,为了进一步研究多源域迁移建模的适用性,又选取与目标域新过程相似度分别为0.91、0.82、0.68的三个旧过程,进行多源域转移与单源域转移的对比实验。对不同源域的不同批次数据量进行迁移建模,结果验证了所提策略的有效性,即综合考虑两大影响因素进行适当的多源迁移建模将能够进一步提高质量预测的精度。
4)模型更新和旧过程数据的剔除
随着生产过程不断进行,新过程数据不断累积,需要进行模型更新和迁移策略的更新,此外,由于新旧过程的差异,使用的旧过程的建模数据可能影响预测效果。由于相似过程之间必然存在差异性,随着新过程数据增加到一定程度,需要逐渐剔除与新过程差异较大的源域旧过程数据以保证预测精度的进一步提高。
通过仿真结果可以看出,本发明策略可以更加高效地对实际新生产过程中难以实时测量的产品质量指标进行在线预测,能够在尽量避免“负迁移”的前提下合理有效地利用多个源域的旧过程数据信息辅助新过程的建模,既解决了数据资源利用率低和迁移效率低的问题,又很好地解决了草酸钴生产过程初期数据量较少、难以精准建模的问题。利用该方法进行草酸钴产品质量的预测,大大加快了离线建模的速度,而且随着新生产批次数目的不断增加,又会利用新产生的过程数据进行模型更新,同时逐渐剔除掉旧过程数据中相似度最小的干扰数据,从而不断提高预测模型的精度,实现更好地预测效果;依据产品质量预测值,操作人员可以及时调整生产规划,优化生产过程,提高生产效率,因此该策略具有重要的实际意义。