欢迎光临小豌豆知识网!
当前位置:首页 > 物理技术 > 调节控制> 一种基于词频与逆文档频率的工控系统异常诊断信息识别方法独创技术16106字

一种基于词频与逆文档频率的工控系统异常诊断信息识别方法

2021-04-02 12:50:30

一种基于词频与逆文档频率的工控系统异常诊断信息识别方法

  技术领域

  本发明涉及工控系统异常诊断技术领域,具体地,涉及一种基于词频与逆文档频率的工控系统异常诊断信息识别方法。

  背景技术

  目前,部分工控系统基于远程管理实现运维,不提供屏幕、按键等本地操作界面供现场运维人员交互,必须使用调试电脑接入,以调试软件/浏览器等方式与装置互动,以查看、分析系统问题。一旦出现通道或装置异常事件,现场运维人员只能根据其他业务系统的通道中断告警、远程监控中心(如各级调度主站等)的运维人员反馈获悉,然后使用调试电脑接入工控系统检查、分析异常原因并处理。如果远程监控未注意到异常,则只能等现场运维人员定期运维、配置备份时才能发现,故障处理普遍滞后不及时。由于工控系统的异常存在随机性,人工定期查看分析难以抓住异常瞬间的详细信息,因此随着时间推移,其异常分析的质量越低。

  发明内容

  针对现有技术的不足,本发明提供一种基于词频与逆文档频率的工控系统异常诊断信息识别方法,解决现有技术中工控系统异常分析质量低下的问题。

  本发明公开的一种基于词频与逆文档频率的工控系统异常诊断信息识别方法,包括以下步骤:

  步骤1:建立诊断命令的响应语料库:向被测系统发送诊断命令N次,将获得的N份回显报文按时间顺序排列,作为诊断命令的响应语料库;

  步骤2:再次向被测系统发送诊断命令,获得第N+1份回显报文,将所述第N+1份回显报文添加至步骤1建立的诊断命令语料库的最后;

  步骤3:对N+1份回显报文进行过滤停用词、分词处理;

  步骤4:利用利用TF-IDF词频与逆文档频率算法,计算N+1份回显报文中每组文本列表中每个词的逆文档频率IDF;

  步骤5:设置最低逆文档频率阈值IDFmin,步骤4中计算的每组文本列表的词的逆文档频率IDF若小于等于IDFmin值,则予以删除;

  步骤6:将步骤5完成过滤的N+1份回显报文的文本列表向量化:提取出N+1组文本列表内的所有词组,去除重复后获得长度为M的词组表V,其中M等于完成去除重复过滤的词组总数,V代表完成过滤的N+1组文本列表内出现的所有词组,然后将完成过滤的N+1组文本列表按V中词汇的排序对文本列表的词重新排序,然后词组转换为向量,向量大小为该词在其所在回显报文中出现的次数,并计算出词频值

  步骤7:设置词频阈值tfmax,将步骤6计算出来的词频值值与设置的词频阈值tfmax进行比较,若则识别为异常报文,并输出告警信息。

  根据本发明的一实施方式,步骤1中的诊断命令发送时间间隔为T,T的取值范围根据诊断命令返回结果可能发生变化的时间范围而定,在系统资源不会突变的情况下T的取值范围为1~30天;在网络通道随时可能中断的情况下T的取值范围为1s~24h。

  根据本发明的一实施方式,步骤3中停用词包括日期和时间。

  根据本发明的一实施方式,日期格式为yyy-mm-dd,时间格式为hh:mm:ss、h:mm。

  根据本发明的一实施方式,步骤3中分词处理具体为:以空格作为分隔符,将N+1组命令回显分割成若干词组,组成N+1组一维文本列表。

  根据本发明的一实施方式,步骤4中IDF的计算公式为:

  根据本发明的一实施方式,步骤5中IDFmin≥1。

  根据本发明的一实施方式,步骤6中,词频值的计算方法为:提取出N+1组文本列表内的所有词组,去除重复后获得长度为M的词组表V,其中M等于完成去除重复过滤的词组总数,V代表完成过滤的N+1组文本列表内出现的所有词组,然后将完成过滤的N+1组文本列表按V中词汇的排序对文本列表的词重新排序,然后词组转换为向量,向量大小为该词在其所在回显报文中出现的次数,将获得(N+1)x(M)矩阵A,设aij为矩阵A第i行j列的元素,则对于第N+1组文本列表内每个元素a(N+1)j,其词频定义为:

  

  根据本发明的一实施方式,步骤7中的tfmax的取值范围为0.2~0.5。

  本发明能够实现的有益效果是:

  1.本发明一种基于词频与逆文档频率的工控系统异常诊断信息识别方法,通过词频与逆文档频率算法用于工控系统诊断信息识别,实现自动挖掘出每条诊断命令回显信息中的关键信息,例如其中的数值异常变化、告警内容的突然产生等等,不需要人工为每条诊断命令回显信息定义其中的关键内容以及信息异常与否的判据,通过足够多的采集样本,计算样本间每个词、数字的逆文档频率,能自动筛选出其中不重要的信息(例如描述性文字),而剩下能判断系统异常的变量型信息(例如CPU负载、平时不常出现的告警信息等)。然后通过词频计算,判断这些变量型信息在样本中出现的频度,对于频度很低的鲜有出现的变量(例如CPU负载突然异常高、出现了平时不常出现的告警信息等),则予以告警,提示运维人员及时关注。

  2.本发明的算法可通过自学习的方式定义每条诊断命令回显信息的健康度,可大幅度降低自动化监测工控系统的人工开发成本,同时与被监测系统特征无关的分析方法可轻易移植到不同业务系统的运行状态监测工作中去,适应性强,能有效解放人力,提高事件判断及时性,提高运维效率。

  附图说明

  此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:

  图1为本发明一种基于词频与逆文档频率的工控系统异常诊断信息识别方法的算法流程图;

  图2为本发明一种基于词频与逆文档频率的工控系统异常诊断信息识别方法实施例中的N份回显报文的示意图;

  图3为本发明一种基于词频与逆文档频率的工控系统异常诊断信息识别方法实施例中的N+1份回显报文的示意图。

  具体实施方式

  以下将以图式揭露本发明的多个实施方式,为明确说明起见,许多实务上的细节将在以下叙述中一并说明。然而,应了解到,这些实务上的细节不应用以限制本发明。也就是说,在本发明的部分实施方式中,这些实务上的细节是非必要的。此外,为简化图式起见,一些习知惯用的结构与组件在图式中将以简单的示意的方式绘示之。

  另外,在本发明中如涉及“第一”、“第二”等的描述仅用于描述目的,并非特别指称次序或顺位的意思,亦非用以限定本发明,其仅仅是为了区别以相同技术用语描述的组件或操作而已,而不能理解为指示或暗示其相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。另外,各个实施例之间的技术方案可以相互结合,但是必须是以本领域普通技术人员能够实现为基础,当技术方案的结合出现相互矛盾或无法实现时应当认为这种技术方案的结合不存在,也不在本发明要求的保护范围之内。

  本发明公开的一种基于词频与逆文档频率的工控系统异常诊断信息识别方法,算法流程如图1所示,包括以下步骤:

  步骤1:建立诊断命令的响应语料库:按时间间隔T,向被测系统发送诊断命令N次,将获得的N份回显报文按时间顺序排列成如图2所示的语料库,作为诊断命令的响应语料库;

  步骤2:再次向被测系统发送诊断命令,获得第N+1份回显报文,将所述第N+1份回显报文添加至步骤1建立的诊断命令响应语料库的最后,排列后的效果如图3所示;

  步骤3:对N+1份回显报文进行过滤停用词、分词处理,停用词包括日期格式yyy-mm-dd,时间格式hh:mm:ss、h:mm,再进行分词处理:以空格作为分隔符,将N+1组命令回显分割成若干词组,组成N+1组一维文本列表;

  步骤4:利用利用TF-IDF词频与逆文档频率算法,计算N+1份回显报文中每组文本列表中每个词的逆文档频率IDF,IDF的计算公式为:

  步骤5:设置最低逆文档频率阈值IDFmin,步骤4中计算的每组文本列表的词的逆文档频率IDF若小于等于IDFmin值,则予以删除;

  步骤6:将步骤5完成过滤的N+1份回显报文的文本列表向量化:提取出N+1组文本列表内的所有词组,去除重复后获得长度为M的词组表V,其中M等于完成去除重复过滤的词组总数,V代表完成过滤的N+1组文本列表内出现的所有词组,然后将完成过滤的N+1组文本列表按V中词汇的排序对文本列表的词重新排序,然后词组转换为向量,向量大小为该词在其所在回显报文中出现的次数,将获得(N+1)x(M)矩阵A,设aij为矩阵A第i行j列的元素,则对于第N+1组文本列表内每个元素a(N+1)j,其词频定义为:

  

  步骤7:设置词频阈值tfmax,将步骤6计算出来的词频值值与设置的词频阈值tfmax进行比较,若则识别为异常报文,并输出告警信息。

  实施例一

  以±800kV普洱换流站的纵向加密装置为例进行说明:

  设某次向纵向加密装置发送top诊断命令后被测系统的回显报文为:

  top-18:29:33up 2:26,1user,load average:0.00,0.03,0.06

  Tasks:0total,0running,0sleeping,0stopped,0zombie

  %Cpu(s):20.0us,0.0sy,0.0ni,80.0id,0.0wa,0.0hi,0.0si,0.0st

  MiB Mem:987.4total,91.3free,642.2used,253.8buff/cache

  MiB Swap:1022.0total,776.4free,245.6used.185.3avail Mem

  步骤1:按时间间隔T=5秒向被测系统发送该诊断命令N次,为该诊断命令获得N份回显报文,将其按时间顺序排列作为该命令的语料库,回显报文中将同时包含无意义信息和有意义信息。无意义信息如日期和时间、注释等,有意义信息包括能反映被测系统状态的信息,如CPU占用率、内存占用率、告警提示等等。

  步骤2:获取诊断命令的语料库完成后,当再次向被测系统发送该诊断命令并获得第N+1份回显信息,并将该回显报文添加至语料库最后。

  步骤3:对N+1份文本进行过滤停用词处理:停用词包括日期格式yyy-mm-dd、时间格式hh:mm:ss、h:mm,例如18:29:33、2:26将被过滤;对该N+1份文本进行分词处理:以空格作为分隔符,将N+1组命令回显分割成若干词组,组成N+1组一维文本列表:

  [top,up,1,user,load,average,0.00,0.03,0.06,Tasks……]。

  步骤4:应用词频算法计算这N+1组回显报文中每组文本列表每个词的逆文档频率IDF:其中单词top在N+1份文本中都存在,则其

  步骤5:设置最低逆文档频率阈值IDFmin=1.0,每组文本列表的词的逆文档频率若小于等于该阈值则予以删除,该处理可过滤掉命令回显内的无意义信息,注释词组像“Tasks”、“top”、“user”、“load”、“average”等词毫无意义,其出现于N+1份文本内,逆文档频率小于1.0,将被过滤。

  步骤6:将完成过滤的N+1组文本列表向量化:提取出N+1组文本列表内的所有词组,去除重复后获得长度为M的词组表V:[“0.00”,”0.03”,”0.06”,……],其中M等于完成去除重复过滤的词组总数,V代表完成过滤的N+1组文本列表内出现的所有词组,然后将完成过滤的N+1组文本列表按V中词汇的排序对文本列表的词重新排序,然后词组转换为向量:某组文本列表含有“0.00”1次,含有“0.03”0次,含有“0.06”3次,则其向量化为[1,0,3,……],向量在列表中的位置与该向量所代表的词组在词组列表V中的位置一致。

  处理结束后,将获得(N+1)x(M)矩阵A,设aij为矩阵A第i行j列的元素,则对于第N+1组文本列表内每个元素a(N+1)j,其词频定义为:

  

  向量化后N+1组矩阵的结果如下表1所示:

  所以有:

  每列的和:4 0 1 5

  第N+1行元素的tf:0.2 0 0.5 0.166667

  步骤7:设置词频阈值tfmax=0.5,当第N+1组文本列表内任意向量元素的词频即认为出现了异常报文,算法将输出告警信息,提醒运维人员注意。

  实施例二

  以±800kV昆北换流站的纵向加密装置为例进行说明:

  步骤1:向纵向加密认证装置以T=10秒为一个周期发送top诊断命令,获得4份回显报文,如表2所示:

  

  

  步骤2:再次向纵向加密认证装置发送该诊断命令并获得第5份回显报文,如表3所示:

  

  

  步骤3:对语料库内的5份回显报文进行统一格式的文本过滤停用词处理,处理后语料库内容如表4所示,删除了时间相关无用信息:

  

  

  对语料库内的所有回显报文进行统一格式的文本分词处理:以空格作为分隔符,将N+1组命令回显变成N+1组一维文本列表,处理后语料库内容如

  表5所示:

  

  

  步骤4:应用词频算法计算这N+1组回显报文中每组文本列表每个词的逆文档频率IDF,

  将已经过滤停用词并完成分词后的语料库进行IDF计算,以计算第1条回显报文第1、2、7个词为例,结果如表6所示:

  

  步骤5:设置最低逆文档频率阈值IDFmin=0.1,若IDF值低于0.1,则判定该回显信息为过频信息,由表6可得,top和up为非重要回显信息,予以过滤,0.00为重要回显信息,予以保留,完成所有回显信息的IDF计算后,语料库更新如表7所示:

  对语料库进行去重处理,生成重要回显信息列表,处理结果如表8所示,显示语料库内所有重要信息的不重复集合:

  

  将步骤5完成过滤的N+1份回显报文的文本列表向量化:提取出N+1组文本列表内的所有词组,去除重复后获得长度为M的词组表V,其中M等于完成去除重复过滤的词组总数,V代表完成过滤的N+1组文本列表内出现的所有词组,然后将完成过滤的N+1组文本列表按V中词汇的排序对文本列表的词重新排序,然后词组转换为向量,向量大小为该词在其所在回显报文中出现的次数,转换结果如表9所示:。

  用计算公式对5次回显报文进行TF词频计算:计算结果如表10所示:

  

  步骤7:设置词频阈值tfmax=0.5,根据回显信息TF词频表,与算法设计定值进行比较,若某报文有回显信息TF值大于等于此定值,则判断该回显报文内存在异常回显信息,若全小于此定值,则判断该回显报文为正常报文,最终结果如表10所示:

  

  由此得知,5号报文内7、8、9号回显信息体存在异常,该报文为异常报文,发出报警。

  上所述仅为本发明的实施方式而已,并不用于限制本发明。对于本领域技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原理的内所作的任何修改、等同替换、改进等,均应包括在本发明的权利要求范围之内。

《一种基于词频与逆文档频率的工控系统异常诊断信息识别方法.doc》
将本文的Word文档下载到电脑,方便收藏和打印
推荐度:
点击下载文档

文档为doc格式(或pdf格式)