欢迎光临小豌豆知识网!
当前位置:首页 > 电学技术 > 电通讯技术> 一种故障检测方法、装置、设备及机器可读存储介质独创技术20367字

一种故障检测方法、装置、设备及机器可读存储介质

2021-03-15 17:21:30

一种故障检测方法、装置、设备及机器可读存储介质

  技术领域

  本公开涉及通信技术领域,尤其是涉及一种故障检测方法、装置、设备及机器可读存储介质。

  背景技术

  在检查LC单板(线卡板,报文处理单板)到LC单板的转发路径上链路是否畅通时,使用一种业务检测的方法,从源端发报文到目的端,目的端基于接收到的报文判断转发链路是否畅通,从而检测出此源到目的的一整条链路是否畅通,但这样只知道整条链路是否畅通,当链路不通时,无法定位具体哪段链路上出现问题,对维护定位不方便。

  发明内容

  有鉴于此,本公开提供一种故障检测方法、装置及电子设备、机器可读存储介质,以改善上述无法定位链路故障位置难以维护的问题。

  具体地技术方案如下:

  本公开提供了一种故障检测方法,应用于链路节点设备,所述方法包括:获取对端链路节点设备发送至本地链路节点设备的检测报文的发送计划;比较实际接收到的检测报文与所述发送计划,若不符,则生成链路故障信息;将链路故障信息发送至主控所述链路节点设备的主控单元。

  作为一种技术方案,所述对端链路节点设备发送至本地的检测报文的发送计划,包括:与本地链路节点设备连接的对端链路节点设备按照预设规律发送检测报文。

  作为一种技术方案,所述比较实际接收到的检测报文与所述发送计划,若不符,则生成链路故障信息,包括:根据发送计划,获取最近N个统计周期中,各周期内应当接收到的检测报文数量阈值;获取最近N个统计周期中,各周期内实际接收到的检测报文数量;若最近N个统计周期中,有M个统计周期内实际接收到的检测报文数量小于对应的所述应当接收到的检测报文数量阈值,则认为实际接收到的检测报文与所述发送计划不符。

  作为一种技术方案,所述比较实际接收到的检测报文与所述发送计划,若不符,则生成链路故障信息,包括:生成包括源节点信息和目的节点信息的链路故障信息;所述源节点信息包括源节点槽位信息和/或源节点芯片信息和/或源节点端口信息;所述源节点信息包括目的节点槽位信息和/或目的节点芯片信息和/或目的节点端口信息。

  本公开同时提供了一种故障检测装置,应用于链路节点设备,所述方法包括:计划模块,用于获取对端链路节点设备发送至本地链路节点设备的检测报文的发送计划;检测模块,用于比较实际接收到的检测报文与所述发送计划,若不符,则生成链路故障信息;汇报模块,用于将链路故障信息发送至主控所述链路节点设备的主控单元。

  作为一种技术方案,所述对端链路节点设备发送至本地的检测报文的发送计划,包括:与本地链路节点设备连接的对端链路节点设备按照预设规律发送检测报文。

  作为一种技术方案,所述比较实际接收到的检测报文与所述发送计划,若不符,则生成链路故障信息,包括:根据发送计划,获取最近N个统计周期中,各周期内应当接收到的检测报文数量阈值;获取最近N个统计周期中,各周期内实际接收到的检测报文数量;若最近N个统计周期中,有M个统计周期内实际接收到的检测报文数量小于对应的所述应当接收到的检测报文数量阈值,则认为实际接收到的检测报文与所述发送计划不符。

  作为一种技术方案,所述比较实际接收到的检测报文与所述发送计划,若不符,则生成链路故障信息,包括:生成包括源节点信息和目的节点信息的链路故障信息;所述源节点信息包括源节点槽位信息和/或源节点芯片信息和/或源节点端口信息;所述源节点信息包括目的节点槽位信息和/或目的节点芯片信息和/或目的节点端口信息。

  本公开同时提供了一种电子设备,包括处理器和机器可读存储介质,所述机器可读存储介质存储有能够被所述处理器执行的机器可执行指令,处理器执行所述机器可执行指令以实现前述的故障检测方法。

  本公开同时提供了一种机器可读存储介质,所述机器可读存储介质存储有机器可执行指令,所述机器可执行指令在被处理器调用和执行时,所述机器可执行指令促使所述处理器实现前述的故障检测方法。

  本公开提供的上述技术方案至少带来了以下有益效果:

  比较本地收到的检测报文与应当收到的检测报文,若没有收到满足条件的检测报文,则可以认为到达本地的链路出现的故障,通过专用的通道将故障信息上报至主控单元,以使主控单元根据汇总的故障信息判断得到出现故障的链路节点。

  附图说明

  为了更加清楚地说明本公开实施方式或者现有技术中的技术方案,下面将对本公开实施方式或者现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本公开中记载的一些实施方式,对于本领域普通技术人员来讲,还可以根据本公开实施方式的这些附图获得其他的附图。

  图1是本公开一种实施方式中的故障检测方法的流程图;

  图2是本公开一种实施方式中的故障检测装置的结构图;

  图3是本公开一种实施方式中的电子设备的硬件结构图。

  具体实施方式

  在本公开实施方式使用的术语仅仅是出于描述特定实施方式的目的,而非限制本公开。本公开和权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其它含义。还应当理解,本文中使用的术语“和/或”是指包含一个或多个相关联的列出项目的任何或所有可能组合。

  应当理解,尽管在本公开实施方式可能采用术语第一、第二、第三等来描述各种信息,但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如,在不脱离本公开范围的情况下,第一信息也可以被称为第二信息,类似地,第二信息也可以被称为第一信息。取决于语境,此外,所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。

  本公开提供一种故障检测方法、装置及电子设备、机器可读存储介质,以改善上述无法在BRAS设备统计用户数量的问题。

  具体地技术方案如后述。

  在一种实施方式中,本公开提供了一种故障检测方法,应用于链路节点设备,所述方法包括:获取对端链路节点设备发送至本地链路节点设备的检测报文的发送计划;比较实际接收到的检测报文与所述发送计划,若不符,则生成链路故障信息;将链路故障信息发送至主控所述链路节点设备的主控单元。

  具体地,如图1,包括以下步骤:

  步骤S11,获取对端链路节点设备发送至本地链路节点设备的检测报文的发送计划;

  步骤S12,比较实际接收到的检测报文与所述发送计划,若不符,则生成链路故障信息;

  步骤S13,将链路故障信息发送至主控所述链路节点设备的主控单元。

  比较本地收到的检测报文与应当收到的检测报文,若没有收到满足条件的检测报文,则可以认为到达本地的链路出现的故障,通过专用的通道将故障信息上报至主控单元,以使主控单元根据汇总的故障信息判断得到出现故障的链路节点。

  当某一段链路发生故障后,整条链路在该段链路后的链路节点设备均无法正常收到检测报文,固均会通过专用通道向主控单元上报故障信息,主控单元根据汇总的故障信息,分析哪些链路节点设备上报了故障信息,哪些链路节点设备没有上报故障信息,同时结合故障信息的数量,可以准确得到发生故障的位置,为维护定位提供信息。

  在一种实施方式中,所述对端链路节点设备发送至本地的检测报文的发送计划,包括:与本地链路节点设备连接的对端链路节点设备按照预设规律发送检测报文。

  例如,按照设定的周期频率发送检测报文,从而使本地链路节点设备可以准确分析检测报文的接收情况。

  在一种实施方式中,所述比较实际接收到的检测报文与所述发送计划,若不符,则生成链路故障信息,包括:根据发送计划,获取最近N个统计周期中,各周期内应当接收到的检测报文数量阈值;获取最近N个统计周期中,各周期内实际接收到的检测报文数量;若最近N个统计周期中,有M个统计周期内实际接收到的检测报文数量小于对应的所述应当接收到的检测报文数量阈值,则认为实际接收到的检测报文与所述发送计划不符。

  为了减少误报情况,以划窗的方式判断本地链路节点设备是否应当上报故障信息。示例性地,例如以1秒为一个统计周期,N取6,在最近6个周期内,M取6,阈值取1,如果6个周期均未收到任何检测报文,则认为本地链路节点设备应当上报故障信息,在其他实施方式中,M、N、阈值、统计周期均可以根据实际需要选择适当的取值。

  在一种实施方式中,所述比较实际接收到的检测报文与所述发送计划,若不符,则生成链路故障信息,包括:生成包括源节点信息和目的节点信息的链路故障信息;所述源节点信息包括源节点槽位信息和/或源节点芯片信息和/或源节点端口信息;所述源节点信息包括目的节点槽位信息和/或目的节点芯片信息和/或目的节点端口信息。

  例如,业务检测报文依照以下链路路径转发,从CPU0至LC0至SFC0至LC1 Fabric至LC1 Chip0至CPU1,其中CPU0和CPU1是链路两端的CPU,分别为源CPU和目的CPU,SFC0为网板即报文交换单板,LC0、LC1 Fabric、LC1 Chip0分别为线卡板及关联的芯片或节点。

  依照原有技术方案,报文在该条链路上被丢弃后,在CPU1上只会检测到整条链路不通,不知道具体是哪段上丢的报文。

  本实施方式中,CPU0侧发送的报文格式如表1,其中在各芯片上转发时基于交换网头字段里面的目的设备进行单播转发。如到LC1 Chip0时,目的设备为DEVID1。

  DMAC为目的MAC地址,SMAC为源MAC地址,Ether type为报文类型,Srcslot为源节点槽位信息,Srcchip为源节点芯片信息,SrcPort为源节点端口信息,Dstslot为目的节点槽位信息,Dstchip为目的节点芯片信息,DstPort为目的节点端口信息。

  

  表1

  如在SFC0转发芯片上,当接收到此报文后,判断里面的Ether type是否为0xdeff,如果不是按正常报文处理。如果是,表示这个报文是业务检测报文,取里面的Srcslot、Srcchip、SrcPort,以每个槽位2个转发芯片、每个芯片24个端口为例进行计算,该取值根据实际应用环境调整。(((Srcslot*2)+Srcchip)*24)+SrcPort获取到计数器watchdog的偏移地址addr。再对此addr对应的watchdog计数器累加。以此完成对本地收到的检测报文的监测和记录。

  watchdog计数器设置Event Threshold(所述阈值的取值)、Min Threshold(所述M的取值),每个周期扫描到的报文变化数与Event Threshold比较,若报文变化数不小于Event Threshold,认为此周期是正常周期,否则则认为是非正常周期,统计N个周期内非正常周期的个数,若非正常周期数大于等于Min Threshold,则触发中断并上报故障信息,上报时带上对应watchdog的地址值addr,这样接收到故障信息的主控单元就知道未正常收到检测报文的位置。

  LC0至SFC0这段如果不通,上报的故障信息包括LC0对应的槽位编号、芯片编号和SFC0对应的槽位编号、芯片编号。

  SFC0至LC1 Fabric这段如果不通,上报的故障信息包括SFC0对应的槽位编号、芯片编号和LC1 Fabric对应的槽位编号、芯片编号。

  LC1 Fabric至LC1 Chip0这段如果不通,上报的故障信息包括LC1 Fabric对应的槽位编号、芯片编号和LC1 Chip0对应的槽位编号、芯片编号。

  这样就能获取到检测报文经过的整个路径,但不上报整条路径,只上报涉及故障部分的本地链路节点设备及对端链路节点设备的信息。

  主控单元在综合分析时:

  如果汇总的信息得到的是LC0至SFC0至LC1 Fabric至LC1 Chip0和LC0至SFC0不通,故障节点数目最多的是LC0和SFC0,就可以确认是LC0至SFC0这段有故障。

  如果汇总的信息得到的是LC0至SFC0至LC1 Fabric至LC1 Chip0和SFC0至LC1Fabric不通,故障节点数目最多的是SFC0和LC1 Fabric,就可以确认是SFC0至LC1 Fabric这段有故障。

  如果汇总的信息得到的是LC0至SFC0至LC1 Fabric至LC1 Chip0和LC1 Fabric至LC1 Chip0不通,故障节点数目最多的是LC1 Fabric和LC1 Chip0,就可以确认是LC1Fabric至LC1 Chip0这段有故障。

  在一种实施方式中,本公开同时提供了一种故障检测装置,如图2,应用于链路节点设备,所述方法包括:计划模块21,用于获取对端链路节点设备发送至本地链路节点设备的检测报文的发送计划;检测模块22,用于比较实际接收到的检测报文与所述发送计划,若不符,则生成链路故障信息;汇报模块23,用于将链路故障信息发送至主控所述链路节点设备的主控单元。

  装置实施方式与方法实施方式相同或相似,在此不再赘述。

  在一种实施方式中,所述对端链路节点设备发送至本地的检测报文的发送计划,包括:与本地链路节点设备连接的对端链路节点设备按照预设规律发送检测报文。

  在一种实施方式中,所述比较实际接收到的检测报文与所述发送计划,若不符,则生成链路故障信息,包括:根据发送计划,获取最近N个统计周期中,各周期内应当接收到的检测报文数量阈值;获取最近N个统计周期中,各周期内实际接收到的检测报文数量;若最近N个统计周期中,有M个统计周期内实际接收到的检测报文数量小于对应的所述应当接收到的检测报文数量阈值,则认为实际接收到的检测报文与所述发送计划不符。

  在一种实施方式中,所述比较实际接收到的检测报文与所述发送计划,若不符,则生成链路故障信息,包括:生成包括源节点信息和目的节点信息的链路故障信息;所述源节点信息包括源节点槽位信息和/或源节点芯片信息和/或源节点端口信息;所述源节点信息包括目的节点槽位信息和/或目的节点芯片信息和/或目的节点端口信息。

  在一种实施方式中,本公开提供了一种电子设备,包括处理器和机器可读存储介质,所述机器可读存储介质存储有能够被所述处理器执行的机器可执行指令,处理器执行所述机器可执行指令以实现前述的故障检测方法,从硬件层面而言,硬件架构示意图可以参见图3示。

  在一种实施方式中,本公开提供了一种机器可读存储介质,所述机器可读存储介质存储有机器可执行指令,所述机器可执行指令在被处理器调用和执行时,所述机器可执行指令促使所述处理器实现前述的故障检测方法。

  这里,机器可读存储介质可以是任何电子、磁性、光学或其它物理存储装置,可以包含或存储信息,如可执行指令、数据,等等。例如,机器可读存储介质可以是:RAM(RadomAccess Memory,随机存取存储器)、易失存储器、非易失性存储器、闪存、存储驱动器(如硬盘驱动器)、固态硬盘、任何类型的存储盘(如光盘、dvd等),或者类似的存储介质,或者它们的组合。

  上述实施方式阐明的系统、装置、模块或单元,具体可以由计算机芯片或实体实现,或者由具有某种功能的产品来实现。一种典型的实现设备为计算机,计算机的具体形式可以是个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件收发设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任意几种设备的组合。

  为了描述的方便,描述以上装置时以功能分为各种单元分别描述。当然,在实施本公开时可以把各单元的功能在同一个或多个软件和/或硬件中实现。

  本领域内的技术人员应明白,本公开的实施方式可提供为方法、系统、或计算机程序产品。因此,本公开可采用完全硬件实施方式、完全软件实施方式、或结合软件和硬件方面的实施方式的形式。而且,本公开实施方式可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

  本公开是参照根据本公开实施方式的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可以由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其它可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其它可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

  而且,这些计算机程序指令也可以存储在能引导计算机或其它可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或者多个流程和/或方框图一个方框或者多个方框中指定的功能。

  这些计算机程序指令也可装载到计算机或其它可编程数据处理设备上,使得在计算机或者其它可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其它可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

  本领域技术人员应明白,本公开的实施方式可提供为方法、系统或计算机程序产品。因此,本公开可以采用完全硬件实施方式、完全软件实施方式、或者结合软件和硬件方面的实施方式的形式。而且,本公开可以采用在一个或者多个其中包含有计算机可用程序代码的计算机可用存储介质(可以包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

  以上所述仅为本公开的实施方式而已,并不用于限制本公开。对于本领域技术人员来说,本公开可以有各种更改和变化。凡在本公开的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本公开的权利要求范围之内。

《一种故障检测方法、装置、设备及机器可读存储介质.doc》
将本文的Word文档下载到电脑,方便收藏和打印
推荐度:
点击下载文档

文档为doc格式(或pdf格式)