欢迎光临小豌豆知识网!
当前位置:首页 > 电学技术 > 电通讯技术> 一种广播内容监测方法及系统独创技术30913字

一种广播内容监测方法及系统

2021-02-02 12:30:51

一种广播内容监测方法及系统

  技术领域

  本申请涉及广播监测技术领域,尤其涉及一种广播内容监测方法及系统。

  背景技术

  广播监测是针对广播信号进行实时监控,以发现广播信号在传播过程中是否存在违规现象。通常,违规现象包括以下两种,其一为广播内容违规,即通过广播信号散发的内容存在违规;其二为广播方式违规,即广播信号的传播方式存在违规,例如,黑广播频道、播出呼号不合规定等。为了及时发现广播信号存在的违规现象,需要广电部门进行7×24h的广播监测。

  无论是针对广播内容违规,还是广播方式违规,现有的广播监测技术,主要依赖人工监听。例如,对于黑广播监测,是通过对监测区域内的电信号进行频谱扫描,获得频谱扫描结果,再通过人工比对的方式,将频谱扫描结果与合法频道进行比对,进而发现疑似黑广播频道,最后根据人工收听疑似黑广播频道播出的内容,判定该频道是否属于黑广播。可见,依赖于人工的黑广播监测方式,存在监测效率低,监测不及时等问题。

  为了及时监测黑广播现象,还可以通过频谱扫描结果,通过预设的软件程序自动与合法频道进行对比,以提高监测效率。但上述方法对于已知合法频道播出的内容是否存在违规现象也无法进行准确的判断。例如,对已知合法频道的呼号播出异常、插播、误播的监测,仍然需要采用人工核查历史录音,发现是否正常播出呼号的方式。这种人工筛选方式,不仅工作量大,而且覆盖数据不完全,无法进行全面的巡检和高效准确的判别,因此,仍然存在效率低、监测不及时等问题。

  发明内容

  本申请提供了一种广播内容监测方法及系统,以解决传统监测方法存在监测效率低、监测不及时的问题。

  一方面,本申请提供一种广播内容监测方法,包括:

  对监测点设备接收的广播信号进行实时频谱扫描,生成频道集;

  根据频道白名单对所述频道集筛选出未知频道,以及按照预设时间间隔获取所述未知频道的出现次数;

  对出现次数大于或等于判断阈值的未知频道进行录音识别,以及降低已进行录音识别的未知频道的优先级;

  按照所述未知频道的优先级顺序,依次对所述频道集内的所有未知频道进行录音识别,生成识别数据集;

  根据预设敏感词库对所述识别数据集实施文本分类;

  根据所述文本分类的结果,标记所述频道集中的频道是否发布违规的广播内容。

  可选的,根据频道白名单对所述频道集筛选出未知频道,以及按照预设时间间隔获取所述未知频道的出现次数的步骤,包括:

  对比所述频道白名单中的频段与所述频道集中的每一个广播信号频率;

  如果所述广播信号频率在所述频道白名单中的频段内,标记为已知频道;

  如果所述广播信号频率不在所述频道白名单中的频段内,标记为未知频道。

  可选的,对出现次数大于或等于判断阈值的未知频道进行录音识别,以及降低已进行录音识别的未知频道的优先级的步骤包括:

  按照预设时长对所述未知频道录音,生成取证音频数据;

  将所述取证音频数据转化为文本数据,以及将所述文本数据存入识别数据集。

  可选的,对出现次数大于或等于预设阈值的未知频道进行录音识别,以及降低已进行录音识别的未知频道的优先级的步骤,还包括:

  为出现次数大于或等于预设阈值的未知频道设置权值,所述权值的初始值为0对应最高优先级;

  每对所述未知频道进行一次录音识别,按预设改变量增大对应的未知频道权值;

  按照所述未知频道权值从小到大重新确定所述未知频道的优先级,以优先对新发现的未知频道进行录音识别。

  可选的,根据预设敏感词库对所述识别数据集实施文本分类的步骤,包括:

  提取所述识别数据集的文本数据,以及调用语义分析引擎;

  通过所述语义分析引擎对所述文本数据进行分词处理,生成文本拆分数据;

  通过敏感词库和DFA算法,对所述文本拆分数据匹配敏感词,以及记录匹配命中的敏感词。

  可选的,根据预设敏感词库对所述识别数据集实施文本分类的步骤,还包括:

  获取历史记录信息以及所述识别数据集中,每个未知频道对应的敏感词数据,所述敏感词数据包括敏感词匹配的类型和数量;

  逐一对比所述敏感词数据和所述历史记录信息,以及对比所述未知频道与已确定为非法频道的射频指标;

  根据对比结果生成黑广播判断参考值;

  根据所述黑广播判断参考值,判断所述未知频道是否为黑广播频道。

  可选的,所述方法还包括:

  根据所述频道集中的已知频道,在设定监测时间点对所述已知频道进行录音识别;

  将录音识别结果通过语音转换引擎转化为文本格式,生成内容取证数据;

  匹配所述内容取证数据与呼号模板数据;

  如果所述内容取证数据与呼号模板数据未成功匹配,标记所述已知频道存在呼号违规;

  如果所述呼号取证数据与呼号模板数据成功匹配,通过偏移量计算呼号播出的时间。

  可选的,将录音识别结果通过语音转换引擎转化为文本格式,生成内容取证数据的步骤后,所述方法还包括:

  通过语义分析引擎对所述内容取证数据进行分词处理,生成文本拆分数据;

  通过敏感词库和DFA算法,对所述文本拆分数据匹配敏感词,以及记录匹配命中的敏感词。

  可选的,所述敏感词库包括本地词库和云端词库,所述方法还包括:将记录的敏感词添加至所述本地词库,以及在所述云端词库和所述本地词库之间同步数据。

  另一方面,本申请还提供一种广播内容监测系统,包括分布在监测区域内的多个监测点设备以及与多个监测点设备之间建立通信连接的服务器;其中,所述监测点设备内置有信号接收器,以通过所述信号接收器获取广播信号;

  所述服务器被进一步配置为执行以下程序步骤:

  对监测点设备接收的广播信号进行实时频谱扫描,生成频道集;

  根据频道白名单对所述频道集筛选出未知频道,以及按照预设时间间隔获取所述未知频道的出现次数;

  对出现次数大于或等于判断阈值的未知频道进行录音识别,以及降低已进行录音识别的未知频道的优先级;

  按照所述未知频道的优先级顺序,依次对所述频道集内的所有未知频道进行录音识别,生成识别数据集;

  根据预设敏感词库对所述识别数据集实施文本分类;

  根据所述文本分类的结果,标记所述频道集中的频道是否发布违规的广播内容。

  由以上技术方案可知,本申请提供一种广播内容监测方法及系统,以自动对监测区域内的广播信号进行实时监控,所述方法先对广播信号进行实时频谱扫描,生成频道集,再筛选出未知频道,以及定时获取未知频道的出现次数,以对长时间出现的未知频道进行录音识别,再按照未知频道的优先级顺序,依次对频道集内的所有未知频道进行录音识别,以生成识别数据集,最后根据预设敏感词库对识别数据集实施文本分类;以根据文本分类的结果,标记频道集中的频道是否发布违规的广播内容。本申请提供的广播内容监测方法,可以通过频谱扫描、智能调度、语音转文字、语义分析及快速匹配敏感词实现对黑广播和内容违规进行监测。

  附图说明

  为了更清楚地说明本申请的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

  图1为本申请一种广播内容监测方法的流程示意图;

  图2为本申请对比频道白名单的流程示意图;

  图3为本申请生成识别数据集的流程示意图;

  图4为本申请确定未知频道优先级的流程示意图;

  图5为本申请匹配敏感词的流程示意图;

  图6为本申请黑广播监测流程示意图;

  图7为本申请内容违规监测流程示意图;

  图8为本申请通过拆分数据匹配敏感词的流程示意图;

  图9为本申请一种广播内容监测系统的结构示意图。

  具体实施方式

  下面将详细地对实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下实施例中描述的实施方式并不代表与本申请相一致的所有实施方式。仅是与权利要求书中所详述的、本申请的一些方面相一致的系统和方法的示例。

  参见图1,为本申请一种广播内容监测方法的流程示意图。由图1可知,本申请提供的广播内容监测方法,包括以下步骤:

  S1:对监测点设备接收的广播信号进行实时频谱扫描,生成频道集;

  本申请提供的技术方案中,所述广播内容监测方法可应用于具有数据处理功能的计算机、服务器以及其他数据处理设备,这种数据处理设备需要通过连接监测点设备,以分析监测点设备接收的信号或数据。所述检测点设备是设置在监测区域内的信号接收设备。当电台向外发出广播信号后,广播信号在监测区域内扩散传播,以使监测点设备中信号接收器可以感应并接收广播信号,再根据接收的广播信号,确定每一个广播信号发出的频率。本申请在实际应用时,可通过全天不间断的频谱扫描,以获取当前监测区域内的全部广播信号,避免出现漏判的情况。

  S2:根据频道白名单对所述频道集筛选出未知频道,以及按照预设时间间隔获取所述未知频道的出现次数。

  在本申请提供的技术方案中,对监测点设备接收的广播信号进行频谱扫描后,可以通过频谱扫描的结果,确定当前监测区域中的所有广播信号,以及确定其对应的频道。再通过预先设置的频道白名单,对扫描到的全部频道信号逐一进行对比,确定当前监测区域中是否包含频道白名单中未包含的频道作为未知频道,并且将未知频道进行标记。标记未知频道后,本申请还可以通过对多次扫描结果的筛选,确定未知频道出现的次数。

  在本申请中,可以通过设置定时,间歇性获取当前监测区域中出现的广播频道,进一步判断当前监测区域中是否存在黑广播频道信号。实际应用中,设置的定时时间即每隔预设时间间隔还可以根据实际监测环境情况,以及监测环境对应的不同时段进行动态调整。例如,黑广播常在夜间进行信号传递,并且每次信号广播是时间很短,因此可以在夜间设置预设时间间隔较短,从而及时发现监测区域中的黑广播频道。

  另外,为了减少监测点设备的数据处理量,也可以根据预设时间间隔对进行频谱扫描的频率也进行设定,例如,可以使频谱扫描与未知频道次数的获取频率保持一致,即每进行一次频谱扫描,则对应获取一次未知频道的出现次数。

  进一步地,如图2所示,根据频道白名单对所述频道集筛选出未知频道,以及按照预设时间间隔获取所述未知频道的出现次数,还包括以下步骤:

  S201:对比所述频道白名单中的频段与所述频道集中的每一个广播信号频率;

  S202:如果所述广播信号频率在所述频道白名单中的频段内,标记为已知频道;

  S203:如果所述广播信号频率不在所述频道白名单中的频段内,标记为未知频道。

  由以上步骤可知,在本申请的部分实施例中,可以根据频道白名单中记录的频段和获取的频道集中广播信号频率之间进行对比,从而确定当前监测区域中的广播信号频道是否属于未知频道。如果对比结果为在频道白名单对应的频段内,即可确定这一频道为已经认证过的合法频道,进而将其标记为已知频道;反之,则标记为未知频道。

  本申请提供的技术方案在实际应用中,不仅可以用来识别未知频道是否是黑广播频道,也可以对已知频道的广播内容进行识别,例如,对已知合法频道的呼号播出异常、插播、误播等违规情况进行监测。因此,为了便于后续进行分析,本申请对扫描出的频道设定优先级。由于,已知合法频道出现播出违规问题的可能性相对较小,因此,在本申请中,所述已知频道的优先级低于所述未知频道的优先级。即在后续步骤中,优先处理未知频道播出的内容。

  S3:对出现次数大于或等于判断阈值的未知频道进行录音识别,以及降低已进行录音识别的未知频道的优先级。

  本申请提供的技术方案中,如果一个未知频道的出现次数过多,则表明其在监测区域中持续进行广播,因此可以对识别出的每一个未知频道的出现次数进行判断,当出现次数达到预设判断阈值时,可以通过检测点设备中内置录音设备,将广播信号转化成音频数据进行取证。

  进一步地,如图3所示,对出现次数大于或等于判断阈值的未知频道进行录音识别,以及降低已进行录音识别的未知频道的优先级的步骤包括:

  S301:按照预设时长对所述未知频道录音,生成取证音频数据;

  S302:将所述取证音频数据转化为文本数据,以及将所述文本数据存入识别数据集。

  由于生成的频道录音一般不能直接用于后续人工智能分析模型的处理,因此在本实施例中,在获取音频文件后,可以通过输入语音转文字引擎,将音频文件转化为文本文件,再将转化的文本数据存储在识别数据集,以供后续人工智能模型分析处理。应当理解的是,在本实施例中还可以对获取的取证音频数据进行降噪处理,去除广播信号中可能出现的干扰信息,从而保证转化的文字数据结果更准确。

  由于本申请提供的技术方案中,每进行一次频谱扫描,即对出现次数进行一次判断,而监测区域中可能存在多个频道对应的广播信号,如果每进行一次扫描即进行一次录音识别,不仅会造成采集的数据量过于冗杂,而且会造成频繁的重复取证,增加数据处理负担。因此,可以在实际应用时,每进行一次录音识别,即降低一次已录音识别的频道的优先级进行一次调整,以再下次录音识别时,优先对其他频道进行录音识别,从而保证在实际应用中,及时获取取证信息。

  为了对不同频道的处理优先级进行调整,在本申请的部分实施例中,如图4所示,对出现次数大于或等于预设阈值的未知频道进行录音识别,以及降低已进行录音识别的未知频道的优先级的步骤,还包括以下步骤:

  S303:为出现次数大于或等于预设阈值的未知频道设置权值,所述权值的初始值为 0对应最高优先级;

  S304:每对所述未知频道进行一次录音识别,按预设改变量增大对应的未知频道权值;

  S305:按照所述未知频道权值从小到大重新确定所述未知频道的优先级,以优先对新发现的未知频道进行录音识别。

  由以上步骤可知,实际应用中,可以对每一个监测点的每一个疑似黑广播频道都设置权值。权值的初始值为0,代表其对应频道的识别优先级最高。每当该频道识别一段录音后,则对应的权值增加预设改变量(N),优先级降低。此过程循环进行,直到获取所有未知频道以及已知频道的取证录音数据。本申请中,可以以最快的速率增加识别频道的覆盖率,并且对于新发现的未知频道,可进行优先识别。

  本实施例中,通过针对各监测点构建的未知频道,与已知频道,可进行黑广播监测与内容违规监测。可以适应实际应用中的内容识别数据量较大,动态调整各个频道的优先级。因此,可以快速且合理的执行识别任务。另外,权值将在每天0点重置,以增加各地区频道识别覆盖率,从而提升黑广播频道发现概率。

  另外,本申请提供的技术方案中,判断阈值还可以针对频率进行动态计算,实际应用可以分为三种情况,依次设定判断阈值由大到小。例如,该频率历史播出情况正常、该频率未出现过、该频率历史情况存在非法,同时收集此频道的各项指标信息,以便进行后续进一步分析其是否属于违规黑广播。

  S4:按照所述未知频道的优先级顺序,依次对所述频道集内的所有未知频道进行录音识别,生成识别数据集。

  在一个所述未知频道进行录音识别后,本申请按照改变后的优先权顺序再次或对其他未知频道进行录音识别,每识别一个未知频道,则存储一个识别数据,从而生成识别数据集。显然,在实际应用中,识别数据集中记录的数据包括录音取证对应的文本数据,还应该包括对应的频道信息,如信号频率,以及出现的次数等。

  S5:根据预设敏感词库对所述识别数据集实施文本分类。

  在实际应用中,针对识别数据集,可以通过预先训练好的文本分类器进行文本分类,即基于机器学习原理,分析识别数据中词语语义,从而确定识别数据所代表的实际内容和意义,采用的文本分类器可以是LR、SVM等训练模型。

  由于,本申请是对广播播出的内容是否存在违规显现进行判断,而判断广播内容是否违规最直接的方法就是判断其中是否包含敏感词。因此,实际应用中,可以通过匹配敏感词的方式来确定当前识别数据是否存在违规。

  即在本申请的部分实施例中,如图5所示,根据预设敏感词库对所述识别数据集实施文本分类的步骤,包括:

  S501:提取所述识别数据集的文本数据,以及调用语义分析引擎;

  S502:通过所述语义分析引擎对所述文本数据进行分词处理,生成文本拆分数据;

  S503:通过敏感词库和DFA算法,对所述文本拆分数据匹配敏感词,以及记录匹配命中的敏感词。

  由以上步骤可知,在实际应用中,对将语音转文字内容通过语义分析引擎,进行分词,并确定出最优切分,最后通过DFA算法快速匹配敏感词,记录命中的敏感词。通过上述语义分析,即可以确定当前未知频道中是否广播了带有敏感词的内容。如果存在敏感词,或者包含的敏感词数量过多,则可以确定当前位置频道为黑广播频道,以便后续对该黑广播频道进行监控。

  具体的,通过录音取证获取的音频数据为电信号,将其进行降噪处理后,可通过语音转文字引擎转化为文本数据,例如“位于江苏省的南京长江大桥”。将识别的文本输入至语义分析引擎,可以获得多个词语切分结果,例如:

  “位于/江苏省/的/南京/长江/大桥”;

  “位于/江苏/省的/南京/长江/大桥”;

  “位于/江苏省/的/南京/长江大桥”;

  “位于/江苏省/的/南京长江大桥”……

  基于训练好的语义分析模型,结合上下文词语相关关系,可以确定当前最优切分方案为“位于/江苏省/的/南京长江大桥”。最后,通过DFA算法匹配分词结果中的词语是否为敏感词,并记录敏感词个数,以确定当前取证结果是否存在违规现象。由于敏感词大多数为具有引申含义的专有名词,因此,在本申请提供的技术方案中,通过适用于当前语境的分析模型进行语义分析,可以更精确地判断是否存在频道中是否存在敏感词,避免出现误判、漏判等问题。

  进一步地,如图6所示,还可以通过结合未知频道相关的其他参数,如历史非法频道的敏感词、RF射频指标,进一步确定当前未知频道是否为黑广播频道,即根据预设敏感词库对所述识别数据集实施文本分类的步骤,还包括:

  S504:获取历史记录信息以及所述识别数据集中,每个未知频道对应的敏感词数据,所述敏感词数据包括敏感词匹配的类型和数量;

  S505:逐一对比所述敏感词数据和所述历史记录信息,以及对比所述未知频道与已确定为非法频道的射频指标;

  S506:根据对比结果生成黑广播判断参考值;

  S507:根据所述黑广播判断参考值,判断所述未知频道是否为黑广播频道。

  实际应用中,可以根据敏感词匹配的命中结果,综合历史记录信息中非法频道的敏感词个数,RF射频指标进行比较,最终计算一个判定黑广播的参考值。例如,匹配命中的敏感词个数为2,则调用历史数据中,确定其命中的敏感词个数为10,则在黑广播判断参考值为12,如果预设参考值阈值为10,可以确定当前未知频道存在违规播出内容。对于RF射频指标,可以预设判断频段,如果未知频道在判断频段内,参考值不变,如果不在判断频段内,参考值增加10,以此对黑广播进行判断。

  S6:根据所述文本分类的结果,标记所述频道集中的频道是否发布违规的广播内容。

  由以上技术方案可知,本申请提供的技术方案可以实现7×24小时不间断地频谱扫描,并且将扫描结果与白名单或本地频点库进行比对,判定是否包含未知频道。并且,通过设置的发现间隔可以自动计算未知频道的出现次数,与阈值比对后能动态智能的判定是否进行录音取证,可以增加系统的处理效率,减少人工介入的工作量。另外,通过智能取证方法,可以对疑似黑广播频道进行录音取证和RF射频指标记录,使黑广播频道的判断结果更加准确。

  在本申请的部分实施例中,如图7所示,所述方法在进行频谱扫描之后,还包括以下步骤,以对已知频道的播出内容是否存在违规现象进行进一步地判断:

  S71:根据所述频道集中的已知频道,在设定监测时间点对所述已知频道进行录音识别;

  S72:将录音识别结果通过语音转换引擎转化为文本格式,生成内容取证数据;

  S73:匹配所述内容取证数据与呼号模板数据;

  S74:如果所述内容取证数据与呼号模板数据未成功匹配,标记所述已知频道存在呼号违规;

  S75:如果所述呼号取证数据与呼号模板数据成功匹配,通过偏移量计算呼号播出的时间。

  由以上步骤可知,本申请的部分实施例中,针对已知频道还可以进行呼号监测。即在监测时间段内,可在预先设定的时间进行检测,例如每个整点与半点,进行录音取证,并且与上述方法相同,可以再将录音取证获得的数据输入语音转文字引擎,将结果与呼号模板匹配,最后通过偏移量计算呼号播出的时间,未匹配则为呼号违规。

  实际应用中,针对已知频道,可以根据其预先注册的播出信息设置呼号模板,设置的呼号模板可以是音频数据也可以是文本数据,例如呼号模板的实质内容为“××人民广播电台”、“××之声”等。

  在监测时间段内,同样可以在设定的时间进行广播内容识别,例如,在每个整点获取一段被测频道的广播内容,即录音取证。再将音频数据通过输入语音转文字引擎,得到识别后的文本数据。如果此时获得的文本数据与呼号模板相同,例如,识别结果也为“××人民广播电台”或者“××之声”,确定当前被测频道不存在呼号违规;如果此时获得的文本数据与呼号模板不同或存在很大的偏差,则确定当前被测频道存在呼号违规。

  另外,还可以针对呼号播出的时间,判断当前被测频道是否具有呼号违规,例如,当前频道虽然识别出了与呼号模板相同的呼号内容,但在获取的音频数据中,该内容明显早于或晚于规定的呼号播出时间,同样确定其存在呼号违规现象。

  本实施例中,针对已知合法频道,可以设置周期性(按周)监测任务,即设置每天的监测时段,支持多段设置。支持设置重大安保期任务。对呼号监测设置,可以设置多个呼号匹配模板,以及半点、整点监测等。

  进一步地,本申请还可以对已知频道的播出内容进行违规判断,即如图8所示,将录音识别结果通过语音转换引擎转化为文本格式,生成内容取证数据的步骤后,所述方法还包括:

  S76:通过语义分析引擎对所述内容取证数据进行分词处理,生成文本拆分数据;

  S77:通过敏感词库和DFA算法,对所述文本拆分数据匹配敏感词,以及记录匹配命中的敏感词。

  可见,在本实施例中,对已知频道是否存在违规现象进行判断,可以包括诸如插播、误播的违规判断。对于插播及误播监测,则需要将已知频道录音识别的整段录音文字结果,输入语义分析引擎,再进行分词并找出最优解,最后利用DFA算法匹配敏感词,根据匹配敏感词的数量和类型,将内容进行分类。

  由以上技术方案可知,本申请可以根据已知频道播出内容的文字,与呼号模板、敏感词库进行匹配,从而自动识别出是否存在呼号异常、内容违规等违规现象。

  在上述实施例中,所述敏感词库包括本地词库和云端词库,以针对不同区域的监测点设备进行不同方式的敏感词匹配,以提高敏感词匹配的效率和准确性。因此,所述方法还包括:将记录的敏感词添加至所述本地词库,以及在所述云端词库和所述本地词库之间同步数据。实际应用中,可以在频谱扫描的间隔空隙时间段进行相应的数据同步,以减少服务器在集中时间内的数据处理量。

  另外,本申请提供的技术方案中,所述数据同步不仅包括从云端词库向本地词库进行数据同步,而且包括从本地词库向云端词库进行数据同步。由于在实际应用中,还需要对敏感词库进行智能构建,即支持自动与云中心敏感词库进行数据同步。相应的,本地敏感词库能根据历史处理为非法的文字,经过分词、分类后,自动添加至敏感词库中,再进行数据同步,以不断更新敏感词库。从而通过多个监测点设备不断完善敏感词库,提高数据识别的精度。

  基于上述广播内容的监测方法,本申请还提供一种广播内容监测系统,如图9所示,所示系统包括分布在监测区域内的多个监测点设备以及与多个监测点设备之间建立通信连接的服务器;其中,所述监测点设备内置有信号接收器,以通过所述信号接收器获取广播信号;

  所述服务器被进一步配置为执行以下程序步骤:

  S1:对监测点设备接收的广播信号进行实时频谱扫描,生成频道集;

  S2:根据频道白名单对所述频道集筛选出未知频道,以及按照预设时间间隔获取所述未知频道的出现次数;

  S3:对出现次数大于或等于判断阈值的未知频道进行录音识别,以及降低已进行录音识别的未知频道的优先级;

  S4:按照所述未知频道的优先级顺序,依次对所述频道集内的所有未知频道进行录音识别,生成识别数据集;

  S5:根据预设敏感词库对所述识别数据集实施文本分类;

  S6:根据所述文本分类的结果,标记所述频道集中的频道是否发布违规的广播内容。

  由以上技术方案可知,本申请提供一种广播内容监测方法及系统,以自动对监测区域内的广播信号进行实时监控,所述方法先对广播信号进行实时频谱扫描,生成频道集,再筛选出未知频道,以及定时获取未知频道的出现次数,以对长时间出现的未知频道进行录音识别,再按照未知频道的优先级顺序,依次对频道集内的所有未知频道进行录音识别,以生成识别数据集,最后根据预设敏感词库对识别数据集实施文本分类;以根据文本分类的结果,标记频道集中的频道是否发布违规的广播内容。本申请提供的广播内容监测方法,可以通过频谱扫描、智能调度、语音转文字、语义分析及快速匹配敏感词实现对黑广播和内容违规进行监测。

  本申请提供的实施例之间的相似部分相互参见即可,以上提供的具体实施方式只是本申请总的构思下的几个示例,并不构成本申请保护范围的限定。对于本领域的技术人员而言,在不付出创造性劳动的前提下依据本申请方案所扩展出的任何其他实施方式都属于本申请的保护范围。

《一种广播内容监测方法及系统.doc》
将本文的Word文档下载到电脑,方便收藏和打印
推荐度:
点击下载文档

文档为doc格式(或pdf格式)