欢迎光临小豌豆知识网!
当前位置:首页 > 电学技术 > 电通讯技术> 基于实时信令的国际高结算盗打行为的分析方法及装置独创技术29262字

基于实时信令的国际高结算盗打行为的分析方法及装置

2021-03-05 09:24:19

基于实时信令的国际高结算盗打行为的分析方法及装置

  技术领域

  本发明涉及通信技术领域,特别是涉及一种基于实时信令的国际高结算盗 打行为的分析方法及装置。

  背景技术

  伴随信息通信技术的快速发展,某些不法分子竟利用科技手段盗打国际长 途电话,其结果不仅给个人或国内运营商企业造成不必要的损失,同时也扰乱 了正常的通信秩序。电话用户希望有一个安全的通话环境,减少和杜绝国际盗 打的发生,某些部门、电信运营商等也希望通过技术途径打击盗打行为,给公 众一个安全可信的通话环境。

  申请号为201810742291.X的中国专利申请公开了一种检测国际盗打的方 法,其提出了基于主叫号码按天频率分析的孤立森林分析方法,从informix数 据库中提取出国际去话中的原始CDR话单数据,是以天为基本单位基于国际去 话CDR数据记录来构造号码的国际去话通信行为特征。

  但是,该专利申请基于数据库查询原始CDR话单,效率较低,分析周期 较长,按天进行分析,仅考虑主叫号码的模型分析,对于号段内轮流更换主叫 行为无法发现,对于分散主叫集中某一两个被叫号码盗打情况无法发现。

  发明内容

  为克服上述现有技术存在的不足,本发明之一目的在于提供一种基于实时 信令的国际高结算盗打行为的分析方法及装置,其通过Kafka消息中间件和 SparkStreaming流式处理技术以实现国际高结算行为的大数据实时分析,快速识 别盗打行为,以便实现有效自动拦截和封堵,降低损失。

  本发明之另一目的在于提供一种基于实时信令的国际高结算盗打行为的 分析方法及装置,通过使用随机森林机器学习算法,构建大数据模型识别,可 有效提高国家高结算盗打行为的识别准确率,降低封堵的投诉率。

  为达上述及其它目的,本发明提出一种基于实时信令的国际高结算盗打行 为的分析方法,包括如下步骤:

  步骤S1,利用kafka集群实时获取国际去话中的CDR话单数据;

  步骤S2,对获得的不同来源、不同协议的CDR话单数据进行ETL处理;

  步骤S3,以小时和主叫号码、主叫号段以及被叫号码为基本单位,基于步 骤S2的经ETL处理后的国际去话CDR话单数据构造号码的国际去话通信行为 特征;

  步骤S4,将步骤S3获得的国际去话通信行为特征向量输入基于随机森林 算法构建并训练好的相应的模型进行行为判断,输出预测结果。

  优选地,于步骤S1之前,还包括如下步骤:

  步骤S0,基于随机森林算法,构建主叫号码模型、主叫号段模型以及被叫 号码模型,利用主叫号码特征向量集、主叫号段特征向量集以及被叫号码特征 向量集训练各模型。

  优选地,步骤S0进一步包括:

  步骤S001,利用kafka集群获取国际去话中的CDR话单数据。

  步骤S002,对获得的不同来源、不同协议的CDR话单数据进行ETL处理;

  步骤S003,以小时和主叫号码、主叫号段以及被叫号码为基本单位,基于 步骤S002的经ETL处理后的国际去话CDR话单数据构造号码的国际去话通信 行为特征,得到主叫号码特征向量集,主叫号段特征向量集,被叫号码特征向 量集;

  步骤S004,对于每个所要构建的模型,分别利用步骤S003得到的主叫号 码特征向量集,主叫号段特征向量集,被叫号码特征向量集,分别构建T个采 样集;

  步骤S005,为最终训练集中的每个采样集建立完全分裂的决策树;

  步骤S006,根据得到的每一个决策树的结果采用多数投票法来计算新数据 的预测值。

  优选地,于步骤S004中,在包括n个样本的主叫号码特征向量集或主叫 号段特征向量集或被叫号码特征向量集中,采用有放回的抽样方式选择m个样 本,构成1个采样集,抽样重复T次,得到T个包含m个样本的采样集,作为 每个所要构建的模型的最终训练集。

  优选地,于步骤S005中,利用CART分类树算法为每个采样集建立一个 完全分裂、没有经过剪枝的决策树,并利用每个采样集分别对其训练,最终得 到多棵CART决策。

  优选地,步骤S002与步骤S002进一步包括:

  对不同来源、不同协议的CDR话单数据进行归一化处理;

  根据高结算国家码和被叫国家码对归一化处理后的CDR话单数据进行匹 配过滤,并根据系统白名单及特服号码对主叫号码进行匹配过滤。

  优选地,所述归一化处理后的CDR话单数据包括主叫号码、被叫号码、 源信令点编码、目的信令点编码、呼叫开始时间、被叫应答时间、呼叫结束时 间、通话时长、主叫号码类型、主叫号码所属省份、呼叫发起省份、被叫国家 码。

  优选地,于步骤S3中,基于Spark Streaming技术对CDR话单数据进行流 式处理,按15分钟粒度对1小时的CDR话单数据进行切片分析,构造每15分 钟切片的国际去话通信行为特征的特征向量。

  优选地,所构建的国际去话通信行为特征包括主叫号码呼叫特征、主叫号 段呼叫特征以及被叫号码呼叫特征。

  为达到上述目的,本发明还提供一种基于实时信令的国际高结算盗打行为 的分析装置,包括:

  CDR话单数据获取单元,用于利用kafka集群实时获取国际去话中的CDR 话单数据;

  ETL处理单元,用于对获得的不同来源、不同协议的CDR话单数据进行 ETL处理;

  通信行为特征构造单元,用于以1小时和主叫号码、主叫号段以及被叫号 码为基本单位,基于所述ETL处理单元的经ETL处理后的国际去话CDR话单 数据构造号码的国际去话通信行为特征;

  预测分析单元,用于将所述通信行为特征构造单元获得的国际去话通信行 为特征向量输入基于随机森林算法构建并训练好的相应的模型进行行为判断, 输出预测结果。

  与现有技术相比,本发明有如下有益效果:

  1、本发明使用随机森林算法,基于CART决策树和投票算法对国际高结 算盗打行为的分析和识别属于首次使用,实践中比对发现比孤立森林分析方法 准确性较高。

  2、本发明中考虑到各种国际盗打的场景,同时构建主叫号码,主叫号段, 被叫号码的模型,能有效覆盖多种国际盗打场景。

  3、本发明中的模型预测使用15分钟切片滚动分析方法,极大提高预测和 处置效率,将国际盗打行为在开始阶段即可进行识别和处置,有效降低损失。

  附图说明

  图1为本发明一种基于实时信令的国际高结算盗打行为的分析方法的步骤 流程图;

  图2为本发明具体实施例中基于实时信令的国际高结算盗打行为的分析过 程示意图;

  图3为本发明具体实施例中模型构建示意图;

  图4为本发明一种基于实时信令的国际高结算盗打行为的分析装置的系统 架构图;

  图5为本发明实施例一种基于实时信令的国际高结算盗打行为的分析流程 图;

  图6为本发明实施例中基于Spark Streaming技术的流式处理示意图。

  具体实施方式

  以下通过特定的具体实例并结合附图说明本发明的实施方式,本领域技术 人员可由本说明书所揭示的内容轻易地了解本发明的其它优点与功效。本发明 亦可通过其它不同的具体实例加以施行或应用,本说明书中的各项细节亦可基 于不同观点与应用,在不背离本发明的精神下进行各种修饰与变更。

  图1为本发明一种基于实时信令的国际高结算盗打行为的分析方法的步骤 流程图,图2为本发明具体实施例中基于实时信令的国际高结算盗打行为的分 析过程示意图。如图1及图2所示,本发明一种基于实时信令的国际高结算盗 打行为的分析方法,包括如下步骤:

  步骤S1,利用kafka集群实时获取国际去话中的CDR(Call Detail Record, 呼叫详细记录)话单数据。

  Kafka是由Apache软件基金会开发的一个开源流处理平台,是一种高吞吐 量的分布式发布订阅消息系统。本发明分析的数据来源于运营省际长途和国际 长途的海量信令CDR详单,通过KAFKA消息中间件技术实现国际呼叫记录的 实时对接读取。

  步骤S2,对获得的不同来源、不同协议的CDR话单数据进行ETL处理。 ETL,即为Extract-Transform-Load,指将数据从来源端经过抽取(extract)、转 换(transform)、加载(load)至目的端的过程。

  具体地,步骤S2进一步包括:

  步骤S200,对不同来源、不同协议的CDR话单数据进行归一化处理。

  在本发明具体实施例中,归一化处理后的CDR话单数据包括主叫号码、 被叫号码、源信令点编码、目的信令点编码、呼叫开始时间、被叫应答时间、 呼叫结束时间、通话时长、主叫号码类型、主叫号码所属省份、呼叫发起省份、 被叫国家码。

  在本发明中,涉及的信令协议包括SIP和ISUP协议,对于不同来源、不 同协议,步骤S1获得的CDR话单数据包含的内容略有不同。具体地,对于ISUP 协议,其国际呼叫CDR话单数据字段为如下表1所示:

  表1

  对于SIP协议,其国际呼叫CDR话单数据字段为如下表2所示:

  表2

  

  

  对上述两种来源的CDR话单数据进行归一化处理后的CDR话单数据的数 据字段如下表3所示:

  表3

  

  步骤S201,根据被叫国家码对归一化处理后的CDR话单数据进行匹配过 滤,剔除非高结算国家的呼叫详单,比如美国、英国等不纳入高结算分析。并 根据系统白名单及特服号码对主叫号码进行匹配过滤,从而提升数据质量,降 低实际分析数据量,提升系统分析效率。

  在本发明具体实施例中,预先通过配置表方式对高结算国家码及资费进行 动态配置,然后利用该配置表根据根据高结算国家码和被叫国家码对归一化处 理后的国际呼叫CDR话单数据进行过滤,即过滤非高结算国家的呼叫详单,比 如美国,英国,加拿大等一般不纳入高结算分析,例如本发明实施例中高结算 国家码及资费如下表4所示:

  表4

  即不属于上述高结算国家的国际呼叫CDR话单数据即予以剔除。

  步骤S3,以1小时和主叫号码、主叫号段以及被叫号码为基本单位,基于 步骤S2的经ETL处理后的国际去话CDR话单数据构造号码的国际去话通信行 为特征。

  在本发明具体实施例中,构建的国际去话通信行为特征包括主叫号码呼叫 特征、主叫号段呼叫特征以及被叫号码呼叫特征,其中,主叫号码呼叫特征具 体包括:

  主叫号码,各被叫号码被呼次数(号码A|22#号码B|33),各被叫号码被呼 时长秒(号码A|220#号码B|330),拨打次数、通话时长,未拨通次数,接通率, 平均通话时长,历史累计呼叫次数,历史累计通话总时长,历史单次最高通话 时长;

  主叫号段呼叫特征具体包括:主叫号段、各被叫号码被呼次数、各被叫号 码被呼时长秒、拨打次数、通话时长、未拨通次数、接通率、平均通话时长、 历史累计呼叫次数、历史累计通话总时长、历史单次最高通话时长;

  被叫号码呼叫特征具体包括:被叫号码、各被叫号码被呼次数、各被叫号 码被呼时长秒、拨打次数、通话时长、未拨通次数、接通率、平均通话时长、 历史累计呼叫次数、历史累计通话总时长、历史单次最高通话时长。

  在本发明具体实施例中,假设步骤S2的经ETL处理后的国际去话CDR 话单数据如下表5所示:

  表5

  

  则构建该次行为的主叫号码呼叫特征如下表6:

  表6

  

  构建该次行为的主叫号段呼叫特征如下表7:

  表7

  

  构建该次行为的被叫号码呼叫特征如下表8:

  表8

  

  优选地,于步骤S3中,基于Spark Streaming技术对CDR话单数据进行流 式处理,按15分钟粒度对1小时的CDR话单数据进行切片分析,构造每15分 钟切片的国际去话通信行为特征的特征向量。

  步骤S4,将步骤S3获得的国际去话通信行为特征向量输入基于随机森林 算法构建并训练好的相应的模型进行行为判断,输出预测结果。

  在本发明具体实施例中,基于随机森林算法构建并训练好的模型包括主叫 号码模型、主叫号段模型以及被叫号码模型,在本发明具体实施例中,按15分 钟粒度对1小时的CDR话单数据进行切片分析,构造每15分钟切片的国际去 话通信行为特征的特征向量,每各15分钟进行一次预测,每次预测汇总当前时 间前4个15分钟切片内容(因为每15分钟的预测是需要分析的是1个小时的 呼叫行为特征,因此需要先汇总4个15分钟的数据,构建出1个小时的呼叫特 征后进行预测),将得到的国际去话通信行为特征向量输入相应的模型进行行为 判断(例如对于主叫号码呼叫特征则输入主叫号码模型进行预测,如果是主叫号段呼叫特征,则输入主叫号段模型进行预测),输出的预测结果包括主叫号码, 分析开始时间,分析截止时间,呼叫次数,来源省份,高结算国家及次数(国 家A|33,国家B|35),高结算国家及呼叫时长秒(国家A|330,国家B|350),预估 损失金额。

  优选地,于步骤S1之前,还包括如下步骤:

  步骤S0,基于随机森林算法,构建主叫号码模型、主叫号段模型以及被叫 号码模型,利用主叫号码特征向量集、主叫号段特征向量集以及被叫号码特征 向量集训练各模型。

  具体地,步骤S0进一步包括:

  步骤S001,利用kafka集群获取国际去话中的CDR话单数据。

  步骤S002,对获得的不同来源、不同协议的CDR话单数据进行ETL处理。

  具体地,步骤S002进一步包括:

  步骤S002-1,对不同来源、不同协议的CDR话单数据进行归一化处理。

  在本发明中,涉及的信令协议包括SIP和ISUP协议,对于不同来源、不 同协议,步骤S1获得的CDR话单数据包含的内容略有不同,因此需要对不同 来源、不同协议的CDR话单数据进行归一化处理。在本发明具体实施例中,归 一化处理后的CDR话单数据包括主叫号码、被叫号码、源信令点编码、目的信 令点编码、呼叫开始时间、被叫应答时间、呼叫结束时间、通话时长、主叫号 码类型、主叫号码所属省份、呼叫发起省份、被叫国家码。

  步骤S002-2,根据高结算国家码和被叫国家码对归一化处理后的CDR话 单数据进行匹配过滤,并根据系统白名单及特服号码对主叫号码进行匹配过滤, 从而提升数据质量,降低实际分析数据量,提升系统分析效率。

  步骤S003,以1小时和主叫号码、主叫号段以及被叫号码为基本单位,基 于步骤S2的经ETL处理后的国际去话CDR话单数据构造号码的国际去话通信 行为特征,得到主叫号码特征向量集,主叫号段特征向量集,被叫号码特征向 量集。

  在本发明具体实施例中,构建的国际去话通信行为特征包括主叫号码呼叫 特征、主叫号段呼叫特征以及被叫号码呼叫特征,其中,主叫号码呼叫特征具 体包括:主叫号码,各被叫号码被呼次数(号码A|22#号码B|33),各被叫号码 被呼时长秒(号码A|220#号码B|330),拨打次数、通话时长,未拨通次数,接 通率,单次最高通话时长,平均通话时长,历史累计呼叫次数,历史累计通话 总时长,历史单次最高通话时长;主叫号段呼叫特征具体包括:主叫号段、各 被叫号码被呼次数、各被叫号码被呼时长秒、拨打次数、通话时长、未拨通次 数、接通率、平均通话时长、历史累计呼叫次数、历史累计通话总时长、历史 单次最高通话时长;被叫号码呼叫特征具体包括:被叫号码、各被叫号码被呼 次数、各被叫号码被呼时长秒、拨打次数、通话时长、未拨通次数、接通率、 平均通话时长、历史累计呼叫次数、历史累计通话总时长、历史单次最高通话 时长。

  步骤S004,对于每个所要构建的模型,分别利用步骤S003得到的主叫号 码特征向量集,主叫号段特征向量集,被叫号码特征向量集,分别构建T个采 样集。具体地,在包括n个样本的主叫号码特征向量集中,采用有放回的抽样 方式选择m个样本,构成1个采样集,其中n>m。以上抽样重复T次,得到T个 包含m个样本的采样集,作为最终的训练集(采样集1,采样集2,……,采样集 T),如图3所示。同理,主叫号段特征向量集,被叫号码特征向量集也分别处 理,得到每个模型对应的最终训练集。

  步骤S005,为最终训练集中的每个采样集建立完全分裂的决策树(即弱学 习器)。具体地,于步骤S005中,利用CART分类树算法为每个采样集建立一 个完全分裂、没有经过剪枝的决策树,并利用每个采样集分别对其训练,最终 得到多棵CART决策树。

  于步骤S005中,具体的训练流程为:

  循环,对i=1,...,T

  对训练样本集进行抽样,得到抽样后的训练样本集

  用抽样得到的样本集训练一个模型hi(x)

  结束循环

  输出模型组合h1(x),...,hT(x)

  其中hi(x)为采样集i经过CART算法训练后的模型hi(x)。

  这里需说明的是,在本发明中,主叫号码模型,主叫号段模型,被叫号码 模型是并行的处理流程,只是特征构建的维度不一样而已,处理过程是并行的 三个模型。

  步骤S006,预测最终结果(强学习器):根据得到的每一个决策树的结果 采用多数投票法来计算最终结果的预测值。在上述步骤S005输出的模型组合 h1(x),...,hT(x)中,采用相对多数投票法的方法,票数大的获胜。

  

  图4为本发明一种基于实时信令的国际高结算盗打行为的分析装置的系统 架构图。如图4所示,本发明一种基于实时信令的国际高结算盗打行为的分析 装置,包括:

  CDR话单数据获取单元401,用于利用kafka集群实时获取国际去话中的 CDR(CallDetail Record,呼叫详细记录)话单数据。

  ETL处理单元402,用于对获得的不同来源、不同协议的CDR话单数据进 行ETL处理。ETL,即为Extract-Transform-Load,指将数据从来源端经过抽取 (extract)、转换(transform)、加载(load)至目的端的过程。

  具体地,ETL处理单元402进一步包括:

  归一化处理模块,用于对不同来源、不同协议的CDR话单数据进行归一 化处理。

  在本发明中,涉及的信令协议包括SIP和ISUP协议,对于不同来源、不 同协议,CDR话单数据获取单元401获得的CDR话单数据包含的内容略有不同, 因此,需要对不同来源、不同协议的CDR话单数据进行归一化处理。在本发明 具体实施例中,归一化处理后的CDR话单数据包括主叫号码、被叫号码、源信 令点编码、目的信令点编码、呼叫开始时间、被叫应答时间、呼叫结束时间、 通话时长、主叫号码类型、主叫号码所属省份、呼叫发起省份、被叫国家码。

  过滤模块,用于根据高结算国家码和被叫国家码对归一化处理后的CDR 话单数据进行匹配过滤,并根据系统白名单及特服号码对主叫号码进行匹配过 滤,从而提升数据质量,降低实际分析数据量,提升系统分析效率。

  在本发明具体实施例中,过滤模块通过预先配置表方式对高结算国家码及 资费进行动态配置,然后利用该配置表根据根据高结算国家码和被叫国家码对 归一化处理后的国际呼叫CDR话单数据进行过滤。

  通信行为特征构造单元403,用于以1小时和主叫号码、主叫号段以及被 叫号码为基本单位,基于ETL处理单元402的经ETL处理后的国际去话CDR 话单数据构造号码的国际去话通信行为特征。

  在本发明具体实施例中,构建的国际去话通信行为特征包括主叫号码呼叫 特征、主叫号段呼叫特征以及被叫号码呼叫特征,其中,主叫号码呼叫特征具 体包括:主叫号码,各被叫号码被呼次数(号码A|22#号码B|33),各被叫号码 被呼时长秒(号码A|220#号码B|330),拨打次数、通话时长,未拨通次数,接 通率,单次最高通话时长,平均通话时长,历史累计呼叫次数,历史累计通话 总时长,历史单次最高通话时长;主叫号段呼叫特征具体包括:主叫号段、各 被叫号码被呼次数、各被叫号码被呼时长秒、拨打次数、通话时长、未拨通次 数、接通率、平均通话时长、历史累计呼叫次数、历史累计通话总时长、历史 单次最高通话时长;被叫号码呼叫特征具体包括:被叫号码、各被叫号码被呼 次数、各被叫号码被呼时长秒、拨打次数、通话时长、未拨通次数、接通率、 平均通话时长、历史累计呼叫次数、历史累计通话总时长、历史单次最高通话 时长。

  优选地,于通信行为特征构造单元403中,基于Spark Streaming技术对 CDR话单数据进行流式处理,按15分钟粒度对1小时的CDR话单数据进行切 片分析,构造每15分钟切片的国际去话通信行为特征的特征向量。

  预测分析单元404,用于将通信行为特征构造单元403获得的国际去话通 信行为特征向量输入基于随机森林算法构建并训练好的相应的模型进行行为判 断,输出预测结果。

  在本发明具体实施例中,基于随机森林算法构建并训练好的模型包括主叫 号码模型、主叫号段模型以及被叫号码模型,在本发明具体实施例中,按15分 钟粒度对1小时的CDR话单数据进行切片分析,构造每15分钟切片的国际去 话通信行为特征的特征向量,每各15分钟进行一次预测,每次预测汇总当前时 间前4个15分钟切片内容,将得到的国际去话通信行为特征向量输入相应的模 型进行行为判断,输出的预测结果包括主叫号码,分析开始时间,分析截止时 间,呼叫次数,来源省份,高结算国家及次数(国家A|33,国家B|35),高结算 国家及呼叫时长秒(国家A|330,国家B|350),预估损失金额。

  优选地,本发明一种基于实时信令的国际高结算盗打行为的分析装置,还 包括:

  模型构建及训练单元,用于基于随机森林算法,构建主叫号码模型、主叫 号段模型以及被叫号码模型,利用主叫号码特征向量集、主叫号段特征向量集 以及被叫号码特征向量集训练各模型。

  所述模型构建及训练单元具体用于:

  利用kafka集群获取国际去话中的CDR话单数据。

  对获得的不同来源、不同协议的CDR话单数据进行ETL处理,这里的ETL 处理包括对不同来源、不同协议的CDR话单数据进行归一化处理以及根据高结 算国家码和被叫国家码对归一化处理后的CDR话单数据进行匹配过滤,并根据 系统白名单及特服号码对主叫号码进行匹配过滤

  以1小时和主叫号码、主叫号段以及被叫号码为基本单位,基于步骤S2 的经ETL处理后的国际去话CDR话单数据构造号码的国际去话通信行为特征, 得到主叫号码特征向量集,主叫号段特征向量集,被叫号码特征向量集。在本 发明具体实施例中,构建的国际去话通信行为特征包括主叫号码呼叫特征、主 叫号段呼叫特征以及被叫号码呼叫特征,其中,主叫号码呼叫特征具体包括: 主叫号码,各被叫号码被呼次数(号码A|22#号码B|33),各被叫号码被呼时长 秒(号码A|220#号码B|330),拨打次数、通话时长,未拨通次数,接通率,单次最高通话时长,平均通话时长,历史累计呼叫次数,历史累计通话总时长, 历史单次最高通话时长;主叫号段呼叫特征具体包括:主叫号段、各被叫号码 被呼次数、各被叫号码被呼时长秒、拨打次数、通话时长、未拨通次数、接通 率、平均通话时长、历史累计呼叫次数、历史累计通话总时长、历史单次最高 通话时长;被叫号码呼叫特征具体包括:被叫号码、各被叫号码被呼次数、各 被叫号码被呼时长秒、拨打次数、通话时长、未拨通次数、接通率、平均通话 时长、历史累计呼叫次数、历史累计通话总时长、历史单次最高通话时长。

  对于每个所要构建的模型,分别利用步骤S003得到的主叫号码特征向量 集,主叫号段特征向量集,被叫号码特征向量集,分别构建T个采样集。具体 地,在包括n个样本的主叫号码特征向量集中,采用有放回的抽样方式选择m 个样本,构成1个采样集,其中n>m。以上抽样重复T次,得到T个包含m个样 本的采样集,作为最终的训练集(采样集1,采样集2,……,采样集T)。。

  为每个数据集建立完全分裂的决策树(即弱学习器)。具体地,利用CART 分类树算法为每个采样集建立一个完全分裂、没有经过剪枝的决策树,并利用 每个采样集分别对其训练,最终得到多棵CART决策树。具体的训练流程为:

  循环,对i=1,...,T

  对训练样本集进行抽样,得到抽样后的训练样本集

  用抽样得到的样本集训练一个模型hi(x)

  结束循环

  输出模型组合h1(x),...,hT(x)

  预测最终结果(强学习器):根据得到的每一个决策树的结果采用多数投 票法来计算新数据的预测值。在上述步骤S005输出的模型组合h1(x),...,hT(x)中, 采用相对多数投票法的方法,票数大的获胜。

  

  实施例

  图5为本发明实施例一种基于实时信令的国际高结算盗打行为的分析流程 图。在本实施例中,基于Spark Streaming技术实现流式处理。Spark Streaming 是一个粗粒度的框架,也就是只能对一批数据指定处理方法,核心是采用微批 次架构,从kafka集群中接收实时信令CDR数据,通过Spark Streaming流式处 理并实时分析后,输入相应的模型进行识别,最终投票预测结果为属于高结算 类型的,进行拦截/派单,投票预测结果为非高结算的,不做拦截,具体的基于 Spark Streaming技术的流式处理如图6所示。

  在本实施例中,系统实时对接国际呼叫CDR数据,并按15分钟粒度进行 切片分析,系统每各15分钟进行一次预测,每次预测汇总当前时间前4个15 分钟切片内容,并输入相应模型进行行为判断,输出的预测结果包括主叫号码, 分析开始时间,分析截止时间,呼叫次数,来源省份,高结算国家及次数(国 家A|33,国家B|35),高结算国家及呼叫时长秒(国家A|330,国家B|350),预估 损失金额。

  综上所述,本发明一种基于实时信令的国际高结算盗打行为的分析方法及 装置通过通过Kafka消息中间件和SparkStreaming流式处理技术实现国际高结算 行为的大数据实时分析,快速识别盗打行为,以便实现有效自动拦截和封堵, 降低损失,并通过使用随机森林机器学习算法,通过构建大数据模型识别,有 效提高国家高结算盗打行为的识别准确率,降低封堵的投诉率。

  上述实施例仅例示性说明本发明的原理及其功效,而非用于限制本发明。 任何本领域技术人员均可在不违背本发明的精神及范畴下,对上述实施例进行 修饰与改变。因此,本发明的权利保护范围,应如权利要求书所列。

《基于实时信令的国际高结算盗打行为的分析方法及装置.doc》
将本文的Word文档下载到电脑,方便收藏和打印
推荐度:
点击下载文档

文档为doc格式(或pdf格式)