当前位置：首页 > 电学技术 > 电通讯技术> 话单数据处理展示方法、装置及电子设备独创技术50813字

话单数据处理展示方法、装置及电子设备

2021-02-19 16:37:53

话单数据处理展示方法、装置及电子设备

　　技术领域

　　本申请涉及数据处理领域，具体而言，涉及一种话单数据处理展示方法、装置及电子设备。

　　背景技术

　　犯罪同伙之间通常使用手机作为联络工具，犯罪嫌疑人或犯罪分子为隐蔽其犯罪行为往往会频繁地更换号码和手机。特别是在团伙犯罪中，由于作为首要犯罪嫌疑人一般会有多部手机或多个通话号码，犯罪团伙的成员之间通话记录所形成的话单数据中通常包含有聚类特征，因此，犯罪团伙的话单数据通常会基于通话号码形成特定聚类结构的通联关系网络。

　　目前，在分析展示犯罪团伙的话单数据中的特定聚类结构的关系网络，以确定出犯罪团伙话单数据中的聚类特征时，存在着聚类结构数据难以挖掘、查找率低，数据展示的图形不直观等问题，这降低了公安机关侦查办案的效率。

　　发明内容

　　本申请的目的包括，例如，提供了一种话单数据处理展示方法、装置及电子设备，其能够准确、快速地分析出话单数据中的聚类结构，并直观地展示出该聚类结构，提高公安机关侦查办案的效率。

　　本申请的实施例可以这样实现：

　　第一方面，实施例提供一种话单数据处理展示方法，包括：获取多份话单；其中，每份所述话单包括至少一个通话记录，每个所述通话记录包括基站位置标识、对方号码、号码持有人标识和本机串号数据；根据预设计算公式确定每个所述基站位置标识和每个所述对方号码在每份所述话单中的重要程度值；对每份所述话单中重要程度值最大的a个基站位置标识进行去重合并，得到所述多份话单的基站位置标识关键集合；对每份所述话单中重要程度值最大的b个对方号码进行去重合并，得到所述多份话单的对方号码关键集合；根据所述基站位置标识关键集合、所述对方号码关键集合、号码持有人标识、本机串号数据确定任意两份话单之间的相似度；其中，所述相似度表征两份话单之间的行为特征的一致程度；根据所述相似度将所述多份话单中行为特征一致的多个话单所对应的多个本机通信号码确定为一个聚类，得到所述多份话单的聚类结构；根据所述聚类结构生成可视化通联数据图，并展示所述可视化通联数据图。

　　第二方面，实施例还提供了一种话单数据处理展示装置，包括：获取模块，用于获取多份话单；其中，每份所述话单包括至少一个通话记录，每个所述通话记录包括基站位置标识、对方号码、号码持有人标识和本机串号数据；计算模块，用于根据预设计算公式确定每个所述基站位置标识和每个所述对方号码在每份所述话单中的重要程度值；所述计算模块，还用于对每份所述话单中重要程度值最大的a个基站位置标识进行去重合并，得到所述多份话单的基站位置标识关键集合；所述计算模块，还用于对每份所述话单中重要程度值最大的b个对方号码进行去重合并，得到所述多份话单的对方号码关键集合；所述计算模块，还用于根据所述基站位置标识关键集合、所述对方号码关键集合、号码持有人标识、本机串号数据确定任意两份话单之间的相似度；其中，所述相似度表征两份话单之间的行为特征的一致程度；聚类模块，用于根据所述相似度将所述多份话单中行为特征一致的多个话单所对应的多个本机通信号码确定为一个聚类，得到所述多份话单的聚类结构；展示模块，用于根据所述聚类结构生成可视化通联数据图，并展示所述可视化通联数据图。

　　第三方面，实施例还提供了一种电子设备，包括：处理器、存储器和总线，所述存储器存储有机器可读指令，当所述服务器运行时，所述处理器与所述存储器之间通过总线通信，所述处理器执行所述机器可读指令，以执行如上所述的话单数据处理展示方法。

　　本申请实施例的有益效果包括，例如：首先，本申请能够根据获取的多份话单确定出每个基站位置标识和每个对方号码在每份话单中的重要程度值，然后根据上述的重要程度值确定出基站位置标识关键集合和对方号码关键集合，并根据上述的两个集合以及号码持有人标识、本机串号数据确定出任意两份话单之间的相似度。由于相似度表征两份话单之间的行为特征的一致程度，即相似度能够准确、高效地反映出两份话单是一个聚类的可能程度。因此，在确定出任意两份话单之间的相似度后，再将多份话单中行为特征一致的多个话单所对应的多个本机通信号码确定为一个聚类，最后将聚类结构生成为可视化通联数据图并进行展示，即可使得本申请能够准确、快速地分析出话单数据中的聚类结构，并直观地展示出该聚类结构，提高公安机关侦查办案的效率，填补了本领域的技术空白。

　　附图说明

　　为了更清楚地说明本申请实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本申请的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

　　图1为本申请实施例所提供的电子设备的一种结构框图；

　　图2为本申请实施例提供的话单数据处理展示方法的一种流程图；

　　图3为本申请实施例提供的话单数据处理展示方法的另一种流程图；

　　图4为本申请实施例提供的话单数据处理展示方法的另一种流程图；

　　图5为本申请实施例提供的话单数据处理展示方法的另一种流程图；

　　图6为本申请实施例提供的一种可视化通联数据图；

　　图7为本申请实施例提供的另一种可视化通联数据图；

　　图8为本申请实施例提供的话单数据处理展示装置的一种功能模块图。

　　图标：100-电子设备；110-存储器；120-处理器；130-总线；140-通信接口；200-话单数据处理展示装置；210-获取模块；220-计算模块；230-聚类模块；240-展示模块。

　　具体实施方式

　　为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。

　　因此，以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围，而是仅仅表示本申请的选定实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

　　应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。

　　此外，若出现术语“第一”、“第二”等仅用于区分描述，而不能理解为指示或暗示相对重要性。

　　需要说明的是，在不冲突的情况下，本申请的实施例中的特征可以相互结合。

　　在实现本申请实施例的技术方案的过程中，本申请发明人发现：

　　随着科学技术的迅猛发展，犯罪行为的高科技化、智能化、动态化、犯罪人员的职业化和组织化的趋势越来越明显，具有时代特征的新型犯罪手段、犯罪形式不断出现，日益呈现出犯罪手段隐蔽化、作案方式专业化等特点。这些都对公安机关的侦查工作提出了新要求、新挑战。所以用信息化手段提升公安机关犯罪侦查工作效率，促进科技与执法办案的融合，实现侦查工作创新，成为支撑公安机关打击违法犯罪工作的主要选择。

　　当前手机、通话手表等可以通话的电子设备在日常生活中越来越普及，打电话成为人们互相通联的重要手段之一，犯罪嫌疑人或犯罪分子为隐蔽其犯罪行为往往会频繁地更换手号码和手机。特别是在团伙犯罪中，由于作为首要犯罪嫌疑人一般会有多部手机或多个通话号码，犯罪团伙的成员之间通话记录所形成的话单数据中通常包含有聚类特征，即在犯罪团伙的话单数据中的多个通话号码之间的行为特征存在高度相似的特点，进而犯罪团伙的话单数据通常会基于通话号码形成特定聚类结构的通联关系网络。

　　目前公安机关主要通过专业的话单分析工具软件来对犯罪团伙的话单数据中的聚类特征进行数据分析和挖掘，为侦查破案提供线索，其中，话单分析软件集数据库技术、数据挖掘技术、数据可视化技术于一体，在导入原始的通话记录数据后，可以自动对通话次数时长、通话频率、通话地点等信息进行分析。

　　但是，在目前的侦查实务中，由于当前的话单分析工具软件功能简单，尚不能直接分析出犯罪团伙的话单数据中的聚类特征，还需要侦查员对团伙中重点号码的通话详情、号码关系网络、共同联系号码等信息进行进一步分析并以可视化图形的方式进行表达，来发现通话联系人之间的隐藏关系，掌握案件中相关人员的关系种类，进而得出相关侦查线索。故而，目前在分析展示犯罪团伙的话单数据中的特定聚类结构的关系网络，以确定出犯罪团伙话单数据中的聚类特征时，存在着聚类结构数据难以挖掘、查找率低，数据展示的图形不直观等问题，这降低了公安机关侦查办案的效率。即，目前在该领域还未存在能够准确、快速地分析出话单数据中的聚类结构，并直观地展示出该聚类结构的技术方案。

　　因此，为了改善上述缺陷，本申请实施例提出一种话单数据处理展示方法、装置及电子设备，其能够准确、快速地分析出话单数据中的聚类结构，并直观地展示出该聚类结构，提高公安机关侦查办案的效率，填补了本领域的技术空白。需要说明的是，以上现有技术中的方案所存在的缺陷，均是发明人在经过实践并仔细研究后得出的结果，因此，上述问题的发现过程以及下文中本申请实施例针对上述问题所提出的解决方案，都应该是发明人在本申请过程中对本申请做出的贡献。

　　请参照图1，为本申请实施例所提供的电子设备100的一种结构框图。该电子设备100可以包括存储器110、处理器120、总线130和通信接口140，该存储器110、处理器120和通信接口140相互之间直接或间接地电性连接，以实现数据的传输或交互。例如，这些元件相互之间可通过一条或多条总线130或信号线实现电性连接。处理器120可以处理与话单数据处理有关的信息和/或数据，以执行本申请中描述的一个或多个功能。例如，处理器120可以获取多份话单，并根据上述数据进行话单数据处理，进而实现本申请提供的话单数据处理展示方法。

　　其中，存储器110可以是但不限于，随机存取存储器(Random Access Memory，RAM)，只读存储器(Read Only Memory，ROM)，可编程只读存储器(Programmable Read-OnlyMemory，PROM)，可擦除只读存储器(Erasable Programmable Read-Only Memory，EPROM)，电可擦除只读存储器(Electric Erasable Programmable Read-Only Memory，EEPROM)等。

　　处理器120可以是一种集成电路芯片，具有信号处理能力。该处理器120可以是通用处理器，包括中央处理器(Central Processing Unit，CPU)、网络处理器(NetworkProcessor，NP)等；还可以是数字信号处理器(Digital Signal Processing，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列(Field－Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

　　可以理解，图1所示的结构仅为示意，该电子设备100还可包括比图1中所示更多或者更少的组件，或者具有与图1所示不同的配置。图1中所示的各组件可以采用硬件、软件或其组合实现。

　　请参照图2，图2示出了本申请实施例提供的话单数据处理展示方法的一种流程图。该话单数据处理展示方法可以应用于上述的电子设备100，该话单数据处理展示方法可以包括以下步骤：

　　S100，获取多份话单；其中，每份话单包括至少一个通话记录，每个通话记录包括基站位置标识、对方号码、号码持有人标识和本机串号数据。

　　在一些可能的实施例中，电子设备100可以从其他设备(例如，移动通信运营商的服务器)的存储介质处获取到该多份话单，或者从自身的存储介质处获取到预先存储好的多份话单，因此，本申请对于多份话单的获取方式不作限定。

　　所获取到的多份话单中，每条通话记录可以包括但不限于：本机通信号码(简称为PN)、本机串号数据(简称为IMEI)、号码持有人标识(简称为ID)、对方号码(简称为ON)、通话日期(简称为TD)、通话开始时间(简称为TS)、通话时长(简称为TT)、基站位置区码(简称为LAC)、基站小区(简称为CELL)、基站位置标识(简称为CID)等数据。其中，基站位置标识CID是由基站位置区码LAC和基站小区CELL组成的字符串。

　　为了便于理解，本申请将以如下表1所示的P份话单为例(表1中，P＝7)，对本申请实施例所提供的话单数据处理展示方法进行具体阐述。

　　表1

　　S110，根据预设计算公式确定每个基站位置标识和每个对方号码在每份话单中的重要程度值。

　　上述的重要程度值可以表征每个基站位置标识和每个对方号码在每份话单中的出现次数，进而上述的预设计算公式可以为能够确定每个基站位置标识和每个对方号码在每份话单中的出现次数的公式，例如，常见的频率统计方法、TF-IDF(词频-逆文本频率，Term frequency–Inverse document frequency)算法等。

　　在一些可能的实施例中，在获取到多份话单后，继续以表1中的话单1为例，该话单1包括了3条通话记录，其中一条通话记录打给对方号码B，两条通话记录打给对方号码C，因此，参照常见的频率统计方法可知(也即是预设计算公式为常见的频率统计公式时)，对方号码C的重要程度值是大于对方号码B的；相应的，在话单1中，基站位置标识CID1的重要程度值是大于基站位置标识CID2的。同样的，当预设计算公式为TF-IDF算法公式时，也可以得出每个基站位置标识和每个对方号码在每份话单中的重要程度值。

　　需要注意的是，对于在每个话单中的相同的对方号码或者相同的基站位置标识，其对应计算出来的重要程度值相同(即一个话单中相同的对方号码或者相同的基站位置标识对应的重要程度值相同)。进而为了减少计算量，对于在每个话单中的相同的对方号码或者相同的基站位置标识，在计算该对方号码或者该基站位置标识在话单中的重要程度值时，可以仅计算一次。继续以表1中的话单1为例，该话单1包括了3条通话记录，其中两条通话记录打给对方号码C，因此，在计算对方号码C在话单1中的重要程度值时，可以仅计算一次。

　　还需要说明的是，上述的预设计算公式均能够使得本申请准确、快速地分析出话单数据中的聚类结构，本申请对预设计算公式不做限定。

　　进一步的，在图2的基础上，对于如何“根据预设计算公式确定每个基站位置标识和每个对方号码在每份话单中的重要程度值”，请参照图3，S110可以包括：

　　S110A，根据词频-逆文本频率TF-IDF公式确定每个基站位置标识和每个对方号码在每份话单中的重要程度值。

　　以根据TF-IDF公式计算每个基站位置标识在每份话单中的重要程度值为例，可以根据公式：tfi,j＝nj,j/∑k nk,j计算每个基站位置标识在每份话单中的TF值，其中，ni,j为i基站位置标识在j话单中出现的次数，∑k nk,j为j话单中的所有基站位置标识出现的次数之和(在数值上与j号码话单中通话记录的次数一致)，i基站位置标识可以为j话单中的任一基站位置标识。

　　然后可以根据公式idfi＝lg(|D|/E)计算每个基站位置标识在每份话单中的IDF值，其中，D为话单的总数，E为包含i基站位置标识的所有话单的总数。

　　最后可以根据公式tfidfi,j＝tfi,j×idfi计算每个基站位置标识在每份话单中的重要程度值，也即是说根据TF-IDF公式计算出来的TFIDF值即为上述的重要程度值。相应的，根据TF-IDF公式计算每个对方号码在每份话单中的重要程度值可以参照上述步骤，在此不再赘述。

　　继续以表1为例对上述步骤S110A作进一步阐述，在根据TF-IDF公式确定表1中的每个基站位置标识和每个对方号码在每份话单中的重要程度值后，可以得到如下表2。

　　表2

　　请再参照图2，S120，对每份话单中重要程度值最大的a个基站位置标识进行去重合并，得到多份话单的基站位置标识关键集合。

　　在确定出每个基站位置标识在每份话单中的重要程度值后，可以先按重要程度值由大到小的顺序对每份话单中的基站位置标识进行排序。然后将每份话单中的前a个基站位置标识确定为每份话单中重要程度值最大的a个基站位置标识。最后将每份话单的重要程度值最大的a个基站位置标识合并为一个集合(例如有五份话单，则目前该集合共包括5×a个基站位置标识)，并将该集合中相同的基站位置标识合并为一个，合并之后的集合即为多份话单的基站位置标识关键集合。

　　其中，由于一个话单中相同的基站位置标识对应的重要程度值相同，因此每份话单中重要程度值相同的基站位置标识在排序时仅占据一个排位。

　　对于如何确定“每份话单中重要程度值最大的a个基站位置标识”，以确定表2的多份话单的重要程度值最大的1个(相当于a＝1)基站位置标识为例，在话单1中，基站位置标识CID1的重要程度值大于基站位置标识CID2，因此，话单1中的基站位置标识的排序为CID1、CID2；在话单2中，基站位置标识CID3的重要程度值大于基站位置标识CID4，基站位置标识CID4的重要程度值大于基站位置标识CID1，因此，话单2中的基站位置标识的排序为CID3、CID4、CID1，以此类推，可知话单3中的基站位置标识的排序为CID1、CID2，话单4中的基站位置标识的排序为CID6、CID4，话单5中的基站位置标识的排序为CID7、CID8，话单6中的基站位置标识的排序为CID1、CID2，话单7中的基站位置标识的排序为CID12、CID13。

　　在得到各个话单中的基站位置标识的排序后(即确定出每份话单中重要程度值最大的a个基站位置标识之后)，对于如何“对每份话单中重要程度值最大的a个基站位置标识进行去重合并，得到多份话单的基站位置标识关键集合”，以去重合并表2中的多份话单为例，基于上述给出的各个话单中的基站位置标识的排序，可以将CID1、CID3、CID1、CID6、CID7、CID1、CID12合并为一个集合，得到集合{CID1、CID3、CID1、CID6、CID7、CID1、CID12}，然后通过上述的“将该集合中相同的基站位置标识合并为一个”可以得到集合{CID1、CID3、CID6、CID7、CID12}，该集合即为对表2中的话单1-话单7中重要程度值最大的1个基站位置标识进行去重合并，得到的话单1-话单7的基站位置标识关键集合。以此类推，即可得到S120的具体执行过程。

　　进一步的，还可以以集合的形式对上述的S120做进一步解释，假设多份话单的集合为{s1,s2,…sj,…,sp}，其中，s1,s2,…sj,…,sp分别表示一个话单。表示sj话单中重要程度值最大的a个基站位置标识组成的集合，分别对每个话单中重要程度值最大的a个基站位置标识组成的集合进行合并去重，即可得到多份话单的基站位置标识关键集合{CID1,CID2,…,CIDcv}，其中，a≤cv≤a×p。

　　其中，需要说明的是，由于在实际应用中，每份话单实际包括的通话记录通常有百条、千条以上，因此，在实际应用中，上述的a可以默认为12个。

　　S130，对每份话单中重要程度值最大的b个对方号码进行去重合并，得到多份话单的对方号码关键集合。

　　在确定出每个对方号码在每份话单中的重要程度值后，可以先按重要程度值由大到小的顺序对每份话单中的对方号码进行排序。然后将每份话单中的前b个对方号码确定为每份话单中重要程度值最大的b个对方号码。最后将每份话单的重要程度值最大的b个对方号码合并为一个集合(例如有五份话单，则目前该集合共包括5×b个对方号码)，并将该集合中相同的对方号码合并为一个，合并之后的集合即为多份话单的对方号码关键集合。

　　其中，由于一个话单中相同的对方号码对应的重要程度值相同，因此每份话单中重要程度值相同的对方号码在排序时仅占据一个排位。

　　对于如何确定“每份话单中重要程度值最大的b个对方号码”，以确定表2的多份话单的重要程度值最大的1个(相当于b＝1)对方号码为例，在话单1中，对方号码C的重要程度值大于对方号码B，因此，话单1中的对方号码的重要程度值的排序为C、B；在话单2中，对方号码A的重要程度值大于对方号码D，对方号码D的重要程度值大于对方号码C，因此，话单2中的对方号码的重要程度值的排序为A、D、C，以此类推，可知话单3中的对方号码的重要程度值的排序为E、B，话单4中的对方号码的重要程度值的排序为A、B，话单5中的对方号码的重要程度值的排序为H，话单6中的对方号码的重要程度值的排序为D、C、A，话单7中的对方号码的重要程度值的排序为I、A、B。

　　在得到各个话单中的对方号码的排序后(即确定出每份话单中重要程度值最大的b个对方号码之后)，对于如何“对每份话单中重要程度值最大的b个对方号码进行去重合并，得到多份话单的对方号码关键集合”，以去重合并表2中的多份话单为例，基于上述给出的各个话单中的对方号码的重要程度值的排序，可以将C、A、E、A、H、D、I合并为一个集合，得到集合{C、A、E、A、H、D、I}，然后通过上述的“将该集合中相同的对方号码合并为一个”可以得到集合{C、A、E、H、D、I}，该集合即为对表2中的话单1-话单7中重要程度值最大的1个对方号码进行去重合并，所得到的话单1-话单7的对方号码关键集合。以此类推，可得到S130的具体执行过程。

　　进一步的，还可以以集合的形式对上述的S120做进一步解释，假设多份话单的集合为{s1,s2,…sj,…,sp}，其中，s1,s2,…sj,…,sp分别表示一个话单。表示sj话单中重要程度值最大的b个对方号码组成的集合，分别对每个话单中重要程度值最大的b个对方号码组成的集合进行合并去重，即可得到多份话单的对方号码关键集合{ON1,ON2,…,ONov}，其中，b≤ov≤b×p。

　　其中，需要说明的是，由于在实际应用中，每份话单实际包括的通话记录通常有百条、千条以上，因此，在实际应用中，上述的b可以默认为5个。

　　还需要说明的是，在实际应用中，上述的S120和S130之间的执行顺序并没有先后之分，S120既可以先于S130执行，也可以后于S130执行，甚至两者可以同时执行，本申请对此不做限定。

　　S140，根据基站位置标识关键集合、对方号码关键集合、号码持有人标识、本机串号数据确定任意两份话单之间的相似度；其中，相似度表征两份话单之间的行为特征的一致程度。

　　确定出基站位置标识关键集合和对方号码关键集合后，在一些可能的实施例中，由于两份话单之间的行为特征的一致程度与这两份话单对应的通话号码是否由同一人使用直接相关，进而为了准确、快速地分析出话单数据中的聚类结构，可以根据基站位置标识关键集合、对方号码关键集合、号码持有人标识、本机串号数据确定任意两份话单之间的相似度。

　　进一步的，对于如何“根据基站位置标识关键集合、对方号码关键集合、号码持有人标识、本机串号数据确定任意两份话单之间的相似度”，在图2的基础上，请参照图4，S140可以包括：

　　S140A，根据基站位置标识关键集合确定每个话单对应的关键基站位置标识频率向量。

　　在一些可能的实施例中，上述的关键基站位置标识频率向量可以以的形式进行表示，其中a≤cv≤a×p。

　　其中，S140A具体可以包括：根据如下公式确定j话单对应的关键基站位置标识频率向量的分量：

　　其中，CIDi表示基站位置标识关键集合中的第i个基站位置标识的值，为j话单重要程度值最大的a个基站位置标识的集合；j话单为多份话单中的任一话单，分量为j话单对应的关键基站位置标识频率向量的第i个分量。应理解，分量也为j话单对应的关键基站位置标识频率向量中的任一分量。

　　也即是说，可以理解为：当CIDi不属于这个集合时，为0；可以理解为：当CIDi属于这个集合时，为1。进而，每个话单对应的关键基站位置标识频率向量的确定方法可以理解为：以确定j话单对应的关键基站位置标识频率向量为例，遍历基站位置标识关键集合中的每个元素，若某个元素在j话单重要程度值最大的a个基站位置标识的集合中存在，则该元素取值为1，若某个元素在j话单重要程度值最大的a个基站位置标识的集合中不存在,则该元素取值为0，遍历过后的基站位置标识关键集合即为j话单对应的关键基站位置标识频率向量。

　　下面结合表3所示的多份话单对上述的S140A做进一步解释。

　　表3

　　假设a为2，则话单1的重要程度值最大的2个基站位置标识的集合(下面将“重要程度值最大的2个基站位置标识的集合”简称为关键基站位置标识)为CID2、CID3，话单2的关键基站位置标识为CID3、CID4，话单3的关键基站位置标识为CID2、CID3，话单4的关键基站位置标识为CID6、CID4，组合集合为{CID2、CID3、CID3、CID4、CID2、CID3、CID6、CID4}，去重合并该集合后即可得到多份话单的基站位置标识关键集合为{CID2、CID3、CID4、CID6}，进而基于S140A所示的公式，可以分别得到话单1的关键基站位置标识频率向量为{1、1、0、0}，话单2的关键基站位置标识频率向量为{0、1、1、0}，话单3的关键基站位置标识频率向量为{1、1、0、0}，话单4的关键基站位置标识频率向量为{0、0、1、1}。

　　S140B，根据对方号码关键集合确定每个话单对应的关键对方号码频率向量。

　　在一些可能的实施例中，上述的关键基站位置标识频率向量可以以的形式进行表示，其中b≤ov≤b×p。

　　其中，S140B具体可以包括：根据如下公式确定j话单对应的关键对方号码频率向量的分量：

　　其中，ONi表示对方号码关键集合中的第i个对方号码的值，表示j话单重要程度值最大的b个对方号码的集合；j话单为多份话单中的任一话单，分量为j话单对应的关键对方号码频率向量的第i个分量。应理解，分量也为j话单对应的关键对方号码频率向量中的任一分量。

　　也即是说，可以理解为：当ONi不属于这个集合时，为0；可以理解为：当ONi属于这个集合时，为1。进而，每个话单对应的关键对方号码频率向量的确定方法可以理解为：以确定j话单对应的关键对方号码频率向量为例，遍历对方号码关键集合中的每个元素，若某个元素在j话单重要程度值最大的b个对方号码的集合中存在，则该元素取值为1，若某个元素在j话单重要程度值最大的b个对方号码的集合中不存在，则该元素取值为0，遍历过后的对方号码关键集合即为j话单对应的关键对方号码频率向量。

　　下面继续结合上述的表3所示的多份话单对上述的S140B做进一步解释。假设b为2，则话单1的重要程度值最大的2个关键号码的集合(下面将“重要程度值最大的2个关键号码的集合”简称为关键号码)为C、E，话单2的关键号码为E、C，话单3的关键号码为B、D，话单4的关键号码为H、F，组合集合为{C、E、E、C、B、D、H、F}，去重合并该集合后即可得到多份话单的对方号码关键集合为{C、E、B、D、H、F}，进而基于S140B所示的公式，可以分别得到话单1的关键号码频率向量为{1、1、0、0、0、0}，话单2的关键号码频率向量为{1、1、0、0、0、0}，话单3的关键号码频率向量为{0、0、1、1、0、0}，话单4的关键号码频率向量为{0、0、0、0、1、1}。

　　还需要说明的是，在实际应用中，上述的S140A和S140B之间的执行顺序并没有先后之分，S140A既可以先于S140B执行，也可以后于S140B执行，甚至两者可以同时执行，本申请对此不做限定。

　　S140C，根据关键基站位置标识频率向量、关键对方号码频率向量、号码持有人标识、本机串号数据确定任意两份话单之间的相似度。

　　其中，S140C具体可以包括：根据如下公式确定sx和sy之间的相似度gμ(x,y)：

　　其中，sx和sy均为多份话单中的任一话单，且sx和sy为不同的话单，0≤κ≤2，0≤λ≤2，κ+λ＝2，为sx的本机串号数据，为sy的本机串号数据，为sx的号码持有人标识，为sy的号码持有人标识，xi为sx的关键基站位置标识频率向量的第i个分量，yi为sy的关键基站位置标识频率向量的第i个分量，Xi为sx的关键对方号码频率向量的第i个分量，Yi为sy的关键对方号码频率向量的第i个分量。

　　继续以上述的表3中的话单1和话单2为例，假设话单1和话单2的本机串号数据不一致，号码持有人标识不一致，κ和λ均设置为1，a和b设置为2。则话单1对应的关键对方号码频率向量为{1、1、0、0、0、0}，话单1对应的关键基站位置标识频率向量为{1、1、0、0}，话单2对应的关键对方号码频率向量为{1、1、0、0、0、0}，话单2对应的关键基站位置标识频率向量为{0、1、1、0}。则根据上述公式可以计算出：αμ(x,y)＝0，βμ(x,y)＝0，因此，话单1和话单2的相似度

　　请再参照图2，S150，根据相似度将多份话单中行为特征一致的多个话单所对应的多个本机通信号码确定为一个聚类，得到多份话单的聚类结构。

　　在本实施例中，如表1、2所示，多份话单中的每份话单均对应一个本机通信号码。进而对于如何“根据相似度将多份话单中行为特征一致的多个话单所对应的多个本机通信号码确定为一个聚类，得到多份话单的聚类结构”，在图2的基础上，请参照图5，S150可以包括：

　　S150A，从多份话单组成的话单集合中获取一个未被处理过的话单作为目标话单。

　　S150B，获取目标话单与话单集合中的每个其他未被处理过的话单之间的相似度。

　　可以理解的是，当目标话单与话单集合中的每个其他未被处理过的话单之间的相似度均小于预设阈值时，可直接将该目标话单确定为已处理过的话单，然后返回执行步骤S150A。

　　S150C，生成一个聚类集合，将话单集合中的所有与目标话单的相似度大于预设阈值的话单以及目标话单加入聚类集合，并将话单集合中所有属于聚类集合的话单确定为已处理过的话单；其中，聚类集合中除目标话单以外的话单均为待关联聚类话单。

　　S150D，从聚类集合中获取一个待关联聚类话单作为目标待关联聚类话单。

　　S150E，获取目标待关联聚类话单与话单集合中的每个未被处理过的话单之间的相似度。

　　可以理解的是，当目标待关联聚类话单与话单集合中的每个未被处理过的话单之间的相似度均小于预设阈值时，可直接将该目标待关联聚类话单确定为已聚类话单，然后返回执行步骤S150D。

　　S150F，将话单集合中的所有与目标待关联聚类话单的相似度大于预设阈值的话单作为待关联聚类话单加入聚类集合，将话单集合中所有属于聚类集合的话单确定为已处理过的话单，并将目标待关联聚类号码确定为已聚类号码。

　　S150G，判断聚类集合中是否仍存在待关联聚类话单，当聚类集合中仍存在待关联聚类话单时，返回执行步骤S150D。

　　S150H，判断话单集合中是否仍存在未被处理过的话单，当话单集合中仍存在未被处理过的话单时，返回执行步骤S150A。

　　S150I，将每个生成的聚类集合中的多个话单对应的本机通信号码确定为一个聚类结构。

　　下面结合实例对上述的S150A-S150I做进一步解释说明。

　　假设话单1-话单7之间任意两个话单之间的相似度如下表4所示，预设阈值为0.7，此时话单1-话单7均为未被处理过的话单。

　　表4

　　首先可以从话单1-话单7(即上述的多份话单组成的话单集合)中任意获取一个未被处理过的话单作为目标话单(假设获取到话单1)，然后获取话单1与话单2至话单7之间的相似度(分别为1、0.1、0.2、0.4、2、0.5)。由于预设阈值为0.7，故可以将话单2、话单6加入到新生成的聚类集合1中，此时聚类集合1＝{话单1、话单2、话单6}，此时，由于话单1、话单2、话单6均被处理过，故需要将话单1、话单2、话单6确定为已处理过的话单，并且话单2、话单6为待关联聚类话单。

　　然后可以从聚类集合1中任意获取一个待关联聚类话单作为目标待关联聚类话单(假设获取到话单2)，再后可以获取话单2与话单集合中的每个未被处理过的话单之间的相似度，即此时需要获取话单2与话单3、4、5、7之间的相似度(分别为0.2、1、0.4、0.1)，由于话单2与话单4之间的相似度大于预设阈值，故需要将话单4加入到新生成的聚类集合1中，此时聚类集合1＝{话单1、话单2、话单6、话单4}，话单1、话单2、话单4、话单6为已处理过的话单，并且话单4、话单6为待关联聚类话单。

　　之后，判断出聚类集合1中的话单6为待关联聚类话单，故需要获取话单6与话单3、5、7之间的相似度(分别为0.1、0.5、0.4)，判断出聚类集合1中的话单4为待关联聚类话单，故需要获取话单4与话单3、5、7之间的相似度(分别为0.2、0.1、0.1)，由于相似度均小于预设阈值，故最终聚类集合1＝{话单1、话单2、话单6、话单4}，此时话单1、话单2、话单4、话单6为已处理过的话单，并且聚类集合1没有待关联聚类话单。

　　在确定出聚类集合1后，由于话单3、5、7仍为未被处理过的话单，故需要从话单3、5、7中任意获取一个未被处理过的话单作为目标话单(假设获取到话单3)，然后获取话单3与话单5、7之间的相似度(分别为0.8、0.5)。由于预设阈值为0.7，故可以将话单3、话单5加入到新生成的聚类集合2中，此时聚类集合2＝{话单3、话单5}，此时，话单1、话单2、话单4、话单6、话单3、话单5确定为已处理过的话单，并且话单5为待关联聚类话单。

　　然后可以从聚类集合2中任意获取一个待关联聚类话单作为目标待关联聚类话单(获取到话单5)，再后可以获取话单5与话单集合中的每个未被处理过的话单之间的相似度，即此时需要获取话单5与话单7之间的相似度(为0.5)，由于相似度小于预设阈值，故最终聚类集合2＝{话单3、话单5}，此时话单1、话单2、话单4、话单6、话单3、话单5为已处理过的话单，并且聚类集合2没有待关联聚类话单。

　　最后由于仅剩话单7为未被处理过的话单，则最终确定出话单1-话单7的聚类结构为“话单1、话单2、话单6、话单4分别对应的本机通信号码为一个聚类”、“话单3、话单5分别对应的本机通信号码为一个聚类”。

　　应理解，根据上述所确定出的聚类结构“话单1、话单2、话单6、话单4分别对应的本机通信号码为一个聚类”、“话单3、话单5分别对应的本机通信号码为一个聚类”即可确定：话单1、话单2、话单6、话单4分别对应的本机通信号码实际由同一人使用，话单3、话单5分别对应的本机通信号码实际也由同一人使用，进而在分析展示犯罪团伙的话单数据中的特定聚类结构的关系网络时，可以准确、快速地确定出犯罪团伙话单数据中的聚类特征以及犯罪团伙的首要犯罪嫌疑人。

　　请再参照图2，S160，根据聚类结构生成可视化通联数据图，并展示可视化通联数据图。

　　在一些可能的实施例中，在根据聚类结构生成可视化通联数据图后，可以如图6中所示对该可视化通联数据图进行展示。

　　进一步的，该可视化通联数据图可以包括聚类与多份话单中的其他话单之间的通联关系。

　　继续以上述的表2为例，假设多份话单的聚类结构包括有“话单1、话单2、话单6、话单4分别对应的本机通信号码为一个聚类”、“话单3、话单5分别对应的本机通信号码为一个聚类”，则上述的可视化通联数据图可以参照图7，其中，饼图①表示上述的“话单1、话单2、话单6、话单4分别对应的本机通信号码为一个聚类”，饼图②表示上述的“话单3、话单5分别对应的本机通信号码为一个聚类”，框图③表示话单7对应的本机通信号码，饼图①指向框图③的有向箭头(带有数字1)则表示该聚类向话单7对应的本机通信号码拨打过1次电话，饼图①指向饼图②的有向箭头表示该聚类向饼图②的聚类拨打过4次电话，饼图②指向饼图①的有向箭头表示该聚类向饼图①的聚类拨打过1次电话，图中的有向箭头表示上述的聚类与多份话单中的其他话单之间的通联关系。

　　应理解，上述的饼图表示聚类(实际可以表示某人持有多个手机)，框图表示多份话单中的其他话单对应的本机通信号码，上述的有向箭头即表示聚类与多份话单中的其他话单之间的通联关系。还应理解，上述的可视化通联数据图还可以有其他表现形式，例如，饼图中的分块采用不同的颜色以区分该聚类中所包括的本机通信号码，有向箭头的颜色以区分各种联系方式等，本申请对此不做限定。

　　需要说明的是，在实际应用中，由于话单中的通话记录除了包括有“基站位置标识和对方号码”的记录，还可以包括有“通话日期、通话开始时间、通话时长、基站位置区码、基站小区”等记录，因此，上述S100-S150所记载的“根据基站位置标识和对方号码记录对多份话单中进行数据处理，得到多份话单的聚类结构”仅为本申请的可能实施方式之一，本申请的保护范围并不局限于此，事实上，还可以“根据基站位置标识、对方号码、基站位置区码、基站小区等记录对多份话单中进行数据处理，得到多份话单的聚类结构”。

　　应理解，基于上述的话单数据处理展示方法，首先，本申请能够根据获取的多份话单确定出每个基站位置标识和每个对方号码在每份话单中的重要程度值，然后根据上述的重要程度值确定出基站位置标识关键集合和对方号码关键集合，并根据上述的两个集合得到任意两份话单之间的相似度。由于相似度表征两份话单之间的行为特征的一致程度，即相似度能够准确、高效地反映出两份话单是一个聚类的可能程度。因此，在确定出任意两份话单之间的相似度后，再将多份话单中行为特征一致的多个话单所对应的多个本机通信号码确定为一个聚类，最后将聚类结构生成为可视化通联数据图并进行展示，即可使得本申请能够准确、快速地分析出话单数据中的聚类结构，并直观地展示出该聚类结构，提高公安机关侦查办案的效率。

　　为了执行上述实施例及各个可能的方式中的相应步骤，下面给出一种话单数据处理展示装置的实现方式，请参阅图8，图8示出了本申请实施例提供的话单数据处理展示装置的一种功能模块图。需要说明的是，本实施例所提供的话单数据处理展示装置200，其基本原理及产生的技术效果和上述实施例相同，为简要描述，本实施例部分未提及之处，可参考上述的实施例中相应内容。该话单数据处理展示装置200包括：获取模块210、计算模块220、聚类模块230、展示模块240。

　　可选地，上述模块可以软件或固件(Firmware)的形式存储于存储器中或固化于本申请提供的电子设备100的操作系统(Operating System，OS)中，并可由电子设备100中的处理器执行。同时，执行上述模块所需的数据、程序的代码等可以存储在存储器中。

　　获取模块210可以用于获取多份话单；其中，每份话单包括至少一个通话记录，每个通话记录包括基站位置标识、对方号码、号码持有人标识和本机串号数据。

　　可以理解的是，获取模块210可以用于支持电子设备100执行上述S100等，和/或用于本文所描述的技术的其他过程。

　　计算模块220可以用于根据预设计算公式确定每个基站位置标识和每个对方号码在每份话单中的重要程度值。

　　可以理解的是，计算模块220可以用于支持电子设备100执行上述S110等，和/或用于本文所描述的技术的其他过程。

　　对于如何“根据预设计算公式确定每个基站位置标识和每个对方号码在每份话单中的重要程度值”，计算模块220可以用于根据词频-逆文本频率TF-IDF公式确定每个基站位置标识和每个对方号码在每份话单中的重要程度值。

　　可以理解的是，计算模块220可以用于支持电子设备100执行上述S110A等，和/或用于本文所描述的技术的其他过程。

　　计算模块220还可以用于对每份话单中重要程度值最大的a个基站位置标识进行去重合并，得到多份话单的基站位置标识关键集合。

　　可以理解的是，计算模块220可以用于支持电子设备100执行上述S120等，和/或用于本文所描述的技术的其他过程。

　　计算模块220还可以用于对每份话单中重要程度值最大的b个对方号码进行去重合并，得到多份话单的对方号码关键集合。

　　可以理解的是，计算模块220可以用于支持电子设备100执行上述S130等，和/或用于本文所描述的技术的其他过程。

　　计算模块220还可以用于根据基站位置标识关键集合、对方号码关键集合、号码持有人标识、本机串号数据确定任意两份话单之间的相似度；其中，相似度表征两份话单之间的行为特征的一致程度。

　　可以理解的是，计算模块220可以用于支持电子设备100执行上述S140等，和/或用于本文所描述的技术的其他过程。

　　对于如何“根据基站位置标识关键集合、对方号码关键集合、号码持有人标识、本机串号数据确定任意两份话单之间的相似度”，计算模块220可以用于：根据基站位置标识关键集合确定每个话单对应的关键基站位置标识频率向量；根据对方号码关键集合确定每个话单对应的关键对方号码频率向量；根据关键基站位置标识频率向量、关键对方号码频率向量、号码持有人标识、本机串号数据确定任意两份话单之间的相似度。

　　可以理解的是，计算模块220可以用于支持电子设备100执行上述S140A-S140C等，和/或用于本文所描述的技术的其他过程。

　　聚类模块230可以用于根据相似度将多份话单中行为特征一致的多个话单所对应的多个本机通信号码确定为一个聚类，得到多份话单的聚类结构。

　　可以理解的是，聚类模块230可以用于支持电子设备100执行上述S150等，和/或用于本文所描述的技术的其他过程。

　　在一些可能的实施例中，多份话单中的每份话单均对应一个本机通信号码。进而对于如何“根据相似度将多份话单中行为特征一致的多个话单所对应的多个本机通信号码确定为一个聚类，得到多份话单的聚类结构”，聚类模块230可以用于：从多份话单组成的话单集合中获取一个未被处理过的话单作为目标话单；获取目标话单与话单集合中的每个其他未被处理过的话单之间的相似度；生成一个聚类集合，将话单集合中的所有与目标话单的相似度大于预设阈值的话单以及目标话单加入聚类集合，并将话单集合中所有属于聚类集合的话单确定为已处理过的话单；其中，聚类集合中除目标话单以外的话单均为待关联聚类话单；从聚类集合中获取一个待关联聚类话单作为目标待关联聚类话单；获取目标待关联聚类话单与话单集合中的每个未被处理过的话单之间的相似度；将话单集合中的所有与目标待关联聚类话单的相似度大于预设阈值的话单作为待关联聚类话单加入聚类集合，将话单集合中所有属于聚类集合的话单确定为已处理过的话单，并将目标待聚类号码确定为已聚类号码；判断聚类集合中是否仍存在待关联聚类话单，当聚类集合中仍存在待关联聚类话单时，返回执行步骤S150D；判断话单集合中是否仍存在未被处理过的话单，当话单集合中仍存在未被处理过的话单时，返回执行步骤S150A；将每个生成的聚类集合中的多个话单对应的本机通信号码确定为一个聚类结构。

　　可以理解的是，聚类模块230可以用于支持电子设备100执行上述S150A-S150I等，和/或用于本文所描述的技术的其他过程。

　　展示模块240可以用于根据聚类结构生成可视化通联数据图，并展示可视化通联数据图，其中，该可视化通联数据图可以包括聚类与多份话单中的其他话单之间的通联关系。

　　可以理解的是，展示模块240可以用于支持电子设备100执行上述S160等，和/或用于本文所描述的技术的其他过程。

　　综上，本申请实施例提供了一种话单数据处理展示方法、装置及电子设备。首先，本申请能够根据获取的多份话单确定出每个基站位置标识和每个对方号码在每份话单中的重要程度值，然后根据上述的重要程度值确定出基站位置标识关键集合和对方号码关键集合，并根据上述的两个集合以及号码持有人标识、本机串号数据确定出任意两份话单之间的相似度。由于相似度表征两份话单之间的行为特征的一致程度，即相似度能够准确、高效地反映出两份话单是一个聚类的可能程度。因此，在确定出任意两份话单之间的相似度后，再将多份话单中行为特征一致的多个话单所对应的多个本机通信号码确定为一个聚类，最后将聚类结构生成为可视化通联数据图并进行展示，即可使得本申请能够准确、快速地分析出话单数据中的聚类结构，并直观地展示出该聚类结构，提高公安机关侦查办案的效率，填补了本领域的技术空白。

　　以上所述，仅为本申请的可能实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以所述权利要求的保护范围为准。

《话单数据处理展示方法、装置及电子设备.doc》

将本文的Word文档下载到电脑，方便收藏和打印

推荐度：

点击下载文档

文档为doc格式(或pdf格式)

电通讯技术图文推荐

上一篇：一种新型共鸣发音平板音响

下一篇：一种基于分步相关的水声扩频信号检测方法