欢迎光临小豌豆知识网!
当前位置:首页 > 电学技术 > 电通讯技术> 一种数据预处理方法、装置、设备和计算机可读存储介质独创技术19972字

一种数据预处理方法、装置、设备和计算机可读存储介质

2021-03-14 20:56:31

一种数据预处理方法、装置、设备和计算机可读存储介质

  技术领域

  本发明涉及数据处理技术领域,尤其涉及一种数据预处理方法、装置、设备和计算机可读存储介质。

  背景技术

  目前,随着数据安全问题的日渐凸显和数据安全相关法律法规的接连出台,数据安全正成为企业安全体系中的关键一环,越来越得到企业决策层的高度重视。在保护企业数据安全过程中,数据安全审计则起到着重要的作用。数据安全审计通过收集企业运营过程中的重要数据和敏感数据的相关操作信息来对数据安全风险进行预警、研判和分析。

  但是现有阶段的数据安全审计系统在数据收集和处理上却存在如下不足:对数据采集不够全面,难以覆盖到重要数据和敏感数据的所有留存载体,包括:网络、终端、数据库和应用系统,存在采集盲区;对于采集到的数据一般都有进行数据清洗和数据转换等数据预处理操作,但是却没有对数据开展价值分析与预选操作,导致无用数据的堆积,给审计系统造成较大的数据处理压力。

  发明内容

  本发明提供了一种数据预处理方法、装置、设备和计算机可读存储介质,用于解决现有数据预处理方法对数据采集不够全面,没有对数据开展价值分析与预选操作,导致无用数据堆积的技术问题。

  本发明提供了一种数据预处理方法,包括:

  采集日志数据;所述日志数据包括网络安全设备日志数据、数据库日志数据、操作系统日志数据和应用系统日志数据;

  对所述日志数据进行拆解,得到结构化数据;所述结构化数据包含对象特征;

  根据预设关联信息库对所述对象特征进行筛选,得到审计数据。

  可选地,所述采集日志数据的步骤,包括:

  基于预设系统日志syslog协议接收预设网络安全设备发送的所述网络安全设备日志数据。

  可选地,所述采集日志数据的步骤,还包括:

  接收预设软件探针发送的所述数据库日志数据、所述操作系统日志数据和所述应用系统日志数据。

  可选地,所述对所述日志数据进行拆解,得到结构化数据的步骤,包括:

  对所述日志数据进行数据清洗,从所述日志数据中提取空值和无效值,并删除所述空值和无效值,得到已清洗日志数据;

  对所述已清洗日志数据进行拆解,得到结构化数据。

  本发明还提供了一种数据预处理装置,包括:

  日志数据采集模块,用于采集日志数据;所述日志数据包括网络安全设备日志数据、数据库日志数据、操作系统日志数据和应用系统日志数据;

  拆解模块,用于对所述日志数据进行拆解,得到结构化数据;所述结构化数据包含对象特征;

  筛选模块,用于根据预设关联信息库对所述对象特征进行筛选,得到审计数据。

  可选地,所述日志数据采集模块,包括:

  第一接收子模块,用于基于预设系统日志syslog协议接收预设网络安全设备发送的所述网络安全设备日志数据。

  可选地,所述日志数据采集模块,还包括:

  第二接收子模块,用于接收预设软件探针发送的所述数据库日志数据、所述操作系统日志数据和所述应用系统日志数据。

  可选地,所述拆解模块,包括:

  数据清洗子模块,用于对所述日志数据进行数据清洗,从所述日志数据中提取空值和无效值,并删除所述空值和无效值,得到已清洗日志数据;

  拆解子模块,用于对所述已清洗日志数据进行拆解,得到结构化数据。

  本发明还提供了一种数据预处理设备,所述设备包括处理器以及存储器:

  所述存储器用于存储程序代码,并将所述程序代码传输给所述处理器;

  所述处理器用于根据所述程序代码中的指令执行如上任一项所述的数据预处理方法。

  本发明还提供了一种计算机可读存储介质,所述计算机可读存储介质用于存储程序代码,所述程序代码用于执行如上任一项所述的数据预处理方法。

  从以上技术方案可以看出,本发明具有以下优点:本发明通过采集日志数据,包括网络安全设备日志数据、数据库日志数据、操作系统日志数据和应用系统日志数据;并对日志数据进行拆解,得到结构化数据;从结构化数据中提取对象特征;根据预设关联信息库对对象特征进行筛选,得到审计数据。本发明通过对不同类型的日志数据进行数据采集,解决了现有数据预处理方法对数据采集不够全面的问题。以及通过将日志数据拆解为结构化数据,从中获取对象特征,通过对对象特征的筛选,保留了审计数据,剔除了无用数据,解决了无用数据堆积的技术问题。

  附图说明

  为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其它的附图。

  图1为本发明实施例提供的一种数据预处理方法的步骤流程图;

  图2为本发明另一实施例提供的一种数据预处理方法的步骤流程图;

  图3为本发明实施例提供的一种数据预处理装置的结构框图。

  具体实施方式

  本发明实施例提供了一种数据预处理方法、装置、设备和计算机可读存储介质,用于解决现有数据预处理方法对数据采集不够全面,没有对数据开展价值分析与预选才做,导致无用数据堆积的技术问题。

  为使得本发明的发明目的、特征、优点能够更加的明显和易懂,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,下面所描述的实施例仅仅是本发明一部分实施例,而非全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。

  请参阅图1,图1为本发明实施例提供的一种数据预处理方法的步骤流程图。

  本发明提供的一种数据预处理方法,包括:

  步骤101,采集日志数据;日志数据包括网络安全设备日志数据、数据库日志数据、操作系统日志数据和应用系统日志数据;

  在本发明实施例中,可以从日志数据中获取所需要的审计数据,在一个示例中,采集日志数据的对象可以包括网络安全设备、数据库、应用系统和操作系统四类,覆盖重要数据和敏感数据的全部载体。

  步骤102,对日志数据进行拆解,得到结构化数据;结构化数据包含对象特征;

  步骤103,根据预设关联信息库对对象特征进行筛选,得到审计数据。

  在采集得到日志数据后,可以对日志数据进行数据价值分析,将其采集到的日志数据进行高低价值划分,并对高价值日志数据进行留存,对低价值日志数据进行丢弃。

  具体地,可以对采集到的数据运用“4W”(when、where、who、what)模型进行拆解分析,将一段日志数据结构化分解为带有时间特征、地点特征、相关对象特征和内容特征的结构化数据。一般而言,网络设备日志中的对象特征包括:源IP、目前IP和相关资产;数据库日志对象特征主要包含:数据库IP、数据库名称、数据表与数据字段;终端日志对象主要包含:资产IP、资产名称;应用系统日志对象特征主要包含:应用系统名称。因此,在数据预处理过程中,可以将相关信息库与对象特征相关联。根据信息库对对象特征进行筛选,得到审计数据。

  在一个示例中,以企业为例,可以将日志对象特征中涉及到部门中级及以上人员以及等保二级及以上系统的应用、资产和数据库表筛选过滤出来,作为下一步数据处理的对象,而对于完全不涉及相关内容的部分则可以直接丢弃。

  本发明通过对不同类型的日志数据进行数据采集,解决了现有数据预处理方法对数据采集不够全面的问题。以及通过将日志数据拆解为结构化数据,从中获取对象特征,通过对对象特征的筛选,保留了审计数据,剔除了无用数据,解决了无用数据堆积的技术问题。

  请参阅图2,图2为本发明另一实施例提供的一种数据预处理方法的步骤流程图,具体可以包括以下步骤:

  步骤201,采集日志数据;日志数据包括网络安全设备日志数据、数据库日志数据、操作系统日志数据和应用系统日志数据;

  在本发明实施例中,可以从日志数据中获取所需要的审计数据,在一个示例中,采集日志数据的对象可以包括网络安全设备、数据库、应用系统和操作系统四类,覆盖重要数据和敏感数据的全部载体。

  在一个示例中,针对网络安全设备日志数据的采集,可以基于预设系统日志syslog协议接收预设网络安全设备发送的网络安全设备日志数据。

  具体地,网络安全设备的日志是固定格式的结构化数据,因此可以采用syslog方式进行日志数据的采集。通过配置设备日志的外发目标IP,以syslog协议方式向数据安全审计系统外发日志数据包,而数据安全审计系统基于syslog协议来接收该日志数据包。

  安全设备日志采集的具体内容如下表1所示:

  

  

  

  

  表1

  在另一个示例中,日志数据还可以包括数据库日志数据、操作系统日志数据和应用系统日志数据,对相关日志数据的采集,可以通过预先部署在数据库、操作系统、软件系统上的软件探针来获取。软件探针会向数据安全审计系统发送相应的数据库日志数据、操作系统日志数据和应用系统日志数据。

  针对数据库日志数据采集方面,本发明实施例在数据库服务器中部署有软件探针(Agent),以实现数据库日志文件本地获取,软件探针检测日志文件修改日期,并据此为触发条件,通过线程轮训将本地日志文件新增内容主动外发至数据安全审计系统。数据安全审计系统获取到日志数据后,可以按照不同类别数据库日志文件进行内容识别,获取关键字段信息,形成标准化审计数据并入库。

  数据库采集日志的数据具体内容如下表2所示:

  

  

  表2

  针对操作系统日志数据采集方面,本发明实施例通过在window、linux服务器中部署软件探针来实现操作系统安全日志文件本地获取,软件探针检测日志文件修改日期,并据此为触发条件,通过线程轮训将本地日志文件新增内容主动外发至数据安全审计系统,数据安全审计系统获取到日志数据后,按照不同类别操作系统日志文件进行内容识别,获取关键字段信息,形成标准化审计数据并入库。

  操作系统日志数据采集具体内容如下表3所示:

  

  表3

  针对应用系统数据的采集方面,本发明实施例通过旁路部署流量采集设备来采集HTTP类应用系统、邮件系统、文件系统的流量,识别协议的传输内容,将数据格式标准化,其中涉及对应用系统的HTTP协议、邮件系统POP3/SMTP协议以及文件系统的FTP协议的解析,从而识别网络访问信息、传输数据内容信息等。本发明实施例通过在大数据组件服务器以及中间件服务器中部署软件探针来实现大数据组件日志、中间件安全日志文件本地获取,软件探针检测日志文件修改日期,并据此为触发条件,通过线程轮训将本地日志文件新增内容主动外发至数据安全审计系统,数据安全审计系统获取数据后,按照不同类别大数据组件以及中间件日志文件进行内容识别,获取关键字段信息,形成标准化审计数据并入库。

  应用系统日志采集具体内容如下表4所示:

  

  

  表4

  步骤202,对日志数据进行数据清洗,从日志数据中提取空值和无效值,并删除空值和无效值,得到已清洗日志数据;

  数据清洗是指当采集到的日志数据存在空值和无效值时对其进行丢弃处理。其中空值可能包括时间缺失、内容缺失等,都视为存在空值。无效值主要是指存在无意义的字符和编码。

  步骤203,对已清洗日志数据进行拆解,得到结构化数据;结构化数据包含对象特征;

  步骤204,根据预设关联信息库对对象特征进行筛选,得到审计数据。

  在得到已清洗日志数据后,可以对已清洗日志数据进行数据价值分析,将其进行高低价值划分,并对高价值日志数据进行留存,对低价值日志数据进行丢弃。

  具体地,可以对采集到的数据运用“4W”(when、where、who、what)模型进行拆解分析,将一段日志数据结构化分解为带有时间特征、地点特征、相关对象特征和内容特征的结构化数据。一般而言,网络设备日志中的对象特征包括:源IP、目前IP和相关资产;数据库日志对象特征主要包含:数据库IP、数据库名称、数据表与数据字段;终端日志对象主要包含:资产IP、资产名称;应用系统日志对象特征主要包含:应用系统名称。因此,在数据预处理过程中,可以将相关信息库与对象特征相关联。根据信息库对对象特征进行筛选,得到审计数据。

  在一个示例中,以企业为例,可以将日志对象特征中涉及到部门中级及以上人员以及等保二级及以上系统的应用、资产和数据库表筛选过滤出来,作为下一步数据处理的对象,而对于完全不涉及相关内容的部分则可以直接丢弃。

  本发明通过对不同类型的日志数据进行数据采集,解决了现有数据预处理方法对数据采集不够全面的问题。以及通过将日志数据拆解为结构化数据,从中获取对象特征,通过对对象特征的筛选,保留了审计数据,剔除了无用数据,解决了无用数据堆积的技术问题。

  请参照图3,图3为本发明实施例提供的一种数据预处理装置的结构框图,具体可以包括以下模块:

  日志数据采集模块301,用于采集日志数据;日志数据包括网络安全设备日志数据、数据库日志数据、操作系统日志数据和应用系统日志数据;

  拆解模块302,用于对日志数据进行拆解,得到结构化数据;结构化数据包含对象特征;

  筛选模块303,用于根据预设关联信息库对对象特征进行筛选,得到审计数据。

  在本发明实施例中,日志数据采集模块301,可以包括:

  第一接收子模块,用于基于预设系统日志syslog协议接收预设网络安全设备发送的网络安全设备日志数据。

  在本发明实施例中,日志数据采集模块301,还可以包括:

  第二接收子模块,用于接收预设软件探针发送的数据库日志数据、操作系统日志数据和应用系统日志数据。

  在本发明实施例中,拆解模块302,包括:

  数据清洗子模块,用于对日志数据进行数据清洗,从日志数据中提取空值和无效值,并删除空值和无效值,得到已清洗日志数据;

  拆解子模块,用于对已清洗日志数据进行拆解,得到结构化数据。

  本发明实施例还提供了一种数据预处理设备,设备包括处理器以及存储器:

  存储器用于存储程序代码,并将程序代码传输给处理器;

  处理器用于根据程序代码中的指令执行本发明任一实施例提供的数据预处理方法。

  本发明实施例还提供了一种计算机可读存储介质,计算机可读存储介质用于存储程序代码,程序代码用于执行本发明任一实施例所提供的数据预处理方法。

  所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。

  在本申请所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口、装置或单元的间接耦合或通信连接,可以是电性、机械或其它的形式。

  所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来达到实现本实施例方案的目的。

  另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。

  所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-OnlyMemory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

  以上所述,以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

《一种数据预处理方法、装置、设备和计算机可读存储介质.doc》
将本文的Word文档下载到电脑,方便收藏和打印
推荐度:
点击下载文档

文档为doc格式(或pdf格式)