当前位置：首页 > 电学技术 > 电通讯技术> 一种不良网站的识别方法和识别装置独创技术27285字

一种不良网站的识别方法和识别装置

2021-04-25 17:23:53

一种不良网站的识别方法和识别装置

　　技术领域

　　本发明属于网络安全技术领域，更具体地，涉及一种不良网站的识别方法和识别装置。

　　背景技术

　　在网络安全领域，DPI(Deep Packet Inspection，简写为DPI)承担了入侵检测、病毒蠕虫检测等重要角色。当前，内容安全在网络安全领域也是一个重要的方面，用户在上网过程中，难免会接触到低俗色情网络资讯，其对社会的危害，特别是对青少年的危害也是显而易见的。为此需要一种从网络DPI层面能够有效减少和阻断则情网站访问的技术方案。

　　现有的色情网站识别技术，其采用基于URL(Uniform Resource Locator，简写为URL)来识别，通过从URL中提取出敏感词，将词转换成特征向量，再结合结构特征，通过传统机器学习，例如，贝叶斯方法、SVM(Support Vector Machine，简写为SVM)等进行二分类来识别。基于URL的色情网站识别方法，其准确率依赖于敏感词特征，而很多色情网站在URL中没有明显体现，其识别准确率较低。

　　鉴于此，克服该现有技术产品所存在的不足是本技术领域亟待解决的问题。

　　发明内容

　　针对现有技术的以上缺陷或改进需求，本发明提供了一种不良网站的识别方法和识别装置，其目的在于，采用本发明的方案，无需提取出词串，并转成特征向量，实现方式更简单；由于很多不良网站在URL名中没有明显的体现，基于URL识别的准确率较低，采用已经训练好的目标识别模型进行识别，准确率更高，从而解决目前识别方式复杂且识别的准确率低的问题。

　　为实现上述目的，按照本发明的一个方面，提供一种不良网站的识别方法，所述识别方法包括：

　　基于深度学习算法建立目标识别模型；

　　获取来自于当前访问网站的网页信息；

　　通过所述目标识别模型对所述网页信息进行识别，判断确定所述网页信息是否包含不良图片信息；

　　若所述网页信息包含不良图片信息，则阻断本次访问。

　　优选地，所述基于深度学习算法建立目标识别模型包括：

　　对原有的InceptionV3网络结构进行修改，基于修改后的InceptionV3网络结构建立第一识别模型，其中，所述第一识别模型设置有三个输出类别；

　　获取以InceptionV3作为模型网络结构，并基于ImageNet数据集训练得到的参考识别模型；

　　获取所述参考识别模型的模型参数，基于所述模型参数初始化所述第一识别模型的部分模型参数。

　　优选地，所述基于深度学习算法建立目标识别模型还包括：

　　从互联网中获取多个训练图片，构建自有数据集；

　　采用所述自有数据集对所述第一识别模型进行训练；

　　通过训练后的第一识别模型预测自有数据集，获取被错误分类的图片，将所述被错误分类的图片经过数据增广处理后，添加到自有数据集中，构造目标数据集；

　　通过所述目标数据集，再次对所述第一识别模型进行训练，得到目标训练模型。

　　优选地，所述获取被错误分类的图片，将所述被错误分类的图片经过数据增广处理后，添加到自有数据集中，构造目标数据集包括：

　　将所述被错误分类的图片进行预处理，得到处理后的图片；其中，所述预处理包括随机旋转、缩放、裁剪、水平翻转或上下翻转；

　　将所述处理后的图片添加到所述自有数据集中，构造目标数据集。

　　优选地，所述对原有的InceptionV3网络结构进行修改，基于修改后的InceptionV3网络结构建立第一识别模型包括：

　　将原有的InceptionV3网络结构的最后两层删除；

　　并增加一个单元数为256的全连接层、一个单元数为128的全连接层以及一个单元数为3的输出层，得到修改后的InceptionV3网络结构；

　　基于修改后的InceptionV3网络结构建立第一识别模型。

　　优选地，所述获取来自于当前访问网站的网页信息包括：

　　获取HTTP报文，对所述HTTP报文进行解析，得到网站地址；

　　根据所述网站地址访问所述当前访问网站，获取所述网页信息；

　　启动DPI文件还原服务，根据所述DPI文件还原服务对所述网页信息进行还原，得到还原后的文件；

　　判断所述还原后的文件是否为图片文件；

　　若所述还原后的文件为图片文件，则通过所述目标识别模型对所述网页信息进行识别，判断确定所述网页信息是否包含不良图片信息。

　　优选地，所述获取来自于当前访问网站的网页信息包括：

　　在获取到HTTPS报文后，采用代理服务器对HTTPS协议进行转换得到HTTP协议。

　　优选地，所述识别方法还包括：

　　若所述网页信息包含不良图片信息，则将所述当前访问网站标记为不良网站；

　　若是HTTPS协议，则获取所述不良网站的网站证书；

　　根据所述网站证书得到证书提供商，以通知所述证书提供商对所述不良网站进行内容审查并终止合作。

　　优选地，所述若所述网页信息包含不良图片信息，则阻断本次访问包括：

　　获取所述网页信息包含不良图片信息的概率值；

　　判断所述概率值是否大于预设的色情阈值；

　　若不小于所述预设的色情阈值，所述网页信息包含不良图片信息，则阻断本次访问；

　　若小于所述预设的色情阈值，则判断所述概率值是否大于预设的性感阈值；

　　若不小于所述预设的性感阈值，则标记所述当前访问网站为疑似不良网站，以根据情况选择性允许访问；

　　若小于所述预设的性感阈值，则标记为正常网站，允许访问。

　　为实现上述目的，按照本发明的另一个方面，提供了一种识别装置，所述识别装置包括至少一个处理器；以及，与所述至少一个处理器通信连接的存储器；其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被程序设置为执行本发明所述的识别方法。

　　总体而言，通过本发明所构思的以上技术方案与现有技术相比，具有如下有益效果：本发明提供一种不良网站的识别方法和识别装置，该识别方法包括基于深度学习算法建立目标识别模型；获取来自于当前访问网站的网页信息；通过所述目标识别模型对所述网页信息进行识别，判断确定所述网页信息是否包含不良图片信息；若所述网页信息包含不良图片信息，则阻断本次访问。

　　在本发明中，基于深度学习算法建立目标识别模型，根据目标识别模型对网页内容进行识别，从而确定当前访问网站是否为不良网站。采用本发明的方案，无需提取出词串，并转成特征向量，实现方式更简单；由于很多不良网站在URL名中没有明显的体现，基于URL识别的准确率较低，采用已经训练好的目标识别模型进行识别，准确率更高。

　　附图说明

　　图1是本发明实施例提供的一种不良网站的识别方法的流程示意图；

　　图2是本发明实施例提供的另一种不良网站的识别方法的流程示意图；

　　图3是本发明实施例提供的建立目标识别模型的流程示意图；

　　图4是本发明实施例提供的又一种不良网站的识别方法的流程示意图；

　　图5是本发明实施例提供的一种识别装置的结构示意图。

　　具体实施方式

　　为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

　　在本发明的描述中，术语“内”、“外”、“纵向”、“横向”、“上”、“下”、“顶”、“底”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明而不是要求本发明必须以特定的方位构造和操作，因此不应当理解为对本发明的限制。

　　此外，下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。

　　实施例1：

　　参阅图1，本发明实施例提供一种不良网站的识别方法，该识别方法包括如下步骤：

　　步骤101：基于深度学习算法建立目标识别模型。

　　在本实施例中，预先基于深度学习算法建立目标识别模型，在实际使用中，通过目标识别模型完成对图片的分类以及相应的概率值。

　　其中，所述目标识别模型为基于深度学习的算法模型，例如，可以为基于ResNet152的算法模型或基于InceptionV3的算法模型。通过测试对比，基于InceptionV3的算法模型的性能更优，因此，基于InceptionV3作为模型的网络结构，基于深度学习算法建立目标识别模型。

　　在本实施例中，所述基于深度学习算法建立目标识别模型的具体实现过程如下：以InceptionV3作为模型网络结构，建立第一识别模型，在本实施例中，针对现有的InceptionV3进行了改进，以适用于本实施例的识别方法。其中，改进点如下：(1)去掉了原来网络的最后两层，一个1x1卷积层和一个单元数为1000的输出层；(2)取而代之的是，用一个单元数为256的全连接层、一个单元数为128的全连接层以及一个单元数为3的输出层。即，将InceptionV3的一个1x1卷积层和一个单元数为1000的输出层，替换为一个单元数为256的全连接层、一个单元数为128的全连接层以及一个单元数为3的输出层。此外，在全连接层的前后都加入了正则化手段：例如，L2正则化，以及Xaiver初始化方法。

　　在本实施例中，对原有的InceptionV3网络结构进行修改，基于修改后的InceptionV3网络结构建立第一识别模型，其中，所述第一识别模型设置有三个输出类别，其中，三个输出类别分别用于输出正常图片、性感图片和色情图片，以及每个图片从属于相应类别的概率值。

　　在实际应用场景下，获取以InceptionV3作为模型网络结构，并基于ImageNet数据集训练得到的参考识别模型；获取所述参考识别模型的模型参数，基于所述模型参数初始化所述第一识别模型的部分模型参数。从互联网中获取多个训练图片，构建自有数据集；采用所述自有数据集对所述第一识别模型进行训练；通过训练后的第一识别模型预测自有数据集，获取被错误分类的图片，将所述被错误分类的图片经过数据增广处理后，添加到自有数据集中，构造目标数据集；通过所述目标数据集，再次对所述第一识别模型进行训练，得到目标训练模型。

　　具体地，将所述被错误分类的图片进行预处理，得到处理后的图片；其中，所述预处理包括随机旋转、缩放、裁剪、水平翻转或上下翻转；将所述处理后的图片添加到所述自有数据集中，构造目标数据集，以增加数据集的多样性和表现力。

　　在本实施例中，为了提高识别的准确率，还需保证数据集的大小和类别均衡，因此，在从互联网中获取训练图片时，需要有目的的获取不同类别的训练图片，从而保证自有数据集的大小和类别均衡。例如，数据集总量可以控制在24W左右，每个类别在8W左右。

　　在本实施例中，不仅采用改进后的InceptionV3网络结构在ImageNet上训练参数作为初始值，还采用了BatchNormalization、Dropout、EarlyStopping以及最优模型保存等手段来优化训练，得到目标识别模型。

　　其中，BatchNormalization是一种正则化方法，其主要对数据进行标准化后在进行一个缩放和平移，消除数据分布变化导致训练困难和收敛慢的问题；Drouput本质也是一种正则化，其会在每个层随机按确定的比例，随机舍弃一部分单元不参与反向传播求梯度的计算，其作用是防止或减少过拟合，以便使模型更能拟合真实场景；EarlyStopping是早起停止的意思，在训练过程中，如果模型多次精度没有提升，即可停止训练，防止继续训练带来的精度下降，也是一种减少过拟合的方法；最优模型保存，是一种策略，模型在训练过程中，对每次进行精度和损失的计算，只要后面的训练精度更高，则保存后面精度更高的模型。

　　结合图4，在实际训练中，需要对模型进行多次训练和优化，并验证准确率，如果准确率有提升，则保存最新模型，并在线更新模型，若准确率没有提升则继续训练。

　　步骤102：获取来自于当前访问网站的网页信息。

　　在实际应用场景下，可以通HTTP方式访问网站，此种方式下，获取HTTP报文，通过HTTP报文中携带的网络地址访问网站，从而获取网页信息。如果网站经过加密，需通过HTTPS方式访问，此种方式下，需要先通过HTTP代理将HTTPS协议转换为HTTP协议，得到基于HTTP协议的报文，然后获取当前访问网站的网页信息。

　　其中，网页信息包括图片或者视频，当网页信息为视频时，可以从视屏中获取多个帧图片，然后将多个帧图片输入至目标识别模型进行判别。

　　步骤103：通过所述目标识别模型对所述网页信息进行识别，判断确定所述网页信息是否包含不良图片信息。

　　其中，不良信息包括暴力图片或色情图片等。本实施例主要针对不良信息为色情图片进行说明，针对其他不良信息的判别基本方式相同，只是在基于深度学习算法建立目标识别模型时，需要调整用于训练的数据集。

　　步骤104：若所述网页信息包含不良图片信息，则阻断本次访问。

　　在本实施例中，若所述网页信息包含不良图片信息，则阻断本次访问。获取所述网页信息包含不良图片信息的概率值；判断所述概率值是否大于预设的色情阈值；若不小于所述预设的色情阈值，所述网页信息包含不良图片信息，则阻断本次访问；若小于所述预设的色情阈值，则判断所述概率值是否大于预设的性感阈值；若不小于所述预设的性感阈值，则标记所述当前访问网站为疑似不良网站，以根据情况选择性允许访问；若小于所述预设的性感阈值，则标记为正常网站，允许访问。其中，前述阈值可以依据实际情况而定，在此不做具体限定。

　　进一步地，将所述当前访问网站添加至跟踪表，并记录所述当前访问网站被标记为疑似不良网站的次数，若被标记的次数大于预设的次数阈值，则将所述当前访问网站上报至管理员，通知管理员进行人工确认。在经过人工确认后，若所述当前访问网站为不良网站，则从所述不良网站中获取训练图片，根据训练图片对所述目标识别模型再次进行训练，以提高检测的准确性。

　　在另一个实施例中，若所述网页信息包含不良图片信息，则将所述当前访问网站标记为不良网站；对于HTTPS访问，则可以获取所述不良网站的网站证书；根据所述网站证书得到证书提供商，以通知所述证书提供商对所述不良网站进行内容审查并终止合作。

　　在本实施例中，采用的当前人工智能中的深度学习图像识别技术，从管道DPI层面阻断对色情网站的访问。本实施例的方案相较于现有技术中通过URL进行识别的方案具有如下优势：其一、去掉了基于URL识别方法需要显式提取出词串，并转成特征向量的过程；其二、基于URL的色情网站识别方法，其准确率依赖于敏感词特征，而很多色情网站在URL中名没有明显体现，其识别准确率不会很高；其三、随着人工智能技术的飞速发展，其对图像进行识别需要大量计算资源的问题，采用GPU硬件加速等手段，也可以做到实时检测。

　　进一步地，还可以在线更新目标识别模型，不断增加样本，以提高识别的准确率。

　　实施例2：

　　前述实施例1主要介绍了基于深度学习算法建立目标识别模型的步骤，下面参阅图2和图3具体说明获取当前访问网站的网页信息的过程。在本实施例中，该识别方法包括如下步骤：

　　步骤201：基于深度学习算法建立目标识别模型。

　　在本实施例中，预先基于深度学习算法建立目标识别模型，在实际使用中，通过目标识别模型完成对图片的分类以及相应的概率值。

　　在实际应用场景下，首先采用ImageNet数据集对所述第一识别模型进行训练，得到所述第一识别模型的模型参数。为了提高识别模型的准确度，需要丰富训练集，在优选的实施例中，从互联网中获取多个训练图片，例如，通过网络爬虫技术从互联网中获取多个训练图片，将多个所述训练图片添加到所述ImageNet数据集中，得到第一数据集；采用所述第一数据集对所述第一识别模型进行训练，在训练的过程中识别模型的模型参数也会相应的被修正。然后，获取被错误分类的图片，基于所述被错误分类的图片对所述第一识别模型的模型参数进行调整，得到第二识别模型。

　　在本实施例中，不仅采用InceptionV3网络结构在ImageNet上训练参数作为初始值，还采用了BatchNormalization、Dropout、EarlyStopping以及最优模型保存等手段来优化训练，得到目标识别模型。

　　其中，步骤201与实施例1的步骤101相同，具体详见步骤101。

　　步骤202：获取HTTP报文，对所述HTTP报文进行解析，得到网站地址。

　　其中，HTTP(HyperText Transfer Protocol，简写为HTTP)报文包括请求行、请求头和请求体。对所述HTTP进行解析，得到网站地址。

　　在实际应用场景下，在获取到HTTPS报文后，采用代理服务器对所述HTTPS协议进行转换得到HTTP协议，得到基于HTTP协议的报文。其中，前述的代理服务器指可以具备HTTP/HTTPS协议网关功能的中间实体，其具体通过初始化与远端服务器的SSL会话，代表客户端执行HTTPS事务，当收到服务端的响应后，通过HTTP将响应传回给客户端，以获取HTTP报文。

　　步骤203：根据所述网站地址访问所述当前访问网站，获取所述网页信息。

　　其中，网页信息包括图片或者视频，当网页信息为视频时，可以从视屏中获取多个帧图片，然后将多个帧图片输入至目标识别模型进行判别。

　　步骤204：启动DPI文件还原服务，根据所述DPI文件还原服务对所述网页信息进行还原，得到还原后的文件。

　　结合图3，启动DPI文件还原服务，根据所述DPI文件还原服务对所述网页信息进行还原，得到还原后的文件。

　　步骤205：判断所述还原后的文件是否为图片文件。

　　在本实施例中，判断所述还原后的文件是否为图片文件，若是则执行步骤206，若不是，则返回步骤202，继续获取HTTP报文。

　　在另一个实施例中，若所述还原后的文件不是图片文件，则判断所述还原后的文件是否为视频文件，若是，则对所述视频文件进行分帧处理，得到多个帧图片，然后将多个帧图片输入至目标识别模型进行识别。

　　步骤206：若所述还原后的文件为图片文件，通过所述目标识别模型对所述网页信息进行识别，判断确定所述网页信息是否包含不良图片信息。

　　步骤207：若所述网页信息包含不良图片信息，则阻断本次访问。

　　在另一个实施例中，若所述网页信息包含不良图片信息，则将所述当前访问网站标记为不良网站；获取所述不良网站的网站证书；根据所述网站证书得到证书提供商，以通知所述证书提供商对所述不良网站进行内容审查并终止合作。

　　在本实施例中，基于深度学习算法作为算法SDK(Software Development Kit，简写为SDK)，对文件还原服务提供应用程序接口API(Application Programming Interface，简写为API)，SDK在初始化时，通过载入训练保存的目标识别模型，并将其加载到内存或GPU(Graphics Processing Unit，简写为GPU)显存，基于GPU硬件加速，可实现实时识别的效果。文件还原服务将还原出的图片作为输入，调用算法SDK提供的API，算法通过GPU的推理，返回结果，得到该图像是否为色情图像的判别。文件还原服务根据事先定义的阈值，确认是否要通知策略引擎，如果确认是则通知策略引擎，由策略引擎生成规则对此次访问进行阻断。

　　实施例3：

　　请参阅图5，图5是本发明实施例提供的一种识别装置的结构示意图。本实施例的识别装置包括一个或多个处理器41以及存储器42。其中，图5中以一个处理器41为例。

　　处理器41和存储器42可以通过总线或者其他方式连接，图5中以通过总线连接为例。

　　存储器42作为一种基于识别方法的非易失性计算机可读存储介质，可用于存储非易失性软件程序、非易失性计算机可执行程序以及模块，上述实施例的方法以及对应的程序指令。处理器41通过运行存储在存储器42中的非易失性软件程序、指令以及模块，从而执行各种功能应用以及数据处理，实现前述实施例的方法。

　　其中，存储器42可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实施例中，存储器42可选包括相对于处理器41远程设置的存储器，这些远程存储器可以通过网络连接至处理器41。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

　　值得说明的是，上述装置和系统内的模块、单元之间的信息交互、执行过程等内容，由于与本发明的处理方法实施例基于同一构思，具体内容可参见本发明方法实施例中的叙述，此处不再赘述。

　　本领域普通技术人员可以理解实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，该程序可以存储于一计算机可读存储介质中，存储介质可以包括：只读存储器(Read Only Memory，简写为ROM)、随机存取存储器(RandomAccessMemory，简写为RAM)、磁盘或光盘等。

　　本领域的技术人员容易理解，以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

《一种不良网站的识别方法和识别装置.doc》

将本文的Word文档下载到电脑，方便收藏和打印

推荐度：

点击下载文档

文档为doc格式(或pdf格式)

电通讯技术图文推荐

上一篇：一种基于OFDM抗脉冲噪声的符号同步方法

下一篇：一种基于视频分析技术的印章管理系统