欢迎光临小豌豆知识网!
当前位置:首页 > 电学技术 > 电通讯技术> 一种基于行为特征的半自动反爬系统独创技术12302字

一种基于行为特征的半自动反爬系统

2021-03-29 23:54:46

一种基于行为特征的半自动反爬系统

  技术领域

  本发明属于网络数据安全领域,涉及一种基于用户行为分析的爬虫自动识别和处置系统。

  背景技术

  现有基于后端数据的反爬系统总体来说有两个方向:一个是基于人工策略和字符特征匹配的爬虫识别和拦截方法,另一个是结合有监督与无监督机器学习的爬虫识别和拦截方法。前一类方式需要业务专家与策略专家共同协作才能提取并应用爬虫识别特征,其从识别到拦截生效周期长,人工成本高,通用性低。第二类引入机器学习方法来识别爬虫的方式,优点是规则的发现由算法从数据样本中自动学习,缺点是需要大量的数据标注,且泛化、更新成本高。

  无论是使用有监督的机器学习(例如授权公告号:CN 109582855B)还是无监督的机器学习,均严重依赖标注数据,而生产服务系统中,日志数据、业务数据量巨大,人工标注、及时更新是一个不可持续的过程。此外,如果爬虫行为更改,而机器学习预先设计的特征不能刻画它,则难以抓住新的爬虫。除了以上缺点,现有反爬系统普遍存在的问题是泛化能力低。人工的规则、字符特征和机器学习,往往都是在特定业务场景下总结的,面对新场景时难以快速接入、生效。

  发明内容

  为了解决上述已有技术存在的不足,本发明提出一种基于行为特征的半自动反爬系统。

  本发明提供了一种基于行为特征的半自动反爬系统,包括ETL处理单元、行为分析及管理单元、日志分析引擎和请求防护处理单元;

  所述ELT处理单元用于对用户端发起请求的request信息进行ETL处理,将得到的UID和URI数据传输至、所述行为分析及管理单元、所述日志分析引擎和所述请求防护处理单元;

  所述行为分析及管理单元用于:以接收到的UID为主键聚合,对接收到的URI数据进行去重处理,生成UID的行为集合、行为集合统计指标和与业务场景相关的统计指标;以所述行为集合为主键聚合,生成分析视图,以判断所述行为集合是否为威胁行为集合;若判断所述行为集合是威胁行为集合,则将威胁行为集合记录到威胁行为数据库,并跟踪所述请求防护处理单元的处理结果,用于生成历史处理指标;

  所述行为分析及管理单元的最小输入、输出和内部处理逻辑为:业务专家或策略专家可使用所述分析视图时,依据行为集合的包括历史处理量、访问频率、URI数据种类和URI数据数量的指标标记威胁行为集合,所述半自动反爬系统根据所述行为集合统计指标,自动生成处置策略参数并推送到威胁行为数据库中,供爬虫实时监测使用;

  所述日志分析引擎用于为接收到的UID和URI数据提供可扩展的存储能力,以及用于为所述行为集合统计指标和与业务场景相关的统计指标的计算提供高可用的算力;

  所述请求防护处理单元用于根据从所述ELT处理单元接收到的UID和URI数据,记录每个UID访问的URI数据,并生成每个UID的实时行为集合,之后判断每个UID的实时行为集合是否在威胁行为数据库中,然后采用一系列反爬处理方案对在威胁行为数据库中的行为集合作合理处置。

  进一步,所述请求防护处理单元包括实时流量监测模块和处理模块;

  所述实时流量监测模块用于监测实时流量是否在威胁行为数据库中,具体过程为:记录每个UID访问的URI数据并生成每个UID的实时行为集合;并将每个UID的实时行为集合与威胁行为集合进行比对,命中后将相应UID记录到威胁UID数据库中,没命中则进入正常业务办理流程;

  所述处理模块用于将ETL处理得到的UID和URI数据与威胁UID数据库实时比对,命中后进入拦截判断,如果拦截,则对相应UID的访问生成处置信息并返回数据到用户端,同时记录到历史处置记录中;如果不拦截,则进入正常业务办理流程。

  进一步,所述与业务场景相关的统计指标包括:登录次数、注册次数、搜索次数、历史处置次数和付款次数。

  进一步,所述分析视图包含以下信息:UID数量、总访问量、行为集合长度、动/静URI访问比例、真人概率和业务相关的统计量。

  本发明的有益效果:

  1)本发明采用直观的形式呈现威胁流量,且同时得到了对应的处理方式,能精准查杀指定威胁行为;

  2)本发明经过一段时间的威胁拦截处理后,历史处理信息会体现在行为集合分析视图中,如果新的威胁行为中包含曾经处理过的UID,可将该行为集合自动推荐为威胁行为,由维护人员决定是否加入威胁行为库中,实现了半自动反爬闭环。

  附图说明

  图1为本发明实施例的基于行为特征的半自动反爬系统的数据流向图;

  图2为本发明实施例的基于行为特征的半自动反爬系统的数据处理流程图。

  具体实施方式

  为了能够更清楚地理解本发明的上述目的、特征和优点,下面结合附图和具体实施方式对本发明进行进一步的详细描述。需要说明的是,在不冲突的情况下,本申请的实施例及实施例中的特征可以相互组合。

  在下面的描述中阐述了很多具体细节以便于充分理解本发明,但是,本发明还可以采用其他不同于在此描述的其他方式来实施,因此,本发明的保护范围并不受下面公开的具体实施例的限制。

  本实施例提出一种基于行为特征的半自动反爬系统,如图1所示,包括ETL处理单元、日志分析引擎、行为分析及管理单元和请求防护处理单元。下面结合图2所示的本实施例的基于行为特征的半自动反爬系统的数据处理流程图,来进一步说明本发明的半自动反爬系统的各个部分。

  首先,ELT处理单元用于对用户端发起请求的request信息进行ETL去参处理、业务化URI,提取user_agent、ID、IP,将得到的UID和URI数据传输至日志分析引擎、行为分析及管理单元和请求防护处理单元。其中,日志分析引擎为计算和存储大数据单元,一方面支持大数据情况下可扩展的日志存储,包括存储接收到的UID和URI数据,实现本自动反爬系统的准实时能力;另一方面支持大数据情况下行为统计指标的高可用计算。除此之外,日志分析引擎本身可以提供溯源能力,为威胁行为的轨迹详情提供快速检索能力。

  如图1所示,请求防护处理单元包括一系列反爬处理方案:黑白名单过滤、威胁行为集合、其他业务逻辑策略和UID的行为集合频率控制。

  本发明的请求防护处理单元包括实时流量监测模块和处理模块,其中,实时流量监测模块负责监控实时流量是否命中规则,处理模块负责采取各种处置方案对命中作合理处置,处置方案可以是放过、拦截、标记但放过和返回混淆内容等等。其中规则可以包含如下内容:

  1)黑白名单过滤

  黑名单:有作弊行为的用户账号、长期为爬虫使用的IP、明确为爬虫特征的user_agent等等收集到的显著威胁特征的信息;白名单:VIP客户账号、合作关系主体的IP或账号、特殊用途的URI等等不需要进行威胁识别的请求源。

  2)威胁行为集合

  此处是指利用本发明的半自动方法生成的威胁行为集合来处理的方法和策略,该威胁行为集合的具体使用流程为:

  利用实时流量监测模块监测实时流量是否在威胁行为数据库中,具体过程为:记录实时传入的每个UID访问的URI数据,对URI进行去重处理生成每个UID的实时行为集合;将每个UID的实时行为集合与威胁行为集合进行比对,命中后将相应UID记录到威胁UID数据库中,没命中则进入正常业务办理流程;

  利用处理模块实时比对UID是否在威胁UID数据库中,并对命中情况采用合理的处置方案;针对非放过的UID,需返回处置信息,放入历史处置信息数据库中,供本发明的行为分析及管理单元使用。

  3)基于业务逻辑合理性检测的防护策略

  4)UID的行为集合频率控制。

  下面参数图2对本发明的行为分析及管理单元对数据的处理过程作进一步说明,具体步骤如下:

  1)以接收到的UID为主键聚合,对接收到的URI数据进行去重处理,生成UID的行为集合、行为集合统计指标和与业务场景相关的统计指标,例如访问总量、拦截量、登录次数、注册次数、搜索次数、历史处置次数和付款次数等。本发明的这种对用户行为的刻画使用URI去重处理后的结果,是本发明区别于现有技术的机器学习、人工分析和其它日志分析系统的创新基础。本方法既保留了行为的必要信息,又不会引入额外的系统消耗,行为表示方式直观且泛化能力强。

  而采用机器学习方案,需要量化行为,也就是将字符格式的URI转换为可计算数值,这一步的通常做法是采用词袋模型、词向量,这些方式解决了行为量化的问题,却丢失了行为包含的业务含义,造成完全不同含义的行为聚集为同一类。此外这些数值化处理方式,对于后续误杀排查也造成困难,主要体现在不直观。而人工分析和其它日志分析系统对行为的处理一般为详细信息或总览性质的统计信息,海量日志信息中,找到异常信息很困难,且即使找到了也不能直接在防护系统中使用,需要策略专家与业务专家配合,总结特征并制定处理方案。

  2)以所生成的行为集合为主键聚合,生成分析视图,以判断所述行为集合是否威胁。特别地,分析视图必须包含行为集合、UID数量,其它统计指标可基于步骤1生成的统计特征进行衍生,例如对访问总量求和得总访问量、对访问总量求均值得总访问量均值、拦截比例、行为集合长度、动/静URI访问比例、真人概率和其它业务相关的统计量信息,如表1行为集合所示。本发明的这种以行为集合为主键聚合的处理方法,达到了类似聚类的效果。与机器学习方案相比,本发明不会将不同含义的行为聚集在一起,同时可以清晰、精准刻画同一类行为的UID。

  表1 行为集合

  

  其中,行为集合列中:a、b、c、d、e、f分别代表不同的URI数据。特别地,UID可以是不同的统计维度,比如IP、device_id等。总访问量是该行为集合下所有UID的访问总量,此数据与UID对比可以大致估计该行为集合的好坏,总访问量与UID的比值越大越危险。

  3)业务专家或策略专家使用所生成的分析视图时,依据步骤2)生成行为集合特征数据,决定是否标记为威胁行为集合,系统根据行为集合统计指标,自动生成处置策略参数,并推送到威胁行为数据库中,供爬虫实时监测使用。特别地,分析视图业务专家和策略专辑均可单独使用,也可以配合使用。被标记为威胁的行为集合,可直接应用到请求防护处理单元,而不需要再进行特征提取和处理策略的规划。由此,使得威胁行为的发现、处理变得简单快捷,后续历史拦截信息的使用,会使得系统逐步可以推荐出威胁行为达到半自动的效果。

  对于本领域的普通技术人员来说,在不脱离本发明创造构思的前提下,还可以对本发明的实施例做出若干变型和改进,这些都属于本发明的保护范围。

《一种基于行为特征的半自动反爬系统.doc》
将本文的Word文档下载到电脑,方便收藏和打印
推荐度:
点击下载文档

文档为doc格式(或pdf格式)