欢迎光临小豌豆知识网!
当前位置:首页 > 电学技术 > 电通讯技术> 一种站点流量预测方法和装置独创技术13675字

一种站点流量预测方法和装置

2023-02-22 22:09:59

一种站点流量预测方法和装置

  技术领域

  本发明属于网络流量监测领域,具体涉及一种站点流量预测方法和装置。

  背景技术

  互联网的蓬勃发展,站点业务量的增加和用户的不断积累,网站的网络流量呈现出复杂多变的特点,对站点流量预测结果的有效性要求越来越高,然而对于高性能计算环境下作业管理系统日志流量的特点和预测需求等因素,常见的单一预测方法已经无法满足可靠有效性要求,站点流量数据的预测结果不可靠,无效,则会对站点的运行状态和网络维护造成影响。

  发明内容

  本发明的目的在于提供一种站点流量预测方法和装置,以克服现有技术的不足。

  为达到上述目的,本发明采用如下技术方案:

  一种站点流量预测方法,包括以下步骤:

  步骤1)、获取站点的日志数据,对日志数据进行数据清洗整理统计出基于时间序列的流量数据;

  步骤2)、建立并联组合预测模型,利用日志数据中的流量序列对并联组合预测模型进行优化得到最优权重比例系数;

  步骤3)、将历史流量数据代入基于最优权重比例系数的并联组合预测模型实现站点流量的预测。

  进一步的,步骤1)中,基于Cloudera构建站点日志数据处理模块的分布式系统基础架构和Spark集群,使用Zookeeper来进行协调服务,提供分布式的可靠协议,然后对重复的日志数据和非必要的日志数据进行剔除,对空缺的数值进行补全,将原始的日志数据转化为结构化的日志数据,统计出基于时间序列的流量数据。

  进一步的,使用卡尔曼滤波方法和SVM方法建立并联组合模型。

  进一步的,具体包括以下步骤:

  a、通过卡尔曼滤波方法获取流量在第t时刻的预测值x1t,利用SVM方法获取流量在第t时刻的预测值x2t,t为时间间隔;

  b、计算在t时刻的组合预测值:为t时刻并联组合预测值,w1、w2分别为卡尔曼滤波预测模型和SVM预测模型的加权系数,且w1+w2=1;

  c、计算在t时刻卡尔曼方法的预测绝对误差为e1t,在t时刻SVM方法的预测绝对误差为e2t,通过在t时刻卡尔曼方法的预测绝对误差和t时刻SVM方法的预测绝对误差即可得到并联组合模型的组合预测误差et,xt为t时刻并联组合理论值;以组合预测误差et的平方和为最小目标即可得到最优权重系数;

  d、通过计算多个不同时刻的组合预测误差,即可得到多个时刻下的最优权重系数,取多个时刻下的最优权重系数的均值得到最优权重比例系数。

  进一步的,在t时刻卡尔曼方法的预测绝对误差e1t=|xt-x1t|,t时刻SVM方法的预测绝对误差e2t=|xt-x2t|。

  进一步的,通过Spark streaming流式处理集群来进行日志数据的清洗和统计分析,提取基于时间序列的站点流量数据作为实验数据和测试数据。

  一种站点流量预测装置,包括数据获取模块、数据处理模块和数据预测模块,

  数据获取模块用于获取站点的日志数据,并将获取的日志数据传输至数据处理模块;

  数据处理模块用于对收到的日志数据进行清洗整理统计出基于时间序列的流量数据;

  数据预测模块用于根据日志数据中的流量序列对并联组合预测模型进行优化得到最优权重比例系数,并通过最优权重比例系数的并联组合预测模型利用历史流量数据实现站点流量的预测。

  进一步的,数据处理模块采用分布式系统基础架构和Spark集群,使用Zookeeper进行协调服务,提供分布式的可靠协议,构建Hadoop分布式文件系统。

  与现有技术相比,本发明具有以下有益的技术效果:

  本发明一种站点流量预测方法,通过获取站点的日志数据,对日志数据进行数据清洗整理统计出基于时间序列的流量数据;建立并联组合预测模型,利用日志数据中的流量序列对并联组合预测模型进行优化得到最优权重比例系数,将历史流量数据代入基于最优权重比例系数的并联组合预测模型实现站点流量的预测,基于两种并联模式并联组合预测模型的流量预测方法,降低数据预测的单向因素影响,大大提高了流量预测的准确度,本发明能够应用于高性能计算环境下,提高站点的运行状态和网络维护的效率。

  进一步的,基于卡尔曼滤波和支持向量SVM的并联组合模型对流量的预测与实际流量值误差更小,预测结果更加有效。

  进一步的,选择RBF函数作为SVM的核函数,RBF函数可以将样本非线性规划到更高维的空间中,且核函数的参数较少,模型简单,限制条件少,既可以保证实现的方便性又可以达到预测效果。

  附图说明

  图1是本发明实施例中日志数据处理平台架构图。

  图2是本发明实施例中并联组合预测流量结构图。

  图3是本发明实施例中卡尔曼滤波算法预测对比实验图。

  图4是本发明实施例中支持向量机SVM预测对比实验图。

  图5是本发明实施例中并联组合预测模型的实验对比图。

  具体实施方式

  下面结合附图对本发明做进一步详细描述:

  如图1所示,一种站点流量预测方法,包括以下步骤:

  步骤1)、获取站点的日志数据,对日志数据进行数据清洗整理统计出基于时间序列的流量数据;将整理统计出的流量数据作为训练数据和测试数据;

  具体的,首先构建站点日志数据处理平台,对数据进行清洗和分析,即基于Cloudera构建站点日志数据处理模块的Hadoop(分布式系统基础架构)和Spark集群,使用Zookeeper来进行协调服务,提供分布式的可靠协议,其中ZooKeeper是一个分布式的,开放源码的分布式应用程序协调服务,是Hadoop和Hbase的重要组件,它可以为分布式应用提供一致性服务例如:配置维护、域名服务、分布式同步和组服务;然后部署Spark on Yarn(集群模式)来实现数据的实时处理,对重复的日志数据和非必要的日志数据进行剔除,对空缺的数值进行补全,将原始的日志数据转化为结构化的日志数据,统计出基于时间序列的流量数据,完成数据清洗和数据分析;最后统计日志数据的时间和流量字段作为实验数据,整理后存储HBase数据库中。

  步骤2)、建立并联组合预测模型,利用日志数据中的流量序列对并联组合预测模型进行优化得到最优权重比例系数;

  本申请使用卡尔曼滤波方法和SVM方法建立并联组合模型;

  具体包括以下步骤:

  a、通过卡尔曼滤波方法获取流量在第t时刻的预测值x1t,利用SVM方法获取流量在第t时刻的预测值x2t,t为时间间隔;

  b、计算在t时刻的组合预测值:为t时刻并联组合预测值,w1、w2分别为预测模型的加权系数,且w1+w2=1;

  c、计算在t时刻卡尔曼方法的预测绝对误差为e1t,在t时刻SVM方法的预测绝对误差为e2t,通过在t时刻卡尔曼方法的预测绝对误差和t时刻SVM方法的预测绝对误差即可得到并联组合模型的组合预测误差et,xt为t时刻并联组合理论值;以组合预测误差et的平方和为最小目标即可得到最优权重系数,根据最优权重系数进而得到最优的组合预测值。

  其中预测绝对误差记为eit=|xt-xit|,i=1、2。

  d、通过计算多个不同时刻的组合预测误差,即可得到多个时刻下的最优权重系数,取多个时刻下的最优权重系数的均值得到最优权重比例系数。具体的,可通过拉格朗日函数来将二次凸优化问题转化为线性规划问题,从而确定出非负组合模型最优的权重系数。

  具体的,选择RBF函数作为SVM方法的核函数,RBF函数可以将样本非线性规划到更高维的空间中,且核函数的参数较少,模型简单,限制条件少,既可以保证实现的方便性又可以达到预测效果。

  步骤3)、将历史流量数据代入基于最优权重比例系数的并联组合预测模型实现站点流量的预测。

  使用训练数据输入到卡尔曼方法和SVM方法建立的并联组合预测模型中得到预测的站点网络流量值,分别计算得到绝对误差,通过最优化求解确定最优权重比例系数,使用测试数据来检验模型预测的精度,确定了组合模型系数后,在日志数据分析模块的站点网络流量预测中,基于时间序列,来进行流量预测。本发明通过对比卡尔曼流量预测方法,支持向量SVM的流量预测方法,以及基于两种并联模式的流量预测方法的结果,从而得出,基于卡尔曼滤波和支持向量SVM的并联组合模型预测网络站点流量也是一种比较有效、靠谱的流量预测方法。

  如图1所示,高性能计算环境下预测站点流量方法的日志数据处理平台的架构图,对日志数据源进行ETL,在数据处理平台完成原始日志到结构化日志的转化,实现数据清洗和数据分析,然后在此基础上使用流量预测模型实现流量预测。数据清洗和数据分析是通过构建Spark streaming流式处理集群来实现的。

  搭建分布式集群Hadoop作为底层数据存储,部署Spark on Yarn来实现数据的实时数据处理,对重复的日志数据和非必要的日志数据进行剔除,对空缺的数值进行补全,将原始的日志数据转化为结构化的日志数据,在此基础上,统计日志数据的时间和流量字段,整理后存储HBase数据库中,为下一步提供实验数据。

  如图2所示,是并联组合预测流量结构图,首先根据日志数据中的流量序列来建立预测模型,日志数据分训练数据和测试数据,使用训练数据输入到卡尔曼和SVM预测模型中得到预测的站点网络流量值,分别计算得到绝对误差,进行最优化求解确定组合权值,使用测试数据来检验模型预测的精度。确定了组合模型系数后,依据权重比例系数,然后基于时间序列进行流量预测,将历史流量值代入,分别就可以得到t时刻的流量预测值。

  如图3所示,是卡尔曼滤波方法预测对比实验图,形象的展示了仅使用卡尔曼滤波算法对相同的数据进行预测与实际数据的对比关系。

  如图4所示,是支持向量机SVM预测对比实验图,形象的展示了仅使用支持向量机SVM对相同的数据进行预测与实际数据的对比关系。

  如图5所示,是一个并联组合预测模型的实验对比图,综合了卡尔曼滤波算法预测,支持向量机SVM以及基于卡尔曼滤波算法预测和支持向量机SVM的并联组合预测模型,使得三种方式的预测值之间的对比关系更加明显,突出了并联组合预测模型的预测结果的可靠有效性,其平均误差率更小,折线拟合效果也更合理。

  一种站点流量预测装置,包括数据获取模块、数据处理模块和数据预测模块,

  数据获取模块用于获取站点的日志数据,并将获取的日志数据传输至数据处理模块;

  数据处理模块用于对收到的日志数据进行清洗整理统计出基于时间序列的流量数据;

  数据预测模块用于根据日志数据中的流量序列对并联组合预测模型进行优化得到最优权重比例系数,并通过最优权重比例系数的并联组合预测模型利用历史流量数据实现站点流量的预测。

  实施例:

  首先,当用户访问站点时,服务器端将记录用户的访问信息,其中包含本次请求的流量值,选取其中一部分的访问数据,通过Spark streaming流式处理集群对日志数据清洗和数据统计分析,提取基于时间序列的站点流量数据作为实验数据和测试数据。数据的实时数据处理通过搭建分布式集群Hadoop作为底层数据存储,部署Spark on Yarn来实现,将原始的日志数据转化为结构化的日志数据,在此基础上,统计日志数据的时间和流量字段,整理后存储HBase数据库中。

  经过对一段时间的日志数据进行数据分析和统计,统计出一部分的日志流量值做流量预测模型分析测试数据。读取流量数据,分别计算得到卡尔曼滤波和SVM的预测值,对比实际流量值得到绝对误差,建立预测模型,带入具体的数值,依次得到多个最优权值,然后求均值得到最优的权重比例系数,最后根据两个权重比例系数计算出基于两种并联组合预测模型的预测值。

  本发明通过分析卡尔曼滤波算法和SVM算法得到时间序列的基本特征,对各个模型分别赋予合适的权重值,进行组合预测,然后对比单个模型和组合模型的结果,由此证明得到采用组合算法来对网络流量进行预测,其预测结果也是可靠有效的,更适用于预测站点流量。

《一种站点流量预测方法和装置.doc》
将本文的Word文档下载到电脑,方便收藏和打印
推荐度:
点击下载文档

文档为doc格式(或pdf格式)