欢迎光临小豌豆知识网!
当前位置:首页 > 物理技术 > 信号装置> 基于BERT和DNN模型的交通社交媒体数据处理方法独创技术13648字

基于BERT和DNN模型的交通社交媒体数据处理方法

2021-02-02 18:59:05

基于BERT和DNN模型的交通社交媒体数据处理方法

  技术领域

  本发明涉及交通数据分析领域,尤其是涉及一种基于BERT和DNN模型的交通社交媒体数据处理方法。

  背景技术

  社交媒体数据作为目前主要的数据来源之一,提供了新角度的用户信息和新方向的分析视角。与传统的统计数据相比较,社交媒体数据为各个领域提供了用户主观的数据信息,同时社交媒体平台的特性使得所获取到的社交媒体数据可以涵盖极大的用户规模和范围,包含多种用户类型和社会关系,动态更新的社交媒体数据还具有很好的时效性,这些都是传统调查统计手段及其获取的数据所无法比拟的。

  社交媒体数据在交通领域的应用是较新的尝试,近年来,主要包括关于出行需求模型的研究、关于集计出行行为的研究、关于个人出行行为的研究、关于公共交通的评估研究、关于交通情况的研究以及关于自然灾害下交通系统的研究几个方面,在以上研究领域中,针对社交媒体数据的内容分析是研究社交媒体数据的基础技术。

  BERT是一种新语言表示模型,具有以下特点:

  一、具有Transformer机制,即双向编码器表示机制,与现有的标准语言模型不同,其摒弃了从左至右的单向性模型训练方式,而是结合左右上下文语境共同进行模型的预处理,能够实现这样的预处理功能,是因为BERT模型中的Transformer包含一个encoder机制,采用一次性读取整个文本序列的方式,使得模型可以基于每个词组的两侧进行学习;

  二、仅需一个输出层就可以对预处理后的模型进行微调,对于语言环境丰富、表述方式丰富的公共交通舆情领域,可以较为轻松地构建适用于不同任务的BERT模型,而不需要针对具体任务进行大量的模型体系修改。

  多层感知机(MLP)也被称为全连接神经网络(DNN),其工作机制模拟了生物大脑。感知机只有输入层和输出层,没有隐藏层,其学习能力较弱,无法完成线性不可分的任务,但多层感知机中某个神经元节点的值受其他多个神经元节点的影响。在多层感知机中,神经元节点被分成不同的层,包括输出层、以及若干个隐藏层组成,隐藏层越多,模型复杂度越高,也越能拟合更加复杂的分布。

  发明内容

  本发明的目的就是为了克服上述现有技术存在的社交媒体数据分析的效率和准确度较低、不适用于复杂分布的缺陷而提供一种基于BERT和DNN模型的交通社交媒体数据处理方法。

  本发明的目的可以通过以下技术方案来实现:

  一种基于BERT和DNN模型的交通社交媒体数据处理方法,具体包括以下步骤:

  步骤S1:获取交通领域的社交媒体数据或与交通相关的社交媒体数据,并对所述交通领域的社交媒体数据或与交通相关的社交媒体数据进行数据预处理;

  步骤S2:调整BERT模型和DNN模型;

  步骤S3:通过调整后的所述BERT模型和DNN模型构建分析框架,根据所述分析框架对完成数据预处理的交通领域的社交媒体数据或与交通相关的社交媒体数据进行内容分析。

  所述交通领域的社交媒体数据或与交通相关的社交媒体数据具体为从社交媒体平台上获取的基于交通领域的交通社交媒体数据。

  所述数据预处理的操作包括删除无用字符、文本向量化、数据过滤和数据特征提取。

  进一步地,所述数据过滤的公式具体如下:

  

  其中,similarity为过滤后的交通领域的社交媒体数据或与交通相关的社交媒体数据,tar_vec为与交通领域相关的文本对应的向量,ori_vec为与要过滤的文本对应的向量。

  进一步地,所述数据特征提取的公式具体如下:

  

  其中,Content_feature是数据特征,n是输入文本数据的字符数,word_veci是输入中的第i个特征字符对应的特征向量。

  每个特征字符对应的是1*768维度的特征向量。

  所述删除无用字符的过程包括通过编写正则表达式来匹配和消除html标记元素、特殊符号或多余字符。

  所述文本向量化的过程包括通过word2vec对获取的所述交通领域的社交媒体数据或与交通相关的社交媒体数据进行文本向量化。

  所述步骤S2中对BERT模型进行调整的过程具体为:

  步骤S201:根据设定的训练集比例从交通领域的社交媒体数据或与交通相关的社交媒体数据中选取相应比例的交通领域的社交媒体数据或与交通相关的社交媒体数据作为训练数据集,对BERT模型进行训练;

  步骤S202:根据设定的验证集比例从交通领域的社交媒体数据或与交通相关的社交媒体数据中选取相应比例的交通领域的社交媒体数据或与交通相关的社交媒体数据作为验证数据集,在训练模型的过程中对模型的性能进行验证;

  步骤S203:根据设定的测试集比例从交通领域的社交媒体数据或与交通相关的社交媒体数据中选取相应比例的交通领域的社交媒体数据或与交通相关的社交媒体数据作为测试数据集,在模型调整完毕后对调整后的BERT模型进行测试。

  所述步骤S2中对DNN模型进行调整的过程具体包括超参数调优和模型内部结构调优。

  进一步地,所述超参数调优的过程包括确定初始参数和确定网络结构。

  所述初始参数通过全局优化法进行选取,所述网络结构通过设置网络结构隐藏层的个数以及每个隐层的节点个数进行确定,并且通过dropout方法避免DNN模型过度拟合。

  进一步地,所述超参数调优的最优超参数通过网格搜索算法进行确定,所述网格搜索算法的具体过程为穷举所有指定参数的候选值的组合,然后遍历所有组合作为超参数取值,生成相应模型在训练集上进行训练,通过评估指标评估模型在验证集上的预测效果,其中在验证集上预测效果最好的模型对应的超参数取值即为最终的最优超参数。

  进一步地,所述模型内部结构调优的过程具体为选择一个初始点进行迭代,在迭代过程中决定梯度下降的方向,根据梯度下降的方向最终确定权重参数的数值。

  所述分析框架为双层分析框架,第一层级为粗粒度内容分析框架,分析输出模型的标签值;第二层级为细粒度内容分析框架,对标签值的内容进行细化。

  与现有技术相比,本发明具有以下有益效果:

  1.本发明通过BERT模型和DNN模型对交通社交媒体数据进行内容分析,对社交媒体数据的文本内容进行过滤并提取特征向量,有效提升了对社交媒体数据分析的效率和准确度。

  2.本发明实用性强,通过对交通领域社交媒体数据进行内容分析,可以有效获知出行者对于交通服务品质的主观评价,促进交通领域服务品质升级。

  3.本发明应用性广,获取的社交媒体数据覆盖交通的多个领域、时间和事件,针对多样的需求选取数据进行分析。

  4.本发明节约成本,利用数据和模型,相比于传统的交通调查获取数据,无需其他人工调查和硬件设施。

  附图说明

  图1为本发明的流程示意图;

  图2为本发明实施例一的社交媒体数据的内容反馈的时间变化图;

  图3为本发明实施例一的粗粒度分析层面结果饼图;

  图4为本发明实施例一的细粒度分析层面结果饼图。

  具体实施方式

  下面结合附图和具体实施例对本发明进行详细说明。本实施例以本发明技术方案为前提进行实施,给出了详细的实施方式和具体的操作过程,但本发明的保护范围不限于下述的实施例。

  实施例一

  如图1所示,一种基于BERT和DNN模型的交通社交媒体数据处理方法,具体包括以下步骤:

  步骤S1:获取交通领域的社交媒体数据或与交通相关的社交媒体数据,并对交通领域的社交媒体数据或与交通相关的社交媒体数据进行数据预处理;

  步骤S2:调整BERT模型和DNN模型;

  步骤S3:通过调整后的BERT模型和DNN模型构建分析框架,根据分析框架对完成数据预处理的交通领域的社交媒体数据或与交通相关的社交媒体数据进行内容分析。

  交通领域的社交媒体数据或与交通相关的社交媒体数据具体为从社交媒体平台上获取的基于交通领域的交通社交媒体数据,本实施例中具体为深圳地铁提价事件有关的社交媒体数据,观测数据的时间范围为2019年1月1日至2019年4月1日。

  数据预处理的操作包括删除无用字符、文本向量化、数据过滤和数据特征提取。

  数据过滤的公式具体如下:

  

  其中,similarity为过滤后的交通领域的社交媒体数据或与交通相关的社交媒体数据,tar_vec为与交通领域相关的文本对应的向量,ori_vec为与要过滤的文本对应的向量。

  数据特征提取的公式具体如下:

  

  其中,Content_feature是数据特征,n是输入文本数据的字符数,word_veci是输入中的第i个特征字符对应的特征向量。

  每个特征字符对应的是1*768维度的特征向量。

  删除无用字符的过程包括通过编写正则表达式来匹配和消除html标记元素、特殊符号或多余字符。

  文本向量化的过程包括通过word2vec对获取的交通领域的社交媒体数据或与交通相关的社交媒体数据进行文本向量化。

  步骤S2中对BERT模型进行调整的过程具体为:

  步骤S201:根据设定的训练集比例从交通领域的社交媒体数据或与交通相关的社交媒体数据中选取相应比例的交通领域的社交媒体数据或与交通相关的社交媒体数据作为训练数据集,对BERT模型进行训练;

  步骤S202:根据设定的验证集比例从交通领域的社交媒体数据或与交通相关的社交媒体数据中选取相应比例的交通领域的社交媒体数据或与交通相关的社交媒体数据作为验证数据集,在训练模型的过程中对模型的性能进行验证;

  步骤S203:根据设定的测试集比例从交通领域的社交媒体数据或与交通相关的社交媒体数据中选取相应比例的交通领域的社交媒体数据或与交通相关的社交媒体数据作为测试数据集,在模型调整完毕后对调整后的BERT模型进行测试。

  步骤S2中对DNN模型进行调整的过程具体包括超参数调优和模型内部结构调优。

  训练集比例为70%,验证集比例为20%,测试集比例为10%。

  超参数调优的过程包括确定初始参数和确定网络结构。

  初始参数通过全局优化法进行选取,网络结构通过设置网络结构的隐藏层的个数以及每个隐层的节点个数进行确定,本实施例中隐藏层的个数为10个,并且通过dropout方法避免DNN模型过度拟合。

  超参数调优的最优超参数通过网格搜索算法进行确定,网格搜索算法的具体过程为穷举所有指定参数的候选值的组合,然后遍历所有组合作为超参数取值,生成相应模型在训练集上进行训练,通过评估指标评估模型在验证集上的预测效果,其中在验证集上预测效果最好的模型对应的超参数取值即为最终的最优超参数。

  模型内部结构调优的过程具体为选择一个初始点进行迭代,在迭代过程中决定梯度下降的方向,根据梯度下降的方向最终确定权重参数的数值。

  步骤S3中对交通领域的社交媒体数据或与交通相关的社交媒体数据进行内容分析如图2所示,包括安全、便捷、舒适和经济共4个标签值。

  分析框架为双层分析框架,第一层级为粗粒度内容分析框架,分析输出模型的标签值,如图3所示,可负担性在交通社交媒体数据中的占比最多,达到92.51%;第二层级为细粒度内容分析框架,对标签值的内容进行细化,如图4所示,可负担性的细粒度分析显示,对于地铁涨价,抱怨乘坐地铁的价格的相关交通社交媒体数据的占比达到93.54%,关于价格折扣的相关交通社交媒体数据的占比为6.46%。

  此外,需要说明的是,本说明书中所描述的具体实施例子,所取名称可以不同,本说明书中所描述的以上内容仅仅是对本发明结构所做的举例说明。凡依据本发明构思的构造、特征及原理所做的等效变化或者简单变化,均包括于本发明的保护范围内。本发明所属技术领域的技术人员可以对所描述的具体实例做各种各样的修改或补充或采用类似的方法,只要不偏离本发明的结构或者超越本权利要求书所定义的范围,均应属于本发明的保护范围。

《基于BERT和DNN模型的交通社交媒体数据处理方法.doc》
将本文的Word文档下载到电脑,方便收藏和打印
推荐度:
点击下载文档

文档为doc格式(或pdf格式)