一种基于可理解特征变异的智能交通数据测试样本生成方法
技术领域
本发明属于智能软件测试技术领域,尤其针对以智能交通V2X测试场景下车辆系统为代表的复杂软件系统外部输入状态空间的测试样本扩充,是一种基于外部可理解的语义特征变异的测试样本生成技术顺序,通过构建大量高场景特征覆盖测试用例,维护智能交通V2X系统软件可靠性。
背景技术
智能交通V2X软件在系统构建功能逻辑实现上与传统软件存在很多差别,“智能”实现所依赖的内部算法模型,如机器学习、智能通信算法或模型没有一般意义上的边界概念,另外在实际运行中存在很大的黑盒特征,结果常常难以检测或进行科学解释。因此,围绕智能交通V2X软件系统外部数据的相关数据驱动测试手段显得尤为有效。
在智能交通V2X软件系统中,数据是保障系统正常运行的核心要素。围绕测试已经有几个方面的研究,主要有以下一些研究思路,一是引入传统软件测试的相关概念如分支/覆盖,另一个则是从智能软件内部结构和逻辑上出发探究新的覆盖标准和测试手段。在数据样本研究中,已经有很多面向交通环境数据扩增的理论和技术研究,用于为仿真V2X驾驶系统提供大规模的测试数据。然而这些数据扩增方法常常基于固定的内部抽象逻辑,如一些随机的噪声添加,缺少面向交通场景语义特征的深入研究,即在扩增中围绕可理解的语义特征数据扩增、如V2X场景下交通环境中的天气要素。这类研究具有其必要性,但目前仍然处于早期阶段。
智能V2X软件大多拥有独立的交通语义应用场景。语义特征这一概念区别于数据内部逻辑特征,指的是系统外部具有可理解可表述的特征,如环境亮度、气候条件风格,数据密度。语义变异即用来表示这种将可理解特征的变换规则应用到实际数据中的新型技术概念。典型的例子是V2X感知相关功能模块,摄像头数据测试需要包括天气,光照,可见度,拍摄角度在内的覆盖多种常见语义特征的样本,而依靠随机或者其他数学、数据科学的数据扩增方法,很难短时间实现对应的测试样本状态空间覆盖。针对这些人类能够理解的语义规则,如何在高维图像数据中捕获其对应的变换关系,以及如何在规则获取部分,利用一些现有技术进行融合也是行业内的热门话题。目前,大部分技术融合仍处于辅助研究或者探索阶段,针对语义的测试缺乏完整的技术支持和技术框架。
发明内容
本发明目的在于提供一种基于可理解特征变异的智能交通数据测试样本生成方法,整体上包括V2X场景变异规则生成,变异模型构建两个主要步骤。利用本发明,智能交通V2X测试单位和个人可以高效地解决以下几个重要问题:
(1)V2X标准应用场景测试交通数据语义多样性不足,扩充语义变异测试样本的技术支持问题;
(2)特定测试场景下交通数据语义特征的获取和数学化问题;
(3)数据语义多样性样本的质量度量与分析问题。
为了实现本发明的技术,主要由以下主要步骤:
1 V2X场景语义规则提取。为了获得基于V2X场景语义特征变异的测试样本,结合众包、专家知识,通过分析和扩充原始数据样本,提取智能交通应用场景下的语义特征和变异规则,转化为数学或计算机可实现的数据变换方法,便于实际应用中的数据运算和使用。
包含以下2个子步骤:
1.1 原始数据获取。收集初始样本数据集,原始数据主要来自于不同的V2X标准场景,依据场景下特定领域的开源数据集、智能交通终端企业单位仿真测试数据集、实际V2X测试样本和网络资源等;
1.2变异规则提取。变异数据扩充和变异规则原始数据集中的数据过于杂乱,因此首先需要对数据质量进行改进,包括数据评估和扩充。然后对不同的语义特征和变异数据进行标注。最后,构建变换关系,获取不同语义特征变异下数学或数据科学的形式化表达,用于构建具体的交通软件数据可执行的数据变换方法。本发明引入多个处理策略进行多维度处理。根据数据规模,使用专家指导、工具直接处理和众包处理两种策略的合理组合;
针对智能交通V2X小规模数据应用场景,如特定传感器功能模块测试,本发明通过引入专业领域专家知识、开源工具或相关其他软件进行数据质量控制,变异类型分析,和最后的变异规则构建。而针对大规模应用数据场景,则利用众包技术,利用专家工具+众包任务分派两种形式完成对应任务,根据数据语义特征的专业性程度,在众包任务对于具体场景特征标注的难度合理分配任务,控制专家和众包参与的比例。经过变异数据扩充、标注和变异规则提取的不断迭代,子步骤1.2最终会得到处理后样本集
1.3语义规则数据化。借助专业知识或专业工具,我们将得到的变异关系和变异规则数据化
不同的数据关系,使用不同的数据表达形式。假设
2 变异模型构建。集成变换规则到样本生成器
进一步,具体操作分为2个子步骤:
2.1 原始样本和变换样本数据集构建。通过对
2.2 变异模型构建。多个模块的应用使得简单的变异手段不需要使用复杂模型生成,如光暗,对比度,角度调整,音频的简单音调调整,在模型内部直接集成这类单一变异,而复杂的模块,如有关道路图像背景风格,整体交通场景相关特征,V2X音频信号这一类,则利用相对复杂的变异技术,如利用风格转换神经网络实现整体风格变换,利用GAN技术实现特定特征扰动,利用Glow实现交通行人行为特征变换。另外还有多种变异结合的多变异,以满足智能交通V2X应用场景中多种环境变异特征。为了控制变异效果不偏离显示过远,同时还需要解决超大规模的状态空间下过多组合的矛盾问题,我们引入阈值控制的度量函数用于优化平衡变异组合程度和样本数目:
f用于度量特定两个样本之间变异程度,
E为期望的生成变异测试样本数量相关函数,
本发明的特点在于:
技术上,提出了通过智能交通场景外部语义特征在智能V2X软件测试中的测试方法,解决传统数据扩增缺少人类可理解特性,传统变异方法场景覆盖成本过高的问题。同时还引入变异组合生成技术以提高复杂场景覆盖率。
方法面向智能交通V2X的标准应用场景,具有数据驱动特征,满足安全攸关领域智能交通感知和决策系统软硬件高标准数据质量要求。
在数据集处理,数据标注和规则提取中引入众包技术,减少了研究成本,降低专家标注的高昂代价,加快处理速度,最终提高了过程的整体效率。
附图说明
图1为本发明的整体框架示意图。
图2为构建语义特征变异生成器流程图。
图3为变换规则提取示意图 。
具体实施方式
以下通过特定的具体的实例说明本发明的实施方式,本领域的技术人员可由本说明书揭露的内容轻易地了解到本发明的其他优点和功效。
如图1所示,本发明的整体示意图中:包含2个主要部分,并基于迭代流程不断优化:
1 系统外部语义特征和变换关系提取。为了捕获特定智能交通应用场景下的变换规则,首先需要在该特定智能交通软件领域获得相关原始数据,用于划分最基本的变换规则。比如针对V2X道路天气环境,需要大量包含天气要素的图像或其他传感器数据。接着,针对不同的变换规则,需要将其从人能够理解的表象意义数学化,提取出在数据层面上可被计算机实现的数学表达,比如某些特定的代数转换形式。在本实验中,初始样本规则的捕获,样本的扩充通过是通过智能交通V2X领域专家或者在特定交通智能终端开发单位采用众包技术获得,为了最终样本集的质量和规模,规则采集和反馈归纳整体上表现为一个迭代式流程。
2 变换关系系统内部集成。我们针对1)中所获得的分类明显的数据集合
为方便理解,使用一个具体的智能交通感知场景样本变异扩增的实例详细描述本方法以及内部逻辑:
1)感知数据采集,数据来源为智能交通公开数据集、智能感知终端真实历史数据、仿真数据。包含具有部分变异规则的原始样本
2)对应变异分类,补充和规则提取,采用多种方式构建语义多样性说明和对应变异规则,同时可以选择采用众包进行分派变异样本标注任务,反馈审核完成后归纳形成完整合理的智能交通垂直领域语义变异规则。
3)对于一般感知数据变异类型,借助智能交通专家(直接/众包)或者MatLab工具帮助进行数据规则提取和数学化,此处的一般图片变异规则,包括感知图像数据的明暗,对比度,雨雾效果,交通图片拍摄角度,图片污损。对于一些非直观感知数据,在借助模型分析拟合变换方法。对于复杂变换,我们在5)模块内部实现,创建可用的语义规则变换储存库。
4)对步骤4)提出的简单变换,构建并集成对应的变异模型中。复杂变换,包括多种语义相关的数据变异,或者类似道路整体色彩色调风格的场景数据,无法直接使用数学变换,则利用风格转换或其他有效数据生成技术,依靠深度神经网络学习能力完成相关感知数据变异。
5)加入合成变换,使用多种变换类型合成进一步扩充变异样本场景,并使用阈值和联合优化不等式评估控制规模和变异程度的平衡。
6)模块集成,构成完整的变异生成器G(R)。
实际应用变异生成器完成测试样本语义特征变异。