欢迎光临小豌豆知识网!
当前位置:首页 > 电学技术 > 电通讯技术> 支持机器智能的通用视频压缩编码方法独创技术11409字

支持机器智能的通用视频压缩编码方法

2021-04-23 19:14:16

支持机器智能的通用视频压缩编码方法

  技术领域

  本发明涉及视频/图像压缩编码技术领域,尤其涉及一种支持机器智能的通用视频压缩编码方法。

  背景技术

  现有视频/图像压缩标准主要针对的是面向人眼视觉的压缩,其目标是在人眼观看视频的失真一定的情况下,视频码率尽可能低。而随着机器学习的算法逐渐成熟,机器智能分析任务也逐渐开始被应用于人类社会生活生产的各个领域,例如智能工厂,智能城市,智能交通等等。实现这一系列应用往往伴随着对于大量视频/图像数据的分析,采用传统方法,视频/图像先用现有标准进行压缩,在进行分析前需要对压缩码流进行解码操作,得到压缩后的视频/图像,然后再对压缩恢复后的视频/图像进行分析。然而,存在如下问题:1)由于传统视频/图像压缩标准针对的是人眼视觉,压缩码流中可能用大量码率表示视频/图像分析中不需要的内容,这样会给传输带来沉重的负担。2)由于传统方法中需要解码恢复压缩的视频/图像,然后再进行分析,这样还将会造成时延,导致用户体验不佳。3)由于压缩恢复的视频/图像具有一定的失真,分析会出现错误甚至更加严重的问题。

  随着边缘计算和终端智能技术的发展,更多的机器智能分析能够在边缘服务器或者终端设备上对视频/图像进行处理分析,因此如果能够实现面向机器的编码方法,编码后码流中只包含对机器智能分析有用的内容,将会大大降低机器智能分析任务需要传输的数据量。同时编码后的码流可以直接用于机器智能分析的任务中,不必恢复压缩的视频/图像,因此可以减少计算时延,提高处理效率。因此将部分机器智能分析编码之前进行,提升码流的结构化功能,利于执行后续的智能分析任务。

  现有技术中,视觉搜索紧凑描述子国际标准(CDVS,Compact Descriptors forVisual Search)针对检索任务所需的视频/图像特征进行编码,在一定程度上满足了以上需求,但是其码流只能用于搜索任务,应用场景单一,不能满足更多通用智能应用对于压缩编码的需求。因此,非常需要一种支持机器智能的通用视频压缩编码方法。

  发明内容

  本发明的目的是提供一种支持机器智能的通用视频压缩编码方法,以实现针对各个任务所需视频/图像特征信息的编码,从而提高智能任务分析准确性,减轻数据传输压力。

  本发明的目的是通过以下技术方案实现的:

  一种支持机器智能的通用视频压缩编码方法,包括:帧内编码和帧间编码两部分;其中:

  帧内编码部分包括:对于输入视频帧,先进行物体检测,得到各个物体的空间位置信息和类别信息;基于各个物体的空间位置信息和类别信息进行属性解析、以及关系推理,获得各物体的属性信息、以及物体之间的拓扑关系;再将各个物体的空间位置信息和类别信息作为指导信息,利用物体的空间位置信息对输入视频帧进行编码单元的划分,并对划分后的编码单元进行编码,编码得到的码流中所包含的物体的类别信息用于帧间编码部分的视频帧重建过程;

  帧间编码部分包括:以输入视频帧或目标为单元进行视频帧的重建,并通过运动补偿,获得光流预测信息和残差编码信息;

  将帧内编码部分获得的各个物体的空间位置信息和类别信息、各物体的属性信息、物体之间的拓扑关系、编码后的编码单元、以及帧间编码部分获得的光流预测信息和残差编码信息进行熵编码,获得相应的码流。

  由上述本发明提供的技术方案可以看出,1)能够支持多种现有甚至未来可能出现的任务,应用范围广泛,具有较强的实际应用价值;2)针对机器智能分析任务进行压缩,将会得到能够实现相同机器智能分析任务时相较针对人眼压缩更高的压缩比,减少需要传输的信息,减轻传输负担。3)针对机器智能分析任务进行压缩,压缩得到特征能够直接应用于机器智能分析任务,不需要额外解码和处理,减少计算量,加速机器分析任务的进行,支持边缘计算的实现。4)通用的编码框架,支持在编码压缩之前对原视频/图像上进行部分分析,不仅可以提高智能分析精度,还可生成结构化压缩码流,并支持后续更多的智能分析任务。综上所述,上述方案能够使得面向机器进行视频/图像压缩这一过程更加的通用、灵活、高效。

  附图说明

  为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他附图。

  图1为本发明实施例提供的一种支持机器智能的通用视频压缩编码方法的框架图;

  图2为本发明实施例提供的编码处理示意图;

  图3为本发明实施例提供的帧内编码部分的码流结构示意图。

  具体实施方式

  下面结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明的保护范围。

  本发明实施例提供一种支持机器智能的通用视频压缩编码方法,区别于传统视频编码框架的编码模式,该方法利用基于深度机器学习的编码架构来进行压缩。编码处理单元的划分可以在像素域进行,也支持在隐变量域进行划分。如图1所示,主要包括:帧内编码和帧间编码两部分。

  一、帧内编码部分。

  如图2所示,帧内编码部分包含物体检测模块、编码器、空间关系推理模块、语义关系推理模块、属性解析模块。

  主要流程如下:对于输入视频帧xt,先进行物体检测,得到各个物体的空间位置信息和类别信息;然后结合视频帧xt内容对各个物体的空间位置信息和类别信息进一步进行挖掘,包括进行属性解析、以及关系推理,获得各物体的属性信息(以行人为例,属性信息包括了行人的各个身体部位的特征,比如,头部特征、上/下半身特征、配饰特征等)、以及物体之间的拓扑关系;再将各个物体的空间位置信息和类别信息作为指导信息,对输入视频帧进行编码单元的划分,并对划分后的编码单元进行编码。

  本发明实施例中,处理单元是视频中的目标(Object)和目标之外的背景,目标可以是包含一个或多个物体的矩形框,或者包含一个或多个物体的任意形状的封闭边界,如图2所示。

  本发明实施例中,所述关系推理包括:空间关系推理与语义关系推理;利用各物体的空间位置信息进行空间关系推理,获得各物体之间的空间关系;利用各物体的类别信息进行语义关系推理,获得各物体之间的语义关系;所述空间关系与语义关系,构成了拓扑关系。

  本发明实施例中,将各个物体的空间位置信息和类别信息作为指导信息。利用物体的空间位置信息对输入视频帧进行编码单元的划分,并对划分后的编码单元进行编码包括:根据物体的空间位置信息,将物体映射到待编码的隐变量空间,将隐变量(隐变量属于一种编码单元的形式)根据映射到的空间位置信息进行语义划分,得到语义对应的待编码隐变量,然后根据从上到下、从左到右的顺序对划分好的隐变量进行编码,编码得到的码流中还包含了物体的类别信息,将物体的类别信息作为帧间编码部分视频帧重建过程中解码器所需的物体标志信息,例如,如行人-1,车辆-2,行人-3等。

  二、帧间编码部分。

  帧间编码部分包括:以输入视频帧或目标为单元进行视频帧的重建,并通过运动补偿,获得光流预测信息和残差编码信息。具体的可以通过常规技术来实现。

  三、熵编码生成码流。

  如图1所示,将帧内编码部分获得的各个物体的空间位置信息和类别信息、各物体的属性信息、物体之间的拓扑关系、编码后的编码单元、以及帧间编码部分获得的光流预测信息和残差编码信息进行熵编码,获得相应的码流。

  如图3所示,给出了帧内编码部分的码流结构形式。

  帧内编码部分的码流结构为:物体头信息、物体属性信息、以及物体信息流;其中,物体头信息包括:物体的空间位置信息、类别信息和拓扑关系信息。物体信息流中包含的各物体及背景,主要是指对应的图像,在最初的物体检测可以检测出各个物体,剩余的部分即为背景。

  上述压缩编码过程可以在边缘针对某些特定任务实现,也可以选择在云端针对多样的任务进行实现。

  实际应用中,将码流进行传输或者储存,终端进行解压缩时,根据压缩编码时定义的头信息对码流进行相应解压缩(即,解压缩所需要的头信息以及相对应的物体信息流)得到针对特定任务的特征信息,输入即可任务得到分析结果。

  基于本发明实施例上述方案,可以通过解析部分码流数据支持物体检测、物体分割、图像增强、图像理解等图像分析任务,以及行人跟踪、行为识别、异常检测等视频分析任务;也可以解码这部分数据支持可视化分析和人工识别;也可以支持解码全部码流生成完整的图像视频数据。

  通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例可以通过软件实现,也可以借助软件加必要的通用硬件平台的方式来实现。基于这样的理解,上述实施例的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM,U盘,移动硬盘等)中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。

  以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明披露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应该以权利要求书的保护范围为准。

《支持机器智能的通用视频压缩编码方法.doc》
将本文的Word文档下载到电脑,方便收藏和打印
推荐度:
点击下载文档

文档为doc格式(或pdf格式)