欢迎光临小豌豆知识网!
当前位置:首页 > 电学技术 > 电通讯技术> 用于视频编解码的设备和方法独创技术41973字

用于视频编解码的设备和方法

2021-02-26 13:09:40

用于视频编解码的设备和方法

  技术领域

  本发明涉及视频编解码领域。更具体地,本发明涉及一种用于双向帧内预测模式信令机制的方法,以及视频编码器和视频解码器。

  背景技术

  数字视频通信和存储被广泛应用于数码相机、蜂窝无线电话、笔记本电脑、广播系统、视频会议系统等各种数字设备。实现这些应用最重要且最具挑战性的一个任务就是视频压缩。视频压缩的任务复杂,并且受到压缩效率和计算复杂度这两个相互冲突的参数约束。ITU-T H.264/高级视频编解码(Advanced Video Coding,简称AVC)或ITU-T H.265/高效视频编解码(High Efficiency Video Coding,简称HEVC)等视频编解码标准在这些参数之间实现了很好的平衡。

  下一代视频编解码(Next Generation Video Coding,简称NGVC)是由ISO/IEC活动图像专家组(Moving Picture Experts Group,简称MPEG)和ITU-T视频编解码专家组(Video Coding Experts Group,简称VCEG)组成的视频编解码联合协作团队(JointCollaborative Team on Video Coding,简称JCT-VC)最新制定的视频压缩标准。NGVC延续了之前的H.265/HEVC(高效视频编解码)标准。与以往的视频编解码标准类似,NGVC包括帧内/帧间预测、变换、量化、环内滤波、熵编码等基础功能模块。

  包括NGVC在内的编解码标准都是基于将源图像分割为视频编码块,如编码单元(coding unit,简称CU)。每个所述CU可以进一步划分为更小的CU或预测单元(predictionunit,简称PU)。对于这些块的处理取决于它们的大小、空间位置和编码器设置的编码模式。根据预测类型,编码模式可以分为两大类:帧内预测模式和帧间预测模式。帧内预测模式使用同一图像(也称为帧或图片)内的像素来生成参考样本,以计算被重构块的像素的预测值。帧内预测也称为空间预测。帧间预测模式则为时间预测,其利用之前或之后的图像的参考样本来预测当前图像中块的像素。在预测阶段之后,对预测误差进行变换编码,所述预测误差即原始信号与其预测之间的差值。

  为当前CU或PU选择其中一种预测模式时,使用当前CU或PU周围的已编码像素通过外推的方式生成预测值。对于双向预测方法,则在每个子块处结合两种帧内预测模式生成预测值。现有技术引入了一组双向帧内预测模式,这导致需要较高的码率。

  发明内容

  本发明的目的在于改进用于视频编解码的设备和方法,从而解决引入一组双向帧内预测模式导致需要较高码率的问题。

  权利要求书以及下文具体实施方式对本发明实施例进行描述。

  权利要求书定义了保护范围。

  附图说明

  本发明的具体实施方式将结合以下附图进行描述,其中:

  图1示出了一种视频编解码系统100的示例性示意图;

  图2示出了一种视频编码器200的示例性示意图;

  图3示出了一种视频解码器300的示例性示意图;

  图4示出了所提出的67种帧内预测模式的示意图;

  图5A为固定块编码顺序(block coding order,简称BCO)的示例;

  图5B为灵活块编码顺序(flexible Block Coding order,简称FBCO)的示例;

  图6示出了广义DWDIP的示意图;

  图7A和7B示出了主参考样本与所构建的预测值的准确性之间的关系;

  图8示出了主-主传播比与是否发送BIP之间的关系;

  图9示出了BIP被禁用时的一种示例场景;

  图10示出了默认应用BIP时的一种示例场景;

  图11示出了帧内预测模式示例的示意图;

  图12示出了默认应用BIP时的另一种示例场景;

  图13示出了BIP标识的一种上下文选择过程的示例的示意图;

  图14A示出了当相邻像素的左右两侧可用时一系列帧内预测模式的示意图;

  图14B示出了当相邻像素的左侧和上侧可用时一系列帧内预测模式的示意图;

  图15示出了在上下文选择过程中使用BIP的一种示例性场景;

  图16是一种码流编码方法的示例性流程图;

  图17是一种码流编码方法的示例性流程图;

  图18是一种解码已编码码流的方法的示例性流程图;

  图19是一种解码已编码码流的方法的示例性流程图;

  图20是一种可用于实现各种实施例的网元的框图。

  在所述各种附图中,相同的附图标记被用于表示相同的或至少在功能上等同的特征。

  具体实施方式

  以下结合附图进行描述,所述附图构成本发明一部分,并通过图解说明的方式示出可以实施本发明的具体方面。

  例如,可以理解的是,与所描述的方法有关的内容对于与用于执行方法对应的设备或系统也同样适用,反之亦然。例如,如果描述了一个具体的方法步骤,对应的设备可以包括用于执行所描述的方法步骤的单元,即使此类单元未在图中详细阐述或说明。此外,应理解,除非另外具体指出,否则本文中描述的各种示例性方面的特征可彼此组合。

  为了解决引入一组双向帧内预测模式导致需要较高码率的问题,例如,减少由于向码流添加双向帧内预测(bidirectional intra prediction,简称BIP)标识导致的信令开销,可实施以下三种技术中的任意一种:

  不发送也不使用双向帧内预测模式;

  不发送但默认使用双向帧内预测模式,而非传统的方向性帧内预测模式;或

  通过基于上下文的自适应二进制算术编码(Context-Adaptive BinaryArithmetic Coding,简称CABAC)上下文发送双向帧内预测模式。

  下面将结合各种示例进一步描述这些技术。

  在决定是否应该在码流中添加BIP标识或选择何种CABAC上下文时,可考虑以下因素:

  可用主参考样本的数量和位置;

  帧内预测模式索引;

  被预测块的宽高比;和/或

  被预测块的大小。

  图1是一种视频编解码系统100示例性框图,所述视频编解码系统100可以利用本发明中所描述的技术,包括帧内预测模式中用于块编解码的技术。如图1所示,系统100包括源设备102,所述源设备102生成的编码视频数据后续由目的设备104进行解码。图2所示的视频编码器200为所述源设备102的一个示例。图3所示的视频解码器300为所述目的设备104的一个示例。源设备102和目的设备104可包括以下多种设备中的任一种,包括台式电脑、笔记本(即,膝上型)电脑、平板电脑、机顶盒、“智能”手机或“智能”平板等电话手持机、电视、相机、显示设备、数字媒体播放器、视频游戏机、视频流设备等。在某些情况下,源设备102和目的设备104可用于无线通信。

  目的设备104可通过链路112接收待解码的编码视频数据。链路112可包括能够将编码视频数据从源设备102移动到目的设备104的任何类型的介质或设备。在一个示例中,链路112可以包括通信介质,以使源设备102能够将编码视频数据直接实时地传输到目的设备104。所述编码视频数据可根据无线通信协议等通信标准进行调制,并传输至目的设备104。所述通信介质可包括任何无线或有线通信介质,例如射频(radio frequency,简称RF)频谱或一条或多条物理传输线路。所述通信介质可构成分组网络(如局域网、广域网、或互联网等全球网络)的一部分。所述通信介质可包括路由器、交换机、基站或任何其他有助于源设备102到目的设备104的通信的设备。

  或者,编码数据可以从输出接口110输出到存储设备(图1未示出)。类似地,可通过输入接口114从存储设备访问编码数据。目的设备104可通过流或下载的方式从存储设备中访问所存储的视频数据。本发明的技术不一定限于无线应用或设置。这些技术可以应用于视频编码以支持各种多媒体应用中的任一种,例如空中电视广播、有线电视传输、卫星电视传输、借助互联网的流视频传输、对数据视频进行编码并存储到数据存储介质、存储在数据存储介质上的数字视频的解码或其他应用。在一些示例中,系统100可用于支持单向或双向视频传输,以支持诸如视频流、视频播放、视频广播和/或视频电话等应用。

  在图1的示例中,源设备102包括视频源106、视频编码器108和输出接口110。在某些情况下,输出接口110可以包括调制器/解调器(调制解调器)和/或发射器。在源设备102中,视频源106可包括各种源,例如,视频捕获设备,如摄像机、包含先前捕获的视频的视频档案、用于从视频内容提供者接收视频的视频馈送接口,和/或用于生成计算机图形数据作为源视频的计算机图形系统,或这些源的组合。作为一个示例,如果视频源106是摄像机,则源设备102和目的设备104可以形成所谓的拍照手机或视频手机。然而,本发明中描述的技术通常可应用于视频编码,并且可应用于无线和/或有线应用。

  可由视频编码器108对所捕获、预捕获或计算机生成的视频进行编码。编码视频数据可以通过源设备102的输出接口110直接传输至目的设备104。所述编码视频数据还可(或可选地)存储到存储设备上,以供目的设备104或其他设备后续访问,以进行解码和/或播放。

  目的设备104包括输入接口114、视频解码器116和显示设备118。在某些情况下,输入接口114可包括接收器和/或调制解调器。目的设备104的输入接口114通过链路112接收所述编码视频数据。通过链路112传送的或存储设备上提供的编码视频数据可包括由视频编码器108生成的以供视频解码器116等视频解码器在解码视频数据时使用的各种语法元素。此类语法元素可包含于在通信介质上传输的、存储在存储介质上或存储在文件服务器中的编码视频数据中。

  显示设备118可与目的设备104集成在一起,或位于目的设备104的外部。在一些示例中,目的设备104可包括集成显示设备,还可用于与外部显示设备连接。在其他示例中,目的设备104可以是显示设备。通常,显示设备118将已解码的视频数据显示给用户,并可包括各种显示设备中的任一种,例如液晶显示器(liquid crystal display,简称LCD)、等离子显示器、有机发光二极管(organic light emitting diode,简称OLED)显示器或其他类型的显示设备。

  视频编码器108和视频解码器116可根据所有类型的视频压缩标准操作,这些标准包括但不限于MPEG-2、MPEG-4、ITU-T H.263、ITU-T H.264/MPEG-4第10部分高级视频编码(Advanced Video Coding,简称AVC)、高效视频编码(High Efficiency Video Coding,简称HEVC)、以及ITU-T H.266/下一代视频编码(Next Generation Video Coding,简称NGVC)标准。

  通常应理解的是,源设备102的视频编码器108可用于根据这些当前或未来的标准中的任一种对视频数据进行编码。类似地,通常还应理解目的设备104的视频解码器116可用于根据这些当前或未来标准中的任一种对视频数据进行解码。

  视频编码器108和视频解码器116可各自实施为各种合适的编码器电路中的任一种,例如一个或多个微处理器、数字信号处理器(digital signal processor,简称DSP)、专用集成电路(application specific integrated circuit,简称ASIC)、现场可编程门阵列(field programmable gate array,简称FPGA)、离散逻辑、软件、硬件、固件或其任意的组合。当所述技术部分地以软件实施时,设备可以将软件的指令存储在合适的非瞬时性计算机可读介质中,且使用一个或多个处理器以硬件执行所述指令,以执行本发明的技术。视频编码器108和视频解码器116都可包含在一个或多个编码器或解码器中,其中任一者可作为组合式编码器/解码器(combined encoder/decoder,简称CODEC)的一部分集成在相应设备中。

  在视频编码规范中,一个视频序列通常包括一系列图像。图像也可称为“帧”。视频编码器108可输出包括比特序列的码流,所述比特序列组成编码图像和相关数据的表征。视频解码器116可接收由视频编码器108生成的码流。此外,视频解码器116可解析所述码流以从所述码流中获取语法元素。视频解码器116至少可基于从所述码流中获得的部分语法元素重构所述视频数据的图像。重构所述视频数据的过程通常可与视频编码器108执行的过程互逆。

  图2示出了一种视频编码器200的示例性示意图。视频编码器200包括用于接收视频流的帧或图像的输入块的输入端,和用于生成编码视频码流的输出端。视频编码器200用于对视频流应用预测、变换、量化和熵编码。变换单元201、量化单元202和熵编码单元203分别执行变换、量化和熵编码,以生成编码视频码流作为输出。

  视频流对应于多个帧,其中每个帧被划分为一定大小的帧内编码块或帧间编码块。例如,所述视频流的第一帧的块由帧内预测单元209进行帧内编码。仅使用同一帧内的信息进行帧内编码,使其可独立解码,并可在码流中提供用于随机访问的入口点。所述视频流的其他帧的块由帧间预测单元210进行帧间编码:来自称为参考帧的编码帧的信息用于减少时间冗余,从而通过参考帧中相同大小的帧预测出帧间编码帧的每个块。模式选择单元208用于选择由帧内预测单元209处理还是由帧间预测单元210来处理一个帧的块。

  对于执行帧间预测,逆量化单元204、逆变换单元205、滤波单元206(可选)分别对编码参考帧进行处理,以获得参考帧,然后存储在帧缓冲器207中。特别地,参考帧的参考块可以被这些单元处理以获得重构参考块。然后,将所述重构参考块重新组合到所述参考帧中。

  帧间预测单元210包括作为输入的待帧间编码的当前帧或图像以及来自所述帧缓冲器207的一个或多个参考帧或图像。帧间预测单元210应用运动估计和运动补偿。运动估计用于基于某个成本函数得到运动矢量和参考帧。然后运动补偿根据参考帧的参考块到当前帧的变换来描述当前帧的当前块。帧间预测单元210输出当前块的预测块,其中所述预测块将当前待编码块与其预测块之间的差值最小化,即,最小化残差块。例如,残差块的最小化基于率失真优化过程。

  当前块与其预测块之间的差值,即,残差块,由变换单元201进行变换。变换系数由量化单元202和熵编码单元203进行量化和熵编码。由此生成的编码视频码流包括帧内编码块和帧间编码块。

  图3示出了视频解码器300的示例性示意图。

  视频解码器300尤其包括帧缓冲器307和帧间预测单元310。帧缓冲器307用于存储从编码视频码流中获取的至少一个参考帧。帧间预测单元310用于从参考帧的参考块生成当前帧的当前块的预测块。

  解码器300用于解码由视频编码器200生成的编码视频码流,解码器300和编码器200生成相同的预测。帧缓冲器307和帧间预测单元310的特征与图2中的帧缓冲器210和帧间预测单元210的特征相似。

  尤其,视频解码器300也包括存在于视频编码器200中的单元,例如,逆量化单元304、逆变换单元305、滤波单元306(可选)和帧内预测单元309,分别对应于视频编码器200的逆量化单元204、逆变换单元205、滤波单元206和帧内预测单元209。熵解码单元303用于对接收到的编码视频码流进行解码,并相应地获得量化残差变换系数。所述量化残差变换系数被馈送到逆量化单元304和逆变换单元305中,以生成残差块。将所述残差块添加到预测块中,并将该添加馈送至滤波单元306以获得解码视频。所述解码视频的帧可以存储在帧缓冲器307中并用作帧间预测的参考帧。

  根据HEVC/H.265标准,可用的帧内预测模式有35种。如图4所示,该集合包括如下模式:平面模式(帧内预测模式索引为0)、DC模式(帧内预测模式索引为1)、以及覆盖180度范围且帧内预测模式索引值范围为2~34(如图4中的黑色箭头所示)的方向(角度)模式。为了捕获自然视频中存在的任意边缘方向,方向帧内模式的数量从HEVC中使用的33个扩展到65个。增加的方向模式在图4中被描述为虚线箭头,平面模式和DC模式保持不变。需要说明的是,帧内预测模式覆盖的范围可以大于180°。特别地,索引值为3至64的62种方向模式覆盖了约230°的范围,也就是说,有几对模式具有相反的方向性。如图4所示,对于HEVC参考模型(HEVC Reference Model,简称HM)和JEM平台,只有一对角度模式(即模式2和66)具有相反的方向性。对于构建预测值,传统的角度模式采用参考样本并(如果需要)滤波它们以获得像素预测值。构建预测值所需参考样本的数量取决于用于插值的滤波器的长度(例如,双线性和立方滤波器的长度分别为2和4)。

  为了利用在帧内预测阶段中使用的参考样本的可用性,引入了一种更灵活的块编码顺序(block coding order,简称BCO),如图5B中的示例所示。与图5A所示的固定块编码顺序(block coding order,简称BCO)的示例相比,图5B所示的灵活块编码顺序(flexibleblock coding order,简称FBCO)是启用非固定块编码顺序的块编码顺序机制。FBCO包括分割单元编码顺序(Split Unit Coding Order,简称SUCO)和任意块编码顺序(ArbitraryBlock Coding Order,简称ABCO)等不同的机制。例如,FBCO可用于图9、图12和图15。通过FBCO,不仅参考样本的上侧和左侧(LR_10)可用于帧内预测,而且,例如,上侧和右侧(LR_01)以及三侧(上侧、左侧和右侧)都可用于帧内预测。然而,在某些情况下,即使对于不位于图像边界上的块,也只有一侧(即上侧)可用,这对于使用固定BCO对框架进行分割是不可能的。

  双向帧内预测(Bidirectional Intra prediction,简称BIP)是一种通过结合每个块内的两种帧内预测模式生成预测值来构建定向预测值的机制。距离加权方向帧内预测(Distance-Weighted Direction Intra Prediction,简称DWDIP)是BIP的一种特定实现方式。根据DWDIP生成预测值包括如下两个步骤:

  (a)初始化生成辅助参考样本;

  (b)使用距离加权机制生成预测值。

  在步骤(b)中,主参考样本和辅助参考样本均可使用。

  预测值内的样本计算为由所选预测方向定义的参考样本的加权和,并且放置在相对的边上,如图6所示。块的预测可包括生成位于未重构的且待预测的块的边上的辅助参考样本,即未知像素,的步骤。这些辅助参考样本的值从主参考样本推导出,所述主参考样本从图像先前重构部分的像素获得,即已知像素。这意味着从相邻块中获取主参考样本602。然后,使用主参考样本602生成辅助参考样本604。在图6中,主参考像素/样本602由带圆点的方块表示,辅助参考像素/样本604由带网格的方块表示。使用距离加权机制对像素/样本606进行预测。

  传统方法中总是会发送基于BIP的模式标识,这造成了码流中存在信令开销。

  由于辅助参考样本通常不像主参考样本那样接近源像素,因此仅使用主参考样本来预测的块内的像素更多,构建的预测值接近原始块的概率更高,如图7A和图7B所示。图7A和7B示意性地示出了主参考样本与构建的预测值的准确度之间的关系。因此,使用主-主预测生成的像素数量与块内全部像素数量的比值用于决定应选择通过何种上下文来发送BIP。主-主传播比是指从两个主参考样本中预测的像素数量与块内像素总数的比值。如图8所示,当主-主传播比低于第一阈值时,禁用BIP且不发送相应的标识。当主-主传播比高于第二阈值时,默认使用BIP且不发送相应的标识。当主-主传播比在第一阈值和第二阈值之间时,通过CABAC上下文发送BIP。下面将详细讨论不同的场景。

  禁用BIP且不发送相应的标识

  对于使用模式IIPM进行帧内预测的宽度为w,高度为h的块,如果以下任一条件为真,则禁用BIP,且不发送相应的标识:

  相邻像素的上侧不可用

  相邻像素左右两侧不可用

  w=最小值,h=最小值,例如最小值为4

  w>第一最大阈值,例如第一最大阈值为32

  h>第二最大阈值,例如第二最大阈值为32

  只有左侧或右侧可用,且以下之一为真:

  w=最小值,且帧内预测模式的数量与水平预测模式的数量相差第三阈值或更少;或

  h=最小值,且帧内预测模式的数量与垂直预测模式的数量相差第四阈值或更少。其中,第三阈值与第四阈值可以相同,也可以不同。例如,第三阈值与第四阈值相同,可以为5(5)。

  相邻像素的左右两侧可用,且

  IIPM=47(帧内预测方向为水平),或

  IIPM小于范围起始值或IIPM大于范围结束值。表1指定了给定的块宽高比的起始值和结束值,即,log2(w)-log2(h)。

  IIPM>2(帧内预测为角度帧内预测)

  相邻像素的上侧表示当前编码块上侧的主参考样本。相应地,相邻像素的左侧表示当前编码块左侧的主参考样本。相邻像素的右侧表示当前编码块右侧的主参考样本。

  表1范围起始值和范围结束值对块宽高比的依赖关系

  图9示出了由于只有上侧参考样本行可用于帧内预测(LR_00)而相邻像素的左右两侧不可用而禁用BIP的一种示例场景。

  默认使用BIP且不发送相应的标识

  BIP默认代替传统的帧内预测,当有额外的参考像素可用时,不发送相应的标识,且帧内预测模式属于指定的子范围。

  例如,如图10所示,范围由水平(horizontal,简称HOR)帧内预测模式编号(47)和表2中指定的最终帧内预测模式编号,根据块宽高比指定。

  表2最终帧内预测模式编号,水平对齐范围

  如表2所述,IIPM_TL表示为左上块选择的帧内预测模式IIPM;IIPM_LL表示为左下块选择的帧内预测模式IIPM。

  除了与水平帧内预测对齐的范围之外,还为左下侧可用的情况指定了额外的范围(见图10最右部分)。这种情况的范围由第一可用角度帧内预测模式(#3)和来自表3中的对应值进行定义。

  表3最终帧内预测模式编号,与第一可用帧内预测模式对齐的范围

  如表3所述,IIPM_TR表示为右上块选择的帧内预测模式IIPM。

  除上述情况外,当以下情况时,BIP代替传统的帧内预测,且不发送相应的标识:

  所述左下侧和所述右上侧可用,且所述帧内预测模式为表3中指定的一种或表2中指定的一种;

  所述右下侧和所述左上侧可用,且所述帧内预测模式为表2中指定的一种。

  表2和表3所列出的帧内预测模式编号如图11所示。在图11中,IIPM_LA表示最后一个可用帧内预测方向的帧内预测模式IIPM;IIPM_FA表示第一个可用帧内预测方向的帧内预测模式IIPM。帧内预测模式编号从IIPM_FA到IIPM_LA依次递增。水平(horizontal,简称HOR)和垂直(vertical,简称VER)方向模式(分别为IIPM_HOR和IIPM_VER)不依赖于块宽高比RA。图11所示的剩余帧内预测模式编号依赖于表2和表3给出的RA。

  图12示出了由于相邻像素的上侧以及左右两侧(三侧)均可用而默认使用BIP的一种示例场景。

  通过CABAC上下文(或概率模型)发送BIP

  当“禁用BIP且不发送相应的标识”部分和“默认使用BIP且不发送相应的标识”部分描述的过程均生效时,执行上下文选择过程。图13给出了一个上下文选择过程的示例性流程图。流程图的第一步骤(步骤1302)为该过程的输入。其包括:

  为块选择的帧内预测模式(IIPM),

  块的宽度(w)和高度(h),

  相邻像素S的可用边集合,即:左侧(sL)、右侧(sR)、上侧(sT)、左下侧(sLL)、右下侧(sLR)和右上侧(sTR)。

  可以为概率模型指定不同的上下文,例如低可靠预测(表示为CTXLR)、中可靠预测(表示为CTXMR)和高可靠预测(表示为CTXHR)等情况。默认上下文为中可靠的上下文。预测的可靠性影响BIP标识等于0的概率,并可通过IIPM与上述最终模式的接近程度来估计。这些模式根据下一步骤(步骤1304)所计算的块的宽高比确定。例如,RA=log2(w)–log2(h)。如果块是水平对齐的(即,宽度大于高度),则用正数表示宽高比;如果块是垂直对齐的,则为负数表示。下一步骤(步骤1306)用于选择表2和表3指定的最终模式。例如:

  {IIPM_LL,IIPM_TL,IIPM_TR}=LUT(RA)。

  执行以下关于上下文选择的决策取决于是否:

  左右两侧可用,

  左侧可用,和/或

  其余情况

  根据参考样本边(S)的可用性对不同的范围进行定义,并根据IIPM是否属于该范围来选择上下文。

  在步骤1308中,如果左右两侧可用,则当上侧不可用且IIPM属于图14A所示的范围(步骤1310)时,在步骤1328处选择CTXLR。步骤1310确定了上侧是否不可用以及IIPM是否属于如图14A所示的范围,例如,

  

  (IIPM_TR<IIPM<IIPM_LT或IIPM_LL<IIPM<IIPM_LA)。

  在步骤1308中,如果左右两侧可用,则当上侧可用或IIPM不属于图14A所示的范围(步骤1310)时,在步骤1326处选择CTXMR。

  当左侧和上侧可用时,如果右侧不可用且IIPM属于如图14B所示的范围时,选择CTXHR。对于图14A和图14B中的其余情况,可在步骤1312处执行附加计算,具体而言:

  IIPM是否处于水平方向和垂直方向之间(条件C);以及

  与最终帧内预测模式的阈值差的值(ΔIPM);

  其中,C=IIPM_VER≤IIPM≤IIPM_HOR

  ΔIPM=min(IIPM_VER-IIPM_TR,IIPM_LL-IIPM_HOR)/2

  图13示出了上下文选择过程的其余部分,从而根据预测可靠性估计选择上述指定上下文之一。在步骤1314中,当左侧可用而右侧不可用时,在步骤1318处确定是否C为真或当C为真或时,在步骤1326处选择CTXMR。如果C为假且则在步骤1322处确定是否:

  max(IIPM_TR-ΔIPM,IIPM_FA)≤IIPM≤IIPM_TR+ΔIPM或

  IIPM_LL-ΔIPM≤IIPM≤min(IIPM_LL+ΔIPM,IIPM_LA)。如果步骤1322为是,则在步骤1326处选择CTXM;否则,在步骤1324处选择CTXHR。

  在步骤1314中,如果左侧不可用或右侧可用,则在步骤1316处确定是否C为假或如果C为假或则在步骤1326处选择CTXMR。如果C为真且则:

  在步骤1320处确定是否IIPM_TL-ΔIPM≤IIPM≤IIPM_TL+ΔIPM。如果步骤1320为是,则在步骤1324处选择CTXHR;否则,在步骤1326处选择CTXMR。

  可能有少于或多于三个不同的上下文。一般来说,上下文可以定义为:

  最接近最终帧内预测模式的函数;

  IIPM与该最终帧内预测模式的编号之间的差值的函数。

  因此,例如,如果引入几个阈值差值ΔIPM,则可为每个最终帧内预测提供多个上下文。

  图15示出了当参考样本上侧和左侧(LR_10)或上侧和右侧(LR_01)可用于帧内预测时,在上下文选择过程中使用BIP的一种示例场景。

  编码过程示例

  图16为一种码流编码(或压缩)方法的示例性流程图,该方法可由图1所示的源设备102或由图2所示的视频编码器200执行。过程1600是编码器处理的一个示例。本发明引入的编码器侧变化主要涉及使用率失真优化(rate-distortion optimization,简称RDO)过程选择帧内预测模式。特别地,该过程可以包括以下步骤。

  步骤1602,所述编码器为所述图像的当前编码块生成候选帧内预测模式列表,其中,所述候选帧内预测模式列表至少包括BIP模式。

  步骤1604,所述编码器根据预测相关信息确定是否在码流中包括BIP标识,其中所述BIP标识指示为当前编码块选择BIP模式。所述预测相关信息包括:

  可用主参考样本的数量和位置;

  帧内预测模式索引;

  被预测块的宽高比;和/或

  被预测块的大小。

  上文已描述了确定是否在码流中包括BIP标识的示例,如图1至图15所示。

  步骤1606,当不在码流中包括所述BIP标识时,所述编码器不将所述BIP标识的值编码到码流中。上文“禁用BIP且不发送相应的标识”和“默认使用BIP且不发送相应的标识”部分已经描述了两个例子。

  步骤1608,当在码流中包括BIP标识时,所述编码器从所述预测相关信息推导出用于编码的概率模型。然后,在步骤1610中,所述编码器使用所述概率模型将所述BIP标识的值编码到码流中。上文“通过CABAC上下文(或概率模型)来发送BIP”部分已经描述了该示例。

  图17为码流编码(或压缩)方法的另一示例性流程图,该方法可由图1所示的源设备102或由图2所示的视频编码器200执行。过程1700是编码器处理的一个示例。本发明引入的编码器侧变化主要涉及使用率失真优化(rate-distortion optimization,简称RDO)过程选择帧内预测模式。特别地,该过程可以包括:

  使用基于帧内预测残差估计的成本估计来准备候选帧内预测模式LRC列表;

  使用基于帧内预测残差编码的成本估计从所述LRC列表中选择最佳帧内预测。

  其中一种可能的实施方式涉及准备候选帧内预测模式LRC列表的特定方式。除了帧内预测模式的数量之外,LRC列表还将包含与相应的帧内预测模式相关联的bip_flag的值。图16示出了使用基于帧内预测残差估计的成本估计来准备候选帧内预测模式列表和bip_flag对应值的示例性流程图。根据流程图1700,可用帧内预测模式被扫描了两次,其中bip_flag的值分别为0和1。对于bip_flag不符合校验中的帧内预测模式IIPM的情况,流程图1700还跳过了率失真优化(Rate-Distortion Optimization,简称RDO)成本估计。

  在步骤1702中,所述编码器为当前块生成intra_pred_list()。在开始时,bip_flag为0,且IIPM为0,分别如步骤1704和步骤1706所示。

  在步骤1708中,所述编码器确定bip_flag为0或bip_flag为1。如果bip_flag为0,所述编码器则在步骤1710中确定是否默认应用了BIP。如果bip_flag为1,所述编码器则在步骤1712中确定是否BIP被启用。

  如果没有默认应用BIP,或者没有启用BIP,所述编码器则在步骤1714中使用IIPM作为当前块的帧内预测模式。所述编码器在步骤1716中执行RDO成本估计。然后,在步骤1718中,所述编码器使用基于帧内预测残差估计的RDO成本估计来准备候选帧内预测模式LRC列表,其中所述LRC列表可包含与相应的帧内预测模式相关联的bip_flag的值。然后,在步骤1718中,使用基于帧内预测残差编码的成本估计从LRC列表中选择或更新最佳帧内预测。

  在步骤1718使用IIPM更新了LRC,或步骤1710默认应用了BIP,或步骤1712没有启用BIP之后,所述编码器在步骤1720中确定IIPM是否为最后一个可用帧内预测IIPM_LA。如果IIPM不是最后一个可用帧内预测IIPM_LA,则在步骤1722中,令IIPM=IIPM+1。IIPM=IIPM+1后,该过程返回至步骤1708,以判断bip_flag为0或为1。如果IIPM是最后一个可用帧内预测IIPM_LA,所述编码器则在步骤1724中确定是否bip_flag<1。如果bip_flag<1,则在步骤1726中,令bip_flag=bip_flag+1。bip_flag=bip_flag+1后,该过程返回至步骤1706。

  上文已经描述了确定BIP是否被启用的示例,以及确定是否默认应用BIP的示例,如图1至图15所示。

  在本实施例中,使用了单个候选帧内预测模式LRC列表。但是,可以准备两个单独的列表并从这两个列表中选择一对{bip_flag,IIPM}。在这种情况下,本实施例仍不会影响从所述LRC列表中选择最佳帧内预测的过程。与图17唯一的区别在于,bip_flag环路在intra_pred_list过程之外,并根据bip_flag的输入值选择要更新的LRC列表。

  解码过程示例

  图18是用于解码(或解析或解压缩)编码码流的示例性流程图1800,该解码(或解析或解压缩)由图1所示的目的设备104或图3所示的视频解码器300执行。过程1800是解码器处理的示例。

  步骤1802,所述解码器接收码流,其中,所述码流包括预测相关信息。所述预测相关信息包括:

  可用主参考样本的数量和位置;

  帧内预测模式索引;

  被预测块的宽高比;和/或

  被预测块的大小。

  步骤1804,所述解码器根据所述预测相关信息确定码流中是否包括BIP标识,其中所述BIP标识指示为当前解码块选择BIP模式。

  上文已经描述了确定是否在码流中包括BIP标识的示例,如图1至图15所示。

  步骤1806,当码流中不包括所述BIP标识时,所述解码器从所述预测相关信息推导出所述BIP标识的值。上文“禁用BIP且不发送相应的标识”和“默认使用BIP且不发送相应的标识”部分已经描述了两个例子。

  步骤1808,当在码流中包括所述BIP标识时,所述解码器从所述预测相关信息推导出用于解码的概率模型。然后,所述解码器使用所述概率模型恢复所述BIP标识的值。上文“通过CABAC上下文(或概率模型)来发送BIP”部分已经描述了该示例。

  步骤1810,所述解码器基于所述BIP标识的值重构图像。

  图19是用于解码(或解析或解压缩)编码码流的另一示例性流程图1900,该解码(或解析或解压缩)由图1所示的目的设备104或图3所示的视频解码器300执行。过程1900是解码器处理的示例。

  步骤1902通过coding_unit过程从码流中解析预测相关信息。其可包括各种符号,但对于帧内预测块,应在过程1900中解析帧内预测模式。在本实施例中,建议在步骤1904解析intra_luma_pred_mode之后有条件地解析bip_flag的值。根据块的帧内预测模式、形状和大小,要么赋值bip_flag,要么从码流中解析出bip_flag的值。上述图1至图15为详细描述。在步骤1906中,所述解码器确定BIP是否被启用。如果未启用BIP,则在步骤1908中,bip_flag为假。如果启用了BIP,则在步骤1910中,所述解码器确定是否默认应用BIP。当默认应用BIP时,在步骤1912中,bip_flag为真。当未默认应用BIP时,在步骤1914中,所述解码器解析bip_flag。在解码bip_flag值时,可以根据块的帧内预测模式、形状和大小选择上下文。上文已经描述了上下文选择的示例,如图13所示。上文已经描述了确定BIP是否被启用的示例,以及确定是否默认应用BIP的示例,如图1至图15所示。

  图20为网元2000的示意图。网元2000适用于实施本文所述公开的实施例。网元2000可以是执行上述方法的编码器或解码器。网元2000包括入端口2010和接收器单元(Rx)2020,用于接收数据;处理器、逻辑单元或中央处理器(central processing unit,简称CPU)2030,用于处理数据;发射器单元(Tx)2040和出端口2050,用于发送数据;以及存储器2060,用于存储数据。网元2000还可包括耦合到入端口2010的光电(optical-to-electrical,简称OE)组件和电光(electrical-to-optical,简称EO)组件、接收器单元2020、发射器单元2040、以及用于光信号或电信号的出入的出端口2050。

  处理器2030通过硬件和软件实现。处理器2030可以实现为一个或多个CPU芯片、核(例如,作为多核处理器)、现场可编程门阵列(field-programmable gate array,简称FPGA)、专用集成电路(application specific integrated circuit,简称ASIC)和数字信号处理器(digital signal processor,简称DSP)处理器2030与入端口2010、接收单元2020、发射器单元2040、出端口2050和存储器2060通信。处理器2030包括编解码模块2070。编解码模块2070实现上述公开的实施例。例如,编解码模块2070实现压缩/解压缩最后一个编码块或预测块的方法。因此,由于包括编解码模块2070,网元2000的功能得到了大幅度的提升,并将网元2000转换为不同状态。或者,编解码模块2070实现为存储在存储器2060中并由处理器2030执行的指令。

  存储器2060包括一个或多个磁盘、磁带驱动器和固态硬盘,并且可用作溢出数据存储设备,以在选择执行程序时存储该程序,以及存储程序执行期间读取的指令和数据。存储器2060可以是易失性和/或非易失性的,并且可以是只读存储器(read-only memory,简称ROM)、随机存取存储器(random-access memory,简称RAM)、三态内容寻址存储器(ternary content-addressable memory,简称TCAM)、和/或静态随机存取存储器(staticrandom-access memory,简称SRAM)。

  本文所公开的技术可以节省开销,以确定没有发送且默认使用双向帧内预测模式,或确定没有发送且不使用双向帧内预测模式。即使基于不同的上下文发送双向帧内预测模式,这些技术也可以提高BIP的可靠性。其中,BIP模式可以为DWDIP模式。相应地,BIP标识可以为DWDIP标识。

  这些技术的优势还可以体现在以下方面:

  提高了具有灵活块编码顺序的分割框架内BIP的压缩性能,而编解码侧的计算复杂度的增加均可忽略不计;

  它可用于混合视频编码范式中的许多潜在应用,其中这些应用分别与HM软件、VPX视频编解码器系列、JEM软件、VPX/AV1视频编解码器系列以及作为最先进的视频编码框架和下一代视频编码框架的其他类似平台兼容。

  通过使用预测相关信息,提高了对于双向预测的RDO代价小于单向预测的RDO代价的概率估计。概率模型更精确,熵编码效率更高,从而降低码率。

  尽管本发明的特定特征或方面可能已经仅结合几种实施方式或实施例中的一种进行公开,但此类特征或方面可以和其他实施方式或实施例中的一个或多个特征或方面相结合,只要对于任何给定或特定的应用是有需要或有益的。而且,在一定程度上,术语“包括”、“有”、“具有”或这些词的其他变形在具体实施方式或权利要求书中使用,这类术语和所述术语“包含”是类似的,都是表示包括的含义。同样,术语“示例性地”,“例如”仅表示为示例,而不是最好或最佳的。可以使用术语“耦合”和“连接”及其派生词。应当理解,这些术语可以用于指示两个元件彼此协作或交互,而不管它们是直接物理连接还是电连接,或者彼此不直接连接。

  尽管本文中已说明和描述特定方面,但应了解,多种替代和/或等效实施方式可在不脱离本发明的范围的情况下替代所示和描述的特定方面。该申请旨在覆盖本文论述的特定方面的任何修改或变更。

  尽管以上权利要求书中的元件是利用对应的标签按照特定顺序列举的,除非对权利要求的阐述另有暗示用于实施部分或所有这些元件的特定顺序,否则这些元件不必限于以所述特定顺序来实施。

  通过以上启示,对于本领域技术人员来说,许多替代、修改和变化是显而易见的。当然,本领域的技术人员容易认识到除本文所述的应用之外,还存在本发明的众多其他应用。虽然已结合一个或多个特定实施例描述了本发明,但本领域的技术人员将认识到在不偏离本发明的范围的前提下,仍可对本发明做出许多改变。因此,应理解,只要是在所附权利要求书及其等效物的范围内,可以用不同于本文具体描述的方式来实践本发明。

《用于视频编解码的设备和方法.doc》
将本文的Word文档下载到电脑,方便收藏和打印
推荐度:
点击下载文档

文档为doc格式(或pdf格式)