当前位置：首页 > 电学技术 > 电通讯技术> 基于用户交互与语义分割技术结合的图像压缩方法及装置独创技术14036字

基于用户交互与语义分割技术结合的图像压缩方法及装置

2021-02-17 03:29:07

基于用户交互与语义分割技术结合的图像压缩方法及装置

　　技术领域

　　本发明属于图像处理与计算机视觉技术领域，特别涉及一种基于用户交互与语义分割技术结合的图像压缩方法及装置。

　　背景技术

　　一方面，图像压缩是信息技术领域的重要的支撑技术之一，也是计算机视觉领域的研究热点之一。传统的图像压缩标准，如JPEG、JPEG2000等，在低码率压缩时通常会出现块效应、压缩伪影等图像失真现象。BPG是一种新的图像格式，基于高效视频编码HEVC(HighEfficiency Video Coding，HEVC)。相较于JPEG、JPEG 2000，在同样的压缩率下，BPG有更高的压缩质量。同时，BPG支持无损压缩。然而BPG只能支持图像全局同一个压缩比的压缩，不能对感兴趣的局部区域进行不同压缩比的压缩，这使得一些特定的图像压缩需求得不到满足。

　　另一方面，图像分割技术是许多图像处理任务的预处理步骤。传统的图像分割方法分为：基于阈值的分割方法、基于区域的分割方法、分水岭算法等。然而传统的图像分割方法的结果并没有语义信息，也就是对于分割出来的结果算法本身并不知道是什么信息。随着深度学习的发展，基于深度学习的图像语义分割技术能够实现将图像的场景分解为几个单独的实体并以像素级的精细程度对每个实体进行分类并标记精确的边界。该类算法能够将图像的前景和背景分离，并识别出前景中像素所属于的类别。进一步地，对感兴趣的类别进行标注和训练，能够自适应地识别和分割感兴趣的区域，其结果可用于指导其他高级图像处理任务。

　　因此，为解决图像局部压缩的难题，本发明利用语义分割的结果指导图像压缩任务，实现对同一图像的不同兴趣区域进行不同压缩质量的局部压缩。该发明能够解决图像局部压缩的特定需求，具有很强的应用价值和广阔的市场价值。

　　发明内容

　　为了得到更好的压缩图像，本发明提出一种基于用户交互与语义分割技术结合的图像压缩方法及装置，所述方法包括以下步骤：

　　输入待压缩的图像，利用语义分割网络对该图像进行预处理，获得该图像的语义分割；

　　根据语义分割，将图像划分为多个类别的图像块；

　　用户设置每个类别图像块的压缩质量；

　　基于设置的压缩质量，利用BPG编码工具对每个类别的图像块进行压缩，获得中间文件；

　　利用BPG解码工具对中间文件进行解码，得到解压缩后的图像块；

　　将解压缩后的图像块进行组合，得到原始图像的压缩结果。

　　进一步的，语义分割网络包括卷积编码端、卷积解码端以及softmax层，卷积编码端设置有三个第一卷积层，每个第一卷积层包括卷积操作、归一化操作、池化操作以及激活操作；卷积编码端与卷积编码端对称地设置有三个第二卷积层，每个第二卷积层包括卷积操作、归一化操作、上采样操作以及激活操作。

　　进一步的，根据语义分割划分图像块具体包括：根据语义标签，通过k-means方法将多个分割区域聚合为特定数量的区域，使得图像区域边界轮廓连续光滑，将边界轮廓信息映射到原图，从而将待压缩的图像划分为不同的图像块。

　　进一步的，通过k-means方法将多个分割区域聚合为特定数量的区域包括：根据图像块像素之间的欧式距离将分隔结果的语义信息聚合为N个簇，基于聚类之后得到的N个簇将图像划分为N个区域，并将这N个区域映射到待压缩的图像，将带压缩的图像分割为N个区域，并保存每个区域在待压缩的图像中左上角得到坐标信息。

　　进一步的，根据每个区域的待压缩的图像中左上角坐标信息，将解压缩后的图像块放入原始图像区域相应的位置，组合成一张与原始图像尺寸一致的压缩结果图像。

　　本发明还提出一种基于用户交互与语义分割技术结合的图像压缩装置，包括语义分割器、图像块聚类器、自定义压缩质量模块、BPG编码器、BPG解码器以及压缩图像输出器，其中：

　　语义分割器，用于对输入的待压缩图像进行语义划分，获取图像的边界轮廓，并根据边界轮廓将图像分割为多个图像块；

　　图像块聚类器，用于对语义分割器分割的图像块进行进一步划分，将图像块聚类为N个区域；

　　自定义压缩质量模块，用于用户指定每个区域的压缩质量；

　　BPG编码器，用于根据用户指定的压缩质量对每个区域进行压缩，生产中间文件；

　　BPG解码器，用于对中间文件进行解码，获取解压缩后的图像块；

　　压缩图像输出器，用于将解压缩后的图像块进行组合，得到吧原始图像的压缩结果并输出给用户。

　　本发明的有益效果在于：

　　1)本发明提出一种基于用户交互与语义分割技术结合的图像压缩方法，该方法能对图像中感兴趣的局部区域进行不同压缩质量的压缩，使得压缩图像可局部调节压缩质量，同时压缩后的图像更符合人眼感知特性；

　　2)本方法采用基于深度学习的语义分割技术，该技术可以自适应提取不同类别的边界信息，用于对图像感兴趣区域进行分割，进一步指导局部区域压缩任务。

　　附图说明

　　图1为本发明编解码器的整体流程示意图；

　　图2为语义分割网络的结构示意图；

　　图3为不同区域图像块生成的过程示意图。

　　具体实施方式

　　下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

　　本发明提出一种基于用户交互与语义分割技术结合的图像压缩方法，包括以下步骤：

　　输入待压缩的图像，利用语义分割网络对该图像进行预处理，获得该图像的语义分割；

　　根据语义分割，将图像划分为多个类别的图像块；

　　用户设置每个类别图像块的压缩质量；

　　基于设置的压缩质量，利用BPG编码工具对每个类别的图像块进行压缩，获得中间文件；

　　利用BPG解码工具对中间文件进行解码，得到解压缩后的图像块；

　　将解压缩后的图像块进行组合，得到原始图像的压缩结果。

　　实施例1

　　如图1，本实施例对图片的处理包括两个步骤，一是对图片进行压缩编码，二是编码压缩的图片进行解码，具体包括：

　　(1)编码过程

　　对待压缩的图像记性语义分割，并利用k-means进行进一步区域划分，获取图像的区域轮廓信息；

　　根据区域轮廓将图像划分为多个兴趣区域；

　　用户为每一个区域指定一个压缩质量；

　　利用BPG编码工具对每个类别的图像块进行压缩，获得中间文件；

　　(2)解码过程

　　利用BPG解码工具对中间文件进行解码，得到解压缩后的图像块；

　　将解压缩后的图像块进行组合，得到原始图像的压缩结果。

　　实施例2

　　本实施例在实施例1的基础上进行补充说明。

　　本实施例使用了语义分割网络作为预处理，因此需要对语义分割网络进行预训练。本次使用开源数据集作为该网络的训练数据集，该数据集标注了人、车、树等多个类别(包括背景类)，覆盖了人眼常见的目标，本实施例将这些目标视为人眼感兴趣的物体。

　　为了得到感兴趣目标的边界轮廓信息，将待压缩图像输入到预先训练好的语义分割网络，该网络结构示意图如图2所示。其中，卷积编码器包括三个第一卷积层，每个第一卷积层包括卷积操作、归一化操作和激活函数以及池化层，在卷积编码端，不断利用卷积卷积操作提取深层特征，并通过池化层选择重要特征，减少特征大小；在卷积解码端，采用与卷积编码端对称的网络结构，设置了三个第二卷积层，第二卷积层包括卷积操作、归一化操作和激活函数以及上采样层，通过上采样层使图像变大。本实施例利用卷积层丰富特征信息，将池化层替换为上采样使图像分辨率增大。进一步地，为了获得更丰富的信息，将卷积编码端的各层特征信息和对称卷积解码端的各层特征进行融合，最后得到原图大小的特征层，送入Softmax层进行像素分类，得到不同像素每个类别的概率，并选择概率最大值所在的类别作为该像素所属的类别。

　　不同感兴趣区域的图像块生成方法示意图如图3所示。由于语义分割结果不一定是准确的，往往会出现很多分割噪声，这会导致分割区域过于离散，难以提出有效地感兴趣区域。于是，本实施例提出使用k-means聚类算法，将分割结果的语义信息聚合为N个簇，聚合的依据是分割结果像素之间的欧氏距离。聚类中心的数量N是用户可设置的超参数，该参数小于语义分割结果的标签数量。接下来提取N个区域的边界轮廓信息并映射到原始图像，将原始图像分割为N个区域；优选的，图2中输出图像划分为5个簇，即5个颜色不同的区域。同时，保存每个区域在原始图像中左上角的坐标信息，用于后续组合。

　　对每个区域，由用户指定压缩质量，压缩质量可选1到50中的任意一个整数，该数值作为BPG压缩编码的参数。压缩质量反映了图像的压缩程度。数值越大，代表压缩比越大，压缩后图像质量越差；相反，数值越小，压缩比越小，压缩后图像质量越好。

　　本发明中，利用开源的libbpg工具，传入指定的压缩质量参数，将图像压缩成中间文件解码端利用BPG解码工具对中间文件进行解码，得到解压缩后的图像块；根据语义分割结果，将图像组合，得到压缩后的输出图片。

　　解压缩后的图像块跟输入的图像块在尺寸上保持一致，根据保存的每个区域的左上角坐标信息，将解压缩后的图像块放入原始图像区域相应的位置，就可以组合成一张与原始图像尺寸一致的压缩结果图像。

　　实施例3

　　本实施例提出一种基于用户交互与语义分割技术结合的图像压缩装置，该装置包括语义分割器、图像块聚类器、自定义压缩质量模块、BPG编码器、BPG解码器以及压缩图像输出器，其中：

　　语义分割器，用于对输入的待压缩图像进行语义划分，获取图像的边界轮廓，并根据边界轮廓将图像分割为多个图像块；

　　图像块聚类器，用于对语义分割器分割的图像块进行进一步划分，将图像块聚类为N个区域；

　　自定义压缩质量模块，用于用户指定每个区域的压缩质量；

　　BPG编码器，用于根据用户指定的压缩质量对每个区域进行压缩，生产中间文件；

　　BPG解码器，用于对中间文件进行解码，获取解压缩后的图像块；

　　压缩图像输出器，用于将解压缩后的图像块进行组合，得到吧原始图像的压缩结果并输出给用户。

　　在本实施例中，图像块聚类器结构与实施例1中语义分割网络类似，包括卷积编码端、卷积解码端以及softmax层，卷积编码端设置有三个第一卷积层，每个第一卷积层包括卷积操作、归一化操作、池化操作以及激活操作；卷积编码端与卷积编码端对称地设置有三个第二卷积层，每个第二卷积层包括卷积操作、归一化操作、上采样操作以及激活操作。

　　在本实施例中，图像块聚类器具体操作包括根据语义标签，通过k-means方法将多个分割区域聚合为特定数量的区域，使得图像区域边界轮廓连续光滑，将边界轮廓信息映射到原图，从而将待压缩的图像划分为不同的图像块。

　　本实施例中，通过k-means方法将多个分割区域聚合为特定数量的区域包括：根据图像块像素之间的欧式距离将分隔结果的语义信息聚合为N个簇，基于聚类之后得到的N个簇将图像划分为N个区域，并将这N个区域映射到待压缩的图像，将带压缩的图像分割为N个区域，并保存每个区域在待压缩的图像中左上角得到坐标信息。

　　本实施例中，压缩图像输出器根据每个区域的待压缩的图像中左上角坐标信息，将解压缩后的图像块放入原始图像区域相应的位置，组合成一张与原始图像尺寸一致的压缩结果图像。

　　本发明不是对原图进行全局压缩，而是对图像的局部进行指定压缩质量的压缩，使得压缩图像可局部调节压缩质量，用户可自定义图像局部压缩质量以符合其本人的视觉感知和审美，具有较大的灵活性。

　　尽管已经示出和描述了本发明的实施例，对于本领域的普通技术人员而言，可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由所附权利要求及其等同物限定。

《基于用户交互与语义分割技术结合的图像压缩方法及装置.doc》

将本文的Word文档下载到电脑，方便收藏和打印

推荐度：

点击下载文档

文档为doc格式(或pdf格式)

电通讯技术图文推荐

上一篇：内容建议系统

下一篇：一种票证的扫描结构及扫描设备