当前位置：首页 > 电学技术 > 电通讯技术> 视频处理方法、装置、电子设备和可读存储介质独创技术38468字

视频处理方法、装置、电子设备和可读存储介质

2021-02-27 20:37:42

视频处理方法、装置、电子设备和可读存储介质

　　技术领域

　　本发明涉及计算机技术领域，特别是涉及一种视频处理方法、装置、电子设备和可读存储介质。

　　背景技术

　　目前，随着人们生活质量的提高，许多人会将学习、工作或者出游的多段视频剪辑为一个集锦视频。

　　在集锦视频制作的过程中，需要人工选取适合的视频片段，并人工进行剪辑合成，会消耗大量人力，而且，当需要制作大量集锦视频时，还会由于每个制作人员的制作水平，导致集锦视频的质量参差不齐。

　　发明内容

　　有鉴于此，本发明实施例提供一种视频处理方法、装置、电子设备和可读存储介质，可以节省制作集锦视频时的人力，并且还可以保证每个集锦视频在质量上的统一。

　　第一方面，提供了一种视频处理方法，所述方法应用于电子设备，所述方法包括：

　　获取至少一个目标视频；

　　提取所述目标视频中的至少一个发音片段，并记录每个发音片段的声音数据；

　　确定每个发音片段在所述目标视频中对应的图像信息；

　　根据每个发音片段的声音数据以及每个发音片段的图像信息对目标视频中的各视频片段进行评分，以确定多个待合并片段；以及

　　合并所述多个待合并片段，确定合并视频。

　　可选的，所述根据每个发音片段的声音数据以及每个发音片段的图像信息对目标视频中的各视频片段进行评分，以确定多个待合并片段，包括：

　　基于每个发音片段的声音数据和每个发音片段的图像信息，对各发音片段进行筛选，确定多个待评分片段；

　　基于每个发音片段的声音数据和每个待评分片段的图像信息，确定每个待评分片段的分值；以及

　　根据每个待评分片段的分值，确定第一预设数量的待评分片段为待合并片段。

　　可选的，

　　所述基于每个发音片段的声音数据和每个发音片段的图像信息，对各发音片段进行筛选，包括如下操作中的至少一项：

　　针对每个发音片段，响应于所述发音片段的图像信息中的人脸出框率大于预设的人脸出框率阈值，丢弃所述发音片段；

　　针对每个发音片段，响应于所述发音片段的声音数据的声音持续时长大于第一预设时长阈值，丢弃所述发音片段；

　　针对每个发音片段，响应于所述发音片段的声音数据的声音持续时长小于第二预设时长阈值，丢弃所述发音片段；

　　针对每个发音片段，响应于所述发音片段的图像信息中存在画面卡顿，丢弃所述发音片段；以及

　　针对属于同一目标视频的相邻两个发音片段，响应于所述相邻两个发音片段之间的时长间隔小于预设时长间隔阈值，合并所述相邻两个发音片段。

　　可选的，所述待评分片段包括：目标人物的声音数据和所述目标人物的图像信息；

　　所述基于每个发音片段的声音数据和每个待评分片段的图像信息，确定每个待评分片段的分值，包括：

　　针对每个待评分片段，确定所述待评分片段的属性值，其中，所述待评分片段的属性值包括：包括目标人物的正脸的图像帧数量、包括目标人物的正脸的图像帧数量/待评分片段的总图像帧数量、包括目标人物的笑脸的图像帧数量、包括目标人物的笑脸的图像帧数量/待评分片段的总图像帧数量、所述待评分片段时长和目标人物的发音时长/所述待评分片段时长；以及

　　将所述待评分片段的属性值输入预设的评分模型，获取所述评分模型输出的所述待评分片段的分值。

　　可选的，所述获取至少一个目标视频，包括：

　　获取多个待选取视频；

　　将所述多个待选取视频按拍摄时间的顺序进行分组，确定多个视频组；以及

　　分别针对各视频组，确定每个视频组中的多个待选取视频为目标视频。

　　可选的，所述确定每个视频组中的多个待选取视频为目标视频，包括：

　　根据预设的采样规则，从每个视频组中提取多个目标视频。

　　可选的，所述确定每个视频组中的多个待选取视频为目标视频，包括：

　　在视频组中随机选取第二预设数量的待选取视频作为目标视频。

　　可选的，所述视频组包括前期视频组、中期视频组和后期视频组；

　　所述根据每个待评分片段的分值，确定第一预设数量的待评分片段为待合并片段，包括：

　　针对所述前期视频组，确定所述前期视频组中，评分处于中位的第三预设数量的待评分片段为待合并片段；

　　针对所述中期视频组，确定所述中期视频组中，评分最高的第四预设数量的待评分片段为待合并片段；以及

　　针对所述后期视频组，确定所述后期视频组中，评分最高的第五预设数量的待评分片段为待合并片段；

　　其中，所述第三预设数量、所述第四预设数量和所述第五预设数量的和等于所述第一预设数量。

　　可选的，所述提取所述目标视频中的至少一个发音片段，包括：

　　基于语音激活检测Voice Activity Detection，对所述目标视频进行端点检测并提取所述目标视频中的至少一个发音片段。

　　可选的，所述确定每个发音片段在所述目标视频中对应的图像信息，包括：

　　确定各发音片段在目标视频中对应的视频片段；以及

　　基于人脸识别神经网络模型，将各视频片段的人脸数据作为图像信息。

　　第二方面，提供了一种视频处理装置，所述装置应用于电子设备，所述装置包括：

　　获取模块，用于获取至少一个目标视频；

　　提取模块，用于提取所述目标视频中的至少一个发音片段；

　　记录模块，用于记录每个发音片段的声音数据；

　　第一确定模块，用于确定每个发音片段在所述目标视频中对应的图像信息；

　　第二确定模块，用于根据每个发音片段的声音数据以及每个发音片段的图像信息对目标视频中的各视频片段进行评分，以确定多个待合并片段；以及

　　合并模块，用于合并所述多个待合并片段，确定合并视频。

　　可选的，所述第二确定模块，具体用于：

　　基于每个发音片段的声音数据和每个发音片段的图像信息，对各发音片段进行筛选，确定多个待评分片段；

　　基于每个发音片段的声音数据和每个待评分片段的图像信息，确定每个待评分片段的分值；以及

　　根据每个待评分片段的分值，确定第一预设数量的待评分片段为待合并片段。

　　可选的，

　　所述第二确定模块，具体用于执行如下操作中的至少一项：

　　针对每个发音片段，响应于所述发音片段的图像信息中的人脸出框率大于预设的人脸出框率阈值，丢弃所述发音片段；

　　针对每个发音片段，响应于所述发音片段的声音数据的声音持续时长大于第一预设时长阈值，丢弃所述发音片段；

　　针对每个发音片段，响应于所述发音片段的声音数据的声音持续时长小于第二预设时长阈值，丢弃所述发音片段；

　　针对每个发音片段，响应于所述发音片段的图像信息中存在画面卡顿，丢弃所述发音片段；以及

　　针对属于同一目标视频的相邻两个发音片段，响应于所述相邻两个发音片段之间的时长间隔小于预设时长间隔阈值，合并所述相邻两个发音片段。

　　可选的，所述待评分片段包括：目标人物的声音数据和所述目标人物的图像信息；

　　所述第二确定模块，具体用于：

　　将所述待评分片段的属性值输入预设的评分模型，获取所述评分模型输出的所述待评分片段的分值。

　　可选的，所述获取模块，具体用于：

　　获取多个待选取视频；

　　将所述多个待选取视频按拍摄时间的顺序进行分组，确定多个视频组；以及

　　分别针对各视频组，确定每个视频组中的多个待选取视频为目标视频。

　　可选的，所述获取模块，具体用于：

　　根据预设的采样规则，从每个视频组中提取多个目标视频。

　　可选的，所述获取模块，具体用于：

　　在视频组中随机选取第二预设数量的待选取视频作为目标视频。

　　可选的，所述视频组包括前期视频组、中期视频组和后期视频组；

　　所述第二确定模块，具体用于：

　　针对所述前期视频组，确定所述前期视频组中，评分处于中位的第三预设数量的待评分片段为待合并片段；

　　针对所述中期视频组，确定所述中期视频组中，评分最高的第四预设数量的待评分片段为待合并片段；以及

　　针对所述后期视频组，确定所述后期视频组中，评分最高的第五预设数量的待评分片段为待合并片段；

　　其中，所述第三预设数量、所述第四预设数量和所述第五预设数量的和等于所述第一预设数量。

　　可选的，所述提取模块，具体用于：

　　基于语音激活检测Voice Activity Detection，对所述目标视频进行端点检测并提取所述目标视频中的至少一个发音片段。

　　可选的，所述第一确定模块，具体用于：

　　确定各发音片段在目标视频中对应的视频片段；以及

　　基于人脸识别神经网络模型，将各视频片段的人脸数据作为图像信息。

　　第三方面，本发明实施例提供了一种电子设备，包括存储器和处理器，所述存储器用于存储一条或多条计算机程序指令，其中，所述一条或多条计算机程序指令被所述处理器执行以实现如第一方面所述的方法。

　　第四方面，本发明实施例提供了一种计算机可读存储介质，其上存储计算机程序指令，所述计算机程序指令在被处理器执行时实现如第一方面所述的方法。

　　通过本发明实施例，由于目标视频中的有效片段大多为发音片段，因此，电子设备提取出发音片段后可以滤除大多数无效片段，然后，由于电子设备对目标视频中的各视频片段进行了评分，所以，电子设备可以进一步的从有效片段中筛选出评分高的视频片段作为精彩片段并进行合并，此过程中无需人为参与，节省了大量人力，而且，当需要制作大量集锦视频时，由于存在统一的制作标准，所以通过本发明实施例还可以保证每个集锦视频在质量上的统一。

　　附图说明

　　通过以下参照附图对本发明实施例的描述，本申请的上述以及其它目的、特征和优点将更为清楚，在附图中：

　　图1为本发明实施例提供的一种视频处理方法的流程图；

　　图2为本发明实施例提供的一种在线教育课堂场景的示意图；

　　图3为本发明实施例提供的另一种视频处理方法的流程图；

　　图4为本发明实施例提供的另一种视频处理方法的流程图；

　　图5为本发明实施例提供的另一种视频处理方法的流程图；

　　图6为本发明实施例提供的另一种视频处理方法的流程图；

　　图7为本发明实施例提供的一种确定待合并片段过程的示意图；

　　图8为本发明实施例提供的另一种视频处理方法的流程图；

　　图9为本发明实施例提供的一种视频处理装置的结构示意图；

　　图10为本发明实施例提供的一种电子设备的结构示意图。

　　具体实施方式

　　以下基于实施例对本发明进行描述，但是本发明并不仅仅限于这些实施例。在下文对本发明的细节描述中，详尽描述了一些特定的细节部分。对本领域技术人员来说没有这些细节部分的描述也可以完全理解本发明。为了避免混淆本发明的实质，公知的方法、过程、流程、元件和电路并没有详细叙述。

　　此外，本领域普通技术人员应当理解，在此提供的附图都是为了说明的目的，并且附图不一定是按比例绘制的。

　　除非上下文明确要求，否则在说明书的“包括”、“包含”等类似词语应当解释为包含的含义而不是排他或穷举的含义；也就是说，是“包括但不限于”的含义。

　　在本发明的描述中，需要理解的是，术语“第一”、“第二”等仅用于描述目的，而不能理解为指示或暗示相对重要性。此外，在本发明的描述中，除非另有说明，“多个”的含义是两个或两个以上。

　　本发明提供一种视频处理方法，该方法可以应用于电子设备，电子设备可以是服务器或者终端，其中，终端可以是移动终端(例如智能手机、智能手表或者平板电脑等)也可以是个人计算机(Personal Computer，PC)终端。

　　下面将结合具体实施方式，对本发明实施例提供的一种视频处理方法进行详细的说明，如图1所示，具体步骤如下：

　　步骤100、获取至少一个目标视频。

　　步骤200、提取目标视频中的至少一个发音片段，并记录每个发音片段的声音数据。

　　步骤300、确定每个发音片段在目标视频中对应的图像信息。

　　步骤400、根据每个发音片段的声音数据以及每个发音片段的图像信息对目标视频中的各视频片段进行评分，以确定多个待合并片段。

　　步骤500、合并多个待合并片段，确定合并视频。

　　通过本发明实施例，由于目标视频中的有效片段大多为发音片段，因此，电子设备提取出发音片段后可以滤除大多数无效片段，然后，由于电子设备对目标视频中的各视频片段进行了评分，所以，电子设备可以进一步的从有效片段中筛选出评分高的视频片段作为精彩片段并进行合并，此过程中无需人为参与，节省了大量人力，而且，当需要制作大量集锦视频时，由于存在统一的制作标准，所以本发明还可以保证每个集锦视频在质量上的统一。

　　如图2所示，图2为本发明实施例提供的一种在线教育课堂场景的示意图，该示意图包括：教师A、学生B、终端设备11、终端设备12和电子设备13。

　　具体的，在本发明实施例图1所示的在线教育课堂场景中，终端设备11和终端设备12中可以安装在线教育应用软件，在每一节在线课堂中，老师A与学生B可以通过终端设备以及在线教育应用软件进行视频沟通，终端设备11和终端设备12可以记录每节课堂老师A与学生B视频沟通的过程，然后将该过程以视频的形式上传至电子设备13。

　　当学生B所报名的本期课程全部结束后，电子设备13可以基于学生B上课过程中的视频以及上述步骤100至步骤500，制作学生B本期课程的集锦视频。

　　可选的，如图3所示，步骤100具体可以包括以下步骤：

　　步骤110、获取多个待选取视频。

　　例如，学生B报名的一期课程包括60节课，当学生B完成该60节课的学习后，电子设备可以将该60节课的视频作为待选取视频。

　　步骤120、将该多个待选取视频按拍摄时间的顺序进行分组，确定多个视频组。

　　结合步骤110的举例，学生B报名的一期课程包括60节课，当学生B完成该60节课的学习后，学生B的这一期课程将对应至少60个视频，电子设备可以将前20节课对应的视频作为一个视频组(在后可以称为前期视频组)，将中间20节课对应的视频作为一个视频组(在后可以称为中期视频组)，将最后20节课对应的视频作为一个视频组(在后可以称为后期视频组)。

　　需要说明的，每个视频组中视频的数量不一定相等，且本发明实施例提出的分组规则为一种可实施的举例说明，在实际应用中也可以应用其它可实施的分组规则，本发明实施例对分组规则不做限定。

　　步骤130、分别针对各视频组，确定每个视频组中的多个待选取视频为目标视频。

　　可选的，步骤130具体可以执行为：根据预设的采样规则，从每个视频组中提取多个目标视频。

　　其中，预设的采样规则可以为：在视频组中随机选取第二预设数量的待选取视频作为目标视频。

　　例如，第二预设数量可以为10，若有3个视频组(每个视频组分别有20个视频)，则电子设备可以在每个视频组中随机选取10个视频作为目标视频。

　　其中，预设的采样规则还可以为：在视频组中随机选取不同数量的待选取视频作为目标视频。

　　例如，若有3个视频组，且每个视频组中包括30个视频，则电子设备可以在第一个视频组中选取10个视频作为目标视频，在第二个视频组中选取20个视频作为目标视频，在第三个视频组中选取10个视频作为目标视频。

　　需要说明的，电子设备也可以采用其它可实施的采样规则，本发明实施例不做限定。

　　通过本发明实施例，电子设备可以通过采样的方式，选取部分视频作为目标视频，进而可以减轻制作集锦视频时处理器的运算压力。

　　可选的，步骤200具体为：基于语音激活检测(Voice Activity Detection，VAD)，对目标视频进行端点检测并提取目标视频中的至少一个发音片段。

　　其中，VAD的基本原理是通过对话音编码参数及其特征值进行分析和计算，然后采用一定的逻辑判断准则来确定当前语音信号中是否有语音信号存在。

　　具体的，VAD可以从带有噪声的语音中准确的定位出语音的开始点，和结束点，然后去掉静音的部分，并去掉噪声的部分，找到一段语音真正有效的内容(即包含老师与学生对话的部分)。

　　在一种可实现方式中，电子设备还可以基于VAD计算发音片段中语音的语速信息，并将该语速信息作为发音片段的声音数据。

　　在另一种可实现方式中，电子设备还可以基于自动语音识别技术(AutomaticSpeech Recognition，ASR)，计算发音片段中语音的语速信息、中英文信息和语义信息等，并将语速信息、中英文信息和语义信息等信息作为发音片段的声音数据。

　　通过本发明实施例，电子设备可以通过VAD准确的找到发音片段，最大限度的排除了无效片段(没有声音的片段)以及干扰片段(存在噪声的片段)。

　　可选的，步骤300具体为：确定各发音片段在目标视频中对应的视频片段；以及基于人脸识别神经网络模型，将各视频片段的人脸数据作为图像信息。

　　其中，图像信息可以包括人脸信息、情绪信息、人脸角度信息和手势信息等。

　　例如，人脸识别神经网络模型可以确定识别出的人脸是否是正脸，以及识别出的人脸的出框率(被电子设备采集的人脸未进入人脸采集范围的部分所占的比例)，并将是否是正脸以及人脸的出框率作为人脸信息。

　　再例如，人脸识别神经网络模型可以确定识别出的人脸是否是笑脸，并将是否是笑脸作为情绪信息。

　　需要说明的，本发明实施例对图像信息的举例为示例性说明，在实际应用中不仅限于上述举例所涉及到的数据。

　　通过本发明实施例，电子设备可以基于人脸识别神经网络模型，获取更细粒度的图像信息，进而可以根据图像信息确定更优选的视频片段。

　　可选的，如图4所示，步骤400具体可以包括以下步骤：

　　步骤410、基于每个发音片段的声音数据和每个发音片段的图像信息，对各发音片段进行筛选，确定多个待评分片段。

　　其中，声音数据可以包括声音持续时长，图像信息可以包括图像中的人脸出框率和画面卡顿信息。

　　可选的，基于每个发音片段的声音数据和每个发音片段的图像信息，对各发音片段进行筛选步骤，可以包括如下操作中的至少一项：

　　操作A、针对每个发音片段，响应于发音片段的图像信息中的人脸出框率大于预设的人脸出框率阈值，丢弃发音片段。

　　例如，预设的人脸出框率阈值可以为10％，当发音片段的图像中的人脸出框率大于10％时，即可认为该发音片段的图像中的人脸“未露脸”，进而，电子设备即可丢弃该发音片段。

　　操作B、针对每个发音片段，响应于发音片段的声音数据的声音持续时长大于第一预设时长阈值，丢弃发音片段。

　　例如，第一预设时长阈值可以为90秒，当发音片段的声音持续时长大于90秒时，表征该发音片段过长，即该发音片段不适合作为集锦视频中的片段，进而，电子设备即可丢弃该发音片段。

　　操作C、针对每个发音片段，响应于发音片段的声音数据的声音持续时长小于第二预设时长阈值，丢弃发音片段。

　　例如，第二预设时长阈值可以为10秒，当发音片段的声音持续时长小于10秒时，表征该发音片段过短，即该发音片段不适合作为集锦视频中的片段，进而，电子设备即可丢弃该发音片段。

　　操作D、针对每个发音片段，响应于发音片段的图像信息中存在画面卡顿，丢弃发音片段。

　　其中，电子设备可以基于人脸识别神经网络模型确定发音片段中是否存在画面卡顿，当发音片段中存在画面卡顿时，即该发音片段不适合作为集锦视频中的片段，进而，电子设备即可丢弃该发音片段。

　　操作E、针对属于同一目标视频的相邻两个发音片段，响应于相邻两个发音片段之间的时长间隔小于预设时长间隔阈值，合并相邻两个发音片段。

　　例如，预设时长间隔阈值可以为5秒，当相邻两个发音片段之间的时长间隔小于5秒时，表征该相邻两个发音片段可以为一段连续的片段，进而，电子设备可以将该相邻两个发音片段进行合并。

　　需要说明的，上述操作A至操作E为本发明实施例做出的可选的举例说明，在实际应用中可以不限于上述操作A至操作E，本发明实施例不做限定。

　　通过本发明实施例，电子设备可以通过筛选、合并操作，丢弃了不适合作为集锦视频的片段，更进一步保证了集锦视频的质量。

　　步骤420、基于每个发音片段的声音数据和每个待评分片段的图像信息，确定每个待评分片段的分值。

　　其中，待评分片段包括：目标人物的声音数据和目标人物的图像信息。

　　可选的，如图5所示，步骤420，具体可以包括以下步骤：

　　步骤421、针对每个待评分片段，确定待评分片段的属性值。

　　其中，待评分片段的属性值包括：包括目标人物的正脸的图像帧数量、包括目标人物的正脸的图像帧数量/待评分片段的总图像帧数量、包括目标人物的笑脸的图像帧数量、包括目标人物的笑脸的图像帧数量/待评分片段的总图像帧数量、待评分片段时长和目标人物的发音时长/待评分片段时长。

　　具体的，如下表一所示，表一为本发明实施例提供的一种待评分片段的属性值的示例性表格，具体如下：

　　表一

　　需要说明的，在实际应用中的属性值并不只限于表一所示的6种，例如：语速、英文占比和鼓励词出现比例等等，本发明实施例对属性值不做限定。

　　步骤422、将待评分片段的属性值输入预设的评分模型，获取评分模型输出的待评分片段的分值。

　　具体的，预设的评分模型可以基于逻辑回归拟合的方式，针对输入的待评分片段的属性值对该待评分片段进行评分，然后输出该待评分片段的分值。

　　其中，预设的评分模型输出的分值可以用于表征待评分片段的精彩程度。

　　在一种可实现方式中，电子设备确定各待评分片段的分值后，可以对各待评分片段按照分值进行排序，进而，电子设备可以根据该排序确定待合并片段。

　　通过本发明实施例，电子设备可以基于统一的标准对各待评分片段进行评分，保证了在需要制作大量集锦视频时，每个集锦视频在质量上的统一。

　　步骤430、根据每个待评分片段的分值，确定第一预设数量的待评分片段为待合并片段。

　　其中，视频组可以包括前期视频组、中期视频组和后期视频组。

　　可选的，如图6所示，步骤430具体可以包括以下步骤：

　　步骤431、针对前期视频组，确定前期视频组中，评分处于中位的第三预设数量的待评分片段为待合并片段。

　　步骤432、针对中期视频组，确定中期视频组中，评分最高的第四预设数量的待评分片段为待合并片段。

　　步骤433、针对后期视频组，确定后期视频组中，评分最高的第五预设数量的待评分片段为待合并片段。

　　其中，第三预设数量、第四预设数量和第五预设数量的和等于第一预设数量。

　　需要说明的，前期视频组或者中期视频组或者后期视频组中可以包括多个子视频组，进而，第一预设数量＝第三预设数量*a+第四预设数量*b+第五预设数量*c，其中，a为前期视频组中子视频组的数据量，b为中期视频组中子视频组的数量，c为后期视频组中子视频组的数量。

　　例如，如图7所示，图7为本发明实施例提供的一种确定待合并片段过程的示意图，该示意图包括：前期视频组、中期视频组、后期视频组和待合并片段。

　　具体的，图7包括以下步骤：

　　步骤71、确定评分处于中位的3个待评分片段为待合并片段。

　　步骤72、确定评分最高的5个待评分片段为待合并片段。

　　通过步骤71和步骤72，电子设备可以确定13个片段为待合并片段。

　　如图8所示，图8为本发明实施例提供的一种视频处理方法的流程图，其中，由于电子设备针对前期视频组、中期视频组以及后期视频组的步骤相似，所以，本发明实施例只针对其中一个(后期视频组)进行说明，对前期视频组和中期视频组所涉及的步骤不做赘述。

　　具体步骤包括：

　　步骤81、获取多个待选取视频。

　　步骤82、确定后期视频组。

　　具体的，电子设备可以将多个待选取视频按照拍摄时间的顺序进行排序，然后确定前期视频组、中期视频组以及后期视频组。

　　例如，学生C报名的一期课程包括100节课，当学生C完成该100节课的学习后，学生C的这一期课程将对应至少100个待选取视频，电子设备可以将前20节课对应的视频作为前期视频组，将第21节课到第40节课对应的视频作为中期视频组，将最后40节课对应的视频作为后期视频组。

　　步骤83、随机选取10个视频作为目标视频。

　　具体的，电子设备可以针对后期视频组中的40节课对应的待选取视频进行随机抽样，确定10个视频作为目标视频。

　　步骤84、基于VAD算法提取发音片段。

　　步骤85、确定发音片段的声音数据和图像信息。

　　步骤86、基于声音数据和图像信息确定待合并片段。

　　具体的，步骤86的实现方式可以参照步骤400、步骤410-步骤430以及步骤431-步骤433所述的方法步骤，本发明实施例对相同内容不做赘述。

　　步骤87、合并多个待合并片段，确定合并视频。

　　通过本发明实施例，电子设备可以从有效片段中筛选出评分高的视频片段作为精彩片段并进行合并，此过程中无需人为参与，节省了大量人力，而且，当需要制作大量集锦视频时，由于存在统一的制作标准，所以本发明还可以保证每个集锦视频在质量上的统一。

　　基于相同的技术构思，本发明实施例还提供了一种视频处理装置，如图9所示，该装置包括：获取模块91、提取模块92、记录模块93、第一确定模块94、第二确定模块95和合并模块96。

　　获取模块91，用于获取至少一个目标视频；

　　提取模块92，用于提取目标视频中的至少一个发音片段；

　　记录模块93，用于记录每个发音片段的声音数据；

　　第一确定模块94，用于确定每个发音片段在目标视频中对应的图像信息；

　　第二确定模块95，用于根据每个发音片段的声音数据以及每个发音片段的图像信息对目标视频中的各视频片段进行评分，以确定多个待合并片段；以及

　　合并模块96，用于合并多个待合并片段，确定合并视频。

　　可选的，第二确定模块95，具体用于：

　　基于每个发音片段的声音数据和每个发音片段的图像信息，对各发音片段进行筛选，确定多个待评分片段；

　　基于每个发音片段的声音数据和每个待评分片段的图像信息，确定每个待评分片段的分值；以及

　　根据每个待评分片段的分值，确定第一预设数量的待评分片段为待合并片段。

　　可选的，

　　第二确定模块95，具体用于执行如下操作中的至少一项：

　　针对每个发音片段，响应于发音片段的图像信息中的人脸出框率大于预设的人脸出框率阈值，丢弃发音片段；

　　针对每个发音片段，响应于发音片段的声音数据的声音持续时长大于第一预设时长阈值，丢弃发音片段；

　　针对每个发音片段，响应于发音片段的声音数据的声音持续时长小于第二预设时长阈值，丢弃发音片段；

　　针对每个发音片段，响应于发音片段的图像信息中存在画面卡顿，丢弃发音片段；以及

　　针对属于同一目标视频的相邻两个发音片段，响应于相邻两个发音片段之间的时长间隔小于预设时长间隔阈值，合并相邻两个发音片段。

　　可选的，待评分片段包括：目标人物的声音数据和目标人物的图像信息；

　　第二确定模块95，具体用于：

　　针对每个待评分片段，确定待评分片段的属性值，其中，待评分片段的属性值包括：包括目标人物的正脸的图像帧数量、包括目标人物的正脸的图像帧数量/待评分片段的总图像帧数量、包括目标人物的笑脸的图像帧数量、包括目标人物的笑脸的图像帧数量/待评分片段的总图像帧数量、待评分片段时长和目标人物的发音时长/待评分片段时长；以及

　　将待评分片段的属性值输入预设的评分模型，获取评分模型输出的待评分片段的分值。

　　可选的，获取模块91，具体用于：

　　获取多个待选取视频；

　　将多个待选取视频按拍摄时间的顺序进行分组，确定多个视频组；以及

　　分别针对各视频组，确定每个视频组中的多个待选取视频为目标视频。

　　可选的，获取模块91，具体用于：

　　根据预设的采样规则，从每个视频组中提取多个目标视频。

　　可选的，获取模块91，具体用于：

　　在视频组中随机选取第二预设数量的待选取视频作为目标视频。

　　可选的，视频组包括前期视频组、中期视频组和后期视频组；

　　第二确定模块95，具体用于：

　　针对前期视频组，确定前期视频组中，评分处于中位的第三预设数量的待评分片段为待合并片段；

　　针对中期视频组，确定中期视频组中，评分最高的第四预设数量的待评分片段为待合并片段；以及

　　针对后期视频组，确定后期视频组中，评分最高的第五预设数量的待评分片段为待合并片段；

　　其中，第三预设数量、第四预设数量和第五预设数量的和等于第一预设数量。

　　可选的，提取模块92，具体用于：

　　基于语音激活检测Voice Activity Detection，对目标视频进行端点检测并提取目标视频中的至少一个发音片段。

　　可选的，第一确定模块94，具体用于：

　　确定各发音片段在目标视频中对应的视频片段；以及

　　基于人脸识别神经网络模型，将各视频片段的人脸数据作为图像信息。

　　通过本发明实施例，由于目标视频中的有效片段大多为发音片段，因此，电子设备提取出发音片段后可以滤除大多数无效片段，然后，由于电子设备对目标视频中的各视频片段进行了评分，所以，电子设备可以进一步的从有效片段中筛选出评分高的视频片段作为精彩片段并进行合并，此过程中无需人为参与，节省了大量人力，而且，当需要制作大量集锦视频时，由于存在统一的制作标准，所以本发明还可以保证每个集锦视频在质量上的统一。

　　图10是本发明实施例的电子设备的示意图。如图10所示，图10所示的电子设备为通用地址查询装置，其包括通用的计算机硬件结构，其至少包括处理器101和存储器102。处理器101和存储器102通过总线103连接。存储器102适于存储处理器101可执行的指令或程序。处理器101可以是独立的微处理器，也可以是一个或者多个微处理器集合。由此，处理器101通过执行存储器102所存储的指令，从而执行如上所述的本发明实施例的方法流程实现对于数据的处理和对于其它装置的控制。总线103将上述多个组件连接在一起，同时将上述组件连接到显示控制器104和显示装置以及输入/输出(I/O)装置105。输入/输出(I/O)装置105可以是鼠标、键盘、调制解调器、网络接口、触控输入装置、体感输入装置、打印机以及本领域公知的其他装置。典型地，输入/输出装置105通过输入/输出(I/O)控制器106与系统相连。

　　本领域的技术人员应明白，本发明的实施例可提供为方法、装置(设备)或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可读存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品。

　　本发明是参照根据本发明实施例的方法、装置(设备)和计算机程序产品的流程图来描述的。应理解可由计算机程序指令实现流程图中的每一流程。

　　这些计算机程序指令可以存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现流程图一个流程或多个流程中指定的功能。

　　也可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程中指定的功能的装置。

　　本发明的另一实施例涉及一种非易失性存储介质，用于存储计算机可读程序，所述计算机可读程序用于供计算机执行上述部分或全部的方法实施例。

　　即，本领域技术人员可以理解，实现上述实施例方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，该程序存储在一个存储介质中，包括若干指令用以使得一个设备(可以是单片机，芯片等)或处理器(processor)执行本发明各实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-OnlyMemory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

　　以上所述仅为本发明的优选实施例，并不用于限制本发明，对于本领域技术人员而言，本发明可以有各种改动和变化。凡在本发明的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

《视频处理方法、装置、电子设备和可读存储介质.doc》

将本文的Word文档下载到电脑，方便收藏和打印

推荐度：

点击下载文档

文档为doc格式(或pdf格式)

电通讯技术图文推荐

上一篇：一种便携式网络优化测试终端

下一篇：摄像模组及电子设备