当前位置：首页 > 电学技术 > 电通讯技术> 背景音频确定方法、视频剪辑方法、装置和计算机设备独创技术80911字

背景音频确定方法、视频剪辑方法、装置和计算机设备

2021-04-01 07:37:01

背景音频确定方法、视频剪辑方法、装置和计算机设备

　　技术领域

　　本申请涉及信息处理技术领域，特别是涉及一种背景音频确定方法、视频剪辑方法、装置和计算机设备。

　　背景技术

　　随着短视频技术的发展，短视频的拍摄和剪辑越来越常见，例如很多用户热衷于制作卡点视频。在制作短视频时，通常需要为选取好的视频挑选一个合适的背景音乐。

　　传统技术中，可以基于人工智能推荐模型根据用户的喜好选取背景音乐进行推荐。然而经常存在选取的背景音乐与视频不匹配的情况，即背景音乐与视频的匹配度低。

　　发明内容

　　基于此，有必要针对上述背景音乐与视频的匹配度低的技术问题，提供一种背景音频确定方法、视频剪辑方法、装置和计算机设备。

　　一种背景音频确定方法，所述方法包括：获取待确定背景音频的目标内容对应的内容时间长度序列；所述目标内容包括多个内容片段，各个所述内容片段的播放时间长度按照内容播放顺序形成所述内容时间长度序列；获取候选音频集合中，各个候选音频分别对应的鼓点时间间隔序列；所述候选音频对应多个鼓点，各个所述鼓点之间的间隔长度按照鼓点在所述候选音频中的顺序，形成所述候选音频对应的鼓点时间间隔序列；获取所述内容时间长度序列与所述候选音频对应的鼓点时间间隔序列之间的目标相似度；根据所述候选音频对应的目标相似度，从所述候选音频集合中确定所述目标内容对应的背景音频。

　　一种背景音频确定装置，所述装置包括：内容时间长度序列获取模块，用于获取待确定背景音频的目标内容对应的内容时间长度序列；所述目标内容包括多个内容片段，各个所述内容片段的播放时间长度按照内容播放顺序形成所述内容时间长度序列；鼓点时间间隔序列获取模块，用于获取候选音频集合中，各个候选音频分别对应的鼓点时间间隔序列；所述候选音频对应多个鼓点，各个所述鼓点之间的间隔长度按照鼓点在所述候选音频中的顺序，形成所述候选音频对应的鼓点时间间隔序列；目标相似度获取模块，用于获取所述内容时间长度序列与所述候选音频对应的鼓点时间间隔序列之间的目标相似度；背景音频确定模块，用于根据所述候选音频对应的目标相似度，从所述候选音频集合中确定所述目标内容对应的背景音频。

　　一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现以下步骤：获取待确定背景音频的目标内容对应的内容时间长度序列；所述目标内容包括多个内容片段，各个所述内容片段的播放时间长度按照内容播放顺序形成所述内容时间长度序列；获取候选音频集合中，各个候选音频分别对应的鼓点时间间隔序列；所述候选音频对应多个鼓点，各个所述鼓点之间的间隔长度按照鼓点在所述候选音频中的顺序，形成所述候选音频对应的鼓点时间间隔序列；获取所述内容时间长度序列与所述候选音频对应的鼓点时间间隔序列之间的目标相似度；根据所述候选音频对应的目标相似度，从所述候选音频集合中确定所述目标内容对应的背景音频。

　　一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现以下步骤：获取待确定背景音频的目标内容对应的内容时间长度序列；所述目标内容包括多个内容片段，各个所述内容片段的播放时间长度按照内容播放顺序形成所述内容时间长度序列；获取候选音频集合中，各个候选音频分别对应的鼓点时间间隔序列；所述候选音频对应多个鼓点，各个所述鼓点之间的间隔长度按照鼓点在所述候选音频中的顺序，形成所述候选音频对应的鼓点时间间隔序列；获取所述内容时间长度序列与所述候选音频对应的鼓点时间间隔序列之间的目标相似度；根据所述候选音频对应的目标相似度，从所述候选音频集合中确定所述目标内容对应的背景音频。

　　上述背景音频确定方法、装置、计算机设备和存储介质，获取待确定背景音频的目标内容对应的内容时间长度序列，获取候选音频集合中，各个候选音频分别对应的鼓点时间间隔序列，获取内容时间长度序列与候选音频对应的鼓点时间间隔序列之间的目标相似度，根据候选音频对应的目标相似度，从候选音频集合中确定目标内容对应的背景音频，由于内容时间长度序列是目标内容包括的内容片段的播放时间长度按照内容播放顺序形成的，并且鼓点时间间隔序列是各个鼓点之间的间隔长度按照鼓点在候选音频的顺序形成的，因此，内容时间长度序列可以反映目标内容的内容播放节奏，鼓点时间间隔序列可以反映候选音频的音乐节奏，从而根据内容时间长度序列与候选音频对应的鼓点时间间隔序列之间的目标相似度选取背景音频，可以选取到音乐节奏与目标内容的内容播放节奏匹配的背景音频，提高了背景音频与视频的匹配度。

　　一种视频剪辑方法，所述方法包括：获取视频剪辑页面中各个剪辑视频片段对应的时间长度，根据所述剪辑视频片段在目标视频中的播放顺序形成内容时间长度序列；获取所述目标视频对应的背景音频；其中，所述背景音频是根据所述内容时间长度序列以及候选音频对应的鼓点时间间隔序列的目标相似度，从候选音频集合中确定的；在所述视频剪辑界面上，将所述背景音频在音频轨道的起始位置与所述目标视频在视频轨道的起始位置对齐。

　　一种视频剪辑装置，所述装置包括：内容时间长度序列形成模块，用于获取视频剪辑页面中各个剪辑视频片段对应的时间长度，根据所述剪辑视频片段在目标视频中的播放顺序形成内容时间长度序列；背景音频获取模块，用于获取所述目标视频对应的背景音频；其中，所述背景音频是根据所述内容时间长度序列以及候选音频对应的鼓点时间间隔序列的目标相似度，从候选音频集合中确定的；位置对齐模块，用于在所述视频剪辑界面上，将所述背景音频在音频轨道的起始位置与所述目标视频在视频轨道的起始位置对齐。

　　一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现以下步骤：获取视频剪辑页面中各个剪辑视频片段对应的时间长度，根据所述剪辑视频片段在目标视频中的播放顺序形成内容时间长度序列；获取所述目标视频对应的背景音频；其中，所述背景音频是根据所述内容时间长度序列以及候选音频对应的鼓点时间间隔序列的目标相似度，从候选音频集合中确定的；在所述视频剪辑界面上，将所述背景音频在音频轨道的起始位置与所述目标视频在视频轨道的起始位置对齐。

　　一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现以下步骤：获取视频剪辑页面中各个剪辑视频片段对应的时间长度，根据所述剪辑视频片段在目标视频中的播放顺序形成内容时间长度序列；获取所述目标视频对应的背景音频；其中，所述背景音频是根据所述内容时间长度序列以及候选音频对应的鼓点时间间隔序列的目标相似度，从候选音频集合中确定的；在所述视频剪辑界面上，将所述背景音频在音频轨道的起始位置与所述目标视频在视频轨道的起始位置对齐。

　　上述视频剪辑方法、装置、计算机设备和存储介质，获取视频剪辑页面中各个剪辑视频片段对应的时间长度，根据剪辑视频片段在目标视频中的播放顺序形成内容时间长度序列，获取目标视频对应的背景音频，在视频剪辑界面上，将背景音频在音频轨道的起始位置与目标视频在视频轨道的起始位置对齐，由于内容时间长度序列是根据剪辑视频片段在目标视频中的播放顺序形成的，因此，内容时间长度序列可以反映目标内容的内容播放节奏，由于鼓点时间间隔序列可以反映候选音频的音乐节奏，从而根据内容时间长度序列与候选音频对应的鼓点时间间隔序列之间的目标相似度选取背景音频，可以选取到音乐节奏与目标内容的内容播放节奏匹配的背景音频，提高了背景音频与视频的匹配度。另外，在视频剪辑界面上，将背景音频在音频轨道的起始位置与目标视频在视频轨道的起始位置对齐，实现了自动对齐背景音频与目标视频，用户不需要通过手动调整的方式来使得背景音频与目标视频的对齐，节省了用户手动调整耗费的时间，提高了视频剪辑的效率。

　　附图说明

　　图1为一些实施例中背景音频确定方法的应用环境图；

　　图2为一些实施例中背景音频确定方法的流程示意图；

　　图3A为一些实施例中背景音频确定方法的流程示意图；

　　图3B为一些实施例中距离矩阵的示意图；

　　图4A为一些实施例中背景音频确定方法的流程示意图；

　　图4B为一些实施例中鼓点时间间隔序列与内容时间长度序列的匹配的示意图；

　　图5A为一些实施例中得到鼓点时间间隔序列的步骤的流程示意图；

　　图5B为一些实施例中的梅尔滤波器组的频谱图；

　　图5C为一些实施例中的声谱图；

　　图5D为一些实施例中的滤波后的声谱图；

　　图5E为一些实施例中振幅差异值序列和振幅差异阈值序列的示意图；

　　图5F为一些实施例中鼓点的示意图；

　　图5G为一些实施例中得到鼓点序列的原理图；

　　图6A为一些实施例中视频剪辑方法的流程示意图；

　　图6B为一些实施例中视频剪辑界面的示意图；

　　图6C为一些实施例中视频剪辑的时序图；

　　图7为一些实施例中背景音频确定方法的流程示意图；

　　图8为一些实施例中背景音频确定装置的结构框图；

　　图9为一些实施例中视频剪辑装置的结构框图；

　　图10为一些实施例中计算机设备的内部结构图；

　　图11为一些实施例中计算机设备的内部结构图。

　　具体实施方式

　　为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

　　本申请提供的背景音频确定方法，可以应用于如图1所示的应用环境中。其中，终端102通过网络与服务器104进行通信。背景音频确定方法可以应用于服务器104。具体地，服务器104可以获取待确定背景音频的目标内容对应的内容时间长度序列，其中，目标内容可以包括多个内容片段，各个内容片段的播放时间长度可以按照内容播放顺序形成内容时间长度序列；服务器104可以获取候选音频集合中，各个候选音频分别对应的鼓点时间间隔序列，其中，候选音频可以对应多个鼓点，各个鼓点之间的间隔长度可以按照鼓点在候选音频的顺序，形成候选音频对应的鼓点时间间隔序列频；服务器104可以获取内容时间长度序列与候选音频对应的鼓点时间间隔序列之间的目标相似度，根据候选音频对应的目标相似度，从候选音频集合中确定目标内容对应的背景音频。服务器104可以将背景音频、背景音频所属的父音频或者背景音频在所属的父音频中的位置信息中的至少一种发送给终端102。终端102可以根据背景音频、背景音频所属的父音频或者背景音频在所属的父音频中的位置信息中的至少一种进行视频剪辑。

　　其中，终端102可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备，服务器104可以用独立的服务器或者是多个服务器组成的服务器集群来实现。可以理解，本申请实施例提供的背景音频确定方法也可以在终端中执行。

　　人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

　　人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

　　机器学习(Machine Learning,ML)是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。

　　随着人工智能技术研究和进步，人工智能技术在多个领域展开研究和应用，例如常见的智能家居、智能穿戴设备、虚拟助理、智能音箱、智能营销、无人驾驶、自动驾驶、无人机、机器人、智能医疗、智能客服等，相信随着技术的发展，人工智能技术将在更多的领域得到应用，并发挥越来越重要的价值。

　　本申请实施例提供的方案可以涉及人工智能的机器学习等技术，例如服务器可以计算候选音频的音频特征，计算目标内容的内容特征，将音频特征和内容特征输入到特征相似度模型中，特征相似度模型可以计算音频特征与内容特征的特征相似度，得到候选音频与目标内容的特征相似度，并输出特征相似度。服务器可以根据候选音频对应的特征相似度以及目标相似度，从候选音频集合中确定目标内容对应的背景音频。

　　在一些实施例中，如图2所示，提供了一种背景音频确定方法，以该方法应用于图1中的服务器为例进行说明，包括以下步骤：

　　S202，获取待确定背景音频的目标内容对应的内容时间长度序列；目标内容包括多个内容片段，各个内容片段的播放时间长度按照内容播放顺序形成内容时间长度序列。

　　具体地，背景音频是指用于调节气氛的音乐，将背景音频插入视频中能够增强视频的情感表达，背景音频例如为一首歌曲，也可以是一首歌曲中的一部分。目标内容可以包括图片或视频中的至少一种，例如目标内容可以是用户添加到视频剪辑工具中的各个视频片段组成的视频。内容片段可以是图片或视频中的一种。目标内容包括多个内容片段，内容片段之间的特征存在差异。例如相邻内容片段之间可以是展现的信息、内容生成时间(例如视频拍摄时间)、内容来源、或者内容生成地点(例如拍摄地点)中的至少一个存在不同。内容片段随着目标内容的播放而进行切换，通过获取体现不同内容片段之间的特征差异的背景音乐，使得随着音乐节奏的变化，目标内容中内容片段也进行切换，可以使得背景音乐的节奏与内容播放节奏匹配。例如，剪辑视频时，需要将多个视频的视频片段拼接在一起。内容片段可以是独立拍摄的视频片段，也可以是对目标内容进行分割得到的。内容片段的播放时间长度指的是内容片段的时间长度。内容播放顺序指的是内容片段在目标内容中的播放顺序。例如，目标内容依次包括内容片段A、内容片段B和内容片段C，并且内容片段A、内容片段B以及内容片段C对应的播放时间长度依次为30秒、35秒和20秒，则目标内容对应的内容时间长度序列为内容片段A的播放时间长度、内容片段B的播放时间长度和内容片段C的播放时间长度按照顺序依次排列得到的，即目标内容对应的内容时间长度序列为“30，35，20”。

　　在一些实施例中，终端可以根据目标内容生成内容时间长度序列，终端可以向服务器发送目标内容对应的背景音频推送请求，背景音频推送请求中可以携带目标内容对应的内容时间长度序列。例如，在进行视频剪辑时，终端的视频剪辑界面上可以设置音频添加按钮，终端可以获取对音频添加按钮的选择操作，根据对音频添加按钮的选择操作获取视频剪辑界面上的视频对应的各个视频片段的时间长度，按照视频片段在视频中的播放顺序排列得到视频对应的视频片段时间长度序列，并向服务器发送背景音频推荐请求。服务器也可以是主动向终端推送背景音频。

　　在一些实施例中，背景音频推送请求中可以携带目标内容，服务器可以对目标内容进行划分，得到多个内容片段，将各个内容片段分别对应的播放时间长度按照内容片段在目标内容中的内容播放顺序排序得到目标内容对应的内容时间长度序列。其中，服务器可以根据目标内容包括的情节类型对目标内容进行划分，得到各个情节类型分别对应的内容片段。

　　S204，获取候选音频集合中，各个候选音频分别对应的鼓点时间间隔序列；候选音频对应多个鼓点，各个鼓点之间的间隔长度按照鼓点在候选音频中的顺序，形成候选音频对应的鼓点时间间隔序列。

　　具体地，候选音频集合可以包括多个候选音频。候选音频可以是完整的音频，也可以是对完整的音频进行切分得到的音频片段。候选音频例如为一首歌曲，服务器可以根据目标内容的时间长度对歌曲进行切分，得到长度与目标内容的长度匹配的多个片段，可以将每个片段作为候选音频，服务器也可以将歌曲中的高潮部分所对应的片段作为候选音频。在切分时，各个候选音频之间可以有交集。候选音频集合中的各个候选音频对应的时间长度可以是相同的，也可以是不相同的。候选音频的长度可以与目标内容对应的播放时间长度匹配，其中匹配是指候选音频的长度与目标内容对应的播放时间长度的差值在预设差值阈值内。预设差值阈值可以根据需要进行设置，例如为2秒。

　　候选音频对应的鼓点指的是候选音频中的节奏点，是候选音频中高音所在的点，可以将声音突然增大的地方作为鼓点。例如，可以将振幅满足条件的音频帧作为鼓点所在的音频帧。振幅满足条件可以是振幅大于振幅阈值或者振幅差异值大于差异值阈值的至少一个。振幅差异值是当前音频帧与预设距离内的前向音频帧的振幅的差异值。前向音频帧是指在当前音频帧之前的音频帧。预设距离可以用时间距离表示也可以用音频帧数量距离表示。例如，可以计算当前音频帧与相邻的前向音频帧的振幅的差异值，得到振幅变化值，当振幅变化值大于变化阈值时，则当前音频帧为鼓点坐在的音频帧。振幅阈值以及变化值阈值可以根据需要设置，例如，振幅阈值可以是固定的值，也可以是候选音频中音频帧的振幅平均值。鼓点所在的时间可以利用振幅突然升高的位置的音频帧的时间表示。

　　音频帧是对候选音频进行分帧得到的，分帧指的是将候选音频分为多个小段，每个小段为一帧。鼓点在候选音频中的顺序指的是鼓点对应的音频帧在候选音频中的播放顺序。鼓点之间的间隔长度是指相邻的鼓点之间间隔的时间长度。例如，假设一个候选音频，包括3个鼓点，第一个鼓点在音频的第6秒，第二个鼓点在音频的第7秒，第三个鼓点在音频的第9秒，则鼓点时间间隔序列可以为6，1和2按照顺序依次排列得到的，即鼓点时间间隔序列为“6，1，2”。

　　在一些实施例中，服务器中可以存储有多个音频。候选音频集合中候选音频对应的鼓点可以是预先检测得到的，也可以是根据背景音乐推荐请求进行检测的。服务器可以将检测到的鼓点信息存储到数据库中。鼓点信息包括鼓点在对应的音频中的时间信息。服务器可以计算存储的各个音频分别对应的各个鼓点，得到各个音频分别对应的鼓点序列，并将音频与对应的鼓点序列关联存储。鼓点序列是按照鼓点在音频中的顺序对鼓点进行排序得到的序列。服务器可以从音频库中选取得到至少一个音频(记作父音频)，并从父音频中切分得到多个候选音频，得到父音频对应的候选音频集合。服务器可以从父音频对应的鼓点序列中获取候选音频对应的各个鼓点，根据候选音频对应的各个鼓点得到候选音频对应的鼓点时间间隔序列。当然，服务器可以直接计算候选音频的各个鼓点，根据计算得到的鼓点得到对应的鼓点时间间隔序列。服务器获取父音频时，可以将音乐库中的所有音频作为父音频，也可以是根据用户的兴趣，基于人工智能的推荐模型选取得到音乐。使得最终得到的背景音频既符合用户的喜好，又与剪辑的视频的节奏匹配。

　　在一些实施例中，服务器可以将存储的音频与场景类型之间建立对应关系，同一音频可以对应多个场景类型，不同音频可以对应同一场景类型。场景类型可以包括风景类、人物类或动物类中的至少一种。服务器可以从存储的场景类型与目标内容所属的场景类型一致的音频中进行选取，得到父音频。

　　在一些实施例中，服务器可以记录存储的音频的关键部分，从父音频中的关键部分选取得到多个候选音频。其中，关键部分可以是音频中的高潮部分。

　　在一些实施例中，服务器可以按照预设窗口大小对候选音频进行分帧，得到多个音频帧。例如，预设窗口大小为1024个采样点，若采样频率为44.1kHZ(千赫兹)，则1秒可以采集到43个值，即1秒可以采集到43个音频帧。

　　在一些实施例中，在对候选音频分帧之前可以对候选音频进行预处理。预处理可以包括去噪、动态范围压缩或预加重中的至少一种。通过对候选音频进行预处理可以提升音频的表现。

　　S206，获取内容时间长度序列与候选音频对应的鼓点时间间隔序列之间的目标相似度。

　　具体地，目标相似度指的是内容时间长度序列与候选音频对应的鼓点时间间隔序列之间的相似度。服务器可以分别计算内容时间长度序列与各个候选音频对应的鼓点时间间隔序列之间的目标相似度，作为各个候选音频分别对应的目标相似度。

　　在一些实施例中，服务器可以计算鼓点时间间隔序列中的各个鼓点时间间隔与内容时间长度序列中的各个内容时间长度的距离，根据计算得到的距离确定目标相似度。服务器可以通过距离计算公式计算鼓点时间间隔与内容时间长度之间的距离。其中，距离计算公式例如为欧式距离。具体地，服务器可以将鼓点时间间隔与内容时间长度之间的距离形成距离矩阵，通过距离矩阵的起始矩阵点与终止矩阵点之间的路径确定目标相似度。

　　在一些实施例中，服务器可以将内容时间长度序列通过多次转化，得到候选音频对应的鼓点时间间隔序列，根据转化的次数得到目标相似度。转化的次数与目标相似度成负相关关系，即转化的次数越大，对应的目标相似度越小，转化的次数越小，对应的目标相似度越大。

　　在一些实施例中，为了提高背景音频的选取效率，服务器可以获取候选音频集合中部分候选音频分别对应的鼓点时间间隔序列与内容时间长度序列之间的目标相似度。具体地，服务器可以计算各个候选音频分别对应的鼓点时间间隔序列中鼓点时间间隔的数目，计算鼓点时间间隔序列中鼓点时间间隔的数目与内容时间长度序列中内容时间长度的数目之间的差异，得到各个候选音频分别对应的数目差异。从候选音频集合中选取数目差异小于预设数据差异阈值的候选音频，作为目标音频，获取内容时间长度序列与目标音频对应的鼓点时间间隔序列之间的目标相似度。当然，服务器也可以获取候选音频集合中全部候选音频分别对应的鼓点时间间隔序列与内容时间长度序列之间的目标相似度。

　　S208，根据候选音频对应的目标相似度，从候选音频集合中确定目标内容对应的背景音频。

　　具体地，候选音频对应的目标相似度指的是候选音频对应的鼓点时间间隔序列与内容时间长度序列之间的相似度。确定目标内容对应的背景音频的个数为至少一个，例如可以为10个。服务器可以从候选音频集合中，获取目标相似度满足相似度条件的候选音频，作为目标内容对应的背景音频。相似度条件可以是目标相似度大于相似度阈值或者目标相似度的排序在预设排序之前的至少一个。相似度阈值可以根据需要设置，例如为0.8。预设排序例如为5。确定目标内容对应的背景音频后，服务器可以将这些背景音频的推送信息推送至终端，使得用户可以播放背景音频，当接收到用户对背景音频的选择指令，则终端可以将用户选取的背景音频与目标内容合并，合成包括用户选取的背景音频的目标内容，这样，在播放目标内容的同时，可以播放背景音频。

　　可以理解，服务器确定的目标内容对应的背景音频并非最终会与目标内容进行合成，例如，确定的目标内容对应的背景音频有10个，则可以将这10个背景音频的推送信息例如播放链接以及标题推送至终端，由用户从这10个背景音频中选取其中的一个与目标内容进行合成。当然服务器获取的背景音频也可以是一个，服务器可以将背景音频与目标内容进行合成。

　　在一些实施例中，可以直接根据目标相似度选取背景音频。还可以结合其他信息从候选音频集合中确定目标内容对应的背景音频。其中目标相似度与候选音频被选中为背景音频的概率成正相关关系。即目标相似度越大，则被选中为背景音频的概率越大。例如可以根据目标相似度得到目标推荐度。例如服务器可以获取各个候选音频分别对应的目标热度，根据目标相似度以及目标热度，得到候选音频对应的目标推荐度，根据候选音频对应的目标推荐度，从候选音频中选取目标内容对应的背景音频。其中，音频的热度用于反映音频的流行程度。服务器可以将候选音频集合中目标推荐度满足推荐度条件的候选音频作为目标内容对应的背景音频，推送至终端中。推荐度条件可以是目标推荐度大于推荐度阈值或者目标推荐度的排序在预设推荐排序之前的至少一个。推荐度阈值可以根据需要设置，例如为90％。预设推荐排序例如可以6。例如，目标推荐度的计算公式可以为公式(1)：s＝d+w·p(1)，其中，s表示目标推荐度。d代表目标相似度。w表示目标热度对应的权重，w可以根据需要进行设置。P表示目标热度。其中，目标热度可以根据候选音频对应的关注度确定。

　　在一些实施例中，服务器可以获取候选音频集合中各个候选音频分别适用的场景类型。其中，候选音频适用的场景类型可以为候选音频对应的场景类型。服务器可以根据目标相似度、目标热度以及场景类型确定目标推荐度。具体地，服务器可以获取目标内容对应的场景类型，确定候选音频的场景类型与目标内容对应的场景类型的场景相似度，根据目标相似度、目标热度以及场景相似度确定目标推荐度。其中，场景相似度与目标推荐度之间可以为正相关关系。

　　在一些实施例中，背景音频可以是一个音频片段，服务器可以获取背景音频在对应的父音频中的位置信息，背景音频的父音频指的是该背景音频来源于的音频，即背景音频是其父音频的一部分。将背景音频对应的父音频以及背景音频在对应的父音频中的位置信息返回至终端。当然，服务器也可以直接将背景音频返回给终端。

　　上述背景音频确定方法中，获取待确定背景音频的目标内容对应的内容时间长度序列，获取候选音频集合中，各个候选音频分别对应的鼓点时间间隔序列，获取内容时间长度序列与候选音频对应的鼓点时间间隔序列之间的目标相似度，根据候选音频对应的目标相似度，从候选音频集合中确定目标内容对应的背景音频，由于内容时间长度序列是目标内容包括的内容片段的播放时间长度按照内容播放顺序形成的，并且鼓点时间间隔序列是各个鼓点之间的间隔长度按照鼓点在候选音频的顺序形成的，因此，内容时间长度序列可以反映目标内容的内容播放节奏，鼓点时间间隔序列可以反映候选音频的音乐节奏，从而根据内容时间长度序列与候选音频对应的鼓点时间间隔序列之间的目标相似度选取背景音频，可以选取到音乐节奏与目标内容的内容播放节奏匹配的背景音频，提高了背景音频与视频的匹配度。

　　目前，越来越多的用户进行短视频的制作，短视频即短片视频，是一种互联网内容传播方式，一般是在互联网新媒体上传播的时长在1分钟以内的视频传播内容。在制作短视频时，需要为视频或图片选取合适的背景音频，通常用户依靠手动逐个试听背景音频，通过试听捕捉音频的节奏，然而依靠手动逐个试听背景音频耗时长，并且试听捕捉到的节奏准确度低，得到的背景音频与制作短视频时选取的素材(包括视频或图片中的至少一种)的匹配度低。而采用本申请提出的背景音频确定方法，能够自动且快速的获取与制作视频时选取的素材匹配度高的背景音频，能够将视频画面切换动作与音乐节拍对应起来，提高了获取视频的背景音频的选取效率以及准确度。

　　在一些实施例中，如图3A所示，步骤S206即获取内容时间长度序列与候选音频对应的鼓点时间间隔序列之间的目标相似度包括：

　　S302，获取鼓点时间间隔序列中的各个鼓点时间间隔与内容时间长度序列中的各个内容时间长度的距离，得到距离组成的目标距离矩阵。

　　具体地，目标距离矩阵的大小可以为M×N或者N×M中的一种，其中，M为鼓点时间间隔序列中鼓点时间间隔的数目，N为内容时间长度序列中内容时间长度的数目。当目标距离矩阵的大小为M×N时，目标距离矩阵中第i行第j列的矩阵点对应的矩阵值表示第i个鼓点时间间隔与第j个内容时间长度之间的距离。当目标距离矩阵的大小为N×M时，目标距离矩阵中第j行第i列的矩阵点对应的矩阵值表示第j个内容时间长度与第i个鼓点时间间隔之间的距离，其中，1≤i≤M，1≤j≤N。鼓点时间间隔与内容时间长度的距离越小则相似度越大，距离越大则相似度越小。鼓点时间间隔与内容时间长度的距离可以为欧式距离。例如，第i个鼓点时间间隔Qi与第j个内容时间长度Pj之间的欧式距离例如为d(Qi,Pj)＝(Qi-Pj)2。

　　在一些实施例中，服务器可以获取候选音频对应的父音频的鼓点时间间隔序列与内容时间长度序列形成的整体距离矩阵，从整体距离矩阵中得到候选音频对应的鼓点时间间隔序列与内容时间长度序列形成的目标距离矩阵。举例说明，父音频对应的鼓点时间间隔序列为Q＝“0.1,2,5,4,6,2,2.4,3,5,2,1.7,3.0,1.4,0.7,1.2,1.6,1.0,1.0,1.1,0.9,0.9,1.3,2.9,0.9,1.3,4,2,1,3”，单位为秒，内容时间长度序列为P＝“3.3,1.2,0.9,1.1,1.5,1.0,1.0,1.1,0.9,0.9,1.3”，单位为秒。父音频对应的鼓点时间间隔序列Q与内容时间长度序列P得到的整体距离矩阵如图3B所示，整体距离矩阵的大小为29×11。其中，对父音频进行切分得到的候选音频包括候选音频a，图3B中，候选音频a对应的鼓点时间间隔序列C＝“3.0,1.4,0.7,1.2,1.6,1.0,1.0,1.1,0.9,0.9,1.3”与Q形成的目标距离矩阵为矩形框A中的矩阵。可以理解，父音频还可以切分得到其他的音频片段，也可以将这些音频作为候选音频。例如，切分得到的另一个候选音频对应的鼓点时间序列为“0.1,2,5,4,6,2,2.4,3,5”。则还可计算“0.1,2,5,4,6,2,2.4,3,5”与P＝“3.3,1.2,0.9,1.1,1.5,1.0,1.0,1.1,0.9,0.9,1.3”的相似度。

　　S304，获取从目标距离矩阵的起始矩阵点到终止矩阵点的最短路径。

　　具体地，起始矩阵点指的是目标距离矩阵中的最小行最小列对应的位置，终止矩阵点指的是目标距离矩阵中最大行最大列对应的位置。如图3B中，候选音频对应鼓点时间间隔C与Q形成的目标距离矩阵的起始矩阵点为整体距离矩阵的第12行第1列的位置，终止矩阵点为第22行第11列的位置。其中，矩阵点可以用(行坐标,列坐标)表示，例如矩阵点(1,2)表示第1行第2列的矩阵点。

　　在一些实施例中，目标距离矩阵的起始矩阵点到终止矩阵点的路径可以有多条，并且各个路径的均包括目标距离矩阵的起始矩阵点和终止矩阵点。服务器可以计算目标距离矩阵的起始矩阵点到终止矩阵点的各个路径分别包括的矩阵点对应的矩阵值的和，作为各个路径分别对应的路径和，根据各个路径分别对应的路径和确定目标距离矩阵的起始矩阵点到终止矩阵点的最短路径。需要说明的时，由于鼓点时间间隔序列和内容时间长度序列都是按照时间先后顺序排序的，因此，当路径包括矩阵点(i,j)时,路径中矩阵点(i,j)的下一个矩阵点可以是(i+1,j)、(i,j+1)或者(i+1,j+1)中的一个。

　　S306，根据最短路径的距离得到目标相似度。

　　具体地，最短路径的距离可以是最短路径对应的各个矩阵点对应的距离值相加后的结果。目标相似度与最短路径的距离之间具有负相关关系。距离越小，相似度越大，距离越大，相似度越小。服务器可以根据最短路径的距离计算得到目标相似度，例如可以将最短路径的距离的倒数作为目标相似度。

　　本实施例中，由于目标距离矩阵中的距离是，鼓点时间间隔序列中的各个鼓点时间间隔与内容时间长度序列中的各个内容时间长度的距离，因此，最短路径的距离能够准确反映出内容时间长度序列与鼓点时间间隔序列之间的相似性，通过最短路径的距离得到的目标相似度的准确度高。

　　在一些实施例中，如图4A所示，步骤S304获取从目标距离矩阵的起始矩阵点到终止矩阵点的最短路径包括：

　　S402，将终止矩阵点作为当前矩阵点。

　　S404，获取从当前矩阵点对应的前向矩阵点中，距离值最小的前向矩阵点，作为最短路径对应的目标路径点，将目标路径点作为更新后的当前矩阵点。

　　其中，当前矩阵点对应的前向矩阵点指的是满足行坐标比当前矩阵点小1行或者列坐标比当前矩阵小1列的矩阵点中的至少一种的矩阵点。如图3B所示，候选音频对应鼓点时间间隔C与Q形成的目标距离矩阵的终止矩阵点为(22,11)，将(22,11)作为当前矩阵点，则(22,11)对应的前向矩阵点包括(22,10)、(21,11)以及(21,10)三个位置。目标路径点指的是当前矩阵点对应的各个前向矩阵点中距离值最小的前向矩阵点。如图3B所示，(22,10)、(21,11)以及(21,10)对应的矩阵值依次为0.16，0.16和0，(21,10)对应的矩阵值0最小，因此可以将(21,10)作为目标路径点。其中，一个路径点对应一个矩阵点。

　　具体地，当服务器根据当前矩阵点得到目标路径点时，可以将目标路径点作为更新后的当前矩阵点，并获取更新后的当前矩阵点对应的前向矩阵点中，距离值最小的前向矩阵点，作为最短路径对应的下一个目标路径点。

　　S406，判断当前矩阵点是否为目标距离矩阵的起始矩阵点。

　　其中，如果不是，则返回步骤S404。如果是，则进入步骤S408。

　　S408，将各个目标路径点所组成的路径作为从目标距离矩阵的起始矩阵点到终止矩阵点的最短路径。

　　具体地，最短路径是由各个目标路径点组成的路径，即最短路径包括各个目标路径点。如图3B所示，灰色区域为候选音频对应鼓点时间间隔C与Q形成的目标距离矩阵的起始矩阵点到终止矩阵点的最短路径。服务器可以计算最短路径的各个矩阵点对应的距离值的和，根据距离值的和得到目标相似度。如图4B所示，展示了内容时间长度序列P与候选音频对应鼓点时间间隔C的匹配关系。

　　本实施例中，将各个目标路径点所组成的路径作为从目标距离矩阵的起始矩阵点到终止矩阵点的最短路径，由于目标路径点为当前矩阵点对应的前向矩阵点中，距离值最小的前向矩阵点，从而确保了最短路径中的各个路径点为可选的路径点中距离值最小的路径点，提高了最短路径的准确度。

　　在一些实施例中，获取候选音频集合中的候选音频的步骤包括：获取目标内容对应的内容播放时间长度；获取待划分的音频，根据内容播放时间长度对待划分的音频进行划分，得到候选音频集合中的候选音频，候选音频的时间长度与内容播放时间长度匹配。

　　具体地，内容播放时间长度指的是目标内容的播放时间长度。待划分的音频即上述的父音频，待划分的音频可以的数量可以为多个。候选音频的时间长度与内容播放时间匹配指的是候选音频的时间长度与内容播放时间长度的时间长度差异值在差异阈值之内，例如1秒内，例如候选音频的时间长度与内容播放时间长度相同。

　　在一些实施例中，服务器可以按照预设平移间隔从待划分的音频中选取得到多个时间长度为内容播放时间长度的候选音频。例如，待划分的音频的时间长度为100秒，内容播放时间长度为10秒，预设平移间隔为5秒，则服务器可以从待划分的音频选取前10秒的内容，作为一个候选音频，然后以10+5＝15秒为起点，再选取时间长度为10秒的内容，即从待划分的音频选取15秒到25秒之间的内容，作为另一个候选音频，从而可以得到多个10秒长度的候选音频。

　　本实施例中，根据目标内容对应的内容播放时间长度，对待划分的音频进行划分，得到候选音频集合中的候选音频，能够使得候选音频的时间长度与目标内容对应的内容播放时间长度一致，从而提高了候选音频与目标内容在时间长度上的匹配度。

　　在一些实施例中，该方法还包括：获取背景音频在对应的待划分的音频中的位置信息。将背景音频对应的待划分的音频以及位置信息推送至目标内容对应的终端。

　　具体地，背景音频对应的待划分的音频指的是背景音频所属的待划分的音频，背景音频在对应的待划分的音频中的位置信息，可以包括背景音频在待划分的音频中的起始时间点或终止时间点中的至少一种。

　　在一些实施例中，服务器可以从背景音频对应的待划分的音频中，截取得到背景音频，将背景音频推送至目标内容对应的终端。

　　本实施例中，通过将背景音频对应的待划分的音频以及位置信息推送至目标内容对应的终端，为用户确定目标内容对应的背景音频提供了方便，可以提高用户确定最终的背景音频的效率。例如，背景音频是某一首歌曲中的部分。因此通过将背景音频对应的父音频发送至终端，使得用户既可以确定背景音频在其父音频的位置，也可以按照喜好，参考背景音频的位置信息，从父音频中截取得到与目标内容进行合成的音频。例如，假设背景音频在父音频的位置为第6秒至20秒，则用户在播放父音频之后，可以调整为5.9S至19.8秒。

　　在一些实施例中，如图5A所示，得到候选音频对应的鼓点的步骤包括：

　　S502，获取候选音频对应的音频帧序列。

　　具体地，音频帧序列可以包括至少一个音频帧。服务器可以对候选音频进行分帧，得到多个音频帧，将分帧得到的多个音频帧按照音频帧在候选音频中的播放顺序排序，得到候选音频对应的音频帧序列。

　　S504，获取音频帧序列中相邻音频帧的频谱之间的振幅差异值，得到振幅差异值序列。

　　具体地，频谱为音频的频域(即频率域，frequency domain)表达，包括至少一个频率以及频率对应的振幅。由于在时域(time domain)上音频的波形变化快，不易观察，因此可以在频域上进行观察，音频的频谱可以是随着时间而缓慢变化的。其中，时域用于描述音频信号对时间的关系，可以通过音频信号的时域波形表达信号随时间的变化。相邻音频帧指的是在候选音频中的播放顺序相邻的音频帧。服务器可以计算相邻音频帧的频谱中相同频率的振幅之间的差异，将各个相同频率的振幅之间的差异相加后的结果作为振幅差异值。

　　在一些实施例中，振幅差异值序列中可以包括各个音频帧分别对应的振幅差异值。服务器可以计算当前音频帧的频谱与当前音频帧的前向音频帧的频谱之间的振幅差异值，作为当前音频帧的振幅差异值。从而将音频帧的频谱压缩为一维的，为快速进行鼓点的定位提供了方便。其中，当前音频帧可以为音频帧序列中的任意一个音频帧，从而服务器可以计算得到各个音频帧分别对应的振幅差异值。服务器可以将各个音频帧分别对应的振幅差异值，按照音频帧在候选音频中的播放顺序排序，得到振幅差异值序列。振幅差异值的计算公式可以表示为公式(2)：

　　其中，SF(k)表示第k个音频帧对应的振幅差异值，s(k,i)表示第k个音频帧的频谱中第i个频率对应的振幅，s(k-1,i)表示第k-1个音频帧的频谱中第i个频率对应的振幅。

　　在一些实施例中，服务器可以对音频帧序列中的各个音频帧分别对应的频谱进行差分计算，得到各个音频帧分别对应的频谱通量，将得到的音频帧的频谱通量作为音频帧的振幅差异值，从而得到振幅差异值序列。其中，差分可以包括一阶差分或者二阶差分中的至少一种。音频帧的频谱通量用于表征音频帧的频谱相对于前向音频帧的频谱在振幅上的变化幅度。差分计算即计算音频帧与对应的前向音频帧的频谱的差值。对于鼓点的定位而言，由于仅需要关注候选音频中正的频谱通量，通过二阶差分可以避免候选音频中负的频谱通量对鼓点定位的影响，从而得到准确的鼓点。

　　在一些实施例中，服务器可以对音频帧进行时频变换，得到音频帧对应的频谱。其中，时频变换指的是音频帧的时域表达转换为频域表达，转换得到的频域表达即为音频帧的频谱。具体地，时频变换可以通过傅里叶变换(Fourier Transform)实现。其中，傅里叶变换可以包括快速傅里叶变换(Fast Fourier transform，FFT)或短时傅里叶变换(short-time Fourier transform，STFT)中的至少一种实现，在此不进行具体限定。

　　在一些实施例中，服务器可以通过预设滤波器对音频帧的频谱进行滤波，得到音频帧对应的滤波后的频谱，利用各个音频帧分别对应的滤波后的频谱计算振幅差异值，得到振幅差异值序列。具体地，预设滤波器可以是梅尔滤波器组，服务器可以通过梅尔滤波器组对音频帧的频谱进行滤波，得到音频帧对应的滤波后的频谱(称为梅尔频谱)。其中，梅尔滤波器组包含多个三角滤波器。人耳所能听到的频率范围是20Hz～20000Hz，但是人耳对于赫兹标度下的声音并不是线性感知关系。例如，当人耳适应了1000Hz的音调频率时，如果把音调频率提高到2000Hz，人耳察觉不到频率提高了一倍。而在梅尔频率中，人对音调的感知度为线性关系，举例来说，如果两段音频的梅尔频率差两倍，则人耳听起来两者的音调也相差两倍。梅尔刻度是一种基于人耳对等距的音高变化的感官判断而定的非线性频率刻度，其中，梅尔频率与赫兹频率的关系为：Fmel＝1125ln(1+f/700)，其中，Fmel为梅尔频率，f为赫兹频率。当频率较小时，Fmel随f变化较快；当频率很大时，Fmel随f上升很缓慢。因此，利用梅尔滤波器对音频帧的频谱进行滤波，得到了符合人儿听觉特性的梅尔频谱。如图5B所示，展示了一个梅尔滤波器组的频谱图。图5B中，H1(k)～H6(k)表示6个三角滤波器、f(0)表示梅尔滤波器组的最小频率，f(7)表示梅尔滤波器组的最高频率，f(0)～f(6)分别对应H1(k)～H6(k)的中心频率。从图5B可以看出，梅尔滤波器组低频处的三角滤波器密集，门限值大，高频处的三角滤波器稀疏，门限值低，符合频率越高人耳越迟钝的客观规律。采用梅尔滤波器组进行滤波，可以实现对频域的降维。例如梅尔滤波器组包括24个三角滤波器，则频谱在频域上降维至24维。当然，预设滤波器还可以是其他类型的滤波器，在此不进行具体限定。

　　在一些实施例中，为了提高滤波的效率，在进行滤波之前，服务器可以将各个音频帧分别对应的频谱沿时域拼接起来，即按照各个音频帧在候选音频中的播放顺序进行频谱的拼接，得到候选音频对应的声谱图。如图5C所示，展示了一个声谱图。声谱图的横轴表示时间，纵轴表示频率。服务器可以通过预设滤波器对声谱图进行滤波，得到滤波后的声谱图，滤波后的声谱图中包括各个音频帧分别对应的滤波后的频谱。如图5D所示，展示了一个滤波后的声谱图。

　　S506，从振幅差异值序列中获取大于振幅差异阈值的振幅差异值，作为目标振幅差异值。

　　具体地，振幅差异阈值可以是根据需要进行设置的。各个音频帧分别对应一个振幅差异阈值。不同音频帧对应的振幅差异阈值可以相同。服务器可以将振幅差异值序列中的各个音频帧对应的振幅差异值与对应的振幅差异阈值进行对比，当对比结果为音频帧的振幅差异值大于对应的振幅差异阈值时，将音频帧的振幅差异值作为目标振幅差异值。

　　在一些实施例中，服务器可以将各个音频帧分别对应的振幅差异阈值，按照音频帧在候选音频中的播放顺序排列得到振幅差异阈值序列，将振幅差异值序列中的振幅差异值与振幅差异阈值序列中相同位置的振幅差异阈值进行对比，得到各个目标振幅差异值，即利用振幅差异阈值对振幅差异值序列进行峰值检测，得到各个峰值，作为各个目标振幅差异值。如图5E所示，展示了一些实施例中的振幅差异阈值序列以及振幅差异值序列。如图5F所示，展示了得到的各个目标振幅差异值以及目标振幅差异值对应的音频帧。

　　在一些实施例中，服务器可以计算多个音频帧分别对应的振幅差异值的统计值，得到该多个音频帧中各个音频帧分别对应的振幅差异阈值。其中，统计值例如为平均值。

　　S508，将目标振幅差异值对应的音频帧作为候选音频对应的鼓点。

　　具体地，目标振幅差异值可以有多个，因此，候选音频对应的鼓点可以有多个。服务器可以将目标振幅差异值对应的音频帧作为候选音频对应的鼓点。服务器得到鼓点之后，可以根据鼓点在候选音频中的时间，确定鼓点时间间隔序列。相邻鼓点指的是在鼓点序列中相邻的鼓点，一个具有30个鼓点的鼓点时间间隔序列Q例如为：Q＝“0.1,2,5,4,6,2,2.4,3,5,2,1.7,3.0,1.4,0.7,1.2,1.6,1.0,1.0,1.1,0.9,0.9,1.3,2.9,0.9,1.3,4,2,1,3”，单位为秒。

　　在一些实施例中，服务器可以计算候选音频对应的鼓点序列中相邻的两个鼓点在候选音频中的时间信息之间的差异，作为相邻鼓点之间的时间间隔。例如，服务器可以计算相邻的两个鼓点分别对应的音频帧在候选音频中的起始时间点之间的差异，作为相邻鼓点之间的时间间隔。如图5G所示，为一些实施例中得到鼓点序列的原理图。图5G中的初始信号为音频信号，识别函数指的是振幅差异值序列，鼓点序列指的是初始信号对应的各个鼓点组成的序列。图5G中首先对初始信号进行预处理，然后得到预处理后的初始信号对应的声谱图，根据声谱图进行差分得到识别函数，对识别函数进行峰值检测，得到鼓点序列。

　　本实施例中，根据各个鼓点对应的位置信息计算得到相邻鼓点之间的时间间隔，得到候选音频对应的鼓点时间间隔序列，其中，鼓点为目标振幅差异值对应的音频帧，由于目标振幅差异值为振幅差异值序列中大于振幅差异阈值的振幅差异值，因此，目标振幅差异值能够准确的定位振幅增大的音频帧，即能够准确的定位鼓点，提高了鼓点的准确度，从而提高了鼓点时间间隔序列的准确度。

　　在一些实施例中，获取振幅差异阈值的步骤包括：计算振幅差异值序列中振幅差异值对应的差异平均值；根据差异平均值得到振幅差异阈值。

　　其中，差异平均值指的是多个振幅差异值的平均值。服务器可以对候选音频进行划分，得到多个音频区间。服务器可以计算音频区间内的各个音频帧分别对应的振幅差异值的平均值，作为音频区间对应的差异平均值。音频区间对应的时间长度可以根据需要进行设置，例如为0.5秒。每一音频区间的时段长度可以相同，也可以不同，在此不进行具体限定。举例说明，当分帧时的采样率为44100Hz，窗口大小为1024时，即每个音频帧的时长约为43ms时，若音频区间对应的时间长度为0.5秒，那么音频区间对应的音频帧的个数为0.5/0.043＝11，服务器可以计算音频区间中的11个音频帧分别对应的振幅差异值的平均值，作为音频区间对应的差异平均值。

　　在一些实施例中，服务器可以将差异平均值乘以一个预设常数，得到振幅差异阈值。例如，服务器可以将音频区间对应的差异平均值乘以一个预设常数，得到音频区间中各个音频帧分别对应的振幅差异阈值。其中，预设常数可以根据需要进行设置，例如为1.2。

　　在一些实施例中，服务器可以根据音频区间对应的差异平均值，得到音频区间对应的振幅差异阈值，将音频区间对应的振幅差异阈值作为音频区间中各个音频帧分别对应的振幅差异阈值。

　　本实施例中，通过计算振幅差异值序列中振幅差异值对应的差异平均值，根据差异平均值得到振幅差异阈值，提高了振幅差异阈值的准确度，使得振幅差异阈值可以根据候选音频灵活变化。

　　在一些实施例中，目标内容为目标视频，得到目标内容对应的内容时间长度序列的步骤包括：对目标视频的视频帧进行场景识别，得到各个视频帧对应的目标场景类型；根据视频帧对应的目标场景类型对目标视频进行切分，得到目标视频对应的视频片段。将各个视频片段分别对应的视频片段时长，按照对应的视频片段在目标视频中的播放顺序形成目标视频对应的内容时间长度序列。

　　具体地，目标视频可以包括多个视频图像。一个视频帧对应一个视频图像。视频帧可以对应有场景类型。场景类型可以包括风景类、人物类或动物类中的至少一种。目标场景类型指的是视频帧对应的场景类型。服务器可以识别目标视频中各个视频帧分别对应的场景，得到各个视频帧分别对应的场景类型。

　　在一些实施例中，服务器可以通过判断相邻的两个视频帧之间的场景类型之间的关系，确定切分位置。例如，可以将场景类型不同的两个相邻的视频帧的相邻位置作为切分位置。服务器可以按照切分位置对目标视频进行切分，得到目标视频对应的视频片段。

　　本实施例中，将各个视频片段分别对应的视频片段时长，按照对应的视频片段在目标视频中的播放顺序形成目标内容对应的内容时间长度序列，由于视频片段是根据视频帧对应的目标场景类型对目标视频进行划分得到的，因此，使得划分得到的视频片段具有对应的场景类型，从而使得内容时间长度序列中的内容时间长度为多个场景类型的视频片段的时间长度，使得内容时间长度序列准确的反映了目标视频的特征，使得背景音频对应的音乐节奏与目标视频的场景切换匹配。

　　在一些实施例中，目标内容可以为剪辑得到的视频。如图6A所示，提供了一种视频剪辑方法，以该方法应用于图1中的终端为例进行说明，包括以下步骤：

　　S602，获取视频剪辑页面中各个剪辑视频片段对应的时间长度，根据剪辑视频片段在目标视频中的播放顺序形成内容时间长度序列。

　　具体地，视频剪辑页面指的是视频剪辑工具的用于进行视频剪辑的页面，通过视频剪辑工具可以为视频添加背景音乐。视频片段对应的时间长度指的是剪辑视频片段的播放时间长度。目标视频指的是多个剪辑视频片段拼接得到的视频。剪辑视频片段在目标视频中的播放顺序可以根据剪辑视频片段加入到视频剪辑页面的先后顺序确定，例如，先加入到视频剪辑页面的剪辑视频片段在目标视频中的播放顺序，优先于后加入到视频剪辑页面的剪辑视频片段在目标视频中的播放顺序。如图6B所示，展示了一个视频剪辑页面，视频剪辑页面包括5个剪辑视频片段，分别为剪辑视频片段1～剪辑视频片段5，并且相邻的剪辑视频片段之间可以设置视频切换方式。剪辑视频片段1～剪辑视频片段5组成的视频为目标视频。

　　S604，获取目标视频对应的背景音频；其中，背景音频是根据内容时间长度序列以及候选音频对应的鼓点时间间隔序列的目标相似度，从候选音频集合中确定的。

　　具体地，终端可以从服务器获取目标视频对应的背景音频。终端可以向服务器发送目标视频对应的背景音乐推荐请求，背景音频推荐请求中可以携带目标视频对应的内容时间长度序列。服务器可以按照音频中的匹配候选音频与目标视频的相似度对音频列表进行排序，得到排序后的音频列表，候选音频与目标视频的相似度越大，对应的音频在排序后的音频列表中的排序则越靠前。服务器可以将排序后的音频列表中排序在预设排序之前例如前5为的音频作为与目标内容的节奏匹配的背景音频，将该背景音频的推送信息发送至终端。

　　如何根据内容时间长度序列以及候选音频对应的鼓点时间间隔序列的目标相似度得到背景音频的步骤可以参见背景音频确定方法的描述，在此不再赘述。

　　在一些实施例中，为了提高背景音频选取的灵活性，服务器可以将背景音频对应的相关信息发送至终端，终端可以将相关信息例如播放地址以及标题显示在视频剪辑界面，用户可以从音频中选择目标视频对应的背景音频。如图6B所示，视频剪辑页面在矩形框B中的区域为推荐音频展示区域，推荐音频展示区域以列表的形式展示了推送至终端中的多个背景音频的相关信息。终端可以根据对推荐音频展示区域的滑动操作(包括上滑操作和下滑操作)获取背景音频进行展示，以方便用户挑选音频。其中，服务器可以将背景音频在对应的父音频中的位置信息发送给终端，终端可以将背景音频在对应的父音频中的位置信息进行显示，从而为用户确定目标视频的背景音频提供方便，从而提高背景音频的选取效率。如图6B所示，视频剪辑页面还可以展示收藏按钮、下载按钮和使用按钮，通过对收藏按钮的选择操作可以将对应的音频进行收藏，通过对下载按钮的选择操作可以下载对应的音频，通过对使用按钮的选择操作可以将对应的音频添加到音频轨道上。如图6C所示，展示了获取目标视频对应的背景音频的时序图，包括下列步骤：1、用户将剪辑视频片段添加到终端的视频剪辑界面上；2、终端向服务器发送背景音频推荐请求；3、服务器获取音频列表；4、鼓点检测；5、服务器返回排序后的音频列表；6、用户选择需要的背景音频。其中，鼓点检测包括分帧、傅里叶变换、梅尔滤波器滤波、差分、平均化、峰值检测以及生成鼓点序列的步骤。其中，音频列表是服务器中存储的多个音频组成的列表。排序后的音频列表指的对音频列表中的音频进行排列顺序进行调整后得到的音频列表。

　　S606，在视频剪辑界面上，将背景音频在音频轨道的起始位置与目标视频在视频轨道的起始位置对齐。

　　具体地，终端可以将背景音频添加到视频剪辑界面的音频轨道上，并将背景音频的起始位置与目标视频在视频轨道的起始位置对齐。

　　上述视频剪辑方法中，获取视频剪辑页面中各个剪辑视频片段对应的时间长度，根据剪辑视频片段在目标视频中的播放顺序形成内容时间长度序列，获取目标视频对应的背景音频，在视频剪辑界面上，将背景音频在音频轨道的起始位置与目标视频在视频轨道的起始位置对齐，由于内容时间长度序列是根据剪辑视频片段在目标视频中的播放顺序形成的，因此内容时间长度序列可以反映目标内容的内容播放节奏，由于鼓点时间间隔序列可以反映候选音频的音乐节奏，从而根据内容时间长度序列与候选音频对应的鼓点时间间隔序列之间的目标相似度选取背景音频，可以选取到音乐节奏与目标内容的内容播放节奏匹配的背景音频，提高了背景音频与视频的匹配度。另外，在视频剪辑界面上，将背景音频在音频轨道的起始位置与目标视频在视频轨道的起始位置对齐，实现了自动对齐背景音频与目标视频，用户不需要通过手动调整的方式来使得背景音频与目标视频的对齐，节省了用户手动调整耗费的时间，提高了视频剪辑的效率。

　　在一些实施例中，候选音频是根据目标视频的视频播放时间长度从对应的父音频中划分得到的，步骤S606即在视频剪辑界面上，将背景音频在音频轨道的起始位置与目标视频在视频轨道的起始位置对齐包括：获取背景音频在对应的父音频中的位置信息。在视频剪辑界面上，根据位置信息在音频轨道上展示父音频，其中，背景音频在音频轨道的起始位置与目标视频在视频轨道的起始位置对齐。

　　具体地，背景音频在对应的父音频中的位置信息可以包括背景音频在对应的父音频中的起始时间点或者终止时间点中的至少一种。

　　在一些实施例中，终端可以获取背景音频在对应的父音频中的起始时间点，起始时间点例如为3秒，以该起始时间点为截取点，对父音频进行截取，得到背景音频。将以截取点为起始点的背景音频在音频轨道上的起始位置与目标视频在视频轨道上的起始位置对齐，从而实现背景音频在音频轨道的起始位置与目标视频在视频轨道的起始位置对齐。

　　本实施例中，通过将背景音频在音频轨道的起始位置与视频在视频轨道的起始位置对齐，能够自动将背景音频添加到音频轨道中，并且自动将背景音频与目标视频对齐，用户不需要通过手动调整的方式来使得背景音频与目标视频的对齐，节省了用户手动调整耗费的时间，提高了视频剪辑的效率。另外，用户可以按照喜好，参考背景音频的位置信息，将添加到音频轨道中的父音频中的音频片段在音频轨道上进行移动，并截取得到与目标内容进行合成的音频，提高了音频选取的灵活度。

　　在一些实施例中，如图7所示，提供了一种背景音频确定方法，包括：

　　S702，对目标视频的视频帧进行场景识别，得到各个视频帧对应的目标场景类型，根据视频帧对应的目标场景类型对目标视频进行切分，得到目标视频对应的视频片段，将各个视频片段分别对应的视频片段时长，按照对应的视频片段在目标视频中的播放顺序形成目标视频对应的内容时间长度序列；

　　S704，获取目标视频对应的内容播放时间长度，获取待划分的音频，根据内容播放时间长度对待划分的音频进行划分，得到候选音频集合中的候选音频，候选音频的时间长度与内容播放时间长度匹配；

　　S706，获取候选音频对应的音频帧序列，获取音频帧序列中相邻音频帧的频谱之间的振幅差异值，得到振幅差异值序列，计算振幅差异值序列中振幅差异值对应的差异平均值，根据差异平均值得到振幅差异阈值，从振幅差异值序列中获取大于振幅差异阈值的振幅差异值，作为目标振幅差异值，将目标振幅差异值对应的音频帧作为候选音频对应的鼓点，根据各个鼓点对应的位置信息计算得到相邻鼓点之间的时间间隔，得到候选音频对应的鼓点时间间隔序列；

　　S708，获取候选音频集合中，各个候选音频分别对应的鼓点时间间隔序列；候选音频对应多个鼓点，各个鼓点之间的间隔长度按照鼓点在候选音频中的顺序，形成候选音频对应的鼓点时间间隔序列；

　　S710，获取鼓点时间间隔序列中的各个鼓点时间间隔与内容时间长度序列中的各个内容时间长度的距离，得到距离组成的目标距离矩阵；

　　S712，将终止矩阵点作为当前矩阵点，获取当前矩阵点对应的前向矩阵点中，距离值最小的前向矩阵点，作为最短路径对应的目标路径点；

　　S714，将目标路径点作为更新后的当前矩阵点，返回获取当前矩阵点对应的前向矩阵点中，距离值最小的前向矩阵点，作为最短路径对应的目标路径点的步骤，直至到达目标距离矩阵的起始矩阵点；

　　S716，将各个目标路径点所组成的路径作为从目标距离矩阵的起始矩阵点到终止矩阵点的最短路径；

　　S718，根据最短路径的距离得到目标相似度；

　　S720，根据候选音频对应的目标相似度，从候选音频集合中确定目标视频对应的背景音频；

　　S722，获取背景音频在对应的待划分的音频中的位置信息，将背景音频对应的待划分的音频以及位置信息推送至目标视频对应的终端。

　　应该理解的是，虽然图2-7的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，图2-7中的至少一部分步骤可以包括多个步骤或者多个阶段，这些步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。

　　在一些实施例中，如图8所示，提供了一种背景音频确定装置，该装置可以采用软件模块或硬件模块，或者是二者的结合成为计算机设备的一部分，该装置具体包括：内容时间长度序列获取模块802、鼓点时间间隔序列获取模块804、目标相似度获取模块806和背景音频确定模块808，其中：

　　内容时间长度序列获取模块802，用于获取待确定背景音频的目标内容对应的内容时间长度序列；目标内容包括多个内容片段，各个内容片段的播放时间长度按照内容播放顺序形成内容时间长度序列。

　　鼓点时间间隔序列获取模块804，用于获取候选音频集合中，各个候选音频分别对应的鼓点时间间隔序列；候选音频对应多个鼓点，各个鼓点之间的间隔长度按照鼓点在候选音频中的顺序，形成候选音频对应的鼓点时间间隔序列。

　　目标相似度获取模块806，用于获取内容时间长度序列与候选音频对应的鼓点时间间隔序列之间的目标相似度。

　　背景音频确定模块808，用于根据候选音频对应的目标相似度，从候选音频集合中确定目标内容对应的背景音频。

　　在一些实施例中，目标相似度获取模块806包括：

　　目标距离矩阵得到单元，用于获取鼓点时间间隔序列中的各个鼓点时间间隔与内容时间长度序列中的各个内容时间长度的距离，得到距离组成的目标距离矩阵。

　　最短路径获取单元，用于获取从目标距离矩阵的起始矩阵点到终止矩阵点的最短路径。

　　目标相似度得到单元，用于根据最短路径的距离得到目标相似度。

　　在一些实施例中，最短路径获取单元，还用于：将终止矩阵点作为当前矩阵点，获取从当前矩阵点对应的前向矩阵点中，距离值最小的前向矩阵点，作为最短路径对应的目标路径点；将目标路径点作为更新后的当前矩阵点，返回获取从当前矩阵点对应的前向矩阵点中，距离值最小的前向矩阵点，作为最短路径对应的目标路径点的步骤，直至到达目标距离矩阵的起始矩阵点；将各个目标路径点所组成的路径作为从目标距离矩阵的起始矩阵点到终止矩阵点的最短路径。

　　在一些实施例中，背景音频确定装置还包括候选音频获取模块，候选音频获取模块，包括：

　　目标时间长度得到单元，用于获取目标内容对应的内容播放时间长度。

　　候选音频得到单元，用于获取待划分的音频，根据内容播放时间长度对待划分的音频进行划分，得到候选音频集合中的候选音频，候选音频的时间长度与内容播放时间长度匹配。

　　在一些实施例中，背景音频确定装置还包括：

　　位置信息获取模块，用于获取背景音频在对应的待划分的音频中的位置信息。

　　推送模块，用于将背景音频对应的待划分的音频以及位置信息推送至目标内容对应的终端。

　　在一些实施例中，背景音频确定装置还包括鼓点得到模块，鼓点得到模块，包括：

　　音频帧序列获取单元，用于获取候选音频对应的音频帧序列。

　　振幅差异值序列得到单元，用于获取音频帧序列中相邻音频帧的频谱之间的振幅差异值，得到振幅差异值序列。

　　目标振幅差异值得到单元，用于从振幅差异值序列中获取大于振幅差异阈值的振幅差异值，作为目标振幅差异值。

　　鼓点确定单元，用于将目标振幅差异值对应的音频帧作为候选音频对应的鼓点。

　　在一些实施例中，背景音频确定装置还包括振幅差异阈值获取模块，振幅差异阈值获取模块，包括：

　　差异平均值计算单元，用于计算振幅差异值序列中振幅差异值对应的差异平均值。

　　振幅差异阈值得到单元，用于根据差异平均值得到振幅差异阈值。

　　在一些实施例中，目标内容为目标视频，背景音频确定装置还包括内容时间长度序列得到模块，内容时间长度序列得到模块，包括：

　　目标场景得到单元，用于对目标视频的视频帧进行场景识别，得到各个视频帧对应的目标场景类型。

　　视频片段得到单元，用于根据视频帧对应的目标场景类型对目标视频进行切分，得到目标视频对应的视频片段。

　　内容时间长度序列形成单元，用于将各个视频片段分别对应的视频片段时长，按照对应的视频片段在目标视频中的播放顺序形成目标视频对应的内容时间长度序列。

　　关于背景音频确定装置的具体限定可以参见上文中对于背景音频确定方法的限定，在此不再赘述。上述背景音频确定装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

　　在一些实施例中，如图9所示，提供了一种视频剪辑装置，该装置可以采用软件模块或硬件模块，或者是二者的结合成为计算机设备的一部分，该装置具体包括：内容时间长度序列形成模块902、背景音频获取模块904和位置对齐模块906，其中：

　　内容时间长度序列形成模块902，用于获取视频剪辑页面中各个剪辑视频片段对应的时间长度，根据剪辑视频片段在目标视频中的播放顺序形成内容时间长度序列。

　　背景音频获取模块904，用于获取目标视频对应的背景音频；其中，背景音频是根据内容时间长度序列以及候选音频对应的鼓点时间间隔序列的目标相似度，从候选音频集合中确定的。

　　位置对齐模块906，用于在视频剪辑界面上，将背景音频在音频轨道的起始位置与目标视频在视频轨道的起始位置对齐。

　　在一些实施例中，候选音频是根据目标视频的视频播放时间长度从对应的父音频中划分得到的，位置对齐模块906包括：

　　位置信息获取单元，用于获取背景音频在对应的父音频中的位置信息。

　　位置对齐单元，用于在视频剪辑界面上，根据位置信息在音频轨道上展示父音频，其中，背景音频在音频轨道的起始位置与目标视频在视频轨道的起始位置对齐。

　　在一些实施例中，视频剪辑装置还包括背景音频选取模块，背景音频选取模块包括：

　　鼓点时间间隔序列获取单元，用于获取候选音频集合中，各个候选音频分别对应的鼓点时间间隔序列；候选音频对应多个鼓点，各个鼓点之间的间隔长度按照鼓点在候选音频中的顺序，形成候选音频对应的鼓点时间间隔序列。

　　目标相似度获取单元，用于获取内容时间长度序列与候选音频对应的鼓点时间间隔序列之间的目标相似度。

　　背景音频确定单元，用于根据候选音频对应目标相似度，从候选音频集合中确定目标视频对应的背景音频。

　　关于视频剪辑装置的具体限定可以参见上文中对于视频剪辑方法的限定，在此不再赘述。上述视频剪辑装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

　　在一些实施例中，提供了一种计算机设备，该计算机设备可以是服务器，其内部结构图可以如图10所示。该计算机设备包括通过系统总线连接的处理器、存储器和网络接口。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储内容时间长度序列、候选音频集合和鼓点时间间隔序列等数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种背景音频确定方法。

　　在一些实施例中，提供了一种计算机设备，该计算机设备可以是终端，其内部结构图可以如图11所示。该计算机设备包括通过系统总线连接的处理器、存储器、通信接口、显示屏和输入装置。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的通信接口用于与外部的终端进行有线或无线方式的通信，无线方式可通过WIFI、运营商网络、NFC(近场通信)或其他技术实现。该计算机程序被处理器执行时以实现一种视频剪辑方法。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏，该计算机设备的输入装置可以是显示屏上覆盖的触摸层，也可以是计算机设备外壳上设置的按键、轨迹球或触控板，还可以是外接的键盘、触控板或鼠标等。

　　本领域技术人员可以理解，图10和图11中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

　　在一些实施例中，还提供了一种计算机设备，包括存储器和处理器，存储器中存储有计算机程序，该处理器执行计算机程序时实现上述各方法实施例中的步骤。

　　在一些实施例中，提供了一种计算机可读存储介质，存储有计算机程序，该计算机程序被处理器执行时实现上述各方法实施例中的步骤。

　　在一个实施例中，提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述各方法实施例中的步骤。

　　本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-Only Memory，ROM)、磁带、软盘、闪存或光存储器等。易失性存储器可包括随机存取存储器(Random Access Memory，RAM)或外部高速缓冲存储器。作为说明而非局限，RAM可以是多种形式，比如静态随机存取存储器(Static Random Access Memory，SRAM)或动态随机存取存储器(Dynamic Random Access Memory，DRAM)等。

　　以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

　　以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

《背景音频确定方法、视频剪辑方法、装置和计算机设备.doc》

将本文的Word文档下载到电脑，方便收藏和打印

推荐度：

点击下载文档

文档为doc格式(或pdf格式)

电通讯技术图文推荐

上一篇：排行榜数据的更新方法、装置及服务器

下一篇：一种智能多场景自动化巡视区域安防摄像机及其使用方法