当前位置：首页 > 电学技术 > 电通讯技术> 一种直播互动方法、装置、系统、设备及存储介质独创技术79131字

一种直播互动方法、装置、系统、设备及存储介质

2021-03-30 13:34:25

一种直播互动方法、装置、系统、设备及存储介质

　　技术领域

　　本申请涉及互联网技术领域，尤其涉及一种直播互动方法、装置、系统、设备及存储介质。

　　背景技术

　　随着互联网技术的迅速发展，以视频直播和语音直播为主的网络直播如今已深入人们的日常工作和生活，各种各样的网络直播可以为人们带来多样化的信息，提供新鲜的娱乐体验。

　　然而，在目前的网络直播中，主播与观看用户之间的互动方式较为单一，通常情况下，观看用户只能通过发送弹幕的方式与主播进行互动，又或者，观看用户在支付一定数额的虚拟奖励(如礼物等)后，可以上麦与主播进行聊天互动。在实际应用中，上述互动方式对于主播和观看用户来说互动体验并不理想，这将大幅降低观看用户对于直播间的黏性，导致直播的观看用户量减少，甚至影响网络直播的发展。

　　综上，如何提高网络直播中用户之间的互动体验，已成为目前亟待解决的问题。

　　发明内容

　　本申请实施例提供了一种直播互动方法、装置、系统、设备及存储介质，能够增强网络直播中用户之间的互动感，提高主播与观看用户之间的互动体验。

　　有鉴于此，本申请第一方面提供了一种直播互动方法，所述方法包括：

　　接收目标直播间中的第一用户上传的第一音频，所述第一音频对应于目标音频的第一部分；

　　将所述第一音频发送给所述目标直播间中的各个第二用户；

　　接收所述第二用户发起的音频上传请求，所述音频上传请求用于表征所述第二用户请求基于所述第一音频上传第二音频，所述第二音频对应于所述目标音频的第二部分；

　　基于所述音频上传请求，在所述目标直播间中的各个第二用户中确定目标第二用户；

　　接收所述目标第二用户基于所述第一音频上传的所述第二音频；

　　根据所述第二音频与所述目标音频的第二部分对应的标准音频之间的匹配度，确定所述目标第二用户针对所述目标音频的得分。

　　本申请第二方面提供了直播互动装置，所述装置包括：

　　第一音频接收模块，用于接收目标直播间中的第一用户上传的第一音频，所述第一音频对应于目标音频的第一部分；

　　第一音频发送模块，用于将所述第一音频发送给所述目标直播间中的各个第二用户；

　　音频上传请求接收模块，用于接收所述第二用户发起的音频上传请求，所述音频上传请求用于表征所述第二用户请求基于所述第一音频上传第二音频，所述第二音频对应于所述目标音频的第二部分；

　　目标第二用户确定模块，用于基于所述音频上传请求，在所述目标直播间中的各个第二用户中确定目标第二用户；

　　第二音频接收模块，用于接收所述目标第二用户基于所述第一音频上传的所述第二音频；

　　第二音频打分模块，用于根据所述第二音频与所述目标音频的第二部分对应的标准音频之间的匹配度，确定所述目标第二用户针对所述目标音频的得分。

　　本申请第三方面提供了一种直播互动系统，所述系统包括：面向第一用户的第一终端、面向第二用户的第二终端以及服务器；

　　所述第一终端，用于接收目标直播间中的所述第一用户输入的第一音频，并将所述第一音频上传至所述服务器，所述第一音频对应于目标音频的第一部分；

　　所述第二终端，用于在接收到所述服务器下发的所述第一音频后，响应所述第二用户触发的音频上传请求，生成音频上传请求发送给所述服务器；所述音频上传请求用于表征所述第二用户请求基于所述第一音频上传第二音频；所述第二音频对应于所述目标音频的第二部分；

　　所述第二终端，还用于在确定所述第二用户为目标第二用户时，接收所述目标第二用户基于所述第一音频输入的所述第二音频，并将所述第二音频上传至所述服务器；

　　所述服务器，用于执行上述第一方面所述的直播互动方法的步骤。

　　本申请第四方面提供了一种设备，所述设备包括处理器以及存储器：

　　所述存储器用于存储计算机程序；

　　所述处理器用于根据所述计算机程序，执行如上述第一方面所述的直播互动方法的步骤。

　　本申请第五方面提供了一种计算机可读存储介质，所述计算机可读存储介质用于存储计算机程序，所述计算机程序用于执行上述第一方面所述的直播互动方法的步骤。

　　本申请第六方面提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述第一方面所述的直播互动方法的步骤。

　　从以上技术方案可以看出，本申请实施例具有以下优点：

　　本申请实施例提供了一种直播互动方法，该方法创新性地提出了一种新的直播互动形式，即由直播间中的用户通过抢麦接歌的方式进行直播互动。具体的，目标直播间中的第一用户可以将其输入的第一音频上传至服务器，该第一音频对应于目标音频的第一部分，然后由服务器将该第一音频发送给目标直播间中的各个第二用户，第二用户接收到该第一音频后，可以向服务器发起音频上传请求，以请求基于该第一音频上传与目标音频的第二部分对应的第二音频；接着，服务器可以基于所接收的音频上传请求，在目标直播间中的各个第二用户中确定目标第二用户，并接收该目标第二用户基于第一音频上传的第二音频；进而，服务器可以根据目标第二用户上传的第二音频与目标音频的第二部分对应的标准音频之间的匹配度，确定该目标第二用户针对该目标音频的得分。如此，目标直播间中的第一用户和第二用户可以通过抢麦接音频(如接歌等)的方式进行直播互动，在此过程中，目标直播间中的第一用户和第二用户均可充分地参与直播互动，增强了目标直播间中的第一用户和第二用户的互动感，提高了互动体验。

　　附图说明

　　图1为本申请实施例提供的直播互动系统的工作原理示意图；

　　图2为本申请实施例提供的直播互动方法的交互信令图；

　　图3为本申请实施例提供的直播APP的直播互动界面示意图；

　　图4为本申请实施例提供的确定用户针对目标音频的得分的流程示意图；

　　图5为本申请实施例提供的歌词得分的确定流程示意图；

　　图6为本申请实施例提供的LSTM模型工作原理示意图；

　　图7为本申请实施例提供的第一种直播互动装置的结构示意图；

　　图8为本申请实施例提供的第二种直播互动装置的结构示意图；

　　图9为本申请实施例提供的第三种直播互动装置的结构示意图；

　　图10为本申请实施例提供的第四种直播互动装置的结构示意图；

　　图11为本申请实施例提供的第五种直播互动装置的结构示意图；

　　图12为本申请实施例提供的服务器的结构示意图。

　　具体实施方式

　　为了使本技术领域的人员更好地理解本申请方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

　　本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

　　针对相关技术存在的在网络直播中用户之间的互动形式单一、互动体验差、互动感弱等问题，本申请实施例提供了一种直播互动方法，该方法创新性地提出了一种新的直播互动形式，基于该直播互动形式能够有效地增强网络直播中用户之间的互动感，提高互动体验。

　　具体的，在本申请实施例提供的直播互动方法中，服务器可以先接收目标直播间中的第一用户上传的第一音频，该第一音频对应于目标音频的第一部分；然后，服务器可以将其接收的第一音频发送给目标直播间中的各个第二用户；第二用户接收到第一音频后，可以向服务器发起音频上传请求，以请求基于该第一音频上传与目标音频的第二部分对应的第二音频；接着，服务器可以基于所接收的音频上传请求，在目标直播间中的各个第二用户中确定目标第二用户，并接收该目标第二用户基于第一音频上传的第二音频；进而，服务器可以根据该第二音频与目标音频的第二部分对应的标准音频之间的匹配度，确定该目标第二用户针对该目标音频的得分。

　　在上述直播互动方法中，目标直播间中的第一用户和第二用户可以通过抢麦接音频(如接歌等)的方式进行直播互动，在此过程中，目标直播间内的第一用户和第二用户均可充分地参与直播互动，由此大幅增强目标直播间内的第一用户和第二用户的互动感，提高目标直播间内的第一用户和第二用户的互动体验。

　　应理解，本申请实施例提供的直播互动方法可以应用于直播应用程序的后台服务器，该服务器可以是独立的物理服务器，也可以是由多个物理服务器构成的服务器集群或分布式系统，还可以是用于提供直播互动服务的云服务器。

　　为了便于理解本申请实施例提供的直播互动方法，下面先结合该直播互动方法适用的应用场景，对本申请实施例提供的直播互动系统进行介绍。

　　参见图1，图1为本申请实施例提供的直播互动系统的架构示意图。如图1所示，该直播互动系统包括第一终端110、第二终端120和服务器130，第一终端110和第二终端120可以通过有线或无线网络与服务器130进行通信。

　　需要说明的是，第一终端110和第二终端120上运行有直播应用程序(Application，APP)，第一终端110上运行的直播APP中登录有第一用户，第二终端120上运行的直播APP中登录有第二用户。示例性的，第一用户可以为目标直播间中的观看用户，第二用户可以为目标直播间中的在线主播，在本申请实施例提供的直播互动系统中，目标直播间中可以同时存在多位在线主播(此时直播互动系统中包括多个第二终端120)，这多位在线主播与观看用户共同进行接音频的直播互动活动。

　　在本申请实施例提供的直播互动系统中，第一终端110用于接收目标直播间中的第一用户输入的第一音频，并将该第一音频上传至服务器130，该第一音频对应于目标音频的第一部分。

　　以第一用户为目标直播间中的观看用户，且目标音频为目标歌曲为例，目标直播间中的观看用户可以选择与目标直播间中的在线主播进行接歌互动，进而，服务器130将向第一终端110发送需要由该观看用户演唱的目标歌曲的第一部分，观看用户可以根据第一终端110给出的提示(如开始演唱的提示信息、结束演唱的提示信息、目标歌曲的第一部分的歌词信息等)，向第一终端110输入对应于目标歌曲的第一部分的第一音频，第一终端110在观看用户完成第一音频的输入后，将其接收的第一音频发送给服务器130。

　　可选的，为了进一步提高第一用户的直播互动体验，保证直播互动体验更贴合第一用户的个人需求，本申请实施例提供的直播互动系统还可以为第一用户提供多个候选音频列表，以便第一用户可以从中选出其与目标直播间中的第二用户进行直播互动时所依据的音频列表。即第一终端110还用于：

　　响应所触发的目标活动参与操作，显示多个候选音频列表以及这多个候选音频列表各自对应的虚拟奖励数额；响应所触发的音频列表选择操作，生成音频列表选择请求发送给服务器130，该音频列表选择请求用于表征第一用户在多个候选音频列表中选择的目标音频列表；响应所触发的虚拟奖励支付操作，生成虚拟奖励支付请求发送给服务器130，该虚拟奖励支付请求用于表征第一用户支付目标虚拟奖励，该目标虚拟奖励与目标音频列表对应的虚拟奖励数额相匹配。

　　仍以第一用户为目标直播间中的观看用户，且目标音频为目标歌曲为例，第一终端110检测到观看用户触发参与目标直播间中的接歌活动的操作(即目标活动参与操作)后，可以显示该目标直播间支持的多个候选歌单(即候选音频列表)以及这多个候选歌单各自对应的礼物数量(即虚拟奖励数额)。进而，观看用户可以根据自身的实际需求在多个候选歌单中选择目标歌单(即触发音频列表选择操作)，该目标歌单中的歌曲即为该观看用户与目标直播间中的在线主播进行接歌互动时依据的目标歌曲，第一终端110检测到观看用户触发目标歌单选择操作后，相应地生成歌单选择请求(即音频列表选择请求)发送给服务器130，以告知服务器130该观看用户选择了该目标歌单。此外，观看用户还需要针对其选择的目标歌单支付相应的礼物(即触发虚拟奖励支付操作)，第一终端110检测到观看用户触发礼物支付操作后，相应地生成礼物支付请求(即虚拟奖励支付请求)发送给服务器130，服务器130接收到该礼物支付请求后，从观看用户对应的虚拟账户中扣除相应的礼物数量，即扣除与目标歌单相对应的礼物数量，并向第一终端110发送反馈消息，以告知观看用户其可以基于目标歌单进行直播互动。

　　在本申请实施例提供的直播互动系统中，第二终端120用于在接收到服务器130下发的第一音频后，响应第二用户触发的音频上传操作，生成音频上传请求发送给服务器130，该音频上传请求用于表征该第二用户请求基于该第一音频上传第二音频，第二音频对应于目标音频的第二部分。

　　相应地，服务器130接收到第二终端120发送的音频上传请求后，可以基于所接收到音频上传请求，在目标直播间中的各个第二用户中选择目标第二用户。具体的，在服务器130接收到目标直播间中的多个第二用户发起的发个音频上传请求的情况下，服务器130可以根据多个音频上传请求各自对应的接收时间，确定接收时间最早的音频上传请求对应的第二用户，作为具有上传第二音频的资格的目标第二用户，进而，向该目标第二用户使用的第二终端120返回音频上传响应消息，以通知该目标第二用户其具有上传第二音频的资格。

　　第二终端120在确定其使用者(即第二用户)为目标第二用户的时，进一步接收该目标第二用户基于第一音频输入的第二音频，并将该第二音频上传至服务器130。

　　仍以第二用户为目标直播间中的在线主播，目标音频为目标歌曲为例，在目标直播间同时存在多位在线主播的情况下，服务器130接收到目标直播间中的观看用户通过第一终端110上传的第一音频后，将该第一音频转发给目标直播间中的各在线主播，即转发给该目标直播间中各在线主播各自对应的第二终端120；第二终端120接收到第一音频后，播放该第一音频，在线主播可以根据其实际情况在抢唱时间内(如15s内)触控界面上的抢唱控件(即触发音频上传操作)，第二终端120检测到在线主播触控抢唱控件后，相应地生成接唱请求(即音频上传请求)发送给服务器130。

　　若服务器130在抢唱时间内接收到来自多个第二终端120的接唱请求，则服务器需要根据各接唱请求的发起时间，确定具有接唱资格的在线主播(即目标第二用户)，例如，服务器可以根据各接唱请求各自对应的接收时间，确定接收时间最早的接唱请求对应的在线主播具有接唱资格。进而，服务器130可以针对其接收的每个接唱请求生成对应的接唱响应消息(即音频上传响应消息)，即对发起时间最早的接唱请求，生成用于表征在线主播具有接唱资格的接唱响应消息，对其它所接收的接唱请求，生成用于表征在线主播不具有接唱资格的接唱响应消息；并将所生成的各接唱响应消息相应地反馈给各第二终端120。

　　第二终端120接收到服务器130返回的接唱响应消息后，可以根据该接唱响应消息确定是否允许在线主播输入第二音频，若所接收的接唱响应消息表征该在线主播具有接唱资格，则允许在线主播基于第一音频继续演唱目标音频的第二部分，并接收在线主播输入的第二音频发送给服务器130，若所接收的接唱响应消息表征该在线主播不具有接唱资格，则提示该在线主播没有抢到接唱资格，无法输入第二音频。

　　在本申请实施例提供的直播互动系统中，服务器130用于执行本申请实施例提供的直播互动方法。即服务器130除了需要接收目标直播间中的第一用户上传的第一音频，将该第一音频转发给目标直播间中的第二用户，以及接收目标直播间中的第二用户发起的音频上传请求，基于音频上传请求确定目标第二用户，以及接收目标第二用户基于该第一音频上传的第二音频外，还需要根据该第二音频与目标音频的第二部分对应的标准音频之间的匹配度，确定第二音频针对该目标音频的得分。服务器130具体所需执行的操作将在下文方法实施例中进行详细介绍。

　　应理解，图1所示的直播互动系统的结构仅为示例，在实际应用中，本申请实施例提供的直播互动系统并不仅限于图1所示的结构，例如，本申请实施例提供的直播互动系统中可以包括多个第二终端120，也可以包括一个第二终端120，又例如，本申请实施例提供的直播互动系统中的第一终端110和第二终端120并不仅限于图1所示的智能手机，还可以为计算机、平板电脑、个人数字助理(Personal Digital Assitant，PDA)等终端设备。在此不对本申请实施例提供的直播互动系统的结构做任何限定。

　　下面通过方法实施例对本申请提供的直播互动方法进行详细介绍。

　　为了便于理解本申请实施例提供的直播互动方法，下面以第一终端、第二终端和服务器进行交互的形式，对本申请实施例提供的直播互动方法进行介绍。参见图2，图2为本申请实施例提供的直播互动方法的交互信令图，如图2所示，该直播互动方法包括以下步骤：

　　步骤201：第一终端接收目标直播间中的第一用户输入的第一音频，该第一音频对应于目标音频的第一部分。

　　本申请实施例提供了一种在直播间中接音频的直播互动方式，基于该直播互动方式进行直播互动时，目标直播间中的第一用户可以通过第一终端中运行的直播APP输入第一音频，该第一音频对应于目标音频的第一部分。

　　上述目标直播间可以为语音直播间，也可以为视频直播间，本申请在此不对目标直播间的形式做任何限定。

　　上述第一用户可以是目标直播间中的观看用户，也可以是目标直播间中的在线主播，本申请在此不对该第一用户的身份做任何限定；通常情况下，在一轮直播互动中仅存在一个第一用户。

　　上述目标音频可以是对应任意内容的音频，如对应于歌曲的音频、对应于文章的音频、对应于诗词的音频等等，本申请在此不对该目标音频对应的内容形式做任何限定。

　　相应地，目标音频的第一部分可以根据该目标音频对应的内容形式和实际业务需求来设定。例如，若目标音频对应于歌曲，则目标音频的第一部分可以对应于该歌曲高潮部分的前四句歌词，此时，第一用户需要演唱该歌曲高潮部分的前四句歌词，并利用第一终端录制其演唱的音频作为第一音频，当然，在实际应用中，也可以设置歌曲的其它部分作为目标音频的第一部分；又例如，若目标音频对应于诗词，则目标音频的第一部分可以对应于该诗词的前两句，此时，第一用户需要朗诵该诗词的前两句，并利用第一终端录制其朗诵的音频作为第一音频，当然，在实际应用中，也可以设置诗词的其它部分作为目标音频的第一部分。本申请在此不对目标音频的第一部分做任何限定。

　　示例性的，假设第一用户为目标直播间中的观看用户，目标音频为目标歌曲，目标音频的第一部分对应于目标歌曲高潮部分的前四句歌词，则观看用户在参与目标直播间的接歌互动时，可以根据直播APP接歌互动界面上显示的提示信息，如开始演唱的时机、结束演唱的时机、目标歌曲第一部分的歌词、目标歌曲伴奏的当前进度等，相应地跟随目标歌曲第一部分的伴奏演唱该目标歌曲的第一部分，与此同时，第一终端会录制观看用户演唱的音频作为第一音频，第一终端在检测到观看用户完成第一音频的演唱后，例如在检测到观看用户唱完目标歌曲高潮部分的第四句歌词后，或者在检测到已到达结束演唱的时机后，确认观看用户完成第一音频的输入。

　　可选的，为了进一步提高第一用户的直播互动体验，保证直播互动体验更贴合第一用户的个人需求，本申请实施例提供的直播互动方法还可以为第一用户提供多个候选音频列表，以便第一用户可以从中选出其与目标直播间中的第二用户进行直播互动时所依据的音频列表。

　　即，第一终端可以响应第一用户触发的目标活动参与操作，显示服务器向该第一终端发送的多个候选音频列表以及这多个候选音频列表各自对应的虚拟奖励数额；进而，第一终端可以响应第一用户触发的音频列表选择操作和虚拟奖励支付操作，相应地生成音频列表选择请求和虚拟奖励支付请求发送给服务器，其中，该音频列表选择请求用于表征第一用户在多个候选音频列表中选择了目标音频列表，该虚拟奖励支付请求用于表征第一用户支付目标虚拟奖励，该目标虚拟奖励应与目标音频列表对应的虚拟奖励数额相匹配。

　　每个候选音频列表中可以包括多个可选音频，这多个可选音频可以均对应同一内容形式(如均对应于歌曲)，也可以分别对应不同的内容形式(如分别对应歌曲、诗词、文章等)。不同的候选音频列表还可以对应不同的难度等级，不同难度等级的候选音频列表对应的虚拟奖励数额也会有所差别，例如，服务器可以为第一用户提供青铜、白银、王者三种难度等级的候选音频列表，这三种难度等级不同的候选音频列表分别对应不同的虚拟奖励数额。

　　示例性的，假设第一用户为目标直播间中的观看用户，多个候选音频列表为多个不同的候选歌单，第一终端检测到观看用户触发参与目标直播间中接歌活动的操作(即目标活动参与操作)后，可以显示该目标直播间支持的多个候选歌单以及这多个候选歌单各自对应的礼物数量(即虚拟奖励数额)。

　　应理解，上述目标直播间支持的多个候选歌单以及多个候选歌单各自对应的礼物数量，可以是服务器在第一终端检测到观看用户触发参与接歌活动之前向第一终端发送的，如在检测到观看用户进入目标直播间时发送的，也可以是服务器在第一终端检测到观看用户触发参与接歌活动之后，响应于第一终端发送的接歌请求向该第一终端反馈的，本申请在此不对服务器发送多个候选音频列表以及多个候选音频列表各自对应的虚拟奖励数额的时机做任何限定。

　　进而，观看用户可以根据自身的实际需求在多个候选歌单中选择目标歌单(即触发音频列表选择操作)，该目标歌单中的歌曲即为该观看用户与目标直播间中的在线主播进行接歌互动时依据的目标歌曲，第一终端检测到观看用户触发目标歌单选择操作后，相应地生成歌单选择请求(即音频列表选择请求)发送给服务器，以告知服务器该观看用户选择了该目标歌单。此外，观看用户还需要针对其选择的目标歌单支付相应的礼物(即触发虚拟奖励支付操作)，第一终端检测到观看用户触发礼物支付操作后，相应地生成礼物支付请求(即虚拟奖励支付请求)发送给服务器，服务器接收到该礼物支付请求后，从观看用户对应的虚拟账户中扣除相应的礼物数量(即目标虚拟奖励)，即扣除与目标歌单相对应的礼物数量，并向第一终端发送反馈消息，以告知观看用户其可以基于目标歌单进行直播互动。

　　应理解，在实际应用中，第一终端可以响应第一用户先后依次触发的音频列表选择操作和虚拟奖励支付操作，先向服务器发送音频列表选择请求，后向服务器发送虚拟奖励支付请求；第一终端也可以在检测到第一用户完成音频列表选择操作和虚拟奖励支付操作后，将音频列表选择请求和虚拟奖励支付请求同时发送给服务器，或者可以将音频列表选择请求和虚拟奖励支付请求合并为同一请求发送给服务器。本申请在此不对第一终端发送音频列表选择请求和虚拟奖励支付请求的时机和方式做任何限定。

　　步骤202：第一终端向服务器发送第一用户输入的第一音频；也即服务器接收目标直播间中的第一用户上传的第一音频。

　　第一终端检测到第一用户完成第一音频的输入后，可以将该第一音频通过网络发送给服务器；示例性的，假设第一用户为目标直播间中的观看用户，目标音频的第一部分对应于目标歌曲高潮部分的前四句歌词，则第一终端可以在检测到观看用户演唱完该目标歌曲高潮部分的第四句歌词时，确认观看用户完成第一音频的输入，或者第一终端可以在检测到目标歌曲高潮部分前四句歌词对应的伴奏播放完毕时，确认观看用户完成第一音频的输入，进而，将观看用户输入的第一音频通过网络发送给服务器。

　　步骤203：服务器将第一音频发送给第二终端，第二终端对应于目标直播间中的各个第二用户；也即第二终端接收服务器发送的第一音频。

　　服务器接收到第一终端上传的第一音频后，确认与第一用户处于同一目标直播间的第二用户，进而将该第一音频转发给该目标直播间内各第二用户使用的第二终端。

　　上述第二用户可以是目标直播间中的在线主播，也可以是目标直播间中参与直播互动的观看用户，本申请在此不对该第二用户的身份做任何限定。第二用户与第一用户的身份可以相同，也可以不同，例如，第一用户和第二用户可以均为目标直播间中的观看用户；又例如，第一用户可以为目标直播间内参与直播互动的观看用户，第二用户可以为目标直播间内的在线主播；在一轮直播互动中，可以存在一个第二用户，也可以存在多个第二用户。此外，在实际应用中，可以不区分目标直播间中的在线主播和观看用户，直接将目标直播间中上传第一音频的用户作为第一用户，将目标直播间中除第一用户外的其他用户均作为第二用户。本申请在此不对上述第一用户和第二用户做任何限定。

　　示例性的，假设第二用户为目标直播间内的在线主播，且目标直播间内同时存在多位在线主播，则服务器需要将第一用户上传的第一音频，同时转发给该目标直播间内的各位在线主播。

　　步骤204：第二终端响应第二用户触发的音频上传操作，生成音频上传请求，该音频上传请求用于表征第二用户请求基于第一音频上传第二音频，该第二音频对应于目标音频的第二部分。

　　步骤205：向服务器发送音频上传请求；也即服务器接收第二终端发送的音频上传请求。

　　步骤206：服务器基于音频上传请求，在目标直播间中的各个第二用户中确定目标第二用户。

　　步骤207：服务器根据目标第二用户的确定结果，生成音频上传响应消息。

　　步骤208：服务器向第二终端发送音频上传响应消息；也即第二终端接收音频上传响应消息。

　　由于步骤204至步骤208为关联性较强的步骤，故在下文对步骤204至步骤208的整体实现过程进行介绍。

　　为了增加直播互动的趣味性，在目标直播间中同时存在多位第二用户的情况下，本申请实施例提供的直播互动方法可以设置多位第二用户争抢输入第二音频的资格的环节。即，第二终端在接收到服务器发送的第一音频后，响应第二用户在预设时间段内触发的音频上传操作，生成音频上传请求发送给服务器，该音频上传请求用于表征第二用户请求基于该第一音频上传第二音频。

　　服务器若在预设时间段内接收到多个音频上传请求，则可以根据这多个音频上传请求各自的接收时间，确定接收时间最早的音频上传请求对应的第二用户，作为目标第二用户；并基于该目标第二用户的确定结果，针对其接收的多个音频上传请求分别生成对应的音频上传响应消息，该音频上传响应消息用于表征第二用户是否具有上传第二音频的资格(即是否为目标音频对应的目标第二用户)，并将所生成的每个音频上传响应消息相应地返回给各第二终端。

　　具体的，服务器可以针对其接收到的每个音频上传请求生成对应的音频上传响应消息，即对于接收时间最早的音频上传请求，可以生成用于表征第二用户具有上传第二音频的资格的音频上传响应消息，对于其它音频上传请求，可以生成用于表征第二用户不具有上传第二音频的资格的音频上传响应消息。进而，将所生成的多个音频上传响应消息相应地反馈给各第二终端。

　　第二终端接收到音频上传响应消息后，可以根据该音频上传响应消息确定其对应的第二用户是否为目标第二用户，即确定是否允许其对应的第二用户输入第二音频。具体的，若所接收的音频上传响应消息表征第二用户具有上传第二音频的资格，则确定该第二用户为目标第二用户，并提示目标第二用户其可以上传第二音频；若所接收的音频上传响应消息表征第二用户不具有上传第二音频的资格，则提示第二用户其不可以上传第二音频，并不为该第二用户开放第二音频上传入口。

　　示例性的，以第二用户为目标直播间中的在线主播，目标音频的第二部分对应于目标歌曲高潮部分第五句歌词到第八句歌词为例，在目标直播间同时存在多位在线主播的情况下，服务器接收到目标直播间中的观看用户上传的第一音频后，将该第一音频转发给该目标直播间中各在线主播各自对应的第二终端；第二终端接收到第一音频后，播放该第一音频，在线主播可以根据其实际情况在抢唱时间内(如15s内)触控界面上的抢唱控件(即触发音频上传操作)，第二终端检测到在线主播触控抢唱控件后，相应地生成接唱请求(即音频上传请求)发送给服务器。

　　若服务器在抢唱时间内接收到来自多个第二终端的接唱请求，则服务器需要根据各接唱请求的接收时间，确定具有接唱资格(即上传第二音频的资格)的在线主播，例如，服务器可以确定接收时间最早的接唱请求对应的在线主播具有接唱资格。进而，服务器可以针对其接收的每个接唱请求生成对应的接唱响应消息(即音频上传响应消息)，即对发起时间最早的接唱请求，生成用于表征在线主播具有接唱资格的接唱响应消息，对其它所接收的接唱请求，生成用于表征在线主播不具有接唱资格的接唱响应消息；并将所生成的各接唱响应消息相应地反馈给各第二终端。

　　第二终端接收到服务器返回的接唱响应消息后，可以根据该接唱响应消息确定是否允许在线主播输入第二音频，若所接收的接唱响应消息表征该在线主播具有接唱资格，则允许在线主播基于第一音频继续演唱目标音频的第二部分，若所接收的接唱响应消息表征该在线主播不具有接唱资格，则提示该在线主播没有抢到接唱资格，无法输入第二音频。

　　步骤209：第二终端接收目标第二用户基于第一音频输入的第二音频。

　　第二终端接收到服务器发送的音频上传响应消息后，若确定所对应的第二用户为目标第二用户，则可以进一步接收该目标第二用户基于该第一音频输入的第二音频，该第二音频应当对应于目标音频的第二部分。

　　目标音频的第二部分可以对应于目标音频中与目标音频的第一部分相邻的内容；例如，若目标音频的第一部分对应于目标歌曲高潮部分的前四句歌词，则目标音频的第二部分可以对应于目标歌曲高潮部分的第五句歌词到第八句歌词，此时，目标第二用户需要演唱该目标歌曲高潮部分的第五句歌词到第八句歌词，并且利用第二终端录制其演唱的音频作为第二音频；又例如，若目标音频的第一部分对应于目标诗词的前两句诗句，则目标音频的第二部分可以对应于目标诗词的第三句诗句和第四句诗句，此时，目标第二用户需要朗诵第三句诗句和第四句诗句，并且利用第二终端录制其朗诵的音频作为第二音频。本申请在此不对目标音频的第二部分对应的内容做任何限定。

　　示例性的，假设目标第二用户为目标直播间中的在线主播，目标音频为目标歌曲，目标音频的第二部分对应于目标歌曲高潮部分的第五句歌词到第八句歌词，则在线主播在确定自身具有接唱第一音频的资格后，可以根据直播APP接歌互动界面上显示的提示信息，如开始演唱的时机、结束演唱的时机、目标歌曲第二部分的歌词、目标歌曲伴奏的当前进度等，相应地跟随目标歌曲第二部分的伴奏演唱该目标歌曲的第二部分，与此同时，第二终端会录制在线主播演唱的音频作为第二音频，第二终端在检测到在线主播完成第二音频的演唱后，例如在检测到在线主播唱完目标歌曲高潮部分的第八句歌词后，或者在检测到已到达结束演唱的时机后，确认在线主播完成第二音频的输入。

　　步骤210：第二终端将第二用户基于第一音频上传的第二音频发送给服务器；也即服务器接收第二用户基于第一音频上传的第二音频。

　　第二终端检测到目标第二用户完成第二音频的输入后，可以将该第二音频通过网络发送给服务器；示例性的，假设目标第二用户为目标直播间中的在线主播，目标音频的第二部分对应于目标歌曲高潮部分的第五句歌词到第八句歌词，则第二终端可以在检测到在线主播演唱完该目标歌曲高潮部分的第八句歌词时，确认在线主播完成第二音频的输入，或者第二终端可以在检测到目标歌曲高潮部分第五句歌词到第八句歌词对应的伴奏播放完毕时，确认在线主播完成第二音频的输入，进而，将在线主播输入的第二音频通过网络发送给服务器。

　　步骤211：服务器根据第二音频与目标音频的第二部分对应的标准音频之间的匹配度，确定目标第二用户针对目标音频的得分。

　　服务器接收到第二终端上传的第二音频后，可以调取目标音频第二部分对应的标准音频，进而根据其接收的第二音频与该目标音频的第二部分对应的标准音频之间的匹配度，确定目标第二用户针对目标音频的得分，应理解，第二音频与目标音频的第二部分对应的标准音频之间的匹配度越高，则目标第二用户针对目标音频的得分越高。

　　以目标音频为目标歌曲，目标音频的第二部分对应于目标歌曲高潮部分第五句歌词到第八句歌词为例，目标音频的第二部分对应的标准音频可以是从原版目标音频(如原唱歌手演唱该目标歌曲的音频)中截取的对应于高潮部分第五句歌词到第八句歌词的音频。再以目标音频为目标诗词，目标音频的第二部分对应于目标诗词第三句诗句和第四句诗句为例，目标音频的第二部分对应的标准音频可以是从原版目标音频(即专业朗诵者朗诵该目标诗词的音频)中截取的对应于第三句诗句和第四句诗句的音频。当然，在目标音频对应其它内容的情况下，目标音频的第二部分对应的标准音频可以对应于其它内容，本申请在此不对目标音频的第二部分对应的标准音频做任何限定。

　　由于在直播互动的过程中设置了抢接音频的环节，因此服务器只能接收到目标第二用户上传的第二音频，此时，服务器需要针对该第二音频确定该目标第二用户针对该目标音频的得分，即根据其接收的第二音频与目标音频的第二部分对应的标准音频之间的匹配度，确定该目标第二用户针对目标音频的得分，对于目标直播间中的其他第二用户，服务器可以直接确定其针对该目标音频的得分为0。

　　需要说明的是，在实际应用中，在一轮直播互动中目标直播间内的第一用户和第二用户可以基于N(N为大于1的整数)个目标音频，进行接音频互动，例如，在第一用户选择的目标音频列表中包括N个目标音频的情况下，目标直播间内的第一用户和第二用户可以基于这N个目标音频进行接音频互动。在这种情况下，需要循环执行N次上述步骤201至步骤211，每次第一用户均需要输入一个第一音频，每次服务器需要相应地从目标直播间中的各个第二用户中选出此次具有上传第二音频的资格的目标第二用户；即针对第一用户上传的第i(i为大于等于1，且小于等于N的整数)个第一音频(对应于第i个目标音频的第一部分)，服务器需要基于目标直播间中的第二用户针对该第i个第一音频发起的音频上传请求，确定该第i个目标音频对应的目标第二用户。对于目标直播间中的每个第二用户，服务器可以确定其针对每个目标音频的得分。

　　由于在直播互动的过程中设置了抢接音频的环节，因此服务器可以通过以下方式确定目标直播间中的每个第二用户针对第i(i为大于等于1，且小于等于N的整数)个目标音频的得分：接收第i个目标音频对应的目标第二用户基于第i个第一音频上传的第二音频；进而，根据第i个目标音频对应的目标第二用户上传的第二音频与第i个目标音频的第二部分对应的标准音频之间的匹配度，确定第i个目标音频对应的目标第二用户针对该第i个目标音频的得分，对于目标直播间中除第i个目标音频对应的目标第二用户以外的其他第二用户，确定其针对第i个目标音频的得分为0。

　　具体的，在直播互动的过程中设置有抢接音频的环节的情况下，服务器需要根据目标直播间内各个第二用户针对第一用户上传的第i个第一音频发起的音频上传请求，来确定第i个目标音频对应的目标第二用户，具体确定方式已在上文介绍，详细可参见上文相关部分的内容。在该种情况下，服务器只能接收到由第i个目标音频对应的目标第二用户上传的第二音频，因此，针对该第i个目标音频对应的目标第二用户，服务器可以根据该目标第二用户上传的第二音频与第i个目标音频的第二部分对应的标准音频之间的匹配度，确定该目标第二用户针对该第i个目标音频的得分；而对于目标直播间内除该目标第二用户以外的其他第二用户，服务器可以直接确定其针对该第i个目标音频的得分为0。

　　可选的，服务器可以根据目标第二用户针对目标音频的得分，为该目标第二用户分配虚拟奖励。

　　为了提高目标直播间内第二用户的参与积极性，服务器确定出目标第二用户针对目标音频的得分后，可以根据该目标第二用户针对目标音频的得分为其分配虚拟奖励。示例性的，假设目标第二用户为目标直播间中的在线主播，则服务器可以根据该在线主播针对目标音频的得分，为该在线主播打赏礼物。

　　在一种可能的实现方式中，服务器可以预先设置得分与虚拟奖励数额之间的对应关系，在确定出目标第二用户针对目标音频的得分后，为该目标第二用户分配与该得分对应的虚拟奖励数额，即向该目标第二用户对应的虚拟账户中打入该虚拟奖励。

　　当然，在实际应用中，服务器也可以采取其它策略为目标直播间内的目标第二用户分配虚拟奖励，本申请在此不对服务器为目标第二用户分配虚拟奖励的方式做任何限定。

　　需要说明的是，若在一轮直播互动中目标直播间内的第一用户和第二用户基于N(N为大于1的整数)个目标音频进行接音频互动，则服务器可以先针对目标直播间内的每个第二用户，根据该第二用户针对这N个目标音频的得分，确定该第二用户对应的总得分；进而，确定所对应的总得分最高的第二用户为获胜第二用户，并为该获胜第二用户分配虚拟奖励。

　　具体的，若在一轮直播互动中需要基于N个目标音频进行接音频互动，则服务器需要针对目标直播间中的每个第二用户，获取其针对第一个目标音频的得分到其针对第N个目标音频的得分，进而计算这N个得分的和值作为该第二用户对应的总得分。进而，确定所对应的总得分最高的第二用户为获胜第二用户，为该获胜第二用户分配虚拟奖励，示例性的，在第一用户为其选择的目标音频列表支付了目标虚拟奖励的情况下，服务器可以直接将该目标虚拟奖励分配给获胜第二用户。

　　当然，在实际应用中，服务器也可以确定所对应的总得分排名前几名的第二用户为获胜第二用户，进而按照预设的奖励分配规则，为这几名获胜第二用户分配对应的虚拟奖励。本申请在此不对获胜第二用户的确定方式，以及为获胜第二用户分配的虚拟奖励做任何限定。

　　示例性的，假设第二用户为目标直播间中的在线主播，第一用户为目标直播间中的观看用户，观看用户选择参与接歌直播互动时在多个候选歌单中选择了目标歌单，并为该目标歌单支付了对应的礼物。相应地，服务器需要针对目标直播间中的每位在线主播，根据其在该轮直播互动中针对目标歌单中各目标歌曲的得分，确定其在该轮直播互动中的总得分；进而，服务器可以确定总得分最高的在线主播为该轮直播互动的获胜主播，并将观看用户所支付的礼物均分配给该获胜主播。

　　更进一步地，为了提高直播互动体验，服务器还可以确定获胜第二用户在该轮直播互动中上传的第二音频，作为待合成第二音频，并且确定待合成第二音频所基于的第一音频，作为待合成第一音频；进而，根据待合成第一音频和待合成第二音频生成音频专辑，并将该音频专辑发送给第一用户和获胜第二用户，即发送给第一用户使用的第一终端和该获胜第二用户使用的第二终端，以便第一用户和该获胜第二用户下载该音频专辑。

　　示例性的，假设第一用户为目标直播间中的观看用户，第二用户为目标直播间中的在线主播，服务器通过上述方式确定出一轮直播互动中的获胜主播后，可以进一步调取该获胜主播在本轮直播互动中上传的第二音频作为待合成第二音频，并且调取与该第二音频相对应的观看用户上传的第一音频作为待合成第一音频，进而，将具有对应关系的待合成第一音频和待合成第二音频之间合成一个音频；若获胜主播在本轮直播互动中上传了多个第二音频，则服务器可以基于这多个第二音频和这多个第二音频各自对应的第一音频合成多个音频；最终，服务器可以利用其合成的音频组成音频专辑，并将该音频专辑发送给参与直播互动的观看用户和获胜主播，以便该观看用户和获胜主播下载该音频专辑。

　　此外，若服务器针对某在线主播合成的音频专辑的数量达到预设数量(如3张音频专辑)，则可以在该直播APP的勋章展示界面展示该在线主播的成就，以鼓励直播APP中各在线主播积极参与接音频的直播互动。

　　在本申请实施例提供的直播互动方法中，目标直播间中的第一用户和第二用户可以通过抢麦接音频(如接歌等)的方式进行直播互动，在此过程中，目标直播间内的第一用户和第二用户均可充分地参与直播互动，由此大幅增强目标直播间内的第一用户和第二用户的互动感，提高目标直播间内的第一用户和第二用户的互动体验。此外，根据第二用户针对目标音频的得分为第二用户分配虚拟奖励，可以进一步提高目标直播间内第二用户的参与积极性，增强网络直播的活跃度。

　　为了便于进一步理解本申请实施例提供的直播互动方法，下面假设第一用户为目标直播间中的观看用户，第二用户为目标直播间中的在线主播，且目标直播间中同时存在多位在线主播，目标直播间内的观看用户与在线主播通过接歌的方式进行直播互动。基于此，结合图3所示的直播APP的直播互动界面示意图，对本申请实施例提供的直播互动方法进行整体示例性介绍。

　　需要说明的是，为了增强直播互动的氛围，可以将直播互动界面的氛围效果设置为舞台闪光效果，例如直播互动界面可以按照一定的频率忽明忽暗，该直播互动界面即包括面向观看用户的直播互动界面，又包括面向在线主播的直播互动界面。

　　在语音直播间的互动玩法面板上可以增设“唱歌接龙”的选择控件，观看用户点击该“唱歌接龙”的选择控件，即可相应地触发参与接歌互动活动，成为本轮直播互动的主持人。服务器可以为观看用户提供青铜、白银、王者三种难度等级的候选歌单，观看用户可以在同一难度等级的候选歌单中选择8首目标歌曲，进而利用所选择的目标歌曲组成目标歌单，并为其选择的目标歌单支付对应的礼物，比如针对青铜难度级别的歌单需要观看用户支付8架飞机。

　　观看用户为其选择的目标歌单支付对应的礼物后，即可点击开启接歌的控件，进入歌曲接龙的直播互动模式，3s倒计时后，直播互动界面上将展示需要观看用户演唱的歌词，前奏结束后观看用户可以直接开唱，与此同时，观看用户使用的终端将相应地录制观看用户演唱的音频。通常情况下，需要观看用户演唱的部分属于目标歌曲的高潮部分。

　　观看用户使用的终端将观看用户演唱的音频发送给服务器，再由服务器将该音频转发给该语音直播间各位在线主播。观看用户唱完后可以设置15s的时间作为语音直播间中在线主播的抢唱环节，即各位在线主播听完所接收的音频后，可以根据自身情况点击直播活动节目中的“抢歌”控件，服务器会根据各位在线主播点击“抢歌”控件的情况，确定抢到演唱资格的在线主播。

　　抢到演唱资格的在线主播可以有15s的接唱时间，在该在线主播接唱的过程中直播互动界面可以显示接唱歌词，也可以不显示接唱歌词，在线主播在15s内唱完可以手动点击提交其演唱的音频，若超过15s未点击提交，终端可以自动将这15s内采集的音频提交给服务器，由服务器基于所提交的音频与该音频对应的标准音频之间的匹配度，为在线主播进行打分。

　　在一轮直播互动结束后，服务器可以计算各位在线主播的总得分，并展示得分排行榜，总得分最高的在线主播可以获得观看用户此前选择目标歌单时支付的所有礼物，并且基于该轮直播互动中观看用户与该总得分最高的在线主播合唱的歌曲，自动生成音乐专辑，观看用户和该在线主播可以点击下载该音乐专辑，成功下载3张音乐专辑的在线主播还可以登上直播APP中的音乐勋章展示墙。

　　下面对上述方法实施例中服务器根据第二音频与目标音频的第二部分对应的标准音频之间的匹配度，确定目标第二用户针对目标音频的得分的实现方式，进行详细介绍。以目标音频为目标歌曲为例，服务器接收到目标第二用户上传的第二音频后，可以从歌词匹配度和音准匹配度两方面出发进行打分，进而基于这两方面的得分确定目标第二用户针对目标音频的得分。

　　参见图4，图4为本申请实施例提供的服务器确定目标第二用户针对目标音频的得分的流程示意图。如图4所示，该实现过程包括以下步骤：

　　步骤401：根据所述第二音频和所述目标音频的第二部分对应的标准音频，进行歌词匹配度识别，确定所述目标第二用户对应的歌词得分。

　　服务器可以基于语音识别技术识别出第二音频对应的歌词，进而根据所识别出的歌词以及目标音频的第二部分对应的标准歌词，确定二者之间的匹配度，并基于该匹配度确定目标第二用户对应的歌词得分，应理解，匹配度越高，目标第二用户对应的歌词得分越高。

　　具体实现时，服务器可以先从第二音频中抽取出目标第二用户发出的目标音频信号；然后对该目标音频信号进行特征提取操作，得到目标特参数；进而，根据该目标特征参数构建目标音频信号对应的目标声学模型，并从声学模型库中调取目标音频的第二部分对应的标准声学模型；最终，通过长短时记忆(Long short-term memory,LSTM)模型，确定目标声学模型与标准声学模型之间的匹配度，作为第二用户对应的歌词得分。

　　语音识别是基于语音特征参数的模式识别，其可以通过机器学习模型对输入的第二音频进行分类，并且根据标准匹配到最佳的结果。该过程通常包括预处理、特征提取、模型构建和模型匹配等几个部分，实现过程如图5所示。语音信号(即第二音频)通过麦克风采集，经过采样和模数(Analog signal/Digital signal，A/D)转换处理后转变为数字信号，然后对该数字信号进行预加重、分帧、加窗、端点检测和滤波等处理。对于经过预处理得到的语音信号，按照特定的特征提取方法提取出最能够表现这段语音信号特征的特征参数，将这些特征参数按照时间顺序排列得到这段语音信号的特征序列。在模型构建的过程中，可以基于语音信号的特征序列构建相应的声学模型，并将其与声学模型库中目标音频信号对应的声学模型进行模式匹配，从而得到歌词得分。

　　对于语音信号的预处理主要包括：1)采样和量化，2)预加重、分帧和加窗，3)语音信号分析-频域分析。下面分别对这三部分进行介绍。

　　采样和量化：麦克风将其采集的声音从物理状态转换为模拟的电信号，再把连续的模拟信号转换为时间上离散、但幅值上仍连续的离散模拟信号，这一过程就是采样，通常情况下，个人计算机(Personal computer，PC)上的采样频率为16Hz，嵌入式设备上的采样频率为8Hz。为了便于相关设备计算、传输和存储，采样后的信号还要转换为二进制表示的离散值，这一过程就是A/D转换，并且为了保证A/D转换达到足够的精度，通常可以采用均匀量化和脉冲编码调制(Pulse Code Modulation，PCM)技术进行处理，通常可以采用16bit量化处理采样后的信号。

　　预加重、分帧和加窗：对于经上述采样和量化处理后得到的语音信号，可以采用语音活动性检测(voice activity detection，VAD)技术对其做进一步处理，VAD用于在有背景噪声存在的情况下正确区分语音段和非语音段的技术，其在自动语音识别、语音增强、识别说话人等语音信号处理场景中均是极为重要的预处理步骤。

　　由于语音信号中的高频部分在800Hz以上会有-6dB/倍程的跌落，通过预加重处理可以提升语音信号高频部分的处理质量，使得频谱更加平滑，通常情况下，预加重可以通过一个一阶高通滤波器实现。此外，对语音信号进行分析前，还需要对其进行分帧处理，示例性的，可以将语音信号的每帧长度设为20ms，相邻两帧之间有10ms的重叠，为了实现分帧步骤，服务器需要对语音信号进行加窗处理，不同窗口长度的选择对于语音信号的分析结果会产生影响。

　　语音信号分析-频域分析：在语音信号分析中，常用的频域分析方法包括滤波器组合傅里叶变换法，当采用宽带带通滤波器时，频率分辨率较低，其与加窗处理中窗口长度较短的处理结果相近，当采用窄带带通滤波器时，频率分辨率较高，其与加窗处理中窗口长度较长的处理结果相近。通常采用一组滤波器对语音输入信号进行滤波处理，分离出语音输入信号中不同中心频率的分量，再基于不同中心频率的分量进行后续的分析和特征提取处理。

　　在特征提取处理中，通常提取的特征参数可以包括但不限于以下几种：基音周期、共振峰、短时平均能量或幅度、语音线性预测系数(LinearPredictionCoefficient，LPC)、感知加权预测系数(Perceptual Linear Predictive，PLP)、短时平均过零率、线性预测倒谱系数(Linear Prediction Cepstrum Coefficient，LPCC)、自相关函数、梅尔倒谱系数(Mel Frequency Cepstrum Coefficient，MFCC)、小波变换系数、经验模态分解系数(Empirical Mode Decomposition，EMD)、伽马通滤波器系数(Gammatone Filter CepstralCoefficient，GFCC)。

　　在模型构建处理中，服务器可以采用隐马尔可夫模型(Hidden Markov Model，HMM)技术，基于所提取出的特征参数构建声学模型。马尔可夫链是马尔可夫随机过程的特殊情况，其状态参数和时间参数都是离散的，在实际应用中，由于观察到的事件与状态并不一一对应，因此二者间的对应关系可以通过一组概率分布来描述，这就是HMM模型。服务器可以通过HMM针对由从语音信号中提取出的特征参数构成的时间序列建立统计模型，由两个相互关联的随机过程共同描述语音信号的统计特性，其中一个是用具有有限状态数的马尔可夫链模拟语音信号统计特性变化的随机过程，其用于描述状态的转移，另一个随机过程用于描述状态和观察值之间的统计关系，以使观察者只能看到观测值，而不能看到状态，这种感知状态存在的随机过程也可被视为一条“隐”链，因此整个模型被称为“隐”马尔可夫模型。

　　在模型匹配处理中，使用到了LSTM模型进行语音识别。LSTM是一种特殊的循环神经网络(Recurrent Neural Network，RNN)，其主要是用于解决长序列训练过程中的梯度消失和梯度爆炸的问题，图6所示为LSTM模型的工作原理示意图，其通过门控状态来控制传输状态，记住需要长时间记忆的，忘记不重要的信息，相比普通的RNN，LSTM在长序列的识别中具有更好的表现。

　　步骤402：根据所述第二音频和所述目标音频的第二部分对应的标准音频，进行音准匹配度识别，确定所述目标第二用户对应的音准得分。

　　在音准识别处理中，服务器同样需要将第二音频和标准音频转换为数字信号，进而基于转换得到的数字信号进行音高识别，通过快速傅里叶变换(Fast FourierTransmit，FFT)算法进行第二音频和标准音频的音准特征提取，对所提取出的音准特征进行匹配，以确定音准得分。

　　具体实现时，服务器可以先对第二音频和目标音频的第二部分对应的标准音频分别进行快速傅里叶变换，得到第二音频和标准音频各自对应的频域特征；然后根据该第二音频和标准音频各自对应的频域特征，确定该第二音频和标准音频各自对应的时域幅值；进而，根据该第二音频和标准音频各自对应的时域幅值之间的差值，确定第二用户对应的音准得分。

　　下面先对此部分处理涉及的基本原理进行介绍：

　　频谱原理：根据傅里叶分析原理，任何声音均可以被分解为数个甚至无限个正弦波，这些正弦波中往往包含有无数的谐波分量，这些谐波分量往往是时刻变化的，因此，一个声音的构成实际上是非常复杂的。为了简化表示声音的构成，可以将其的频率分量绘制成曲线，由此形成了频谱。

　　基频：其对应于声带振动的幅度，代表声音的音高；基频越高，声带振动越快，发出的声音也越尖锐。通常来说，在干净的声音频谱(是指非嘶吼且不混杂由其它声音的频率)上，最低的那个明显的峰即代表基频，而基频整数倍的频率所对应的峰便是其共振产生的谐波，基频通常可以用频率值f或者周期值T来表示。

　　下面对FFT算法进行介绍。

　　FFT算法是将时域转化为频域的算法，FFT实际上是离散傅里叶变换(DiscreteFourier Transform，DFT)的快速算法，在数字信号的处理中，通常需要采用FFT算法得到信号的频域特征，变换的目的实际上是在频域中来同一个信号，这样可以更容易地分析出信号的特性。

　　经FFT算法处理后会得到一串复数，其是声音波形对应频率下的幅度特征，而并非幅值。服务器还需要基于该幅度特征进一步获取频率以及幅值。

　　获取频率：由于频率只与采样率和进行快速傅里叶变化的点数相关，FFT变换完得到的第一个复数对应0Hz频率(即没有波动，又称直流分量)，后面得到的第二个复数对应的频率为大于0Hz+频谱分辨率，每隔一个加一次，频谱分辨率的计算公式如下：

　　Δf＝Fs/N

　　其中，Fs为采样率，N为FFT算法中的点数，通常只要Fs和N确定，那么频域即确定了。

　　获取幅值：假设原始声音信号的峰值为A，那么经FFT算法处理得到的结果中的每个点(除了为直流分量的第一个点之外)的模值均为A的N/2倍。由于第一个点是直流分量，因此其模值为直流分量的N倍。也就是说，若要确定真实的幅值，需要把第一个点(i＝0)以及最后一个点(i＝N/2)的模值除以N，把其余点的模值除以N/2，其原因在于，傅里叶级数对应的时域幅值中已经包含了1/N项，而fourier变换中并没有该系数，所以，执行完FFT变换后需除以N/2才能与时域对应上，得到时域幅值。

　　应理解，在实际应用中，服务器可以先执行步骤401，后执行步骤402，也可以先执行步骤402，后执行步骤402，还可以同时执行步骤401和步骤402，本申请在此不对步骤401和步骤402的执行顺序做任何限定。

　　步骤403：根据所述目标第二用户对应的歌词得分和音准得分，确定所述目标第二用户针对所述目标音频的得分。

　　服务器计算得到目标第二用户对应的歌词得分和音准得分后，可以直接计算二者的和值作为目标第二用户针对目标音频的得分，也可以根据实际需求，对歌词得分和音准得分进行加权处理得到目标第二用户针对目标音频的得分，本申请在此不对确定目标第二用户针对目标音频的得分的方式做任何限定。

　　通过上述方式确定目标第二用户针对目标音频的得分，可以保证所确定的得分的准确性，为目标第二用户上传的第二音频给出公正合理的评价结果。

　　针对上文描述的直播互动方法，本申请还提供了对应的直播互动装置，以使上述直播互动方法在实际中的应用以及实现。

　　参见图7，图7为上文图2所示的直播互动方法对应的一种直播互动装置700的结构示意图，该直播互动装置700包括：

　　第一音频接收模块701，用于接收目标直播间中的第一用户上传的第一音频，所述第一音频对应于目标音频的第一部分；

　　第一音频发送模块702，用于将所述第一音频发送给所述目标直播间中的第二用户；

　　音频上传请求接收模块703，用于接收所述第二用户发起的音频上传请求，所述音频上传请求用于表征所述第二用户请求基于所述第一音频上传第二音频，所述第二音频对应于所述目标音频的第二部分；

　　目标第二用户确定模块704，用于基于所述音频上传请求，在所述目标直播间中的各个第二用户中确定目标第二用户；

　　第二音频接收模块705，用于接收所述目标第二用户基于所述第一音频上传的所述第二音频；

　　第二音频打分模块706，用于根据所述第二音频与所述目标音频的第二部分对应的标准音频之间的匹配度，确定所述目标第二用户针对所述目标音频的得分。

　　可选的，在图7所示的直播互动装置的基础上，在接收到多个所述第二用户发起的多个所述音频上传请求的情况下，所述目标第二用户确定模块704具体用于：

　　根据所述多个音频上传请求各自对应的接收时间，确定接收时间最早的所述音频上传请求对应的第二用户，作为所述目标第二用户。

　　可选的，在图7所示的直播互动装置的基础上，参见图8，图8为本申请实施例提供的另一种直播互动装置800的结构示意图。如图8所示，该装置还包括：

　　候选音频发送模块801，用于向所述第一用户发送多个候选音频列表以及所述多个候选音频列表各自对应的虚拟奖励数额；

　　第一请求接收模块802，用于接收所述第一用户发起的音频列表选择请求以及虚拟奖励支付请求；所述音频列表选择请求用于表征所述第一用户在所述多个候选音频列表中选择的目标音频列表；所述虚拟奖励支付请求用于表征所述第一用户支付目标虚拟奖励，所述目标虚拟奖励与所述目标音频列表对应的虚拟奖励数额相匹配。

　　可选的，在图7所示的直播互动装置的基础上，参见图9，图9为本申请实施例提供的另一种直播互动装置900的结构示意图。如图9所示，所述装置还包括：

　　奖励分配模块901，用于根据所述目标第二用户针对所述目标音频的得分，为所述目标第二用户分配虚拟奖励。

　　可选的，在图7或图9所示的直播互动装置的基础上，所述第一用户上传N个所述第一音频，N个所述第一音频分别对应N个所述目标音频；所述N为大于1的整数；

　　所述目标第二用户确定模块704具体用于：

　　基于所述第二用户针对第i个第一音频发起的所述音频上传请求，确定第i个目标音频对应的目标第二用户；所述第i个第一音频对应于所述第i个目标音频的第一部分，所述i为大于等于1，且小于等于所述N的整数；

　　所述第二音频接收模块705具体用于：

　　接收所述第i个目标音频对应的目标第二用户基于所述第i个第一音频上传的所述第二音频；

　　所述第二音频打分模块706具体用于：

　　根据所述第i个目标音频对应的目标第二用户上传的所述第二音频与所述第i个目标音频的第二部分对应的标准音频之间的匹配度，确定所述第i个目标音频对应的目标第二用户针对所述第i个目标音频的得分；

　　针对所述目标直播间中除所述第i个目标音频对应的目标第二用户以外的第二用户，确定其针对所述第i个目标音频的得分为0。

　　可选的，在图7或图9所示的直播互动装置的基础上，所述奖励分配模块901还用于：

　　针对所述目标直播间中的每个所述第二用户，根据所述第二用户针对所述N个目标音频的得分，确定所述第二用户对应的总得分；

　　确定所对应的总得分最高的所述第二用户为获胜第二用户，为所述获胜第二用户分配虚拟奖励。

　　可选的，在图7或图9所示的直播互动装置的基础上，参见图10，图10为本申请实施例提供的另一种直播互动装置1000的结构示意图。如图10所示，该装置还包括：

　　音频专辑提供模块1001，用于确定所述获胜第二用户上传的所述第二音频，作为待合成第二音频；确定所述待合成第二音频所基于的所述第一音频，作为待合成第一音频；根据所述待合成第一音频和所述待合成第二音频生成音频专辑；将所述音频专辑发送给所述第一用户和所述获胜第二用户，以便所述第一用户和所述获胜第二用户下载获取所述音频专辑。

　　可选的，在图7所示的直播互动装置的基础上，参见图11，图11为本申请实施例提供的另一种直播互动装置1100的结构示意图。如图11所示，所述第二音频打分模块706包括：

　　歌词打分模块1101，用于根据所述第二音频和所述目标音频的第二部分对应的标准音频，进行歌词匹配度识别，确定所述目标第二用户对应的歌词得分；

　　音准打分模块1102，用于根据所述第二音频和所述目标音频的第二部分对应的标准音频，进行音准匹配度识别，确定所述目标第二用户对应的音准得分；

　　得分确定模块1103，用于根据所述第二用户对应的歌词得分和音准得分，确定所述目标第二用户针对所述目标音频的得分。

　　可选的，在图11所示的直播互动装置的基础上，所述歌词打分模块1101具体用于：

　　从所述第二音频中抽取出所述目标第二用户发出的目标音频信号；

　　对所述目标音频信号进行特征提取操作，得到目标特征参数；

　　根据所述目标特征参数构建所述目标音频信号对应的目标声学模型；并且从所述声学模型库中调取所述目标音频的第二部分对应的标准声学模型；

　　通过长短时记忆LSTM模型，确定所述目标声学模型与所述标准声学模型之间的匹配度，作为所述歌词得分。

　　可选的，在图11所示的直播互动装置的基础上，所述音准打分模块1102具体用于；

　　对所述第二音频和所述目标音频的第二部分对应的标准音频分别进行快速傅里叶变换，得到所述第二音频和所述标准音频各自对应的频域特征；

　　根据所述第二音频和所述标准音频各自对应的频域特征，确定所述第二音频和所述标准音频各自对应的时域幅值；

　　根据所述第二音频和所述标准音频各自对应的时域幅值之间的差值，确定所述音准得分。

　　在本申请实施例提供的直播互动装置中，目标直播间中的第一用户和第二用户可以通过抢麦接音频(如接歌等)的方式进行直播互动，在此过程中，目标直播间内的第一用户和第二用户均可充分地参与直播互动，由此大幅增强目标直播间内的第一用户和第二用户的互动感，提高目标直播间内的第一用户和第二用户的互动体验。此外，根据第二用户针对目标音频的得分为第二用户分配虚拟奖励，可以进一步提高目标直播间内第二用户的参与积极性，增强网络直播的活跃度。

　　本申请实施例还提供了一种用于直播互动的设备，该设备具体可以为服务器，下面将从硬件实体化的角度对本申请实施例提供的服务器进行介绍。

　　参见图12，图12为本申请实施例提供的一种服务器1200的结构示意图。该服务器1200可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上中央处理器(central processing units，CPU)1222(例如，一个或一个以上处理器)和存储器1232，一个或一个以上存储应用程序1242或数据1244的存储介质1230(例如一个或一个以上海量存储设备)。其中，存储器1232和存储介质1230可以是短暂存储或持久存储。存储在存储介质1230的程序可以包括一个或一个以上模块(图示没标出)，每个模块可以包括对服务器中的一系列指令操作。更进一步地，中央处理器1222可以设置为与存储介质1230通信，在服务器1200上执行存储介质1230中的一系列指令操作。

　　服务器1200还可以包括一个或一个以上电源1226，一个或一个以上有线或无线网络接口1250，一个或一个以上输入输出接口1258，和/或，一个或一个以上操作系统1241，例如Windows ServerTM，Mac OS XTM，UnixTM,LinuxTM，FreeBSDTM等等。

　　上述实施例中由服务器所执行的步骤可以基于该图12所示的服务器结构。

　　其中，CPU 1222用于执行如下步骤：

　　接收目标直播间中的第一用户上传的第一音频，所述第一音频对应于目标音频的第一部分；

　　将所述第一音频发送给所述目标直播间中的各个第二用户；

　　基于所述音频上传请求，在所述目标直播间中的各个第二用户中确定目标第二用户；

　　接收所述目标第二用户基于所述第一音频上传的所述第二音频；

　　根据所述第二音频与所述目标音频的第二部分对应的标准音频之间的匹配度，确定所述目标第二用户针对所述目标音频的得分。

　　可选的，CPU 1222还可以用于执行本申请实施例提供的直播互动方法的任意一种实现方式的步骤。

　　本申请实施例还提供一种计算机可读存储介质，用于存储计算机程序，该计算机程序用于执行前述各个实施例所述的一种直播互动方法中的任意一种实施方式。

　　本申请实施例还提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行前述各个实施例所述的一种直播互动方法中的任意一种实施方式。

　　所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统，装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

　　在本申请所提供的几个实施例中，应该理解到，所揭露的系统，装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

　　所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

　　另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

　　所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(英文全称：Read-OnlyMemory，英文缩写：ROM)、随机存取存储器(英文全称：Random Access Memory，英文缩写：RAM)、磁碟或者光盘等各种可以存储计算机程序的介质。

　　应当理解，在本申请中，“至少一个(项)”是指一个或者多个，“多个”是指两个或两个以上。“和/或”，用于描述关联对象的关联关系，表示可以存在三种关系，例如，“A和/或B”可以表示：只存在A，只存在B以及同时存在A和B三种情况，其中A，B可以是单数或者复数。字符“/”一般表示前后关联对象是一种“或”的关系。“以下至少一项(个)”或其类似表达，是指这些项中的任意组合，包括单项(个)或复数项(个)的任意组合。例如，a，b或c中的至少一项(个)，可以表示：a，b，c，“a和b”，“a和c”，“b和c”，或“a和b和c”，其中a，b，c可以是单个，也可以是多个。

　　以上所述，以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

《一种直播互动方法、装置、系统、设备及存储介质.doc》

将本文的Word文档下载到电脑，方便收藏和打印

推荐度：

点击下载文档

文档为doc格式(或pdf格式)

电通讯技术图文推荐

上一篇：IP数据长连接的方法、装置和计算机设备

下一篇：一种人流量分析方法、存储介质及处理器