当前位置：首页 > 生活技术 > 运动娱乐> 语音处理方法、装置、外设操控设备及电子设备独创技术61872字

语音处理方法、装置、外设操控设备及电子设备

2021-03-30 08:57:17

语音处理方法、装置、外设操控设备及电子设备

　　技术领域

　　本申请涉及计算机技术领域，尤其涉及人工智能、深度学习、自然语言处理及语音交互技术领域，提出一种语音处理方法、装置、外设操控设备及电子设备。

　　背景技术

　　随着语音识别技术的发展，通过语音的形式进行文本信息的输入已经越来越普及。语音输入技术提升了文本输入的便捷性，解决了手动操作输入效率较低的问题。

　　相关技术中，通常通过在鼠标、键盘、游戏柄等外设操控设备中集成语音输入触发组件，实现语音输入。但是，在语音输入过程中，对外设操控设备的其他操作会产生大量震动、弹簧碰撞等噪音，从而使得获取的语音数据中包含大量噪音，降低了语音识别的准确度。

　　发明内容

　　本申请提供了一种用于语音处理的方法、装置、外设操控设备、电子设备以及存储介质。

　　根据本申请的一方面，提供了一种语音处理方法，包括：响应于获取的外设操控设备发送的语音识别接口调用请求，启动语音识别流程；获取所述外设操控设备的类型；根据所述外设操控设备的类型，确定目标语音降噪模式；根据所述目标语音降噪模式，对所述外设操控设备发送的语音数据进行降噪处理，以获取降噪后的语音数据；以及对所述降噪后的语音数据进行语音识别，以生成文本数据。

　　根据本申请的另一方面，提供了一种语音处理方法，包括：响应于语音输入触发组件获取的语音输入请求，启动拾音组件；向输入法应用程序发送语音识别接口调用请求，以使所述输入法应用程序启动语音识别流程；对所述拾音组件获取的语音数据进行降噪处理，以获取降噪后的语音数据；将所述降噪后的语音数据同步给所述输入法应用程序，以使所述输入法应用程序对所述降噪后的语音数据进行语音识别。

　　根据本申请的再一方面，提供了一种电子设备的外设操控设备，包括：主体、设置在所述主体上的语音输入触发组件、拾音组件及装载在所述电子设备内的驱动程序，当所述驱动程序被执行时，以完成如本申请另一方面所述的语音处理方法；其中，拾音组件与操控组件及语音输入触发组件间设置有隔音材料。

　　根据本申请的又一方面，提供了一种语音处理装置，包括：第一启动模块，用于响应于获取的外设操控设备发送的语音识别接口调用请求，启动语音识别流程；第一获取模块，用于获取所述外设操控设备的类型；第一确定模块，用于根据所述外设操控设备的类型，确定目标语音降噪模式；第一降噪处理模块，用于根据所述目标语音降噪模式，对所述外设操控设备发送的语音数据进行降噪处理，以获取降噪后的语音数据；以及语音识别模块，用于对所述降噪后的语音数据进行语音识别，以生成文本数据。

　　根据本申请的又一方面，提供了一种语音处理装置，包括：第二启动模块，用于响应于语音输入触发组件获取的语音输入请求，启动拾音组件；第二发送模块，用于向输入法应用程序发送语音识别接口调用请求，以使所述输入法应用程序启动语音识别流程；第二降噪处理模块，用于对所述拾音组件获取的语音数据进行降噪处理，以获取降噪后的语音数据；同步模块，用于将所述降噪后的语音数据同步给所述输入法应用程序，以使所述输入法应用程序对所述降噪后的语音数据进行语音识别。

　　根据本申请的另一方面，提供了一种电子设备，包括：至少一个处理器；以及与所述至少一个处理器通信连接的存储器；其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行如前所述的语音处理方法。

　　根据本申请的再一方面，提供了一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行如前所述的语音处理方法。

　　根据本申请的技术方案，解决了具有语音输入功能的外设操控设备，在语音输入过程中，对外设操控设备的其他操作会产生大量震动、弹簧碰撞等噪音，从而使得获取的语音数据中包含大量噪音，降低了语音识别的准确度的问题。通过输入法应用程序在获取到外设操控设备发送的语音识别接口调用请求时，启动语音识别流程，并利用与外设操控设备对应的目标语音降噪模式，对获取的语音数据进行降噪处理，进而对降噪后的语音数据进行语音识别，以生成文本数据。由此，通过对获取的语音数据进行降噪处理，降低了语音数据中包括的外设操控设备中的其他操作所产生的噪声水平，从而提升了语音数据的质量，以及语音数据的识别准确度。

　　应当理解，本部分所描述的内容并非旨在标识本申请的实施例的关键或重要特征，也不用于限制本申请的范围。本申请的其它特征将通过以下的说明书而变得容易理解。

　　附图说明

　　附图用于更好地理解本方案，不构成对本申请的限定。其中：

　　图1为本申请实施例所提供的一种语音处理方法的流程示意图；

　　图2为本申请实施例所提供的另一种语音处理方法的流程示意图；

　　图3为本申请实施例所提供的再一种语音处理方法的流程示意图；

　　图4为本申请实施例所提供的又一种语音处理方法的流程示意图；

　　图5为本申请实施例所提供的一种语音处理方法的信令交互图；

　　图6为本申请实施例所提供的一种电子设备的外设操控设备的结构示意图；

　　图7为本申请实施例所提供的另一种电子设备的外设操控设备的结构示意图；

　　图8为本申请实施例所提供的再一种电子设备的外设操控设备的结构示意图；

　　图9为本申请实施例提供的一种语音处理装置的结构示意图；

　　图10为本申请实施例提供的另一种语音处理装置的结构示意图；

　　图11为用来实现本申请实施例的语音处理方法的电子设备的框图。

　　具体实施方式

　　以下结合附图对本申请的示范性实施例做出说明，其中包括本申请实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本申请的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

　　本申请实施例针对相关技术中，具有语音输入功能的外设操控设备，在语音输入过程中，对外设操控设备的其他操作会产生大量震动、弹簧碰撞等噪音，从而使得获取的语音数据中包含大量噪音，降低了语音识别的准确度的问题，提出一种语音处理方法。

　　下面参考附图对本申请提供的语音处理方法、装置、电子设备及存储介质进行详细描述。

　　图1为本申请实施例所提供的一种语音处理方法的流程示意图，应用于输入法应用程序。

　　如图1所示，该语音处理方法，包括以下步骤：

　　步骤101，响应于获取的外设操控设备发送的语音识别接口调用请求，启动语音识别流程。

　　需要说明的是，对于具有语音输入功能的外设操控设备，可以在外设操控设备中设置语音输入触发组件，以在语音输入触发组件被触发时，获取语音数据，实现语音输入。但是，在外设操控设备中的语音输入触发组件被触发以进行语音输入时，如果用户还需要操控外设操控设备中的其他按键，则会导致采集的语音数据中包含大量噪音，从而降低了后续对语音数据的识别准确性。相关技术中，通常在进行语音输入时，禁止用户对外设操控设备中的其他按键进行操作，以降低采集的语音数据中的噪声水平。但是，这种方式会导致语音输入和传统输入操作无法同步进行，降低了外设操控设备的操作效率，影响用户体验。因此，在本申请实施例中，输入法应用程序可以对获取的语音数据进行降噪处理，以提升对语音数据的识别准确度。

　　其中，外设操控设备，可以包括鼠标、键盘、触摸屏、游戏柄等操控组件，但不仅限于此。实际使用时，可以根据实际需要和具体的应用场景，将任意具有语音输入功能的输入设备，确定为外设操控设备，本申请实施例对此不做限定。

　　其中，语音识别接口调用请求，可以是外设操控设备在检测到语音输入触发组件被触发时生成，并发送至输入法应用程序的。

　　在本申请实施例中，可以在外设操控设备的主体中设置语音输入触发组件，语音输入触发组件可以包括三种状态：自然态、按下态和弹起态。外设操控设备可以在检测到语音输入触发组件处于按下态时，即语音输入触发组件被按下的瞬间，生成语音识别接口调用请求并发送至输入法应用程序，输入法应用程序可以在获取到语音识别接口调用请求时，启动语音识别流程，以准备进行语音数据接收和语音数据识别过程。

　　举例来说，若当前的应用场景为游戏场景，外设操控设备为键盘，键盘中的语音输入触发组件为语音输入按键，则用户在游戏过程中，需要向队友或对手发送语音或文本信息时，可以按下语音输入按键，键盘则可以在检测到语音输入按键处于按下态时，生成语音识别接口调用指令并发送至输入法应用程序，输入法应用程序启动语音识别流程，而在语音输入按键处于按下态时，由于键盘和输入法并没有定位光标，则用户还可以同时操控键盘进行游戏操作。

　　步骤102，获取外设操控设备的类型。

　　在本申请实施例中，由于外设操控设备可以同时进行语音输入和传统输入操作，而传统输入操作时会产生噪声，从而使得采集的语音数据中包含大量噪声，容易影响后续对语音数据进行识别的准确度。因此，在本申请实施例中，输入法应用程序还可以在语音识别流程中对获取的语音数据进行降噪处理，以提升对语音数据进行识别的准确度。

　　作为一种可能的实现方式，由于各种外设操控设备产生的噪声类型、幅值、频率等都各不相同，如键盘产生噪声通常较多、幅值较大，而鼠标产生的噪音通常幅值较低。因此，在本申请实施例中，对于不同类型的外设操控设备采集的语音数据，可以采用不同的降噪模式对语音数据进行降噪。从而可以首先确定发送语音识别接口调用请求的外设操控设备的类型，以根据外设操控设备的类型确定对语音数据的降噪模式。

　　可选地，在本申请实施例一种可能的实现形式中，外设操控设备的类型可以包含在语音识别接口调用请求中，从而输入法应用程序可以对语音识别接口调用请求进行解析处理，以确定外设操控设备的类型。

　　可选地，在本申请实施例另一种可能的实现形式中，输入法应用程序还可以在获取到语音识别接口调用请求之后，向外设操控设备发送类型获取指令，以使外设操控设备向输入法应用程序反馈自身的外设操控设备的类型。

　　步骤103，根据外设操控设备的类型，确定目标语音降噪模式。

　　在本申请实施例中，可以预先设置外设操控设备的类型与语音降噪模式的映射关系，从而输入法应用程序可以根据外设操控设备的类型与语音降噪模式的映射关系，获取与外设操控设备的类型对应的语音降噪模式，并将该语音降噪模式确定为目标语音降噪模式。

　　步骤104，根据目标语音降噪模式，对外设操控设备发送的语音数据进行降噪处理，以获取降噪后的语音数据。

　　在本申请实施例中，确定出外设操控设备对应的目标语音降噪模式之后，输入法应用程序即可以利用目标语音降噪模式对获取的语音数据进行降噪处理，以生成质量较高的语音数据。

　　步骤105，对降噪后的语音数据进行语音识别，以生成文本数据。

　　在本申请实施例中，输入法应用程序对语音数据进行降噪处理之后，可以利用自然语言处理模型将语音数据转换为对应的文本数据。需要说明的是，实际使用时，可以采用预先训练的深度学习模型对文本数据进行语音识别，以通过人工智能的方式实现应用程序与用户的语音交互功能。

　　作为一种可能的实现方式，对语音数据进行语音识别所使用的自然语言处理模型，可以是预先训练的基于深度学习的语音识别模型。具体的，可以获取大量外设操控设备获取的语音数据，作为样本语音数据，并利用样本语音数据对应的实际文本数据对相应的样本语音数据进行标注，之后利用初始语音识别模型对各样本语音数据进行语音识别，以确定各样本语音数据对应的预测文本数据，进而根据各样本语音数据对应的实际文本数据与预测文本数据的差异，确定初始语音识别模型的损失值，进而根据损失值对初始语音识别模型进行更新，并利用更新后的语音识别模型重复上述训练过程，直至更新后的语音识别模型的损失值处于预设范围，则可以完成对语音识别模型的训练过程。

　　举例来说，若当前的应用场景为游戏场景，输入法应用程序获取到的语音数据为“队友A，你还在线吗”，则输入法应用程序对该语音数据进行语音识别，可以确定该语音数据对应的文本数据为“队友A，你还在线吗”。

　　根据本申请实施例的技术方案，通过输入法应用程序在获取到外设操控设备发送的语音识别接口调用请求时，启动语音识别流程，并利用与外设操控设备对应的目标语音降噪模式，对获取的语音数据进行降噪处理，进而对降噪后的语音数据进行语音识别，以生成文本数据。由此，通过对获取的语音数据进行降噪处理，降低了语音数据中包括的外设操控设备中的其他操作所产生的噪声水平，从而提升了语音数据的质量，以及对语音数据的识别准确度。

　　在本申请一种可能的实现形式中，由于不同类型的外设操控设备产生的噪声特点不同，从而可以利用各类型外设操控设备采集的音频数据，训练各类型的外设操控设备对应的语音降噪模式，以进一步提升对语音数据的降噪效果。

　　下面结合图2，对本申请实施例提供的语音处理方法进行进一步说明。

　　图2为本申请实施例所提供的另一种语音处理方法的流程示意图，应用于输入法应用程序。

　　如图2所示，该语音处理方法，包括以下步骤：

　　步骤201，响应于获取的外设操控设备发送的语音识别接口调用请求，启动语音识别流程。

　　步骤202，获取外设操控设备的类型。

　　上述步骤201-202的具体实现过程及原理，可以参照上述实施例的详细描述，此处不再赘述。

　　步骤203，获取与各类型的外设操控设备分别对应的操作音频数据集，其中，每个操作音频数据集中包括每个类型的外设操控设备执行不同操作时产生的音频数据。

　　在本申请实例中，由于各种外设操控设备产生的噪声类型、幅值、频率等都各不相同，如键盘产生噪声通常较多、幅值较大，而鼠标产生的噪音通常幅值较低。因此，在本申请实施例中，对于不同类型的外设操控设备，可以分别训练不同的语音降噪模式，以提升对语音数据的降噪效果。

　　作为一种可能的实现方式，可以利用各类型的外设操控设备采集的语音数据，分别对各类型的外设操控设备对应的语音降噪模式进行训练。因此，可以获取与各类型的外设操控设备分别在执行不同操作时产生的音频数据，以构成各类型的外设操控设备分别对应的操作音频数据集，作为各类型的外设操控设备分别对应的训练数据集。

　　举例来说，外设操控设备的类型包括键盘、鼠标和游戏柄，则可以获取大量键盘在进行语音输入的同时进行其他操作时产生的音频数据，作为键盘对应的操作音频数据集；可以获取大量鼠标在进行语音输入的同时进行其他操作时产生的音频数据，作为鼠标对应的操作音频数据集；可以获取大量游戏柄在进行语音输入的同时进行其他操作时产生的音频数据，作为游戏柄对应的操作音频数据集。

　　步骤204，对每个操作音频数据集进行学习，以确定每个类型的外设操控设备对应的语音降噪模式。

　　在本申请实施例中，获取到每个类型的外设操控设备对应的操作音频数据集之后，可以分别对每个操作音频数据集进行学习，以确定每个类型的外设操控设备对应的语音降噪模式。

　　作为一种可能的实现方式，对于一个类型的外设操控设备，可以将该类型的外设操控设备对应的操作音频数据集作为样本数据，并利用操作音频数据集中的每个操作音频数据对应的实际文本数据对相应的操作音频数据进行标注。之后，利用初始语音降噪模型对每个操作音频数据进行降噪处理，并将降噪后的操作音频数据转换为文本数据，以确定每个操作音频数据对应的预测文本数据，进而根据每个操作音频数据对应的预测文本数据与实际文本数据的差异，确定初始语音降噪模型的损失值，进而根据损失值对初始语音降噪模型的参数进行更新，并利用更新后的语音降噪模型重复上述训练过程，直至更新后的语音降噪模型的损失值处于预设范围，则完成对该类型的外设操控设备对应的语音降噪模型的训练过程，并将最终生成的语音降噪模型作为该类型的外设操控设备对应的语音降噪模式。相应的，按照相同的训练过程可以确定出各类型的外设操控设备对应的语音降噪模式。

　　需要说明的是，外设操控设备对应的语音降噪模式的确定方式，可以包括但不限于以上列举的情形。实际使用时，可以根据实际需要及具体的应用场景，确定各类型的外设操控设备对应的语音降噪模式，本申请实施例对此不做限定。比如，还可以根据各类型的外设操控设备产生的噪声特点(如幅值、频率等)，选择合适的滤波器，分别对各类型的外设操控设备采集的语音数据进行降噪处理。

　　步骤205，根据外设操控设备的类型，确定目标语音降噪模式。

　　步骤206，根据目标语音降噪模式，对外设操控设备发送的语音数据进行降噪处理，以获取降噪后的语音数据。

　　上述步骤205-206的具体实现过程及原理，可以参照上述实施例的详细描述，此处不再赘述。

　　步骤207，确定当前关联的目标应用程序的类型。

　　其中，目标应用程序，可以是当前与输入法应用程序关联的应用程序。比如，可以是输入法应用程序所在的电子设备中，正在被操作的应用程序。

　　其中，应用程序的类型，可以包括视频、游戏、文档等类型。实际使用时，应用程序的类型可以根据实际需要及具体的应用场景预设，本申请实施例对此不做限定。

　　需要说明的是，由于在不同的使用场景中，用户输入的高频语音数据通常是不同的。比如，可以根据用户使用的应用程序的类型，对使用场景进行划分，并利用不同的语音识别模型对获取的语音数据进行语音识别，以对语音识别的准确度进行场景化提升，进一步提升语音识别的准确度。

　　作为一种可能的实现方式，预设应用程序与类型的映射关系，从而输入法应用程序在对获取的语音数据进行降噪处理之后，可以根据应用程序与类型的映射关系，确定目标应用程序的类型。

　　作为另一种可能的实现方式，输入法应用程序还可以向目标应用程序发送类型获取请求，以使目标应用程序向输入法应用程序返回自身的应用程序类型。

　　步骤208，根据目标应用程序的类型，确定目标语音识别模型。

　　在本申请实施例中，可以预设应用程序的类型与语音识别模型的映射关系，从而可以在确定出目标应用程序的类型之后，根据预设的应用程序的类型与语音识别模型的映射关系，确定与目标应用程序的类型对应的目标语音识别模型。

　　进一步的，可以预先训练各类型的应用程序对应的语音识别模型。即在本申请实施例一种可能的实现形式中，上述步骤208之前，还可以包括：

　　获取与各个类型的应用程序分别对应的各个训练语料集，其中，每个训练语料集中包括多个语音数据及对应的多个文本数据；

　　分别利用每个训练语料集对初始语音识别模型进行训练，以生成与各个类型的应用程序分别对应的各个语音识别模型。

　　其中，应用程序对应的训练语料集，可以包括用户使用该应用程序时输入频率较高的语音数据，以及各语音数据分别对应的文本数据。

　　在本申请实施例中，可以获取各个类型的应用程序分别对应的各个训练语料集。对于一个类型的应用程序，可以利用初始语音识别模型对该类型的应用程序对应的语料数据集中的每个语音数据进行语音识别处理，以将每个语音数据转换为文本数据，从而确定出每个语音数据对应的预测文本数据，进而根据每个语音数据对应的预测文本数据与训练语料集中相应的文本数据的差异，确定初始语音识别模型的损失值，进而根据损失值对初始语音识别模型的参数进行更新，并利用更新后的语音识别模型重复上述训练过程，直至更新后的语音识别模型的损失值处于预设范围，则完成对该类型的应用程序对应的语音识别模型的训练过程，并将最终生成的语音识别模型作为该类型的应用程序对应的语音识别模型。相应的，按照相同的训练过程可以确定出各类型的应用程序对应的语音识别模型，从而实现了对语音识别效果的场景化提升。

　　步骤209，利用目标语音识别模型，对降噪后的语音数据进行语音识别，以生成文本数据。

　　在本申请实施例中，确定出目标语音识别模型之后，输入法应用程序则可以对降噪后的语音数据进行语音识别，以生成语音数据对应的文本数据。

　　根据本申请实施例的技术方案，通过对各类型的外设操控设备分别对应的操作音频数据集进行学习，生成各类型的外设操控设备分别对应的语音降噪模式，之后输入法应用程序根据当前使用的外设操控设备的类型对应的目标语音降噪模式，对获取的语音数据进行降噪，以及通过利用各个类型的应用程序对应的训练语料集对初始语音识别模型进行训练，以生成各个类型的应用程序分别对应的语音识别模型，进而利用与目标应用程序的类型对应的目标语音识别模型对降噪后的语音数据进行语音识别，以生成文本数据。由此，通过根据各类型的外设操控设备引入的噪声特点，对不同类型的外设操控设备分别训练不同的语音降噪模式，以及通过场景数据挖掘，分别训练不同应用程序类型分别对应的语音识别模型，以实现语音识别的场景化识别能力，从而不仅进一步提升了对语音数据的降噪效果，而且进一步提升了语音数据的识别准确性。

　　在本申请一种可能的实现形式中，输入法应用程序可以在对语音数据进行识别完成之后，控制目标应用程序定位光标，以使目标应用程序显示文本数据，从而实现了语音输入和传统输入操作的并行处理，提升了输入操作的效率。

　　下面结合图3，对本申请实施例提供的语音处理方法进行进一步说明。

　　图3为本申请实施例所提供的再一种语音处理方法的流程示意图，应用于输入法应用程序。

　　如图3所示，该语音处理方法，包括以下步骤：

　　步骤301，响应于获取的外设操控设备发送的语音识别接口调用请求，启动语音识别流程。

　　步骤302，获取外设操控设备的类型。

　　步骤303，根据外设操控设备的类型，确定目标语音降噪模式。

　　步骤304，根据目标语音降噪模式，对外设操控设备发送的语音数据进行降噪处理，以获取降噪后的语音数据。

　　步骤305，对降噪后的语音数据进行语音识别，以生成文本数据。

　　上述步骤301-305的具体实现过程及原理，可以参照上述实施例的详细描述，此处不再赘述。

　　步骤306，对文本数据进行意图识别，以确定文本数据对应的操作意图。

　　在本申请实施例中，输入法应用程序在获取到外设操控设备发送的语音数据之后，可以首先将语音数据转换为对应的文本数据，进而采用自然语言处理算法对语音数据对应的文本数据进行意图识别，以确定文本数据对应的操作意图。

　　作为一种可能的实现方式，对文本数据进行意图识别所使用的自然语言处理算法，可以是预先训练的基于深度学习的意图识别模型。具体的，可以获取大量外设操控设备获取的语音数据对应的文本数据，作为样本文本数据，并利用样本文本数据对应的实际意图对相应的样本文本数据进行标注，之后利用初始意图识别模型对各样本文本数据进行意图识别，以确定各样本文本数据对应的预测意图，进而根据各样本文本数据对应的实际意图与预测意图的差异，确定初始意图识别模型的损失值，进而根据损失值对初始意图识别模型进行更新，并利用更新后的意图识别模型重复上述训练过程，直至更新后的意图识别模型的损失值处于预设范围，则可以完成对意图识别模型的训练过程。

　　举例来说，若当前的应用场景为游戏场景，输入法应用程序将语音数据转换为文本数据为“队友A，你还在线吗，把语音发送给他”，则输入法应用程序对该文本数据进行意图识别，可以确定该文本数据对应的操作意图为“向队友A发送语音信息”。

　　步骤307，响应于获取的外设操控设备发送的语音数据结束指令，向当前关联的目标应用程序发送与操作意图对应的控制指令。

　　在本申请实施例中，外设操控设备可以在检测到语音输入组件处于弹起态时，即语音输入组件被松开的瞬间，生成语音数据结束指令并发送至输入法应用程序，从而输入法应用程序可以在获取到语音数据结束指令时，确定语音输入已完成，从而可以将对语音数据对应的文本数据的意图识别结果发送至当前关联的目标应用程序，以使目标应用程序执行与操作意图对应的控制指令。因此，输入法应用程序在语音数据输入和识别过程中均未对目标应用程序进行控制，从而在语音数据输入和识别过程中，目标应用程序可以正常执行用户通过外设操控设备发送的其他指令。

　　举例来说，若当前的应用场景为游戏场景，外设操控组件为键盘，语音输入组件为设置在键盘中的语音输入按键，则用户在游戏过程中，需要向队友或对手发送语音或文本信息时，可以按下语音输入按键，并在语音发送完毕时，松开语音输入按键，键盘则可以在检测到语音输入按键处于弹起态时，生成语音数据结束指令并发送至输入法应用程序，从而输入法应用程序将获取的语音数据转换为文本数据，并对文本数据进行意图识别，确定操作意图为“向队友A发送语音信息”，则可以将获取的语音数据发送至目标应用程序，以使目标应用程序将语音数据发送至队友A的账号。

　　进一步的，输入法应用程序还可以将语音数据转换为文本数据，通过目标应用程序进行发布，以实现文本内容的语音输入。即在本申请实施例一种可能的实现形式中，上述操作意图为文本发布；相应的，上述步骤307，可以包括：

　　将文本数据同步给目标应用程序，以使目标应用程序将文本数据显示在文本输入框。

　　在本申请实施例中，输入法应用程序在将文本数据同步给目标应用程序之前，还可以向目标应用程序发送文本输入框激活请求，以使目标应用程序将当前显示界面中的定位光标置于文本输入框内。从而，输入法应用程序在确定文本数据对应的操作意图为文本发布时，可以控制目标应用程序定位光标，以确定文本发布的位置。

　　需要是说明的是，输入法应用程序在获取到语音数据结束指令时，才控制目标应用程序定位光标，从而在语音输入和识别过程中，不会影响用户通过外设操控设备对目标应用程序的使用和操控。

　　举例来说，若当前的应用场景为游戏场景，外设操控设备为键盘，目标应用程序为用户正在使用的游戏应用程序，输入法应用程序获取到的语音数据为“队友A，你还在线吗”，输入法应用程序确定的语音数据对应的文本数据的操作意图为文本发布，则可以在获取到语音数据结束指令时，将语音数据转换为对应的文本数据“队友A，你还在线吗”，并向用户正在使用的游戏应用程序发送文本输入框激活请求，以使该游戏应用程序将定位光标置于聊天界面的文本输入框内。

　　在本申请实施例中，输入法应用程序向目标应用程序发送文本输入框激活请求之后，可以将语音数据对应的文本数据发送给目标应用程序，以使目标应用程序将文本数据显示在文本输入框内。

　　举例来说，若当前的应用场景为游戏场景，目标应用程序为用户正在使用的游戏应用程序，输入法应用程序将语音数据转换为对应的文本数据“队友A，你还在线吗”，从而输入法应用程序可以将文本数据“队友A，你还在线吗”发送给该游戏应用程序，以使该游戏应用程序在聊天界面的文本输入框中显示“队友A，你还在线吗”，之后根据用户操作将该文本数据发送至队友A的账号。

　　根据本申请实施例的技术方案，通过输入法应用程序在获取到外设操控设备发送的语音识别接口调用请求时，启动语音识别流程，并利用与外设操控设备对应的目标语音降噪模式，对获取的语音数据进行降噪处理，进而对降噪后的语音数据进行语音识别，以生成文本数据，之后对文本数据进行意图识别，以确定文本数据对应的操作意图，进而在获取到语音数据结束指令且确定操作意图为文本发布时，向当前关联的目标应用程序发送文本输入框激活请求，并将语音数据对应的文本数据发送至目标应用程序，以使目标应用程序将所述文本数据显示在文本输入框。由此，输入法应用程序在语音数据获取和识别过程中，无需对目标应用程序进行控制，进而在语音数据识别结束后控制目标应用程序定位光标，以使目标应用程序进行文本发布，从而不仅提升了语音识别的准确度，而且在语音输入过程中可以正常处理用户的其他输入操作，实现了同步进行语音输入与传统输入操作，提升了操作效率，改善了用户体验。

　　图4为本申请实施例所提供的又一种语音处理方法的流程示意图，应用于外设操控设备。

　　如图4所示，该语音处理方法，包括以下步骤：

　　步骤401，响应于语音输入触发组件获取的语音输入请求，启动拾音组件。

　　需要说明的是，本实施例的语音处理方法的执行主体为外设操控设备。其中，外设操控设备，可以包括鼠标、键盘、触摸屏、游戏柄等操控组件，但不仅限于此。实际使用时，可以根据实际需要和具体的应用场景，将任意具有语音输入功能的输入设备，确定为外设操控设备，本申请实施例对此不做限定。

　　其中，语音输入指令，可以是外设操控设备检测到语音输入触发组件处于按下态。

　　其中，拾音组件，可以设置在外设操控设备中，也可以通过通信接口与外设操控设备连接。拾音组件，可以是任意类型的可以采集声音数据的组件，本申请实施例对此不做限定。

　　在本申请实施例中，可以在外设操控设备中设置语音输入触发组件，语音输入触发组件可以包括三种状态：自然态、按下态和弹起态。外设操控设备可以在检测到语音输入触发组件处于按下态时，即语音输入触发组件被按下的瞬间，确定获取到语音输入指令，从而可以启动拾音组件，以通过拾音组件采集语音数据。

　　举例来说，若当前的应用场景为游戏场景，外设操控设备为键盘，语音输入触发组件为设置在键盘中的语音输入按键，则用户在游戏过程中，需要向队友或对手发送语音或文本信息时，可以按下语音输入按键，键盘则可以在检测到语音输入按键处于按下态时，确定获取到语音输入指令，从而可以启动拾音组件，以通过拾音组件采集用户的语音数据。而在语音按键处于按下态时，由于键盘和输入法并没有定位光标，则用户还可以同时操控键盘进行游戏操作。

　　步骤402，向输入法应用程序发送语音识别接口调用请求，以使输入法应用程序启动语音识别流程。

　　其中，语音识别接口调用请求，可以是外设操控设备在检测到语音输入触发组件被触发时生成，并发送至输入法应用程序的。

　　在本申请实施例中，外设操控设备可以在获取到语音输入指令并启动拾音组件后，生成语音识别接口调用请求并发送至输入法应用程序，以使输入法应用程序可以在获取到语音识别接口调用请求时，启动语音识别流程，以准备进行语音数据接收和语音数据识别过程。

　　步骤403，对拾音组件获取的语音数据进行降噪处理，以获取降噪后的语音数据。

　　作为一种可能的实现方式，还可以通过外设操控设备进行对语音数据的降噪过程；或者，还可以利用外设操控设备对语音数据进行初步降噪之后，再将初步降噪后的语音数据发送给输入法应用程序，以使输入法应用程序对初步降噪后的语音数据进行进一步的降噪处理，以进一步提升对语音数据的降噪效果。因此，在本申请实施例中，外设操作设备可以对拾音组件采集的语音数据进行降噪处理，以生成降噪后的语音数据。

　　需要说明的是，外设操控设备对语音数据进行降噪所采用的方法，可以与上述实施例中描述的输入法应用程序对语音数据进行降噪的过程相同，具体的实现过程及原理，可以参照上述实施例的详细描述，此处不再赘述。

　　步骤404，将降噪后的语音数据同步给输入法应用程序，以使输入法应用程序对降噪后的语音数据进行语音识别。

　　在本申请实施例中，外设操控设备在获取到拾音组件采集的语音数据之后，或者对拾音组件采集的语音数据进行降噪之后，可以将拾音组件采集的语音数据或者降噪后的语音数据发送至输入法应用程序，以使输入法应用程序对语音数据进行识别处理。

　　进一步的，外设操控设备还可以在检测到语音数据输入结束时，通知输入法应用程序。即在本申请实施例一种可能的实现形式中，上述步骤404之后，还可以包括：

　　响应于语音输入触发组件获取的语音输入结束指令，向输入法应用程序发送语音数据结束指令。

　　在本申请实施例中，外设操控设备可以在检测到语音输入触发组件处于弹起态时，即语音输入触发组件被松开的瞬间，确定获取到语音输入结束指令，并将语音数据结束指令并发送至输入法应用程序，以使输入法应用程序可以在获取到语音数据结束指令时，确定语音输入已完成。因此，在语音输入和识别过程中，外设操控设备与输入法应用程序均未对目标应用程序进行控制，从而在语音数据输入和识别过程中，目标应用程序可以正常执行用户通过外设操控设备发送的其他指令。

　　举例来说，若当前的应用场景为游戏场景，外设操控设备为键盘，语音输入触发组件为设置在键盘中的语音输入按键，则用户在游戏过程中，需要向队友或对手发送语音或文本信息时，可以按下语音输入按键，并在语音发送完毕时，松开语音输入按键，键盘则可以在检测到语音输入按键处于弹起态时，确定获取到语音数据结束指令，并发送至输入法应用程序。

　　根据本申请实施例的技术方案，通过外设操控设备在获取到语音输入指令时，启动拾音组件获取语音数据，并向输入法应用程序发送语音识别接口调用请求，以使输入法应用程序启动语音识别流程，并将获取的语音数据进行降噪处理之后发送给输入法应用程序，进而在获取到语音输入结束指令时，向输入法应用程序发送语音数据结束指令。由此，通过对获取的语音数据进行降噪处理，降低了语音数据中包括的外设操控设备中的其他操作所产生的噪声水平，并且外设操控设备与输入法应用程序在语音数据获取和识别过程中，无需对目标应用程序进行控制，从而不仅提升了语音数据的质量，以及语音数据的识别准确度，而且在语音输入过程中可以正常处理用户的其他输入操作，实现了同步进行语音输入与传统输入操作，提升了操作效率，改善了用户体验。

　　图5为本申请实施例所提供的一种语音处理方法的信令交互图。

　　如图5所示，该语音处理方法，包括以下步骤：

　　步骤501，外设操控设备响应于语音输入触发组件获取的语音输入请求，启动拾音组件。

　　步骤502，外设操控设备向输入法应用程序发送语音识别接口调用请求。

　　步骤503，输入法应用程序启动语音识别流程。

　　步骤504，外设操控设备对拾音组件获取的语音数据进行降噪处理，以获取降噪后的语音数据。

　　步骤505，外设操控设备将降噪后的语音数据同步给输入法应用程序。

　　步骤506，输入法应用程序获取外设操控设备的类型。

　　步骤507，输入法应用程序根据外设操控设备的类型，确定目标语音降噪模式。

　　步骤508，输入法应用程序根据目标语音降噪模式，对外设操控设备发送的语音数据进行降噪处理，以获取降噪后的语音数据。

　　步骤509，输入法应用程序对降噪后的语音数据进行语音识别，以生成文本数据。

　　上述过程，通过外设操控设备在获取到语音输入指令时，启动拾音组件获取语音数据，并向输入法应用程序发送语音识别接口调用请求，以使输入法应用程序启动语音识别流程，并将获取的语音数据进行降噪处理之后发送给输入法应用程序，进而输入法应用程序利用与外设操控设备对应的目标语音降噪模式，对获取的语音数据进行降噪处理，进而对降噪后的语音数据进行语音识别，以生成文本数据。由此，通过对获取的语音数据进行降噪处理，降低了语音数据中包括的外设操控设备中的其他操作所产生的噪声水平，从而提升了语音数据的质量，以及对语音数据的识别准确度。

　　图6为本申请实施例所提供的一种电子设备的外设操控设备的结构示意图。

　　如图6所示，该电子设备的外设操控设备600，包括：主体610、语音输入触发组件620、拾音组件630及装载在电子设备内的驱动程序(图中未示出)。驱动程序被电子设备执行时，可以对外设操控设备600进行驱动，以执行前述由外设操控设备执行的语音处理方法。

　　其中，语音触发组件620设置在主体610上；拾音组件630与主体610及语音输入触发组件620之间设置有隔音材料(图中未示出)。

　　作为一种可能的实现方式，在语音输入与传统输入操作同步进行时，为降低传统输入操作引入的噪声，可以在拾音组件630与主体610及语音输入触发组件620之间设置隔音材料，以通过物理隔离的方式降低噪声水平。

　　举例来说，若外设操控设备600为键盘，则可以在拾音组件630与键盘主体610之间，以及拾音组件630与语音输入组件620之间设置消音棉等隔音材料；还可以在键盘600的主体610的弹簧区、金属碰撞区等产生噪音的关键区域合理设置消音棉等隔音材料。

　　作为另一种可能的实现方式，还可以使得拾音组件630与主体610处于不同的平面，以进一步降低拾音组件630采集语音数据时引入的噪声。即在本申请实施例一种可能的实现形式中，如图7所示，主体610中还可以包括用于设置拾音组件630的凸起结构640。

　　作为再一种可能的实现方式，拾音组件630还可以与主体610分离设置，并通过连接端口进行连接，以进一步降低拾音组件630采集语音数据时引入的噪声。即在本申请实施例一种可能的实现形式中，如图8所示，拾音组件630通过设置在主体610上的连接端口650插设在主体610上。

　　需要说明的是，实际使用时，拾音组件630可以通过连接线等实现与连接端口650的连接，从而不仅使得拾音组件630可以插设在主体610上，而且可以与外设操控设备600之间保持一定的距离，以降低拾音组件630采集语音数据时引入的噪声。

　　根据本申请实施例的技术方案，通过在拾音组件与外设操控设备的主体及语音输入触发组件之间设置隔音材料，以及将拾音组件设置在主体的凸起结构之上，以使拾音组件与外设操控设备的主体处于不同的平面，或者还可以通过主体上的连接端口外接拾音组件。由此，同步进行外设操控设备的语音输入和传统输入操作时，通过物理隔离的方式降低拾音组件采集语音数据时可能引入的噪声水平，从而提升了采集的语音数据的质量，以及语音数据的识别准确度。

　　为了实现上述实施例，本申请还提出一种语音处理装置。

　　图9为本申请实施例提供的一种语音处理装置的结构示意图，应用于输入法应用程序。

　　如图9所示，该语音处理装置900，包括：

　　第一启动模块901，用于响应于获取的外设操控设备发送的语音识别接口调用请求，启动语音识别流程；

　　第一获取模块902，用于获取外设操控设备的类型；

　　第一确定模块903，用于根据外设操控设备的类型，确定目标语音降噪模式；

　　第一降噪处理模块904，用于根据目标语音降噪模式，对外设操控设备发送的语音数据进行降噪处理，以获取降噪后的语音数据；以及

　　语音识别模块905，用于对降噪后的语音数据进行语音识别，以生成文本数据。

　　在实际使用时，本申请实施例提供的语音处理装置，可以被配置在任意电子设备中，以执行前述语音处理方法。

　　在本申请一种可能的实现形式中，上述语音处理装置900，还包括：

　　第二获取模块，用于获取与各类型的外设操控设备分别对应的操作音频数据集，其中，每个操作音频数据集中包括每个类型的外设操控设备执行不同操作时产生的音频数据；以及

　　第二确定模块，用于对每个操作音频数据集进行学习，以确定每个类型的外设操控设备对应的语音降噪模式。

　　进一步的，在本申请另一种可能的实现形式中，上述语音识别模块905，包括：

　　第一确定单元，用于确定当前关联的目标应用程序的类型；

　　第二确定单元，用于根据目标应用程序的类型，确定目标语音识别模型；以及

　　语音识别单元，用于利用目标语音识别模型，对降噪后的语音数据进行语音识别，以生成文本数据。

　　进一步的，在本申请再一种可能的实现形式中，上述语音识别模块905，还包括：

　　获取单元，用于获取与各个类型的应用程序分别对应的各个训练语料集，其中，每个训练语料集中包括多个语音数据及对应的多个文本数据；

　　训练单元，用于分别利用每个训练语料集对初始语音识别模型进行训练，以生成与各个类型的应用程序分别对应的各个语音识别模型。

　　进一步的，在本申请又一种可能的实现形式中，上述语音处理装置900，还包括：

　　第三确定模块，用于对文本数据进行意图识别，以确定文本数据对应的操作意图；以及

　　第一发送模块，用于响应于获取的外设操控设备发送的语音数据结束指令，向当前关联的目标应用程序发送与操作意图对应的控制指令。

　　进一步的，在本申请又一种可能的实现形式中，上述操作意图为文本发布，则上述第一发送模块，包括：

　　同步单元，用于将文本数据同步给所述目标应用程序，以使目标应用程序将文本数据显示在文本输入框。

　　进一步的，在本申请另一种可能的实现形式中，上述第一发送模块，还包括：

　　发送单元，用于向目标应用程序发送文本输入框激活请求，以使目标应用程序将当前显示界面中的定位光标置于文本输入框内。

　　需要说明的是，前述对图1、图2、图3、图4、图5所示的语音处理方法实施例的解释说明也适用于该实施例的语音处理装置900，此处不再赘述。

　　为了实现上述实施例，本申请还提出一种语音处理装置。

　　图10为本申请实施例提供的另一种语音处理装置的结构示意图，应用于外设操控设备。

　　如图10所示，该语音处理装置1000，包括：

　　第二启动模块1001，用于响应于语音输入触发组件获取的语音输入请求，启动拾音组件；

　　第二发送模块1002，用于向输入法应用程序发送语音识别接口调用请求，以使输入法应用程序启动语音识别流程；

　　第二降噪处理模块1003，用于对拾音组件获取的语音数据进行降噪处理，以获取降噪后的语音数据；

　　同步模块1004，用于将降噪后的语音数据同步给输入法应用程序，以使输入法应用程序对降噪后的语音数据进行语音识别。

　　进一步的，在本申请另一种可能的实现形式中，上述语音处理装置1000，还包括：

　　第三发送模块，用于响应于语音输入触发组件获取的语音输入结束指令，向输入法应用程序发送语音数据结束指令。

　　在实际使用时，本申请实施例提供的语音处理装置，可以被配置在任意电子设备中，以执行前述语音处理方法。

　　需要说明的是，前述对图1、图2、图3、图4、图5所示的语音处理方法实施例的解释说明也适用于该实施例的语音处理装置1000，此处不再赘述。

　　根据本申请的实施例，本申请还提供了一种电子设备和一种可读存储介质。

　　如图11所示，是根据本申请实施例的语音处理方法的电子设备的框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本申请的实现。

　　如图11所示，该电子设备包括：一个或多个处理器1101、存储器1102，以及用于连接各部件的接口，包括高速接口和低速接口。各个部件利用不同的总线互相连接，并且可以被安装在公共主板上或者根据需要以其它方式安装。处理器可以对在电子设备内执行的指令进行处理，包括存储在存储器中或者存储器上以在外部输入/输出装置(诸如，耦合至接口的显示设备)上显示GUI的图形信息的指令。在其它实施方式中，若需要，可以将多个处理器和/或多条总线与多个存储器和多个存储器一起使用。同样，可以连接多个电子设备，各个电子设备提供部分必要的操作(例如，作为服务器阵列、一组刀片式服务器、或者多处理器系统)。图11中以一个处理器1101为例。

　　存储器1102即为本申请所提供的非瞬时计算机可读存储介质。其中，所述存储器存储有可由至少一个处理器执行的指令，以使所述至少一个处理器执行本申请所提供的语音处理方法。本申请的非瞬时计算机可读存储介质存储计算机指令，该计算机指令用于使计算机执行本申请所提供的语音处理方法。

　　存储器1102作为一种非瞬时计算机可读存储介质，可用于存储非瞬时软件程序、非瞬时计算机可执行程序以及模块，如本申请实施例中的语音处理方法对应的程序指令/模块(例如，附图9所示的第一启动模块901、第一获取模块902、第一确定模块903、第一降噪处理模块904及语音识别模块905；附图10所示的第二启动模块1001、第二发送模块1002、第二降噪处理模块1003及同步模块1004)。处理器1101通过运行存储在存储器1102中的非瞬时软件程序、指令以及模块，从而执行服务器的各种功能应用以及数据处理，即实现上述方法实施例中的语音处理方法。

　　存储器1102可以包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需要的应用程序；存储数据区可存储根据语音处理方法的电子设备的使用所创建的数据等。此外，存储器1102可以包括高速随机存取存储器，还可以包括非瞬时存储器，例如至少一个磁盘存储器件、闪存器件、或其他非瞬时固态存储器件。在一些实施例中，存储器1102可选包括相对于处理器1101远程设置的存储器，这些远程存储器可以通过网络连接至语音处理方法的电子设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

　　语音处理方法的电子设备还可以包括：输入装置1103和输出装置1104。处理器1101、存储器1102、输入装置1103和输出装置1104可以通过总线或者其他方式连接，图11中以通过总线连接为例。

　　输入装置1103可接收输入的数字或字符信息，以及产生与语音处理方法的电子设备的用户设置以及功能控制有关的键信号输入，例如触摸屏、小键盘、鼠标、轨迹板、触摸板、指示杆、一个或者多个鼠标按钮、轨迹球、操纵杆等输入装置。输出装置1104可以包括显示设备、辅助照明装置(例如，LED)和触觉反馈装置(例如，振动电机)等。该显示设备可以包括但不限于，液晶显示器(LCD)、发光二极管(LED)显示器和等离子体显示器。在一些实施方式中，显示设备可以是触摸屏。

　　此处描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、专用ASIC(专用集成电路)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

　　这些计算程序(也称作程序、软件、软件应用、或者代码)包括可编程处理器的机器指令，并且可以利用高级过程和/或面向对象的编程语言、和/或汇编/机器语言来实施这些计算程序。如本文使用的，术语“机器可读介质”和“计算机可读介质”指的是用于将机器指令和/或数据提供给可编程处理器的任何计算机程序产品、设备、和/或装置(例如，磁盘、光盘、存储器、可编程逻辑装置(PLD))，包括，接收作为机器可读信号的机器指令的机器可读介质。术语“机器可读信号”指的是用于将机器指令和/或数据提供给可编程处理器的任何信号。

　　为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

　　可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(LAN)、广域网(WAN)和互联网。

　　计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。

　　应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本发申请中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本申请公开的技术方案所期望的结果，本文在此不进行限制。

　　上述具体实施方式，并不构成对本申请保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本申请的精神和原则之内所作的修改、等同替换和改进等，均应包含在本申请保护范围之内。

《语音处理方法、装置、外设操控设备及电子设备.doc》

将本文的Word文档下载到电脑，方便收藏和打印

推荐度：

点击下载文档

文档为doc格式(或pdf格式)

运动娱乐图文推荐

上一篇：一种拉力健身器材

下一篇：一种太阳能自动摇摆秋千