当前位置：首页 > 电学技术 > 电通讯技术> 语音处理装置、语音处理方法和语音处理系统独创技术48737字

语音处理装置、语音处理方法和语音处理系统

2021-02-25 13:46:49

语音处理装置、语音处理方法和语音处理系统

　　技术领域

　　本发明涉及安装在以与多个座椅分别相对应的方式布置有多个不同的麦克风的车辆中的语音处理装置和语音处理系统、以及语音处理装置所进行的语音处理方法。

　　背景技术

　　正在研究在诸如小型货车、旅行车或单厢车等的在车辆的前后方向上(例如，按三排)布置有多个座椅的相对较大的车辆中安装如下的语音相关技术，该语音相关技术使得能够使用安装在各个座椅中的麦克风和扬声器来在坐在后排座椅的乘员(例如，家庭成员或驾驶员的朋友)和坐在驾驶座的驾驶员与车载装置之间进行通信或者输入/输出，例如驾驶员和乘员之间的对话或者向后排座椅发送汽车音频音乐。

　　另一方面，近年来，许多配备有通信接口的车辆已经出现。通信接口具有无线通信功能，并被构造成为蜂窝电话网络(蜂窝网络)或无线LAN(局域网)等服务，并且在车辆上也已建立了网络环境。驾驶员和其他人可以通过经由这样的通信接口访问例如因特网上的云计算系统(以下还简称为“云”)来在驾驶期间接收各种服务。

　　在上述情形中，正在加速开发作为使用云的语音相关技术其中之一并且用在家用设备等中的自动语音识别系统。该自动语音识别系统作为用于接收因特网上的服务的人机接口正在普及。自动语音识别系统用于使得诸如计算机等的控制装置能够通过例如将人所发出的语音的内容转换成文本数据来识别该内容。自动语音识别系统是用以代替使用人的手指的键盘输入的接口，并且使得可以通过更接近人的自然行为的操纵来指示计算机等。特别地，在车辆中，由于驾驶者的手指用于在主要由驾驶者执行的传统驾驶期间或者在例如自主驾驶3级的自主驾驶期间的方向盘操纵，因此存在用于将自动语音识别的语音相关技术引入车辆的必然性(即，动机)。

　　根据NHTSA(国家公路交通安全管理局)，自主驾驶分类为无自主驾驶(0级)、驾驶员辅助(1级)、部分自主驾驶(2级)、有条件自主驾驶(3级)、高级自主驾驶(4级)和完全自主驾驶(5级)。在3级，驾驶由自主驾驶系统引导，但在需要时请求人。3级自主驾驶系统近年来已投入实际使用。

　　在与自动语音识别的语音相关技术有关的传统技术中，存在如下的技术：判断所发出的音频数据(语音信号)是否对应于热词，生成被判断为与热词相对应的音频数据的热词语音指纹，并且如果所生成的热词语音指纹与以前存储的热词音频指纹一致，则使对与所发出的音频数据相对应的计算机装置的访问无效(例如，参考专利文献1)。

　　术语“热词”是指要用于使得系统或控制装置进行相应操作的预设的预约语音。热词是用作用以发送命令或指令的触发的规定单词(特定单词)，并且还被称为“WuW”(唤醒单词)。在本说明书中，在将该规定单词称为WuW或唤醒单词的情况下进行以下说明。

　　现有技术文献

　　专利文献

　　专利文献1：日本特开2017-076117

　　发明内容

　　发明要解决的问题

　　然而，上述专利文献1中所公开的技术是基于热词即WuW是在安静环境中发出的这一假设。也就是说，当该技术用在诸如车辆等的移动体那样的、始终发生振动并且车载装置产生噪声的环境中时，没有考虑WuW是从车辆中的哪个方向发出的。

　　结果，当在始终产生振动和噪音的车辆中在WuW之后发出用于命令车载装置的激活的具体指示语音时，即使使用上述专利文献1的技术，也可能无法检测到从哪个方向发出了WuW。可能无法基于WuW的检测来快速地激活车载装置；在该方面存在改善的空间。

　　本发明的概念是有鉴于上述现有技术的情形而构思的，因此本发明的目的是提供如下的语音处理装置、语音处理方法和语音处理系统，其用于快速地检测在车辆中发出的规定单词(例如，唤醒单词)的发声方向，并且针对除规定单词的说话者以外的人的语音、排他地提取该说话者在规定单词之后发出的语音。

　　用于解决问题的方案

　　本发明提供一种语音处理装置，其安装在以与各个座椅相对应的方式布置有多个不同的麦克风的车辆中，所述语音处理装置包括：存储单元，用于存储由所述多个不同的麦克风分别收集的规定时间段的语音信号；单词检测单元，用于基于由所述多个不同的麦克风分别收集的语音信号，来检测由坐在所述车辆中的说话者发出的规定单词的语音的有无；麦克风确定单元，用于在检测到所述规定单词的语音的情况下，基于所述存储单元所存储的所述规定时间段的语音信号的特性，来将收集到所述规定单词的语音信号的麦克风确定为说话者位置麦克风；以及语音处理单元，用于使用所述存储单元所存储的所述规定时间段的语音信号和与所述说话者位置麦克风有关的信息，来在抑制由除所述说话者以外的乘员发出的语音的同时，输出所述说话者所发出的语音。

　　此外，本发明提供一种语音处理方法，其用在语音处理装置中，所述语音处理装置安装在以与各个座椅相对应的方式布置有多个不同的麦克风的车辆中，所述语音处理方法包括以下步骤：将由所述多个不同的麦克风分别收集的规定时间段的语音信号存储在存储单元中；基于由所述多个不同的麦克风分别收集的语音信号，来检测由坐在所述车辆中的说话者发出的规定单词的语音的有无；在检测到所述规定单词的语音的情况下，基于所述存储单元所存储的所述规定时间段的语音信号的特性，来将收集到所述规定单词的语音信号的麦克风确定为说话者位置麦克风；以及使用所述存储单元所存储的所述规定时间段的语音信号和与所述说话者位置麦克风有关的信息，来在抑制由除所述说话者以外的乘员发出的语音的同时，输出所述说话者所发出的语音。

　　此外，本发明提供一种语音处理系统，包括：语音处理装置，其安装在以与各个座椅相对应的方式布置有多个不同的麦克风的车辆中；以及控制装置，用于控制所述车辆中所安装的车载装置，其中，所述语音处理装置用于：将由所述多个不同的麦克风分别收集的规定时间段的语音信号存储在存储单元中；基于由所述多个不同的麦克风分别收集的语音信号，来检测由坐在所述车辆中的说话者发出的规定单词的语音的有无；在检测到所述规定单词的语音的情况下，基于所述存储单元所存储的所述规定时间段的语音信号的特性，来将收集到所述规定单词的语音信号的麦克风确定为说话者位置麦克风；使用所述存储单元所存储的所述规定时间段的语音信号和与所述说话者位置麦克风有关的信息，来在抑制由除所述说话者以外的乘员发出的语音的同时，输出所述说话者所发出的语音；以及获取所述说话者所发出的语音的识别结果，以及所述控制装置用于根据所述说话者所发出的语音的识别结果来控制所述车载装置的操作。

　　发明的效果

　　根据本发明，快速地检测到在车辆中发出的规定单词(例如，唤醒单词)的发声方向，并且针对除规定单词的说话者以外的人的语音、排他地提取出该说话者在规定单词之后发出的语音。该提取使得可以抑制在检测到规定单词之后输出与说话者的语音混合的除说话者以外的人的语音这一事件、并由此无延迟地清晰地输出该说话者的语音。结果，可以提高或增强自动语音识别等的精度和性能，并且可以响应于检测到规定单词来快速地激活车载装置。

　　附图说明

　　图1是第一实施例中采用的车辆的顶视图。

　　图2是用于说明根据第一实施例的语音处理系统的结构的功能框图。

　　图3是用于说明第一实施例中采用的语音控制单元的结构的处理框图。

　　图4是示出第一实施例中采用的语音控制单元的操作过程的流程图。

　　图5是示出在语音处理装置和语音识别服务器之间进行的操作的过程的序列图。

　　图6是示出根据第一实施例的第一变形例的语音控制单元如何工作的处理框图。

　　图7是示出根据第一实施例的第一变形例的语音控制单元的操作过程的流程图。

　　图8是示出根据第一实施例的第二变形例的语音控制单元如何工作的处理框图。

　　图9是第二实施例中采用的车辆的顶视图。

　　图10是用于说明根据第二实施例的包括语音处理装置的系统的结构的功能框图。

　　图11是用于说明第二实施例中采用的语音处理单元的信号处理操作的处理框图。

　　图12是示出根据第二实施例的语音处理单元的操作过程的流程图。

　　具体实施方式

　　在下文，将通过在需要时参考附图来详细说明将以具体方式公开可以安装在车辆中的根据本发明的语音处理装置、语音处理方法和语音处理系统的各实施例。然而，可以避免不必要的详细说明。例如，可以不详细说明已经众所周知的项和可以不重复说明具有已经说明的基本上相同的项的构成要素。这是为了防止以下的说明变得过度冗余，并由此促进本领域技术人员的理解。以下的说明和附图是为了使得本领域技术人员能够透彻地理解本发明而提供的，而并不意图将本发明的主题限制于权利要求书。

　　在第一实施例中使用的术语“单元”和“装置”不限于由硬件实现的仅仅物理结构，并且包括这些结构的功能由诸如程序等的软件来实现的情况。此外，一个结构的功能可以由两个或更多个物理结构来实现，或者两个或更多个结构的功能可以由例如一个物理结构来实现。

　　将根据各实施例的可以安装在车辆上的语音处理装置、语音处理方法和语音处理系统安装在车辆上。例如，将多个不同的麦克风安装在多个相应的座椅上，并且适当地对由这多个不同的麦克风收集的语音信号进行语音处理。

　　(实施例1)

　　将参考图1至图8来说明根据第一实施例的可以安装在车辆1中的语音处理装置100、语音处理方法和语音处理系统100S。

　　首先，将参考图1来说明第一实施例中采用的车辆1的结构。图1是第一实施例中采用的车辆1的顶视图。

　　如图1所示，车辆1是作为如在道路运输车辆法中规定的汽车的示例汽车，并且能够自主行驶。在车辆1中安装有根据第一实施例的语音处理系统100S。

　　车辆1具有构成车辆1的车体2。车辆1是诸如小型货车、旅行车或单厢车等的在前后方向上(例如，按三排)布置有多个座椅的相对较大的车辆。在车体2中的坐在驾驶座的驾驶员的前方配置有仪表板3。作为示例车载装置的导航装置35(参见图2)也安装在车体2的内部，并且被配置成包括DSP(数字信号处理器)。

　　在车辆1的车体2的内部安装有以与多个相应座椅相对应的方式布置的多个(例如，在第一实施例中为六个)不同的麦克风MC1～MC6、同样以与多个相应座椅相对应的方式布置的(后面所述的)音频输出装置20的多个(例如，在第一实施例中为四个)车载扬声器SP1～SP4、用于处理从多个麦克风MC1～MC6输入的语音信号的语音处理装置100、以及车辆中所安装的一个或多个车载装置30。

　　多个麦克风MC1～MC6中的两个麦克风是以与驾驶员的驾驶座(第一排座椅)、乘员的第二座椅(第二排座椅)或乘员的第三座椅(第三排座椅)相对应的方式布置的。通过该布置，多个麦克风MC1～MC6可以拾取由驾驶员或乘员在车体2内的整个区域中发出的语音。在第一实施例中，麦克风MC1～MC6可以是指向性麦克风或无指向性麦克风。

　　多个车载扬声器SP1～SP4中的一对扬声器SP1和SP2分别内置在与驾驶员的驾驶座和前排乘员座椅相对应的门中。其余的一对扬声器SP3和SP4内置在位于乘员的第二排座椅和乘员的第三排座椅之间的车体2的相应侧壁部中。通过该布置，多个车载扬声器SP1～SP4可以将从语音处理装置100或车载装置30输出的音频信号输出至坐在车辆1中的驾驶员或乘员。在第一实施例中，与麦克风MC1～MC6一样，车载扬声器SP1～SP4可以是指向性扬声器或无指向性扬声器。车载扬声器SP1～SP4至少之一可以配置在车辆1的仪表板3中，其中在这种情况下，驾驶员或前排乘员座椅中的乘员可以更清晰地识别出语音的内容。

　　语音处理装置100和车载装置30配置在仪表板3的附近。语音处理装置100和车载装置30经由无线通信网络连接至云CL。在云CL上设置有语音识别服务器40。在第一实施例中，语音处理系统100S被配置成包括多个麦克风MC1～MC6和语音处理装置100。

　　接着，将参考图2来说明语音处理系统100S的系统结构。图2是用于说明语音处理系统100S的结构的功能框图。

　　在车辆1中安装有一个或多个音频输出装置20、多个车载装置30和根据第一实施例的语音处理系统100S。

　　音频输出装置20包括用于放大从车载装置30输出的音频信号的放大器(示例放大电路)21、以及用于输出放大后的音频信号的上述多个车载扬声器SP1～SP4。如上所述，多个车载扬声器SP1～SP4内置在车辆1的多个门、车辆1的仪表板3等中。

　　多个车载装置30是车体2中所安装的各种装置的通称。更具体地，多个车载装置30包括汽车音频装置31、空调32、照明装置33、视频显示装置34、导航装置35等。这些车载装置30各自连接至语音处理装置100的车载装置控制单元120。

　　作为音频装置的汽车音频装置31接收无线电广播，并且再现例如来自诸如CD(致密盘)或电子音乐文件等的音乐媒介的音乐。

　　空调32调节车体2内的温度和湿度，由此为驾驶员和乘员建立舒适的环境。空调32通过将干燥空气吹过车体2的挡风玻璃和侧窗玻璃来对这两者除霜。

　　安全驾驶所需的照明装置33照亮车辆1的前方的区域，并且向存在于车辆1的周围的人通知车辆1的动作。

　　视频显示装置34被配置成例如包括液晶面板作为图像显示单元，并且以一体方式安装在仪表板3中。视频显示装置34在适当时向驾驶员和乘员显示图像信息。

　　导航装置35通过在车辆1正在行驶时示出车辆1的当前位置和至目的地的路线来进行导航。路线引导是通过共同使用例如上述的视频显示装置34等在视频显示装置34上显示地图信息、箭头信息等来进行的。在第一实施例中，尽管以上列举了汽车音频装置31、空调装置32、照明装置33、视频显示装置34和导航装置35作为车载装置30的示例，但这些装置仅是示例，并且并不意图将车载装置30限制于这些装置。

　　诸如汽车音频装置31、视频显示装置34和导航装置35等的车载装置30连接至音频输出装置20的放大器21，由此从车载装置30输出音频信号。该音频信号最终经由音频输出装置20的车载扬声器SP1～SP4被输出至车体2。

　　如上所述，语音处理系统100S被配置成包括多个麦克风MC1～MC6和语音处理装置100。语音处理装置100包括通信接口110、车载装置控制单元(“控制装置”的示例)120、存储器130和语音控制单元(“语音处理单元”的示例)140。在图2中，为了方便，通信接口被写为“通信I/F”。语音处理装置100的功能的一部分或全部是由软件实现的，并且该软件的一部分或全部可以在导航装置35的DSP上运行。在这种情况下，由于原样使用现有的硬件资源，因此可以抑制制造成本。

　　在具有无线通信功能的情况下，通信接口110经由无线通信网络连接至云CL，并且用于无线通信。通信接口110可以使用蜂窝电话网络(蜂窝网络)或无线LAN等作为无线通信网络。

　　语音识别服务器40设置在云CL中。语音识别服务器40同样包括通信接口41，并且还包括计算单元42、存储器43和存储装置44。计算单元42是用于进行数据处理并执行规定算法的CPU(中央处理单元)。存储器43是用于临时存储规定数据和算法的RAM(随机存取存储器)。存储装置44是用于存储大量数据等的大容量存储设备(例如，HDD(硬盘驱动器)或SSD(固态驱动器))，并且被配置成包括一个或多个磁存储设备或光学存储设备等。

　　例如使用CPU、DSP或FPGA(现场可编程门阵列)配置成的车载装置控制单元120通过基于(后面所述的)自动语音处理系统的识别结果控制各车载装置30的开启/关闭并指示该车载装置30通过语音通知其操作状况，来控制该车载装置30的操作。语音处理装置100的存储器130用作用于使得能够在车载装置控制单元120和语音控制单元140之间交换规定数据或程序等的临时存储设备。

　　在第一实施例中，语音处理系统被实现成包括车载的语音处理装置100和安装在云CL上的语音识别服务器40。也就是说，语音处理装置100接收由多个麦克风MC1～MC6拾取的语音信号。语音处理装置100对该语音信号进行语音处理，然后将如此得到的语音信号经由通信接口110发送至云CL和语音识别服务器40。在接收到所发送的语音信号的情况下，语音识别服务器40例如通过基于语料库进行语音识别来将所接收到的语音信号转换成文本数据。文本数据用于诸如系统命令的生成或数据输入等的各种目的、或者用于规定服务的使用。

　　根据规定的自动语音识别算法来对文本数据进行转换或解释。该自动语音识别算法安装在语音识别服务器40中，并且例如是由通过深度学习实现的人工智能(AI)生成的。借助于这样的语音识别和人工智能，通过发出语音，驾驶员或乘员例如可以接收由云CL上的其它服务器提供的各种服务中的任何服务，诸如日程管理或向支持中心发送查询等。此外，驾驶员和乘员可以通过语音经由语音处理装置100的车载装置控制单元120向各车载装置30提供操纵指示(例如，音乐再现)。

　　自动语音处理系统实质上使用在向装置发出指示之前发出的规定单词作为触发来起作用。第一实施例采用WuW(唤醒单词)作为规定单词的示例。由于人所发出的WuW语音用作用于允许对系统的访问的关键字，因此WuW语音被预先定义为规定单词以由系统检测。因而，WuW预先例如由语音处理装置100的存储器130适当存储。WuW的示例是“你好，我的电脑”和“嘿，车辆”。然而，WuW不限于这些短语，并且可以采用各种短语和单词；也就是说，可以以期望方式设置WuW。

　　在检测到包括WuW的词组时，自动语音处理系统被激活(唤醒)，并且其自动识别操作开始。借助于使用WuW的系统激活，自动语音处理系统无需始终工作，并且可以仅在需要其操作时才被激活或起作用。这使得可以减少系统的计算处理、网络流量等的负荷。

　　在第一实施例中，在语音处理装置100的语音控制单元140中设置这样的WuW检测功能。例如，预先设置与WuW检测有关的语音信号匹配模型并且将其存储在语音处理装置100的存储器130中。例如，采用模式匹配字典模型或声学模型作为语音信号匹配模型；然而，语音信号匹配模型并不限于这些模型。可以适当采用各种模型和其它的语音信号匹配模型技术。

　　接着，将参考图3来说明语音控制单元140的结构。图3是用于说明语音控制单元140的结构的信号处理框图。

　　如图3所示，语音控制单元140具有WuW检测单元(“单词检测单元”的示例)141、语音信号缓冲单元(“存储单元”的示例)142、说话者位置检测单元(“麦克风确定单元”的示例)143和CTC(串音消除器)单元(“语音处理单元”的示例)144。在语音控制单元140中设置有A/D转换器(未示出)。A/D转换器通过按规定采样周期对麦克风MC1～MC6的各个语音信号进行量化来进行该语音信号的数字转换，并且使得语音控制单元140接收如此得到的信号。

　　WuW检测单元141直接获取由多个不同的麦克风MC1～MC6各自收集的语音信号。WuW检测单元141预先获取到存储器130中所存储的语音信号匹配模型，并将所获取到的语音信号匹配模型存储在内部。WuW检测单元141根据与规定的语音信号匹配模型相对应的算法，基于所接收到的语音信号来检测从特定说话者产生的WuW语音信号的有无。如果检测到WuW语音，则WuW检测单元141将检测信息作为触发信号发送至说话者位置检测单元143。WuW检测单元141可以设置有存储装置，并且可以预先将上述语音信号匹配模型存储在该存储装置中。匹配算法例如可以是由通过深度学习实现的人工智能(AI)生成的。

　　语音信号缓冲单元142由诸如RAM等的存储电路构成，并且始终单独存储所接收到的麦克风MC1～MC6的规定时间段(例如，2～3秒)的语音信号。如果语音信号缓冲单元142的容量被填满，则更新(覆盖)麦克风MC1～MC6的各个语音信号的旧部分，由此重复地存储从当前时刻起直到紧前(即，规定时间段之前的时刻)为止的最新语音数据。在下文，这样的系列处理可被称为“缓冲处理”。代替在语音控制单元140的内部设置语音信号缓冲单元142，可以将语音信号缓冲单元142的功能与存储器130的功能共同化，其中在这种情况下，语音控制单元140可以适当获取语音处理装置100的存储器130中所缓冲的语音信号。这使得可以通过减少组件数量来降低制造成本。

　　在接收到从WuW检测单元141发送来的触发信号时，说话者位置检测单元143将该接收时刻设置为基准时刻。说话者位置检测单元143从语音信号缓冲单元142单独获取从接收时刻起的过去规定时间段的语音信号(即，缓冲处理后的信号)。说话者位置检测单元143参考WuW语音信号和各个缓冲处理后的语音信号，由此例如根据声源方向估计算法来检测车体2中的WuW说话者的空间位置。

　　在声源方向估计算法中，例如通过检测麦克风MC1～MC6的语音信号之间的时间差来检测空间位置。可以通过除利用对时间差的检测的方法以外的方法来检测空间位置；例如，可以通过对麦克风MC1～MC6的语音信号进行傅立叶转换和频谱分析、并且进一步分析各个语音信号的语音波形、频率、语音级别等，来检测位置。

　　以这种方式，在检测到WuW语音的情况下，说话者位置检测单元143基于语音信号缓冲单元142中所存储的规定时间段的语音信号的特性来检测发出了WuW的说话者的空间位置。以这种方式，说话者位置检测单元143将离该说话者最近的麦克风(即，麦克风MC1～MC6其中之一)、也就是说拾取到WuW语音的麦克风确定为说话者位置麦克风。说话者位置检测单元143例如将说话者位置麦克风的识别编号发送至CTC单元144。

　　在说话者位置检测单元143确定了说话者位置麦克风之后，语音信号缓冲单元142停止缓冲处理。WuW检测单元141也停止其操作。这些使得可以降低语音控制单元140的处理负荷。

　　CTC单元144实时地直接获取麦克风MC1～MC6的语音信号。CTC单元144具有自适应滤波器(未示出)和加法器(未示出)。为了使得可以仅提取WuW说话者所发出的语音，CTC单元144通过将自适应滤波器所生成的虚拟语音信号(换句话说，消除信号)与由说话者位置麦克风收集的语音信号相加，来抵消由除WuW说话者以外的人发出的语音。以这种方式，CTC单元144通过使用语音信号缓冲单元142中所存储的规定时间段的语音信号和与说话者位置麦克风有关的信息而抑制由除WuW说话者以外的人发出的语音，来仅提取并输出与由WuW说话者发出的语音尽可能接近的语音。

　　自适应滤波器在通过参考由包括说话者位置麦克风的麦克风MC1～MC6收集的所有语音信号、根据例如学习算法而更新其滤波器系数、直到其传递特性变得等同于麦克风MC1～MC6之间的传递特性为止的情况下进行成长。使用自适应滤波器来处理语音信号，这使得可以生成用于抵消除说话者以外的人的语音的虚拟信号。可以使用除这样的自适应滤波器以外的各种滤波器中的任何滤波器，只要这些滤波器可以抵消除WuW说话者以外的语音即可。例如，可以预先设计并安装如下的滤波器，该滤波器反映通过预先实际测量麦克风MC1～MC6之间的传递特性所获得的测量结果。除了CTC单元144进行自适应滤波器的处理这一事实之外，还可以进行配置，使得通过降低除说话者位置麦克风以外的麦克风的音量级来仅将由说话者位置麦克风收集的语音信号输入到语音控制单元140。

　　接着，将参考图4和图5来说明语音控制单元140如何工作以及在语音处理装置100和语音识别服务器40之间进行的操作的过程。图4是示出语音控制单元140的操作过程的流程图。图5是示出在语音处理装置100和语音识别服务器40之间进行的操作的序列图。图4示出图5所示的子例程SR1的操作过程。首先，将参考图4来说明语音控制单元140的操作过程、即子例程SR1。

　　如图4所示，在子例程SR1中，语音控制单元140获取由各个麦克风MC1～MC6收集的语音信号，并且首先将这些语音信号输入到WuW检测单元141和语音信号缓冲单元142(S10)。WuW检测单元141根据规定的语音信号匹配算法来并行地开始从所接收到的语音信号检测WuW语音信号(S11)。WuW检测单元141判断在所接收到的语音信号其中之一中是否包括WuW语音信号(S12)。如果判断为存在WuW语音信号，则WuW检测单元141进入步骤S14。另一方面，如果判断为不存在WuW语音信号，则WuW检测单元141返回到步骤S11。

　　与利用WuW检测单元141执行步骤S11和S12并行地，语音信号缓冲单元142始终单独存储所接收到的麦克风MC1～MC6的语音信号的长度为规定时间段的部分。也就是说，语音信号缓冲单元142对麦克风MC1～MC6的各个语音信号进行缓冲处理(S13)。

　　说话者位置检测单元143通过参考WuW语音信号和缓冲处理后的语音信号来检测车体2中的WuW说话者的空间位置。结果，说话者位置检测单元143将拾取到WuW语音的麦克风确定为说话者位置麦克风(S14)。在确定说话者位置麦克风之后，语音控制单元140设置CTC单元144的自适应滤波器的滤波器系数、使得抑制由除WuW说话者以外的人发出且混入由说话者位置麦克风收集的语音信号中的语音，并且使得CTC单元144起作用(即，激活CTC单元144)(S15)。

　　在设置CTC单元144时，由于在步骤S15和以下的步骤(包括图5所示的主例程)中WuW检测单元141、语音信号缓冲单元142和说话者位置检测单元143无需工作(例如，无需进行缓冲处理)，因此使得这三者停止起作用(S16)。

　　在设置CTC单元144的自适应滤波器的滤波器系数时，CTC单元144直接获取说话者位置麦克风的语音信号，并且抑制由除WuW说话者以外的人发出的语音。这样，CTC单元144使用自适应滤波器对语音信号进行滤波处理(S17)。语音控制单元140输出使发出了WuW的说话者的语音清晰的语音信号，并且维持利用滤波处理的输出状态(S18)。

　　也就是说，始终对在发出WuW且确定所使用的说话者位置麦克风之后发出的语音进行CTC单元144中的滤波处理。结果，由除WuW说话者以外的驾驶员或各乘员发出的语音被抵消，并且继续输出主要由WuW说话者所发出的语音构成的语音。在执行了上述一系列步骤S10～S18并且结束了子例程SR1的执行时，立即开始图5所示的主例程的操作过程的其它部分的执行。

　　如图5所示，在利用语音处理装置100的语音控制单元140的子例程SR1的执行结束时，语音处理装置100立即进入步骤S100。语音控制单元140使用通信接口110将规定的语音识别激活命令发送至语音识别服务器40(S100)。

　　首先，语音识别服务器40判断其是否从语音处理装置100的语音控制单元140接收到语音识别激活命令(S102)。如果判断为尚未接收到语音识别激活命令，则语音识别服务器40返回到步骤S101并且建立待机模式。也就是说，语音识别服务器40保持待机模式，直到接收到语音识别激活命令为止。另一方面，如果判断为语音识别服务器40接收到语音识别激活命令，则语音识别服务器40进入步骤S104。语音识别激活命令是用作用于促使语音识别服务器40进行自动语音识别的触发的指令语句。可以进行配置，使得在WuW检测单元141检测到WuW语音的同时将语音识别激活命令发送至语音识别服务器40。

　　在执行步骤S100之后，语音控制单元140将由CTC单元144进行滤波处理后的语音信号发送至语音识别服务器40(S103)。语音识别服务器40接收到该语音信号并以上述方式进行语音识别。语音识别服务器40使用通信接口41将语音识别结果发送至语音控制单元140(S104)。顺便提及，在子例程SR1的执行之后从语音控制单元140输出的语音信号经过了CTC单元144中的滤波处理，因而主要由WuW说话者所发出的语音构成。也就是说，在步骤S103中执行与子例程SR1的步骤S17和S18相同的步骤。

　　语音处理装置100的车载装置控制单元120根据语音识别服务器40的识别结果来控制各车载装置30的操作(S105)。

　　随后，语音控制单元140通过检测是否满足规定条件来判断是否结束语音识别(S106)。如果判断为应结束语音识别，则语音控制单元140进入步骤S107。另一方面，如果判断为不应结束语音识别，则语音控制单元140返回到步骤S103。

　　语音控制单元140将语音识别结束命令发送至语音识别服务器40(S107)。语音识别服务器40判断其是否从语音控制单元140接收到语音识别激活命令(S108)。如果判断为接收到了语音识别激活命令，则语音识别服务器40返回到步骤S101以再次建立等待模式。另一方面，如果判断为未接收到语音识别激活命令，则语音识别服务器40返回到步骤S104。除非语音识别服务器40接收到语音识别激活命令，否则语音识别服务器40继续语音识别。

　　也就是说，步骤S106和S107允许语音控制单元140还具有如下的功能作为其控制功能的一部分，该功能用于在检测到满足了规定条件的情况下，使得装置所属于的操作模式从特定说话者语音输出模式(S103)进入WuW检测待机模式(即，SR1：“规定单词检测待机模式”的示例)，其中在该特定说话者语音输出模式中，输出WuW说话者所发出的语音并且抑制了由除WuW说话者以外的乘员发出的语音，以及在该WuW检测待机模式中，检测WuW语音的有无。

　　在第一实施例中，选择性地遵循两个操作过程来判断是否满足规定条件。在与规定条件有关的第一操作过程中，预先定义并设置不同于WuW且意味着应结束语音识别的停止单词(SW：“结束单词”的示例)。在步骤S106中，语音控制单元140的WuW检测单元141基于由说话者位置麦克风收集的语音信号，根据同样的算法来(除了检测WuW之外还)检测SW的有无。语音控制单元140通过判断是否检测到了SW语音来执行步骤S106，并且将装置的操作模式改变为WuW检测待机模式。

　　另一方面，在与规定条件有关的第二操作过程中，语音控制单元140通过判断从获取到说话者所发出的语音起是否经过了规定时间段来执行步骤S106，并且将装置的操作模式改变为WuW检测待机模式。

　　如上所述，在步骤S106中，语音控制单元140工作，以判断是否满足第一操作过程和第二操作过程其中之一的条件。

　　如上所述，根据第一实施例的语音处理装置100具有语音信号缓冲单元(“存储单元”的示例)142，其用于存储由多个不同的麦克风MC1～MC6分别收集的规定时间段的语音信号。语音处理装置100具有WuW检测单元(“单词检测单元”的示例)141，其用于基于由多个不同的麦克风MC1～MC6分别收集的语音信号来检测由坐在车辆1中的说话者发出的WuW(“规定单词”的示例)的语音的有无。语音处理装置100具有说话者位置检测单元(“麦克风确定单元”的示例)143，其用于在检测到了WuW语音的情况下，基于语音信号缓冲器单元142所存储的规定时间段的各个语音信号的特性，来将收集到了WuW语音信号的麦克风(例如，麦克风MC1～MC6其中之一)确定为说话者位置麦克风(例如，麦克风MC1)。语音处理装置100具有CTC单元(“语音处理单元”的示例)144，其用于使用语音信号缓冲单元142所存储的规定时间段的语音信号和与说话者位置麦克风有关的信息，来在抑制由除说话者以外的乘员发出的语音的同时输出说话者所发出的语音。

　　在具有该配置的情况下，语音处理装置100或语音处理系统100S可以快速地检测到在车辆1中发出WuW的发声方向，并且针对除WuW说话者以外的人的语音、排他地提取WuW说话者在WuW之后发出的语音。通过进行该提取，语音处理装置100或语音处理系统100S可以在检测到WuW之后，通过抑制除WuW说话者以外的人的语音的混入和输出来无延迟地清晰地输出WuW说话者所发出的语音。结果，语音处理装置100或语音处理系统100S可以提高或增强精度，并且响应于检测到WuW来快速地激活车载装置30。

　　语音处理装置100还具有语音控制单元140(“语音处理单元”的示例)，其用于在检测到满足了规定条件的情况下，将装置的操作模式从特定说话者语音输出模式(S103)改变为WuW检测待机模式(SR1、“规定工作检测待机模式”的示例)，其中在该特定说话者语音输出模式中，输出说话者所发出的语音并且抑制了由除说话者以外的乘员所发出的语音，以及在该WuW检测待机模式中，检测WuW(“规定单词”的示例)的语音的有无。通过该措施，语音处理装置100允许自身仅在其需要工作时才工作，因而可以减少无用处理的执行次数，并且防止在自身和语音识别服务器40之间发生过多网络流量。

　　在语音处理装置100中，WuW检测单元141基于由说话者位置麦克风收集的语音信号来检测与WuW(“规定单词”的示例)不同的SW(“结束单词”的示例)的语音的有无。在语音处理装置100中，在检测到与WuW不同的SW的语音的情况下，语音控制单元140判断为满足了规定条件，并且将装置的操作模式改变为WuW检测待机模式(SR1、“规定工作检测待机模式”的示例)。通过该措施，语音处理装置100允许WuW说话者自己结束语音处理装置100的操作，由此人侧(即，驾驶员或乘员)可以自愿减少无用处理的执行次数并防止过多网络流量的发生。此外，驾驶员或乘员可以明显地认识到语音处理装置100已处于待机状态。

　　在语音处理装置100中，在从获取到说话者所发出的语音起经过了规定时间段的情况下，语音控制单元140判断为满足了规定的条件，并且将装置的操作模式改变为WuW检测待机模式(SR1、“规定工作检测待机模式”的示例)。通过该措施，在语音处理装置100中，装置侧可以在不要求WuW说话者自己结束语音处理装置100的操作的情况下，自动结束语音处理装置100的操作。如此，语音处理装置100可以自动抑制无用处理和过多网络流量的发生。

　　(实施例1的变形例1)

　　接着，将参考图6和图7来说明根据第一实施例的第一变形例的语音控制单元140如何工作。图6是示出根据第一变形例的语音控制单元140如何工作的处理框图。图7是示出根据第一变形例的语音控制单元140的操作过程的流程图。图3和图4中的具有相同或等同部分的部分在附图等中将被赋予相同或等同的附图标记，并且将省略或简化对这些部分的说明。

　　如图6所示，在第一变形例中，语音控制单元140还具有再现声音消除器145和噪声消除器(未示出)。再现声音消除器145还连接至多个车载装置30中的汽车音频装置(“音乐再现装置”的示例)31，并且除了接收CTC单元144的输出信号之外，还接收汽车音频装置31的输出信号。更具体地，将与汽车音频装置31输出至音频输出装置20的放大器21的音频信号相同的信号(数字信号)输入至再现声音消除器145(参见图2)。噪声消除器通过对再现声音消除器145的输出信号进行低通滤波器等的滤波处理来消除噪声。

　　与CTC单元144一样，再现声音消除器145具有自适应滤波器(未示出)和加法器(未示出)。再现声音消除器145的自适应滤波器参考汽车音频装置31所要再现的音乐的音频信号，并且生成再现音乐的虚拟音频信号。再现声音消除器145通过加法器将自适应滤波器所生成的再现音乐的虚拟音频信号与由说话者位置麦克风收集的语音信号相加。通过该措施，再现声音消除器145抵消在由车载扬声器SP1、SP2、SP3和SP4发出并在车体2中传播之后经由扬声器位置麦克风而混入地拾取的再现音乐的音频信号。以这种方式，再现声音消除器145抑制由多个不同的麦克风MC1～MC6通过拾取车辆1中所安装的汽车音频装置31的再现音乐(“再现声音”的示例)而产生的、并且否则会混入语音控制单元140的输出音频信号中的再现音频信号。

　　如图7所示，在CTC单元144所执行的步骤S17之后执行再现声音消除器145所要执行的处理。再现声音消除器145获取汽车音频装置31所要再现的音乐的音频信号，并且通过上述滤波处理(S20)抵消经由说话者位置麦克风所混入地收集的再现音乐的音频信号。在执行该步骤之后，语音控制单元140输出通过由CTC单元144和再现声音消除器145这两者进行的滤波处理所获得的发出了WuW的说话者的清晰语音的语音信号，并且维持该输出状态(步骤S18)。

　　如上所述，根据第一实施例的第一变形例的语音处理装置100还具有再现声音消除器145，其用于抑制由多个不同的麦克风MC1～MC6通过拾取车辆1中所安装的汽车音频装置31的再现音乐(再现声音的示例)而产生的、并且否则会混入语音控制单元(音乐再现装置的示例)140的输出音频信号中的再现声音信号。通过该措施，再现声音消除器145可以抵消在由车载扬声器SP1、SP2、SP3和SP4发出并在车体2中传播之后经由说话者位置麦克风混入地拾取的再现音乐的音频信号。结果，语音处理装置100可以更有效地抑制除发出了WuW的说话者的语音以外的声音被混入并输出的现象，并由此使说话者所发出的语音更清晰。

　　(实施例1的变形例2)

　　将参考图8来说明根据第一实施例的第二变形例的语音控制单元140如何工作。图8是示出根据第二变形例的语音控制单元140如何工作的处理框图。图3中的具有相同或等同部分的部分在附图等中将被赋予相同或等同的附图标记，并且将省略或简化对这些部分的说明。

　　如图8所示，在第二实施例中，语音控制单元140还具有波束成形(BF)处理单元146。多个不同的麦克风MC1～MC6各自均是包括多个麦克风元件的微阵列。

　　波束成形处理单元146使用各自作为微阵列的多个麦克风MC1～MC6来形成指向与由说话者位置麦克风拾取的语音信号的声源相对应的说话者的语音信号指向性。通过形成该指向性，波束形成处理单元146通过将指向性轴指向WuW说话者的方向来抑制车体2中的在WuW说话者的周围产生的语音和噪声的拾取。

　　如上所述，根据第一实施例的第二变形例的语音处理装置100还具有波束形成处理单元146，其用于形成指向与由说话者位置麦克风拾取的语音信号的声源相对应的说话者(例如，发出了WuW的说话者)的语音信号指向性。语音处理装置100的多个不同的麦克风MC1～MC6各自是包括多个麦克风元件的微阵列。利用这些措施，波束成形处理单元146可以使用各自是微阵列的多个麦克风MC1～MC6来抑制车体2中的在说话者的周围产生的语音和噪声的拾取，并由此使说话者所发出的语音甚至更清晰。

　　(实施例2)

　　接着，将参考图9至图12来说明根据本发明第二实施例的可以安装在车辆1中的语音处理装置200、语音处理方法和语音处理系统200S。图9是第二实施例中采用的车辆1的顶视图。图10是用于说明包括语音处理装置200的系统的结构的功能框图。图11是用于说明语音控制单元240的信号处理操作的处理框图。图12是示出语音控制单元240的操作过程的流程图。第一实施例中的具有相同或等同部分的部分在附图等中将被赋予相同或等同的附图标记，并且将省略或简化对这些部分的说明。

　　如图9和图10所示，在第二实施例中，多个麦克风MC(更具体为麦克风MC1～MC6和WuW检测麦克风MC7)布置在车体2中，并且第七麦克风(即，七个麦克风中的除麦克风MC1～MC6以外的麦克风)是WuW检测麦克风MC7。作为术语“特定麦克风”的示例的WuW检测麦克风MC7是专用于WuW的检测的麦克风，并且埋在天花板面中的靠近车体2的大致中央的位置处。在图9中，尽管WuW检测麦克风MC7配置在麦克风MC3和MC4之间的中间位置，但没有限制WuW检测麦克风MC7的配置位置。在第二实施例中，不基于由麦克风MC1～MC6、也就是说除第七麦克风(即，WuW检测麦克风MC7)以外的麦克风)拾取的语音来进行WuW检测。

　　因而，如图11所示，在语音控制单元240的信号处理中，由多个麦克风MC1～MC6收集的语音信号未被输入至WuW检测单元241，并且仅由第七麦克风(WuW检测麦克风MC7)收集的语音信号、也就是说仅一个通道的语音信号被输入至WuW检测单元241。另一方面，与上述第一实施例一样，将多个麦克风MC1～MC6的六个通道的语音信号输入至语音信号缓冲单元142、说话者位置检测单元143和CTC单元144。

　　WuW检测单元241根据规定的匹配算法，基于由WuW检测麦克风MC7收集的语音信号来检测由坐在车辆1内的人中的特定说话者发出的WuW的语音信号的有无。该结构的其它部分与上述第一实施例中相同。

　　更具体地，如图12所示，第二实施例中采用的WuW检测单元241直接获取由WuW检测麦克风MC7收集的语音信号(S30)。无线检测单元241开始用于检测所接收到的WuW检测麦克风MC7的语音信号的处理(S31)。WuW检测单元241判断在所接收到的语音信号中是否包含WuW语音信号(S32)。另一方面，与WuW检测单元241执行步骤S30～S32并行地，语音信号缓冲单元142与第一实施例一样地获取由麦克风MC1～MC6收集的语音信号(S33)。语音信号缓冲单元142始终单独存储所接收到的麦克风MC1～MC6的规定时间段的语音信号。之后执行的步骤与第一实施例中相同。

　　如上所述，在根据第二实施例的语音处理装置200中，WuW检测单元(“单词检测单元”的示例)241基于由多个不同的麦克风MC(更具体为麦克风MC1～MC6和WuW检测麦克风MC7)中的WuW检测麦克风MC7收集的语音信号来检测WuW(“规定单词”的示例)的语音信号的有无。结果，由于语音处理装置200仅需从由WuW检测麦克风MC7收集的语音信号中检测WuW语音信号，因此可以减少语音控制单元240的WuW检测单元241所要处理的信息量，因而可以更快地使WuW说话者所发出的语音清晰。

　　尽管以上参考附图说明了各种实施例，但无需说明，本发明不限于这些示例。本领域技术人员可以在权利要求书的范围内想到各种变更例、修改例、替换例、添加例、删除例和等同例，并且这些自然被解释为包括在本发明的技术范围中。在未背离本发明的精神和范围的情况下，可以以期望方式组合上述各种实施例的组成元件。

　　本申请基于2018年3月29日提交的日本专利申请2018-066232，其内容通过引用而被包含于此。

　　产业上的可利用性

　　本发明在应用于如下的语音处理装置、语音处理方法和语音处理系统时是有用的，该语音处理装置、语音处理方法和语音处理系统可以安装在车辆中，并且可以快速地检测在车辆中发出的规定单词(例如，唤醒单词)的发声方向，并且针对除规定单词的说话者以外的人的语音、排他地提取该说话者在规定单词之后发出的语音。

　　附图标记说明

　　1：车辆

　　2：车体

　　3：仪表板

　　20：音频输出装置

　　21：放大器

　　30：车载装置

　　31：汽车音频装置

　　32：空调