欢迎光临小豌豆知识网!
当前位置:首页 > 电学技术 > 电通讯技术> 分配环境信号到多个环境信号通道的音频信号处理器、系统和方法独创技术73707字

分配环境信号到多个环境信号通道的音频信号处理器、系统和方法

2021-01-31 21:38:43

分配环境信号到多个环境信号通道的音频信号处理器、系统和方法

  技术领域

  根据本发明的实施例涉及一种用于基于输入音频信号提供环境信号通道的音频信号处理器。

  根据本发明的实施例涉及一种用于渲染由多通道输入音频信号表示的音频内容的系统。

  根据本发明的实施例涉及一种用于基于输入音频信号提供环境信号通道的方法。

  根据本发明的实施例涉及一种用于渲染由多通道输入音频信号表示的音频内容的方法。

  根据本发明的实施例涉及一种计算机程序。

  根据本发明的实施例一般涉及具有多个输出通道的环境信号提取。

  背景技术

  音频信号的处理和渲染是新兴技术领域。特别地,包括直接声音和环境声音的多通道信号的适当渲染提出了挑战。

  音频信号可以是多个直接声音和环境(或扩散)声音的混合。直接声音信号由声源,例如乐器发出,并且在源与收听者之间的直接(最短)路径上到达收听者的耳朵。收听者可以定位他们在空间声像中的位置并指向声源所处的方向。用于定位的相关听觉线索是耳间声级差、耳间时间差和耳间相干性。引起相同的耳间声级差和耳间时间差的直接声波被感知为来自相同的方向。在没有扩散声的情况下,到达左耳和右耳或任何其它多个传感器的信号是相干的[1]。

  相反,环境声音被感知为是扩散的、不可定位的,并且唤起收听者的环绕(被“沉浸在声音中”)的印象。当使用多个间隔的传感器捕获环境声场时,记录的信号至少部分地不相干。环境声音由许多间隔的声源组成。一个示例是掌声,即,许多手在多个位置处拍手的叠加。另一示例是混响,即在边界或墙壁上反射的声音的叠加。当声波到达房间中的墙壁时,其一部分被反射,并且房间中的所有反射的叠加,即混响,是最突出的环境声音。所有反射的声音都源自由直接声源生成的激励信号,例如混响语音由房间中的扬声器在可定位位置处产生。

  声音后期制作和再现的各种应用将音频信号分解为直接信号分量和环境信号分量,即直接-环境分解(DAD),或者环境(扩散)信号的提取,即环境信号提取(ASE)。环境信号提取的目的是计算环境信号,其中所有直接信号分量被衰减,并且只有扩散信号分量是可听的。

  迄今为止,环境信号的提取已经被限制为具有与输入信号相同数量的通道的输出信号(例如,参考文献[2]、[3]、[4]、[5]、[6]、[7]、[8]),或甚至更少数量的通道。当处理双通道立体声信号时,产生具有一个或两个通道的环境信号。

  在[9]中提出了一种用于从环绕声信号中提取环境信号的方法,方法处理具有N个通道的输入信号,其中N>2。方法从多通道输入信号的降混计算应用到每个输入通道的频谱权重,从而产生具有N个信号的输出信号。

  另外,已经提出了各种方法,用于仅根据听觉信号分量或直接信号分量在立体声图像中的位置来分离它们,例如[2]、[10]、[11]、[12]。

  鉴于常规解决方案,期望创建一种允许获取改善的听觉印象的获取环境信号的概念。

  发明内容

  根据本发明的实施例创建了一种用于基于输入音频信号提供环境信号通道的音频信号处理器。音频信号处理器被配置为获取环境信号通道,其中获取的包括不同音频内容的环境信号通道的数量大于输入音频信号的通道的数量。音频信号处理器被配置为获取环境信号通道,使得根据输入音频信号内的声源的位置或方向在环境信号通道之间分配环境信号分量。

  根据本发明的这个实施例是基于以下发现:期望环境信号通道的数量比输入音频信号的通道的数量多,并且在这种情况下有利的是,当提供环境信号通道时考虑声源的位置或方向。因此,环境信号的内容可以适应于由输入音频信号表示的音频内容。例如,环境音频内容可以被包括在不同的环境信号通道中,其中被包括在不同的环境信号通道中的环境音频内容可以基于对输入音频信号的分析确定。因此,可以取决于激励不同的环境音频内容的声源(例如,直接声源)的位置或方向来做出将哪些环境音频内容包括到哪些环境信号通道中的决定。

  因此,可以存在其中首先存在输入音频信号的基于方向的分解(或上混)并且然后存在直接/环境分解的实施例。然而,还存在这样的实施例,其中首先存在直接/环境分解,其后是提取的环境信号分量的上混(例如,上混为环境通道信号)。另外,存在其中可以存在组合的上混和环境信号提取(或直接/环境分解)的实施例。

  在优选实施例中,音频信号处理器被配置为获取环境信号通道,使得根据激励相应环境信号分量的直接声源的位置或方向在环境信号通道之间分配环境信号分量。因此,可以实现良好的听觉印象,并且可以避免环境信号通道包括不适合在给定位置处或给定方向上的直接声源的音频内容的环境音频内容。换句话说,可以避免在与没有激励环境声音的直接声音到达的位置或方向相关联的音频通道中渲染环境声音。已经发现的是,均匀分配环境声音有时会导致不满意的听觉印象,并且通过使用根据激励相应环境信号分量的直接声源的位置或方向来分配环境信号分量的概念,可以避免这种不满意的听觉印象。

  在优选实施例中,音频信号处理器被配置为将输入音频信号的一个或多个通道分配到多个上混通道,其中上混通道的数量大于输入音频信号的通道的数量。另外,音频信号处理器被配置为从上混通道提取环境信号通道。因此,由于执行了对直接信号分量和环境信号分量的简单的联合上混,所以可以获取高效的处理。在上混(将输入音频信号的一个或多个通道分配到多个上混通道)之后执行环境信号分量与直接信号分量之间的分离。因此,可以以适度努力实现环境信号源自类似方向,如激励环境信号的直接信号。

  在优选实施例中,音频信号处理器被配置为使用多通道环境信号提取或使用多通道直接信号/环境信号分离来从上混通道中提取环境信号通道。因此,在环境信号提取或直接信号/环境信号分离中可以利用多个通道的存在。换句话说,可以利用上混通道之间的相似性和/或差异以提取环境信号通道,这有助于提取环境信号通道并且带来良好的结果(例如,当与基于个别通道的分离的环境信号提取相比时)。

  在优选实施例中,音频信号处理器被配置为确定上混系数并且确定环境信号提取系数。另外,音频信号处理器被配置为使用上混系数和环境信号提取系数来获取环境信号通道。因此,可以在单个处理步骤中得出环境信号通道(例如,通过基于上混系数和环境信号提取系数得出单个处理矩阵)。

  根据本发明的实施例(其可以可选地包括上述特征中的一个或多个)创建了用于基于输入音频信号(例如,其可以是多通道输入音频信号)提供环境信号通道的音频信号处理器。音频信号处理器被配置为基于输入音频信号提取环境信号。

  例如,音频信号处理器可以被配置为基于输入音频信号执行直接-环境分离或直接-环境分解,以得出(“提取”)(中间)环境信号,或者音频信号处理器可以被配置为执行环境信号提取以得出环境信号。例如,可以可替换地执行直接-环境分离或直接-环境分解或环境信号提取。例如,环境信号可以是多通道信号,其中环境信号的通道的数量可以,例如与输入音频信号的通道的数量相同。

  另外,信号处理器被配置为取决于输入音频信号内的声源的(例如,直接声源的)位置或方向,将(提取的)环境信号分配(或“上混”)到多个环境信号通道,其中环境信号通道的数量(例如,具有不同信号内容的环境信号通道的数量)大于输入音频信号的通道的数量(和/或,例如,大于提取的环境信号的通道的数量)。

  换句话说,音频信号处理器可以被配置为当将提取的环境信号上混到更高数量的通道时,考虑输入音频信号内的声源的(例如,直接声源的)方向或位置。

  因此,环境信号不是“均匀地”分配到环境信号通道,而是考虑了可以作为环境信号的基础(或生成或激励环境信号)的声源的位置或方向。

  已经发现的是,其中环境信号不被任意地分配到环境信号通道(其中环境信号通道的数量大于输入音频信号的通道的数量)而是取决于输入音频信号内的声源的位置或方向的这样的概念在许多情况下提供了更有利的听觉印象。例如,将环境信号均匀地分配到所有环境信号通道可导致非常不自然或混乱的听觉印象。例如,已经发现的是,如果直接声源可以被清楚地分配给特定到达方向,而所述声源的回波(其是环境信号)被分配给所有环境信号通道,则情况就是这样。

  总之,已经发现的是,如果在提取的环境信号到环境信号通道的分配中考虑从其得出环境信号通道的输入音频信号内的一个或多个声源的位置或方向,则由包括多个环境信号通道的环境信号引起的听觉印象常常被改善,因为输入音频信号内的环境信号内容的非均匀分配(取决于输入音频信号内的声源的位置或方向)更好地反映了真实性(例如,当与不考虑输入音频信号中的声源的位置或方向的环境信号的均匀或任意分配相比时)。

  在优选实施例中,音频信号处理器被配置为基于输入音频信号执行直接-环境分离(例如,将音频信号分解为直接声音分量和环境声音分量,其也可以被命名为直接-环境分解),以得出(中间)环境信号。使用这种技术,可以基于输入音频信号获取环境信号和直接信号两者,这提高了处理的效率,因为通常需要直接信号和环境信号两者用于进一步处理。

  在优选实施例中,音频信号处理器被配置为根据激励相应环境信号分量的直接声源的位置或方向将环境信号分量(例如,提取的环境信号的环境信号分量,环境信号可以是多通道环境信号)分配在环境信号通道之间(其中,环境信号通道的数量可以例如大于输入音频信号的通道的数量和/或大于提取的环境信号的通道的数量)。因此,可以考虑激励环境信号分量的直接声源的位置或方向,由此例如可以在环境信号通道之间不同地分配由位于不同位置的不同直接源激励的不同环境信号分量。例如,由给定直接声源激励的环境信号分量可以主要被分配到与相应直接声源的直接信号分量主要被分配到的一个或多个直接信号通道相关联的一个或多个环境信号通道。因此,环境信号分量到不同的环境信号通道的分配可以对应于激励相应环境信号分量的直接信号分量到不同的直接信号通道的分配。因此,在渲染环境中,环境信号分量可以被感知为源自相同的或相似的方向,如同激励相应环境信号分量的直接声源。因此,在一些情况下可以避免不自然的听觉印象。例如,当与激励回波的直接声源相比时,可以避免回波信号从完全不同的方向到达(这将不适合一些期望的合成的听觉环境)。

  在优选实施例中,环境信号通道与不同的方向相关联。例如,环境信号通道可以与和对应的直接信号通道相同的方向相关联,或者可以与和对应的直接信号通道类似的方向相关联。因此,可以将环境信号分量分配到环境信号通道,使得可以实现环境信号分量被感知为源自与激励相应环境信号分量的直接声源的方向相关的特定方向。

  在优选实施例中,直接信号通道与不同的方向相关联,并且环境信号通道和直接信号通道与相同的方向集合相关联(例如,至少相对于方位方向,并且至少在例如+/-20°或+/-10°的合理公差内)。另外,音频信号处理器被配置为根据各个直接声音分量的位置或方向在直接信号通道之间分配直接信号分量(或者,等效地,将直接信号分量平移到直接信号通道)。另外,音频信号处理器被配置为以与直接信号分量被分配的相同的方式(例如,使用相同的平移系数或频谱权重),根据激励相应环境信号分量的直接声源的位置或方向,在环境信号通道之间分配(例如,提取的环境信号的)环境信号分量(其中环境信号通道优选地不同于直接信号通道,即独立通道)。因此,在不考虑直接信号分量的(空间)分配的情况下任意分配环境信号听起来不自然的一些情况下,可以获取良好的听觉印象。

  在优选实施例中,音频信号处理器被配置为提供环境信号通道,使得根据作为环境信号分量的基础的源信号(例如,产生相应环境信号分量的直接源信号)的位置,将环境信号分离为环境信号分量。因此,有可能分离预期源自不同直接源的不同环境信号分量。这允许对由不同源激励的直接声音信号和环境信号的单独处理(例如,操纵、缩放、延迟或滤波)。

  在优选实施例中,音频信号处理器被配置为应用频谱权重(例如,时间相关和频率相关的频谱权重),以将环境信号分配(或上混或平移)到环境信号通道(使得在时间-频率域中实现处理)。已经发现的是,这种使用频谱权重的时间-频率域中的处理非常适合于存在多个声源的情况的处理。使用此概念,位置或到达方向可与每个频谱仓相关联,并且还可逐个频谱仓地使环境信号到多个环境信号通道的分配。换句话说,对于每个频谱仓,可以确定环境信号应当如何被分配到环境信号通道。另外,时间相关和频率相关的频谱权重的确定可以对应于输入信号内声源的位置或方向的确定。因此,可以容易地实现取决于输入音频信号内的声源的位置或方向将环境信号分配到多个环境信号通道。

  在优选实施例中,音频信号处理器被配置为应用频谱权重,以将环境信号上混(或平移)到多个环境信号通道,其中计算频谱权重以根据直接音频源的位置或方向来分离直接音频源。可替换地,音频信号处理器被配置为应用频谱权重的延迟版本,以将环境信号上混到多个环境信号通道,其中计算所述频谱权重以根据直接音频源的位置或方向来分离直接音频源。已经发现的是,通过应用这些频谱权重(其被计算为根据直接音频源的位置或方向)或其延迟版本来分离直接音频源以将环境信号分配(或上混或平移)到多个环境信号通道,可以以低计算复杂度实现良好的听觉印象。例如,使用频谱权重的延迟版本可以适于考虑直接信号和回波之间的时移。

  在优选实施例中,音频信号处理器被配置为得出频谱权重,使得频谱权重是时间相关的和频率相关的。因此,可以考虑直接声源的时变信号和直接声源的可能运动。而且,可以考虑改变直接声源的强度。因此,环境信号到环境信号通道的分配不是静态的,而是多个(上混)环境信号通道中的环境信号的相对加权动态地变化。

  在优选实施例中,音频信号处理器被配置为取决于声源在输入音频信号的空间声像中的位置得出频谱权重。因此,频谱权重很好地反映了激励环境信号的直接声源的位置,并且因此容易可能的是,由特定声源激励的环境信号分量可以与对应于直接声源的方向(在输入音频信号的空间声像中)的适当环境信号通道相关联。

  在优选实施例中,输入音频信号包括至少两个输入通道信号,以及音频信号处理器被配置为取决于至少两个输入通道信号之间的差来得出频谱权重。已经发现的是,可以很好地评估输入通道信号之间的差(例如,相位差和/或幅度差),用于获取关于直接声源的方向的信息,其中优选地,频谱权重至少在一定程度上对应于直接声源的方向。

  在优选实施例中,音频信号处理器被配置为取决于(例如,输入信号中或直接信号中的直接声音分量的)频谱分量源自的位置或方向来确定频谱权重,使得与(例如,环境信号通道的)其他通道相比,源自给定位置或方向(例如,来自位置ρ)的频谱分量在与相应位置或方向相关联的(例如,环境信号通道的)通道中被加权得更强。换句话说,确定频谱权重以取决于激励环境信号分量的直接声音分量源自的方向来区分(或分离)环境信号分量。因此,例如可以实现的是,源自不同声源的环境信号被分配到不同的环境信号通道,使得不同的环境信号通道通常具有(例如,不同频谱仓的)不同的环境信号分量的不同加权。

  在优选实施例中,音频信号处理器被配置为确定频谱权重,使得频谱权重描述(例如,输入信号的)输入通道信号的频谱分量在多个输出通道信号中的加权。例如,频谱权重可以描述给定的输入通道信号以较强加权被包括在第一输出通道信号中,并且相同的输入通道信号以较小加权被包括在第二输出通道信号中。可以为不同的频谱分量单独地确定权重。由于输入信号可以是例如多通道信号,因此频谱权重可以描述多个输出通道信号中的多个输入通道信号的加权,其中通常存在比输入通道信号更多的输出通道信号(上混)。而且,来自特定输入通道信号的信号可能从不在特定输出通道信号中被接管。例如,可以没有将与渲染环境的左侧相关联的任何输入通道信号包括到与渲染环境的右侧相关联的输出通道信号中,反之亦然。

  在优选实施例中,音频信号处理器被配置为应用相同的频谱权重的集合,用于将直接信号分量分配到直接信号通道,并且用于将环境信号的环境信号分量分配到环境信号通道(其中当分配环境信号分量时可以考虑时间延迟)。因此,可以以与直接信号分量被分配给直接信号通道相同的方式将环境信号分量分配给环境信号通道。因此,在一些情况下,环境信号分量都配合直接信号分量,并且实现了特别好的听觉印象。

  在优选实施例中,输入音频信号包括至少两个通道和/或环境信号包括至少两个通道。应当注意的是,本文讨论的概念特别适合于具有两个或更多个通道的输入音频信号,因为这样的输入音频信号可以表示信号分量的位置(或方向)。

  根据本发明的实施例创建了一种用于渲染由多通道输入音频信号表示的音频内容的系统。系统包括如上所述的音频信号处理器,其中音频信号处理器被配置为提供多于两个直接信号通道和多于两个环境信号通道。另外,系统包括扬声器布置,扬声器布置包括直接信号扬声器的集合和环境信号扬声器的集合。直接信号通道中的每个与直接信号扬声器中的至少一个相关联,以及环境信号通道中的每个与环境信号扬声器中的至少一个相关联。因此,例如,直接信号和环境信号可以使用不同的扬声器来渲染,其中,例如,在直接信号扬声器与对应的环境信号扬声器之间可以存在空间相关性。因此,直接信号(或直接信号分量)和环境信号(或环境信号分量)两者可以被上混到比输入音频信号的通道数量多的数量的扬声器。环境信号或环境信号分量也由多个扬声器以非均匀方式渲染,根据声源布置的方向而被分配到不同的环境信号扬声器。因此,可以获得良好的听觉印象。

  在优选实施例中,每个环境信号扬声器与一个直接信号扬声器相关联。因此,通过以与直接信号分量在直接信号扬声器上分配的方式相同的方式在环境信号扬声器上分配环境信号分量,可以实现良好的听觉印象。

  在优选实施例中,环境信号扬声器的位置相对于直接信号扬声器的位置被抬高。已经发现的是,通过这种配置可以实现良好的听觉印象。另外,配置可以用于例如车辆中,并且在这种车辆中提供良好的听觉印象。

  根据本发明的实施例创建了一种用于基于输入音频信号(其可以优选地是多通道输入音频信号)提供环境信号通道的方法。方法包括基于输入音频信号提取环境信号(例如,其可以包括基于输入音频信号执行直接-环境分离或直接-环境分解,以得出环境信号,或者所谓的“环境信号提取”)。

  另外,方法包括取决于输入音频信号内的声源的位置或方向,将环境信号分配(例如,上混)到多个环境信号通道,其中环境信号通道的数量(例如,其可以具有相关联的不同的信号内容)大于输入音频信号的通道的数量(例如,大于提取的环境信号的通道的数量)。此方法基于与上述装置相同的考虑。另外,应当注意的是,方法可以由本文关于对应的装置描述的任何特征、功能和细节来补充。

  另一实施例包括一种渲染由多通道输入音频信号表示的音频内容的方法。方法包括如上所述的基于输入音频信号提供环境信号通道。在这种情况下,提供多于两个环境信号通道。另外,方法还包括提供多于两个直接信号通道。方法还包括将环境信号通道和直接信号通道馈送到扬声器布置,扬声器布置包括直接信号扬声器的集合和环境信号扬声器的集合,其中直接信号通道中的每个被馈送到直接信号扬声器中的至少一个,以及其中环境信号通道中的每个被馈送到环境信号扬声器中的至少一个。此方法基于与上述系统相同的考虑。另外,应当注意的是,方法可以由本文关于上述系统描述的任何特征、功能和细节来补充。

  根据本发明的另一实施例创建了一种计算机程序,当计算机程序在计算机上运行时,用于执行上述方法中的一个。

  附图说明

  图1a示出根据本发明实施例的音频信号处理器的示意性框图;

  图1b示出根据本发明实施例的音频信号处理器的示意性框图;

  图2示出根据本发明的实施例的系统的示意性框图;

  图3示出根据本发明实施例的音频信号处理器中的信号流的示意性表示;

  图4示出根据本发明的实施例的频谱权重的得出的示意性表示;

  图5示出根据本发明实施例的用于提供环境信号通道的方法的流程图;

  图6示出根据本发明实施例的用于渲染音频内容的方法的流程图;

  图7示出针对双通道立体声的具有两个扬声器(分别在左侧和右侧,“L”、“R”)的标准扬声器设置的示意性表示;

  图8示出具有四个扬声器(前左“fL”、前右“fR”、后左“rL”、后右“rR”)的四通道扬声器设置的示意性表示;以及

  图9示出具有标记为“h”的额外的高度扬声器的四通道扬声器设置的示意性表示。

  具体实施方式

  1.根据图1a和图1b的音频信号处理器

  1a)根据图1a的音频信号处理器

  图1a示出根据本发明实施例的音频信号处理器的示意性框图。根据图1a的音频信号处理器整体上使用100表示。

  音频信号处理器100接收输入音频信号110,音频信号110可以是例如多通道输入音频信号。输入音频信号110例如可以包括N个通道。另外,音频信号处理器100基于输入音频信号110提供环境信号通道112a、112b、112c。

  音频信号处理器100被配置为基于输入音频信号110提取环境信号130(其也可以被认为是中间环境信号)。为此目的,音频信号处理器可以例如包括环境信号提取120。例如,环境信号提取120可以基于输入音频信号110执行直接-环境分离或直接-环境分解,以得出环境信号130。例如,环境信号提取120还可以提供直接信号(例如,估计的或提取的直接信号),直接信号可以使用来表示,并且未在图1a中示出。可替换地,环境信号提取可以仅从输入音频信号120提取环境信号130,而不提供直接信号。例如,环境信号提取120可以执行“盲”直接-环境分离或直接-环境分解或环境信号提取。然而,可替换地,环境信号提取120可以接收支持直接-环境分离或直接-环境分解或环境信号提取的参数。

  另外,音频信号处理器100被配置为将环境信号130(其可以被认为是中间环境信号)分配(例如,上混)到多个环境信号通道112a、112b、112c,其中环境信号通道112a、112b、112c的数量大于输入音频信号110的通道的数量(并且通常还大于中间环境信号130的通道的数量)。应当注意的是,例如,将环境信号130分配到多个环境信号通道112a、112b、112c的功能可以由环境信号分配140来执行,环境信号分配140可以接收(中间)环境信号130并且还可以接收输入音频信号110或者例如关于输入音频信号内的声源的位置或方向的信息。而且,应当注意的是,音频信号处理器被配置为取决于输入音频信号110内的声源的位置或方向将环境信号130分配到多个环境信号通道。因此,环境信号通道112a、112b、112c例如可以包括不同的信号内容,其中(中间)环境信号130到多个环境信号通道112a、112b、112c的分配也可以是时间相关的和/或频率相关的,并且反映作为输入音频信号的基础的声源的变化的位置和/或变化的内容。

  总之,音频信号处理器110可以使用环境信号提取来提取(中间)环境信号130,并且然后可以将(中间)环境信号130分配到环境信号通道112a、112b、112c,其中环境信号通道的数量大于输入音频信号的通道的数量。(中间)环境信号130到环境信号通道112a、112b、112c的分配可以不是静态地限定的,而是可以适应于输入音频信号内的声源的时变位置或方向。另外,环境信号130的信号分量可以以这样的方式分配在环境信号通道112a、112b、112c上,即分配对应于激励环境信号的直接声源的位置或方向。

  因此,例如,不同的环境信号通道112a、112b、112c可以包括不同的环境信号分量,其中环境信号通道中的一个可以主要包括源自第一直接声源(或者由第一直接声源激励)的环境信号分量,以及其中环境信号通道中的另一个可以主要包括源自另一直接声源(或者由另一直接声源激励)的环境信号分量。

  总之,根据图1a的音频信号处理器100可以将源自不同的直接声源的环境信号分量分配到不同的环境信号通道,使得例如可以空间地分配环境信号分量。

  这可以在一些情况下带来改善的听觉印象。可以避免经由与“绝对不配合”直接声音源自的方向相关联的环境信号通道来渲染环境信号分量。

  另外,应当注意的是,根据图1a的音频信号处理器可以由本文描述的任何特征、功能和细节单独地或组合地补充。

  1b)根据图1b的音频信号处理器

  图1b示出根据本发明实施例的音频信号处理器的示意性框图。根据图1b的音频信号处理器整体上使用150表示。

  音频信号处理器150接收输入音频信号160,音频信号160可以是例如多通道输入音频信号。例如,输入音频信号160可以包括N个通道。另外,音频信号处理器150基于输入音频信号160提供环境信号通道162a、162b、162c。

  音频信号处理器150被配置为提供环境信号通道,使得取决于输入音频信号内的声源的位置或方向在环境信号通道之间分配环境信号分量。

  音频信号处理器带来的优点是,环境信号通道很好地适于直接信号内容,直接信号内容可以被包括在直接信号通道中。对于另外的细节,参考“发明内容”部分中的上述解释,以及关于其它实施例的解释。

  另外,应当注意的是,信号处理器150可以可选地由本文描述的任何特征、功能和细节来补充。

  2)根据图2的系统

  图2示出根据本发明的实施例的系统的示意框图。系统整体上使用200表示。系统200被配置为接收可以对应于输入音频信号110的多通道输入音频信号210。另外,系统200包括音频信号处理器250,例如,音频信号处理器250可以包括如参考图1a或图1b描述的音频信号处理器100的功能。然而,应当注意的是,在一些实施例中,音频信号处理器250可以具有增加的功能。

  另外,系统还包括扬声器布置260,例如,扬声器布置260可以包括直接信号扬声器262a、262b、262c的集合和环境信号扬声器264a、264b、264c的集合。例如,音频信号处理器可以向直接信号扬声器262a、262b、262c提供多个直接信号通道252a、252b、252c,以及音频信号处理器250可以向环境信号扬声器264a、264b、264c提供环境信号通道254a、254b、254c。例如,环境信号通道254a、254b、254c可以对应于环境信号通道112a、112b、112c。

  因此,一般而言,可以说,音频信号处理器250提供多于两个的直接信号通道252a、252b、252c和多于两个的环境信号通道254a、254b、254c。直接信号通道252a、252b、252c中的每个与直接信号扬声器262a、262b、262c中的至少一个相关联。另外,环境信号通道254a、254b、254c中的每个与环境信号扬声器264a、264b、264c中的至少一个相关联。

  另外,例如,在直接信号扬声器和环境信号扬声器之间可以存在关联(例如,成对关联)。然而,可替换地,在环境信号扬声器和直接信号扬声器的子集之间可以存在关联。例如,可以存在比环境信号扬声器更多的直接信号扬声器(例如,6个直接信号扬声器和4个环境信号扬声器)。因此,仅直接信号扬声器中的一些可以具有相关联的环境信号扬声器,而一些其他直接信号扬声器不具有相关联的环境信号扬声器。例如,环境信号扬声器264a可以与直接信号扬声器262a相关联,环境信号扬声器264b可以与直接信号扬声器262b相关联,以及环境信号扬声器264c可以与直接信号扬声器262c相关联。例如,相关联的扬声器可以被布置在相等或相似的方位角位置处(当从收听者的位置看时,例如,方位角位置可以相差不超过20°或不超过10°)。然而,相关联的扬声器(例如,直接信号扬声器及其相关联的环境信号扬声器)可以包括不同的高度。

  下面,将解释关于音频信号处理器250的一些细节。音频信号处理器250包括直接-环境分解220,例如,直接-环境分解220可以对应于环境信号提取120。例如,直接-环境分解220可以接收输入音频信号210并且执行盲(或者,可替换地,引导的)直接-环境分解(其中引导的直接-环境分解接收并且使用来自音频编码器的参数,参数描述例如对应于不同的频带或子带中的直接分量和环境分量的能量),从而提供(中间)直接信号(其也可以被指定为)和(中间)环境信号230,例如,环境信号230可以对应于(中间)环境信号130并且例如,可以被指定为例如,直接信号226可以被输入到直接信号分配246,直接信号分配246将(中间)直接信号226(例如,其可以包括两个通道)分配到直接信号通道252a、252b、252c。例如,直接信号分配246可执行上混。另外,例如,当上混来自直接-环境分解226的(中间)直接信号226以获取直接信号通道252a、252b、252c时,直接信号分配246可以考虑直接信号源的位置(或方向)。例如,直接信号分配246可以从输入音频信号210(例如,从多通道输入音频信号210的不同通道之间的差)得出关于声源的位置或方向的信息。

  环境信号分配240(例如,可以对应于环境信号分配140)将(中间)环境信号230分配到环境信号通道254a、254b和254c。由于(中间)环境信号230的通道的数量通常小于环境信号通道254a、254b、254c的数量,因此环境信号分配240还可以执行上混。

  当执行上混功能时,环境信号分配240还可以考虑输入音频信号210内的声源的位置或方向,使得环境信号的分量也在空间上被分配(因为环境信号通道254a、254b、254c通常与不同的渲染位置相关联)。

  另外,应当注意的是,直接信号分配246和环境信号分配240可以例如以协调的方式操作。信号分量(例如,直接信号和环境信号的时频域表示的时间频率仓或块的信号分量)的分配可以由直接信号分配246和环境信号分配240以相同的方式分配(其中在环境信号分配的操作中可以存在时移,以适当地考虑环境信号分量相对于直接信号分量的延迟)。换句话说,由直接信号分配246对时间-频率仓或块的缩放(如果直接信号分配246对直接信号的时间-频率域表示进行操作,则可以执行缩放)可以与由环境信号分配246应用以从环境信号230得出环境信号通道254a、254b、254c的对应的时间-频率仓或块的缩放相同。关于此可选的功能的细节将在下面描述。

  总之,在根据图2的系统200中,(中间)直接信号和(中间)环境信号(二者可以是多通道中间信号)之间存在分离。因此,对(中间)直接信号和(中间)环境信号进行分配(上混)以获取相应的直接信号通道和环境信号通道。上混可以对应于直接信号分量和环境信号分量的空间分配,因为直接信号通道和环境信号通道可以与空间位置相关联。另外,可以协调(中间)直接信号和(中间)环境信号的上混,使得可以以相同的方式(例如,使用相同的上混缩放)分配对应的信号分量(例如,关于它们的频率对应,并且关于它们的时间对应,可能在考虑环境信号分量和直接信号分量之间的时间偏移的情况下)。因此,可以实现良好的听觉印象,并且可以避免感知到环境信号是源自适当位置的。

  另外,应当注意的是,系统200或其音频信号处理器250可以由本文描述的任何特征和功能以及细节来单独地或组合地补充。另外,应当注意的是,关于音频信号处理器250描述的功能性也可并入到音频信号处理器100中作为可选的扩展。

  3)根据图3和4的信号处理

  下面将参考图3和4描述信号处理,其例如可以在图1a的音频信号处理器100中或者在根据图1b的音频信号处理器中或者在根据图2的音频信号处理器250中实现。

  然而,应当注意的是,以下描述的特征、功能和细节应当被认为是可选的。另外,应当注意的是,可将下文描述的特征、功能和细节单独地或组合地引入到音频信号处理器100、250中。

  下面,首先将参考图3描述整体信号流,随后,将参考图4所示的示例描述关于频谱权重计算的细节。

  现在参考图3的信号流,应当注意的是,假设存在具有N个通道的输入音频信号310,其中N通常大于或等于2。输入音频信号也可以被表示为x(t),其表示输入音频信号的时域表示,或者表示为X(m,k),其表示输入音频信号的频域表示或谱域表示或时频域表示。例如,m是时间索引,k是频率仓(或子带)索引。

  而且,应当注意的是,在输入音频信号是时域表示的情况下,可以可选地存在时域到谱域转换。而且,应当注意的是,优选地在谱域中(即,基于信号X(m,k))执行处理。

  而且,应当注意的是,输入音频信号310可以对应于输入音频信号110和输入音频信号210。

  而且,存在直接/环境分解320,直接/环境分解320基于输入音频信号310执行。优选地,但不是必须地,基于输入音频信号的谱域表示X(m,k)执行直接/环境分解320。另外,例如,直接/环境分解可以对应于环境信号提取120和直接/环境分解220。

  还应当注意的是,直接/环境分解220的不同实施方式对于本领域技术人员是已知的。例如,参考PCT/EP2013/072170中描述的环境信号分离。然而,应当注意的是,在此可以使用本领域技术人员已知的任何直接/环境分解概念。

  因此,直接/环境分解提供(中间)直接信号,(中间)直接信号通常包括N个通道(就像输入音频信号310)。(中间)直接信号使用322表示,并且也可以使用表示。例如,(中间)直接信号可以对应于(中间)直接信号226。

  另外,直接/环境分解320还提供(中间)环境信号324,例如,(中间)环境信号324也可以包括N个通道(就像输入音频信号310)。(中间)环境信号也可以被表示为

  应当注意的是,直接/环境分解320不一定提供完美的直接/环境分解或直接/环境分离。换句话说,(中间)直接信号320不需要完美地表示原始直接信号,并且(中间)环境信号不需要完美地表示原始环境信号。然而,(中间)直接信号和(中间)环境信号应当被认为是原始直接信号和原始环境信号的估计,其中估计的质量取决于用于直接/环境分解320的算法的质量(和/或复杂度)。然而,如本领域技术人员所知,直接信号分量和环境信号分量之间的合理分离可以通过从文献中已知的算法来实现。

  如图3所示的信号处理300还包括频谱权重计算330。例如,频谱权重计算330可以接收输入音频信号310和/或(中间)直接信号322。频谱权重计算330的目的是取决于信号源在听觉场景中的(估计)位置或方向提供用于直接信号的上混和环境信号的上混的频谱权重332。例如,频谱权重计算可以基于对输入音频信号310的分析确定这些频谱权重。一般而言,对输入音频信号310的分析允许频谱权重计算330估计特定频谱仓中的声音源自的位置或方向(或频谱权重的直接得出)。例如,频谱权重计算330可比较(或一般而言,评估)输入音频信号的通道(例如,左通道和右通道)的一个(或多个)频谱仓的振幅和/或相位。基于这种比较(或评估),(显式或隐式)信息可以从考虑的频谱仓中的频谱分量源自哪个位置或方向得出。因此,基于给定频谱仓的声音源自哪个位置或方向的估计,可以推断频谱分量应当被上混到(上混的)音频通道信号的哪个或哪些通道中(并且使用哪个强度或缩放)。换句话说,例如,由频谱权重组合330提供的频谱权重332可以为(中间)直接信号322的每个通道限定待在直接信号的上混340中使用的加权。

  换句话说,直接信号的上混340可以接收(中间)直接信号322和频谱权重332,并且因此得出直接音频信号342,直接音频信号342可以包括Q个通道,其中Q>N。另外,例如,上混的直接音频信号342的通道可以对应于直接信号通道252a、252b、252c。例如,由频谱权重计算330提供的频谱权重332可以限定上混矩阵Gp,上混矩阵Gp限定在上混的直接音频信号342的Q个通道的计算中与(中间)直接信号322的N个通道相关联的权重。例如,频谱权重以及因此由上混340使用的上混矩阵Gp可以在频谱仓与频谱仓之间(或者在频谱仓的不同块之间)不同。

  类似地,由频谱权重计算330提供的频谱权重332也可以用于(中间)环境信号324的上混350中。上混350可以接收频谱权重332和可以包括N个通道324的(中间)环境信号,并且基于其提供上混的环境信号352,上混的环境信号352可以包括Q个通道,其中Q>N。例如,上混的环境音频信号352的Q个通道可以例如对应于环境信号通道254a、254b、254c。另外,例如,上混350可以对应于图2中所示的环境信号分配240和图1a或图1b中所示的环境信号分配140。

  再一次,频谱权重332可以限定上混矩阵,上混矩阵描述在提供Q通道上混的环境音频信号352时由直接/环境分解320提供的(中间)环境信号324的N个通道的贡献(权重)。

  例如,上混340和上混350可以使用相同的上混矩阵Gp。然而,也可以使用不同的上混矩阵。

  再一次,环境信号的上混是频率相关的,并且可以单独地执行(对于不同的频谱仓或对于不同的频谱仓组使用不同的上混矩阵Gp)。

  关于频谱权重的可能的计算的可选细节将在下面描述,频谱权重的可能计算由频谱权重计算330执行。

  另外,应当注意的是,本文中例如关于频谱权重计算330、关于直接信号的上混340以及关于环境信号的上混350描述的功能可以可选地单独地或组合地结合到根据图1和2的实施例中。

  下面将参考图4描述用于计算频谱权重的简化示例。然而,应当注意的是,例如,频谱权重的计算可以如WO2013004698A1中所述的那样执行。

  然而,应当注意的是,也可以使用用于计算频谱权重的不同的概念,这些概念旨在将N通道信号上混到Q通道信号中。然而,应当注意的是,通常基于输入音频信号在上混中应用的频谱权重现在应用于由直接/环境分解320(基于输入音频信号)提供的环境信号324的上混中。然而,频谱权重的确定仍然可以基于输入音频信号(在直接/环境分解之前)或基于(中间)直接信号来执行。换句话说,频谱权重的确定可以与频谱权重的常规确定相似或相同,但是在根据本发明的实施例中,频谱权重被应用于不同类型的信号,即,应用于提取的环境信号,从而改善听觉印象。

  下面,将参考图4描述用于确定频谱权重的简化示例。双通道输入音频信号(例如,信号310)的频域表示在附图标记410处示出。左列410a表示输入音频信号的第一通道(例如,左通道)的频谱仓,以及右列418b表示输入音频信号(例如,输入音频信号310)的第二通道(例如,右通道)的频谱仓。不同的行419a-419d与不同的频谱仓相关联。

  另外,如图例420中所示,通过表示410中的相应字段的不同的填充来指示不同的信号强度。

  换句话说,附图标记410处的信号表示可表示输入音频信号X在给定时间(例如,对于给定帧)以及在多个频率仓(具有索引k)上的频域表示。例如,在第一频谱仓中,如行419a所示,第一通道和第二通道的信号可以具有近似相同的强度(例如,中等信号强度)。例如,这可以指示(或暗示)声源近似在收听者的前方,即在中心区域。然而,当考虑在行419b中表示的第二频谱仓时,可以看出,第一通道中的信号显著强于第二通道中的信号,例如,这可以指示声源在收听者的特定侧(例如,在左侧)。在行419c中表示的第三频谱仓中,当与第二通道相比时,信号在第一通道中更强,其中差(相对差)可以小于第二频谱仓(在行419b处示出)中的差。这可以指示声源稍微偏离中心,例如,当从收听者的角度看时稍微偏向左侧。

  下面将讨论频谱权重。频谱权重的表示在附图标记440处示出。四列448a至448d与上混信号(即,上混的直接音频信号342和/或上混的环境音频信号352)的不同通道相关联。换句话说,假设在附图标记440处所示的示例中Q=4。行449a至449e与不同的频谱仓相关联。然而,应当注意的是,行449a至449e中的每个包括两行数字(频谱权重)。行449A-449e中的每个中的第一、上部行的数字表示(中间直接信号和/或中间环境信号的)第一通道对相应频谱仓的相应上混信号(例如,上混的直接音频信号或上混的环境音频信号)的通道的贡献。类似地,第二行的数字(频谱权重)描述中间直接信号或中间环境信号的第二通道对于相应频谱仓的相应上混信号(上混的直接音频信号和/或上混的环境音频信号的)的不同通道的贡献。

  应当注意的是,每行449a、449b、449c、449d、449e可以对应于上混矩阵Gp的转置版本。

  下面,将描述如何从输入音频信号中得出上混系数的一些逻辑。然而,下面的说明应当被认为是简化的示例,仅仅是为了便于对本发明的基本理解。然而,应当注意的是,以下示例仅集中于幅度并且不考虑相位,而实际实施方式也可以考虑相位。另外,应当注意的是,使用的算法可能更复杂,例如,如参考文献中所描述的。

  现在参考第一频谱仓,可以发现(例如,通过频谱权重计算)输入音频信号的第一通道和第二通道的幅度是相似的,如行419a所示。因此,通过频谱权重计算230可以推断,对于第一频谱仓,(中间)直接信号和/或(中间)环境信号的第一通道应当(仅)对上混的直接音频信号或上混的环境音频信号的第二通道(通道2’)有贡献。因此,在行449a的上行中可以看到0.5的适当频谱权重。类似地,通过频谱权重计算可以得出结论,(中间)直接信号和/或中间环境信号的第二通道应对上混的直接音频信号和/或上混的环境音频信号的第三通道(通道3’)有贡献,如可以从第一行449a的第二行中的对应的值0.5看出的。例如,可以假设上混的直接音频信号和上混的环境音频信号的第二通道(通道2’)和第三通道(通道3’)比较地靠近听觉场景的中心,而例如第一通道(通道1’)和第四通道(通道4’)距离听觉场景的中心更远。因此,如果通过频谱权重计算330发现音频源近似在收听者的前方,则可以选择频谱权重,使得由此音频源激励的环境信号分量将在靠近音频场景的中心的一个或多个通道中被渲染(或主要渲染)。

  现在参考第二频谱仓,在行419b中可以看出,声源可能在收听者的左侧。因此,频谱权重计算330可以选择频谱权重,使得此频谱仓的环境信号将被包括在上混的环境音频信号的旨在用于收听者的左侧的远处的扬声器的通道中。因此,对于此第二频率仓,可以通过频谱权重计算330来决定用于该频谱仓的环境信号应当仅被包括在上混的环境音频信号的第一通道(通道1’)中。例如,这可以通过选择与第一上混通道(通道1’)相关联的频谱权重不同于0(例如,1)并且通过选择其它频谱权重(与其它上混通道2’、3’、4’相关联)为0来实现,因此,如果通过频谱权重计算230发现音频源强烈地位于音频场景的左侧,则频谱权重计算选择频谱权重,使得对应的频谱仓中的环境信号分量被分配(上混)到与音频场景的左侧的扬声器相关联的上混的环境音频信号的(一个或多个)通道。自然地,如果通过频谱权重计算330发现音频源在音频场景的右侧(当考虑输入音频信号或直接信号时),频谱权重计算330选择频谱权重,使得提取的环境信号的对应频谱分量将被分配(上混)到与音频场景的右侧的扬声器位置相关联的上混的环境音频信号的(一个或多个)通道。

  作为第三示例,考虑第三频谱仓。在第三频谱仓中,频谱权重计算330可以发现音频源“稍微”在音频场景的左侧(但在音频场景的左侧不是非常远)。例如,这可以从在第一通道中存在强信号并且在第二通道中存在中等信号的事实看出(参见行419c)。

  在这种情况下,频谱权重计算330可以设置频谱权重,使得第三频谱仓中的环境信号分量被分配到上混的环境音频信号的通道1’和2’,这对应于将环境信号稍微放置在听觉场景的左侧(但不是在听觉场景的左侧非常远)。

  总之,通过适当地选择频谱权重,频谱权重计算330可以确定提取的环境信号分量被放置(或平移)在音频信号场景中的何处。例如,在逐个频谱仓的基础上执行环境信号分量的放置。可以基于对输入音频信号的分析或基于对提取的直接信号的分析来做出提取的环境信号的特定频率仓应当被放置在频谱场景内的何处的决策。而且,可以考虑直接信号与环境信号之间的时间延迟,使得当与直接信号的上混340中使用的频谱权重相比时,环境信号的上混350中使用的频谱权重可以在时间上延迟(例如,延迟一个或多个帧)。

  然而,频谱权重组合也可考虑输入音频信号或提取的直接信号的相位或相位差。而且,自然地,可以以微调的方式确定频谱权重。例如,频谱权重不需要表示(中间)环境信号的通道到上混的环境音频信号的恰好一个通道的分配。相反,频谱权重可以指示多个通道上或者甚至所有通道上的平滑分配。

  应当注意的是,参考图3和4描述的功能可以可选地用于根据本发明的任何实施例中。然而,也可以使用用于环境信号提取和环境信号分配的不同的概念。

  而且,应当注意的是,关于图3和4描述的特征、功能和细节可以单独地或组合地引入到其它实施例中。

  4)根据图5的方法

  图5示出用于基于输入音频信号提供环境信号通道的方法500的流程图。

  方法包括在步骤510中,基于输入音频信号提取(中间)环境信号。方法500还包括在步骤520中,取决于输入音频信号内的声源的位置或方向,将(提取的中间)环境信号分配到多个(上混的)环境信号通道,其中环境信号通道的数量大于输入音频信号的通道的数量。

  根据图5的方法500可以单独地或组合地由本文描述的任何特征和功能来补充。特别地,应当注意的是,根据图5的方法500可以由关于音频信号处理器和/或关于系统描述的任何特征和功能以及细节来补充。

  5)根据图6的方法

  图6示出用于渲染由多通道输入音频信号表示的音频内容的方法600的流程图。

  方法包括基于输入音频信号提供610环境信号通道,其中提供多于两个环境信号通道。例如,可以根据关于图5描述的方法500来执行环境信号通道的提供。

  方法600还包括提供620多于两个直接信号通道。

  方法600还包括将环境信号通道和直接信号通道馈送630到包括直接信号扬声器的集合和环境信号扬声器的集合的扬声器布置,其中直接信号通道中的每个被馈送到直接信号扬声器中的至少一个,并且其中环境信号通道中的每个被馈送到环境信号扬声器中的至少一个。

  方法600可以可选地由本文所述的任何特征和功能以及细节单独地或组合地补充。例如,方法600还可以通过关于音频信号处理器或关于系统描述的特征、功能和细节来补充。

  6)另外的方面和实施例

  下面,将给出根据本发明的实施例。特别地,将呈现可以单独地或组合地被接管到其它实施例中的任一个的细节。应当注意的是,将描述一种方法,然而,方法可以由本文提到的装置和系统来执行。

  6.1概述

  下面将呈现概述。概述中描述的特征可以形成实施例,或者可以被引入到本文描述的其他实施例中。

  根据本发明的实施例引入环境信号的分离,其中根据它们的源信号的位置(例如,根据激励环境信号的音频源的位置)将环境信号本身分离为信号分量。尽管所有的环境信号都是扩散的并且因此不具有可定位的位置,但是许多环境信号,例如混响,是从具有可定位的位置的(直接)激励信号生成的。获取的环境输出信号(例如,环境信号通道112b至112c或环境信号通道254a至254c或上混的环境音频信号352)具有比输入信号(例如,N个通道)更多的通道(例如,Q个通道),其中输出通道(例如,环境信号通道)对应于产生环境信号分量的直接源信号的位置。

  获取的多通道环境信号(例如,由环境信号通道112a至112c或由环境信号通道254a至254c或由上混的环境音频信号352表示)是音频信号的上混期望的,即,用于在给定具有N个通道的输入信号的情况下创建具有Q个通道的信号,其中Q>N。多通道声音再现系统中的输出信号的渲染在下面描述(并且也在以上描述中描述到一定程度)。

  6.2提取的信号的建议再现

  提出的方法(和概念)的一个重要方面在于,提取的环境信号分量(例如,提取的环境信号130或提取的环境信号230或提取的环境信号324)根据它们的激励信号(例如,激励相应环境信号或环境信号分量的直接声源)的位置而在环境通道信号之间(例如,在信号112a至112c之间或在信号254a至254c之间,或在上混的环境音频信号352的通道之间)被分配。通常,所有的通道(扬声器)都可以用于再现直接信号或环境信号或两者。

  图7示出具有两个扬声器的普通扬声器设置,这适于再现具有两个通道的立体声音频信号。换句话说,图7示出具有两个扬声器(分别在左侧和右侧,“L”和“R”)的标准扬声器设置,用于双通道立体声。

  当具有更多通道的扬声器设置可用时,双通道输入信号(例如,输入音频信号110或输入音频信号210或输入音频信号310)可以被分离为多通道信号,并且额外的输出信号被馈送到额外的扬声器中。这种生成具有比可用的输入通道更多的通道的输出信号的过程通常被称为上混。

  图8示出具有四个扬声器的扬声器设置。换句话说,图8示出具有四个扬声器(前左“fL”、前右“fR”、后左“rL”、后右“rR”)的四通道扬声器设置。换句话说,图8示出具有四个扬声器的扬声器设置。为了在再现具有两个通道的信号时利用所有四个扬声器,例如,输入信号(例如,输入音频信号110或输入音频信号210或输入音频信号310)可以被分成具有四个通道的信号。

  图9中示出具有八个扬声器的另一扬声器设置,其中四个扬声器(“高度”扬声器)被抬高,例如安装在收听房间的天花板上。换句话说,图9示出四通道扬声器设置,具有标记为“h”的额外的高度扬声器。

  当使用具有比输入信号更多的通道的扬声器设置来再现音频信号时,通常的做法是将输入信号分解为有意义的信号分量。对于给定的示例,所有直接声音被馈送到四个下部扬声器中的一个,使得被平移到输入信号的两侧的声源被后扬声器“rL”和“rR”回放。被平移到中心或稍微偏离中心的声源被平移到前扬声器“fL”和“fR”。因此,可以根据直接声源在立体声全景图中的感知的位置而在扬声器之间分配直接声源。常规方法计算具有与输入信号具有的通道数量相同的通道的环境信号。当上混双通道立体声输入信号时,双通道环境信号被馈送到可用扬声器的子集,或者通过将一个环境通道信号馈送到多个扬声器而在所有四个扬声器之间被分配。

  本方法的一个重要方面是从具有N个通道的输入信号中分离出具有Q个通道的环境信号,其中Q>N。对于给定的示例,计算具有四个通道的环境信号,使得从直接声源激励的环境信号被平移到这些信号的方向。

  在这方面,应当注意的是,例如,可以通过直接/环境分解220和环境信号分配240的交互来执行扬声器之间的直接声源的上述分配。例如,频谱权重计算330可以确定频谱权重,使得直接信号的上混340执行如本文所述的直接声源的分配(例如,使得被平移到输入信号的两侧的声源被后扬声器回放,并且使得被平移到中心或稍微偏离中心的声源被平移到前扬声器)。

  另外,应当注意的是,上文提及的四个下部扬声器(fL、fR、rL、rR)可对应于扬声器262a至262c。另外,高度扬声述用于直接声音器h可以对应于扬声器264a至264c。

  换句话说,上的分配的概念也可以在根据图2的系统200中实现,并且可以通过关于图3和4解释的处理来实现。

  6.3信号分离方法

  下面,将描述可以在根据本发明的实施例中使用的信号分离方法。

  在混响环境(录音棚或音乐厅)中,声源生成混响,从而与其它扩散声,如掌声和扩散环境噪声(例如风噪声或雨)一起对环境作出贡献。对于大多数音乐录音,混响是最突出的环境信号。它可以通过在房间中记录声源或者通过将扬声器信号馈送到房间中并且使用麦克风记录混响信号来声学地生成。混响也可以通过信号处理而人工地生成。

  混响是由在边界(墙壁、地板、天花板)处反射的声源产生的。早期反射通常具有最大幅度,并且首先到达麦克风。反射进一步以衰减幅度反射,并有助于延迟的混响。此过程可以被建模为源信号的许多延迟和缩放的副本的加性混合。因此,通常借助于卷积来实现。

  上混可以通过使用额外的信息来引导地执行或者通过专门使用音频输入信号而没有任何额外的信息来非引导地执行。这里,我们集中在盲上混的更具挑战性的过程。当使用具有适当的元数据的引导方法时,可以应用类似的概念。

  假设输入信号x(t)是直接信号d(t)和环境信号a(t)的相加混合。

  x(t)=d(t)+a(t). (1)

  所有信号具有多个通道信号。输入、直接或环境信号的第i个通道信号分别由xi(t)、di(t)和ai(t)表示。然后,可以将多通道信号写为x(t)=[x1(t)...xN(t)]T、d(t)=[d1(t)...dN(t)]T和a(t)=[a1(t)...aN(t)]T,其中N是通道的数量。

  通过使用短期傅立叶变换或另一重构滤波器组在时间-频率域中执行处理(例如,由根据本发明的设备和方法执行的处理;例如,由设备100或系统200执行的处理,或如图3和4所示的处理)。在时间-频率域中,信号模型被写为

  X(m,k)=D(m,k)+A(m,k), (2)

  其中X(m,k)、D(m,k)和A(m,k)分别是x(t)、d(t)和a(t)的频谱系数,m表示时间索引,k表示频率仓(或子带)索引。在下文中,当可能时,省略时间和子带索引。

  直接信号本身可以由多个声源产生的多个信号分量组成,以频域表示法写为

  

  以及在时域表示为

  

  其中S是声源的数量。信号分量被平移到不同的位置。

  由直接信号分量dc生成混响信号分量rc被建模为线性时不变(LTI)过程,并且可以在时域中借助于直接信号与表征混响过程的脉冲响应的卷积来合成。

  rc=hc*dc, (5)

  用于音乐制作的混响过程的脉冲响应是衰减的,通常指数地衰减。衰减可以借助于混响时间来指定。混响时间是在初始声音静音之后混响信号的电平衰减到初始声音的一部分之后的时间。例如,混响时间可以被指定为“RT60”,即混响信号减少60dB花费的时间。普通房间、大厅和其它混响过程的混响时间RT60的范围在100ms到6s之间。

  应当注意的是,上述信号x(t)、x(t)、X(m,k)和rc的模型可表示输入音频信号110、输入音频信号210和/或输入音频信号310的特性,并且可在执行环境信号提取120时或在执行直接/环境分解220或直接/环境分解320时被利用。

  下面,将描述作为本发明的基础的关键概念,关键概念可以应用于装置100、系统200中,并由关于图3和4描述的功能来实现。

  根据本发明的方面,提出了使用Q个信道分离(或提供)环境信号例如,方法包括以下步骤:

  1.将环境信号与N个信道分离,

  2.针对所有位置p=1...P,计算用于根据声源在来自输入信号的空间图像中的位置来分离声源的频谱权重(7),

  3.借助于频谱加权(6)将获取的环境信号上混到Q个通道。

  

  例如,环境信号与N个通道的分离可以通过环境信号提取120或通过直接/环境分解220或通过直接/环境分解320来执行。

  另外,频谱权重的计算可以由音频信号处理器100或由音频信号处理器250或由频谱权重计算330执行。另外,例如,获取的环境信号到Q个通道的上混可以由环境信号分配140或由环境信号分配240或由上混350来执行。例如,频谱权重(例如,频谱权重332,可以由图4中的行449a至449e表示)可以从分析输入信号X(例如,输入音频信号110或输入音频信号210或输入音频信号310)得出。

  Gp=f(X),(7)

  计算频谱权重Gp,使得它们可以从输入信号分离被平移到位置p的声源。在应用于估计的环境信号之前,频谱权重Gp被可选地延迟(在时间上移位),以考虑混响的脉冲响应中的时间延迟(预延迟)。

  用于信号分离的两个处理步骤的各种方法是可行的。下面描述两种合适的方法。

  然而,应当注意的是,下面描述的方法应当仅被认为是示例,并且方法应当适于根据本发明的特殊的应用。应当注意的是,相对于环境信号分离方法,不需要修改或仅需要较小的修改。

  另外,应当注意的是,频谱权重的计算也不需要被强烈地适配。相反,例如,可以基于输入音频信号110、210、310来执行下面提到的频谱权重的计算。然而,通过下面描述的方法(用于频谱权重的计算)获取的频谱权重将被应用于提取的环境信号的上混,而不是应用于输入信号的上混或直接信号的上混。

  6.4环境信号分离方法

  在国际专利申请PCT/EP2013/072170“Apparatus and method for multi-channel direct-ambient decomposition for audio signal processing”中描述了一种用于环境信号分离的可能的方法。

  然而,不同的方法可以用于环境信号分离,并且对所述方法的修改也是可能的,只要存在环境信号的提取或者存在输入信号到直接信号和环境信号的分解。

  6.5用于计算对于空间位置的频谱权重的方法

  在国际专利申请WO2013004698A1“Method and apparatus for decomposing astereo recording using frequency-domain processing employing a spectralweights generator”中描述了一种用于计算空间位置的频谱权重的可能的方法。

  然而,应当注意的是,可以使用用于获取频谱权重的不同的方法(例如,其可以限定矩阵Gp)。另外,根据WO2013004698A1的方法也可以被修改,只要确保根据声源在空间图像中的位置来分离声源的频谱权重是针对与输出通道的期望数量相对应的通道数量而得出的。

  7.结论

  下面将提供一些结论。然而,应当注意的是,如在结论中描述的想法也可以被引入到本文公开的任何实施例中。

  应当注意的是,描述了一种用于将音频输入信号分解为直接信号分量和环境信号分量的方法。方法可用于声音后期制作和再现。目的是计算环境信号,其中所有的直接信号分量被衰减,并且只有扩散信号分量是可听的。

  提出的方法的重要方面是根据这些环境信号分量的源信号的位置来分离这些环境信号分量。尽管所有的环境信号都是扩散的并且因此没有位置,但是许多环境信号,例如混响,是从具有限定的位置的直接激励信号生成的。获取的环境输出信号(例如,可以由环境信号通道112a至112c或环境通道信号254a至254c或由上混的环境音频信号352表示)具有比输入信号(例如N个通道)更多的通道(例如Q个通道),其中输出通道(例如环境信号通道112a至112c或环境信号通道254a至254c)对应于直接激励信号(例如,其可以被包括在输入音频信号110中或输入音频信号210中或输入音频信号310中)的位置。

  为了进一步总结,已经提出了各种方法,用于仅根据信号分量(或所有信号分量)或直接信号分量在立体声图像中的位置来分离它们(例如,参考文献[2]、[10]、[11]和[12])。根据本发明的实施例将这个(常规)概念扩展到环境信号分量。

  为了进一步总结,根据本发明的实施例涉及环境信号提取和上混。根据本发明的实施例可以应用于,例如汽车应用中。

  根据本发明的实施例例如可以应用于“交响乐”概念的上下文中。

  根据本发明的实施例还可以应用于创建3D全景。

  8.实施方式替换

  虽然已经在装置的上下文中描述了所述概念的一些方面,但是显然,这些方面也表示对应方法的描述,其中块或设备与方法步骤或方法步骤的特征对应。类似地,在方法步骤的上下文中描述的方面也表示对对应装置的对应方框或项目或特征的描述。方法步骤中的一些或全部可以由(或使用)硬件装置来执行,例如微处理器、可编程计算机或电子电路。在一些实施例中,最重要的方法步骤中的一个或多个可以由这样的装置执行。

  取决于特定实施方式要求,本发明的实施例可以以硬件或软件实现。实施方式可以使用其上存储有电可读控制信号的数字存储介质来执行,例如软盘、DVD、蓝光、CD、ROM、PROM、EPROM、EEPROM或FLASH存储器,这些电可读控制信号与可编程计算机系统协作(或能够协作),使得执行相应的方法。因此,数字存储介质可以是计算机可读的。

  根据本发明的一些实施例包括具有电子可读控制信号的数据载体,其能够与可编程计算机系统协作,使得执行本文所述的方法中的一个。

  通常,本发明的实施例可以被实现为具有程序代码的计算机程序产品,当计算机程序产品在计算机上运行时,程序代码可操作用于执行所述方法中的一个。例如,程序代码可以存储在机器可读载体上。

  其它实施例包括存储在机器可读载体上的用于执行本文所述的方法中的一个的计算机程序。

  因此,换句话说,本发明方法的实施例是具有程序代码的计算机程序,当计算机程序在计算机上运行时,程序代码用于执行本文所述的方法中的一个。

  因此,本发明方法的另外的实施例是一种数据载体(或数字存储介质,或计算机可读介质),包括记录在其上的用于执行本文所述的方法中的一个的计算机程序。数据载体、数字存储介质或记录介质通常是有形的和/或非过渡性的。

  因此,本发明方法的另外的实施例是表示用于执行本文所述的方法中的一个的计算机程序的数据流或信号序列。数据流或信号序列例如可以被配置为经由数据通信连接(例如经由因特网)来传递。

  另外的实施例包括处理装置,例如计算机或可编程逻辑器件,其被配置为或适于执行本文所述的方法中的一个。

  另外的实施例包括一种计算机,其上安装有用于执行本文所述的方法中的一个的计算机程序。

  根据本发明的另外的实施例包括一种装置或系统,其被配置为将用于执行本文所述方法中的一个的计算机程序传递(例如,电子地或光学地)到接收器。例如,接收器可以是计算机、移动设备、存储器设备等。例如,装置或系统可以包括用于将计算机程序传递到接收器的文件服务器。

  在一些实施例中,可编程逻辑器件(例如现场可编程门阵列)可以用于执行本文描述的方法的一些或全部功能。在一些实施例中,现场可编程门阵列可以与微处理器协作以执行本文描述的方法中的一个。通常,优选地,由任何硬件装置来执行所述方法。

  本文所述的装置可以使用硬件装置、或使用计算机、或使用硬件装置和计算机的组合来实现。

  本文描述的装置或本文描述的装置的任何组件可以至少部分地以硬件和/或软件来实现。

  可以使用硬件装置、或使用计算机、或使用硬件装置和计算机的组合来执行本文描述的方法。

  本文所述的方法或本文所述的装置的任何组件可以至少部分地由硬件和/或软件来执行。

  上述实施例仅是对本发明原理的说明。应当理解的是,本文所述的布置和细节的修改和变化对于本领域的其他技术人员将是显而易见的。因此,意图是仅由所附权利要求的范围而不是由通过本文实施例的描述和解释而呈现的具体细节来限制。

  参考文献

  [1]J.B.Allen,D.A.Berkeley,and J.Blauert,“Multi-microphone signal-processing technique to remove room reverberation from speech signals,”J.Acoust.Soc.Am.,卷62,1977.

  [2]C.Avendano and J.-M.Jot,“A frequency-domain approach to multi-channel upmix,”J.Audio Eng.Soc.,卷52,2004.

  [3]C.Faller,“Multiple-loudspeaker playback of stereo signals,”J.AudioEng.Soc.,卷54,2006.

  [4]J.Merimaa,M.Goodwin,and J.-M.Jot,“Correlation-based ambienceextraction from stereo recordings,”in Proc.Audio Eng.Soc./23rd Conv.,2007.

  [5]J.Usher and J.Benesty,“Enhancement of spatial sound quality:A newreverberation-extraction audio uprnixer,”IEEE Trans.Audio,Speech,and LanguageProcess.,卷15,页2141-2150,2007.

  [6]G.Soulodre,“System for extracting and changing the reverberantcontent of an audio input signal,”US Patent 8,036,767,2011年10月.

  [7]J.He,E.-L.Tan,and W.-S.Gan,“Linear estimation based primary-ambient extraction for stereo audio signals,”IEEE/ACM Trans.Audio,Speech,andLanguage Process.,卷22,no.2,2014.

  [8]C.Uhle and E.Habets,“Direct-ambient decomposition using parametricWiener filtering wih spatial cue con-trol,”in Proc.Int.Conf on Acoust.,Speechand Sig.Process.,ICASSP,2015.

  [9]A.Walther and C.Faller,“Direct-ambient decom-position and upmix ofsurround sound signals,”in Proc.IEEE WASPAA,201 1.

  [10]D.Barry,B.Lawlor,and E.Coyle,“Sound source separation:Azimuthdiscrimination and resynthesis,”in Proc.Int.Conf Digital Audio Effects(DAFx),2004.

  [11]C.Uhle,“Center signal scaling using signal-to-downmix ratios,”inProc.Int.Corif.Digital Audio Ef-fects,DAFx,2013.

  [12)C.Uhle and E.Habets,“Subband center signal scaling using powerratios,”in Proc.AES53rd Conf Semantic Audio,2014.

《分配环境信号到多个环境信号通道的音频信号处理器、系统和方法.doc》
将本文的Word文档下载到电脑,方便收藏和打印
推荐度:
点击下载文档

文档为doc格式(或pdf格式)