当前位置：首页 > 物理技术 > 教育印鉴> 在新闻播报实时翻译文字和手语的方法和系统独创技术46689字

在新闻播报实时翻译文字和手语的方法和系统

2021-03-08 16:02:09

在新闻播报实时翻译文字和手语的方法和系统

　　技术领域

　　本发明涉及一种用于在新闻节目实时翻译的方法和系统。特别地，描述了具有用于新闻节目实时播报中翻译文字和手语的功能。

　　背景技术

　　现有技术主要存在的问题是，当前的产品缺乏实时翻译功能。一个常见的障碍是语言障碍，中国有56中民族以及各民族的语言，有些少数民族的人可能无法听得懂普通话也就是说在新闻报道中听不懂在说什么。此外，目前还没有在新闻报道中有实时翻译的功能，只能在新闻报道完以后去翻译在报道这样导致时间的浪费以及会对节目调整有所影响。

　　另外一个问题是，还有部分特殊观众因为其身体本身的问题，例如聋哑疾病，平时更习惯使用手语进行信息的传递和交流，而主流媒体的新闻节目，大部分是不配手语播音员的同步播报，同样的，对于少数民族群体，手语的习惯交流方式与普通话交流存在区域性的差别。即便是主流媒体受众最广的手语播报，少数民族观众也可能不太理解。因此，导致少数民族地区观众更习惯和愿意选择地方频道的节目进行信息接收。

　　另外一个问题是，现有技术中存在通过虚拟人建模，实现关节角向量到虚拟人特定手势姿态的映射，生成手语帧序列；再对手语新闻播报过程中手语与声音同步进行分析，对帧向量进行简化，计算帧权值，对帧序列进行优化；最后对视频流进行处理，从而将优化过的虚拟人手语表达的动画实时添加到视频流中，最终实现了手语与语音的同步播报技术。

　　由于手语是有两个基本结构，手势-口型模式和手势-表情模式分别发展的，釆用哪种模式完全取决于语言能力与语言习惯，这两种模式在语法上有时候也是不同的，可以说他们是两种不同语言。这也导致现有技术的建模-虚拟动画表达无法覆盖少数民族地区。同时，事实证明现有技术的映射-计算帧权-视频流处理技术延迟极为严重，无法与文字翻译内容对应同步实现，同时，也未能按照手语结构的基本构成法设计，输出效果不佳。

　　因此，需要一种新颖的方法或新颖的系统，其具有用于实时新闻报道的小语种翻译语言和局部地区习惯手语屏幕表达功能，其可实时观看，以简化再用花费时间来翻译后再播的一系列的问题。此外，结合附图和本公开的背景，根据随后的详细描述和所附权利要求，其他期望的特征和特性将变得显而易见。

　　发明内容

　　为了解决上述技术问题至少之一，本发明的一个目的在于提供一种在新闻节目中实时翻译的方法和系统，能够提高语言、手语流媒体表达翻译的准确性以及速度。

　　根据本发明的第一方面，公开了一种用于在新闻报道期间实时翻译语言的方法。该方法包括以下步骤：建立本地语言和手语表达的句子数据库，从源设备接收实时播报的音频馈送和视觉馈送；以均匀的块长度进行划分，将视觉馈送划分为视觉馈送分区，将音频馈入划分为音频馈送分区；并为音频供稿中的每个句子添加时间标记。该方法还包括以下步骤：在保留标记的时间标记的同时，将每个句子转换为翻译后的句子，每个翻译后的句子与视觉馈送分区之一和音频馈送分区之一相关联。在将第二视觉提要分区，第二音频提要分区以及具有标记的时间标记的相关翻译语句发送到接收方设备之前，在将第一视觉提要分区发送给接收方设备之间等待时间延迟到期。

　　根据本发明的第二方面，描述了一种用于在新闻播报期间翻译语言的系统，该系统包括至少一个服务器被配置为执行上述方法中的任何一个。

　　根据本发明的第三方面，描述了一种用于在新闻播报期间实时翻译的方法，该方法包括以下步骤：从源设备接收新闻播报的音频馈送和视觉馈送；以均匀的块长度进行划分，将视觉馈送分为视觉馈送分区，将音频馈入音频馈送分区；并为音频供稿中的每个句子添加时间标记。

　　该方法还包括以下步骤：在保留标记的时间标记的同时，将每个句子转换为翻译后的句子，该翻译后的句子与视觉馈送分区之一和音频馈送分区之一相关联。播放另一个可视提要分区，并根据标记的时间标记在播放或显示可视提要分区之一，音频提要分区之一和相关的翻译语句之前等待时间延迟到期。

　　优选地，翻译句子为翻译文本的形式，并且根据标记的时间标记将翻译句子显示为字幕，或者其中，翻译句子为翻译语音的形式，并且根据音频馈送分区的播放被抑制时标记的时间标记。

　　一或多个存储器，其耦合到一个或多个处理器，并被配置为向一个或多个处理器提供指令。

　　在结合附图阅读以下优选实施例的详细描述之后，本领域技术人员将理解本公开的范围并认识到本公开的其他方面。

　　附图说明

　　结合在本说明书中并形成本说明书的一部分的附图示出了本公开的几个方面，并且与说明书一起用于解释本公开的原理。

　　附图中，在整个单独的视图中，相同的附图标记表示相同或功能相似的元件，并且附图与下面的详细描述一起并入说明书中并构成说明书的一部分，附图仅用于举例说明各种实施方式，并且解释根据本实施例的各种原理和优点。

　　图1示出了根据本发明的实施例的用于通过提供翻译的句子来在新闻播报期间翻译的系统。

　　图2是流程图，其描绘了根据本发明实施例的用于将时间标记为音频馈送中的句子的方法。

　　图3提供了根据本发明实施例的将时间标记为音频馈送中的句子的图示。

　　图4示出了根据本发明实施例的数据集在通过标记阶段，语音识别阶段和翻译阶段过渡时的变形。

　　图5是流程图，其描绘了根据本发明实施例的用于通过提供翻译后的句子来播新闻的方法。

　　图6提供了根据本发明实施例的将时间标记为音频馈送中的句子的图示。

　　图7提供了根据本发明实施例的在音频馈送中将时间标记为句子的图示。

　　图8示出了根据本发明实施例的具有用于存储过去的实时播报的存储库引擎的系统。

　　本领域技术人员将理解，图中的元件是为了简单和清楚而示出的，并且不一定按比例描绘。

　　例如，相对于其他元件，可以夸大框图中的某些元件或流程图中的步骤的尺寸，以帮助提高对本实施例的理解。

　　具体实施方式

　　下面阐述的实施例表示使本领域技术人员能够实践实施例的必要信息，并且示出了实践实施例的最佳模式。

　　在根据附图阅读以下描述时，本领域技术人员将理解本公开的概念，并且将认识到本文中未特别解决的这些概念的应用。

　　以下详细描述本质上仅是示例性的，并不意图限制本发明或本发明的应用和使用。

　　此外，无意受本发明的前述背景或以下详细描述中提出的任何理论的束缚。

　　某些实施例的目的是公开一种用于在新闻播报期间翻译的方法，该方法包括以下步骤：建立本地语言和手语表达的句子数据库，从源设备接收新闻发布类流事件的音频馈送和视觉馈送；并以均匀的块长进行分区，将视觉提要分成视觉提要分区，将音频提要分成音频提要分区。

　　该方法还包括以下步骤：为音频馈送中的每个句子标记时间标记；在保留标记的时间标记的同时，将每个句子转换为翻译后的句子，每个翻译后的句子与视觉提要分区之一和音频提要分区之一相关联。

　　该方法还包括以下步骤：在将第二视觉提要分区，第二音频提要分区以及具有标记的时间标记的相关翻译句子发送之前，等待在将第一视觉提要分区发送给观看方设备之间的时间延迟到期，以使得信息传输到观看人设备。

　　为实时播报提供翻译内容的固有困难是，在准备翻译内容时有时间限制。

　　此外，如果打算确保翻译后的内容与视觉提要保持同步，则准备翻译后的内容所花费的时间将影响视觉提要的连续性，并且一旦准备翻译后的内容，就会导致视觉提要中的空白或中断无法跟上。

　　对于预先记录的事件不存在此问题，因为可以预先准备翻译的内容(在查看预先记录的事件之前)并与可视内容同步。

　　如本文所公开的本发明的某些实施例可以解决上述识别的问题，并且能够提供与实时播报的视觉馈送同步的翻译句子，而避免视觉馈送中的间隙，并且为观看者设备提供不间断的和连续的。持续传输新闻发布类事件。

　　某些实施例教导，在接收音频馈送和视觉馈送之后，音频馈送和视觉馈送被划分为视觉馈送分区和音频馈送分区，这些分区具有统一的块长度(例如，块长度可以是8秒)。

　　然后将时间标记到音频源中的每个句子。

　　在本文公开的上下文中，句子是音频馈送的一部分，包括一个句子的语音。

　　音频馈送可以包括多个句子。

　　将这些句子转换为翻译后的句子，同时保留标记的时间标记。

　　从接收到第一视觉提要分区和第一音频提要分区开始，就将它们与第一翻译语句一起发送给接收方设备一段时间后再保持一段时间。

　　第一翻译的句子具有标记的时间标记，并且具有与第一视觉提要分区和第一音频提要分区的关联(或相对应)。

　　为了保持时间而保持第一视觉馈送分区和第一音频馈送分区的目的是等待准备第一翻译句子(以及其他必要的处理，服务器之间的数据传输等)。

　　时间延迟优选地等于块长度(或者在该示例中为8秒)，以使得接收者设备可以接收恒定且连续的视觉馈送和音频馈送的流。

　　然后，某些实施例教导在发送第二视觉馈送分区和第二音频馈送分区与第二翻译语句一起之前，在发送第一视觉馈送分区与发送第二视觉馈送分区之间的相同时间延迟(例如8秒)到期之前。

　　第二翻译句子具有标记的时间标记，并且与第二视觉提要分区和第二音频提要分区具有关联(或相对应)。

　　发送第一视觉提要分区和第二视觉提要分区之间的8秒时间延迟的目的是等待准备第二个翻译的句子，并确保视觉提要和音频提要被发送到观看人设备。

　　然后，对后续的视觉提要分区和音频提要分区及其关联的翻译句子重复此过程。

　　在观看方设备的一端，它接收视觉提要的前8秒(即第一个视觉提要分区)，音频提要的前8秒(即第一个音频提要分区)和第一个翻译的句子。8秒后，观看方设备会收到视觉提要的接下来的8秒(即第二视觉提要分区)以及音频提要的接下来的8秒(即第二音频提要分区)和第二翻译句子。

　　因此，在每8秒间隔中，观看方设备将接收8秒的视觉供稿和音频供稿，以及与该8秒的视觉供稿和音频供稿相关的任何翻译语句。

　　视觉分区和音频分区相关联过程中，还通过迭代矩阵处理控制速度。处理过程可以在诸如本地转播中心的系统上执行。可以在本地转播中心建立本地语言和手语表达句子数据库。

　　手语表达方式可以通过虚拟形象模拟展现。

　　本地转播中心的系统上执行时，按以下步骤实现：

　　从源设备接收新闻发布类流事件的音频馈送和视觉馈送；并以均匀的块长进行分区，将视觉提要分成视觉提要分区，将音频提要分成音频提要分区。

　　对分区后的音频馈送和视觉馈送数据矩阵化，初始化当前矩阵。如将在下面更详细地描述的，可以根据实现方式对当前矩阵进行不同地初始化，并且初始化值取决于其性质待确定的原始矩阵。在一些实施例中，当前矩阵被初始化为对应于原始矩阵。在一些实施例中，使用原始矩阵构造新矩阵，并且当前矩阵被初始化为对应于新矩阵。

　　迭代地确定原始矩阵的矩阵属性。矩阵属性的示例包括原始矩阵的秩，原始矩阵的逆，行列式，原始矩阵的Cholesky因子等。

　　将当前矩阵划分为多个分区。如将在下面更详细地讨论的，分区包括左上分区，右上分区，左下分区和右下分区。右下分区也称为子矩阵。

　　子矩阵被变换。取决于实现方式，子矩阵可以不同地变换。在一些实施例中，将子矩阵的元素替换为当前矩阵中左上分区的舒尔补数。在一些实施例中，括号也被修改。在一些实施例中，子矩阵变换是可并行的。具体而言，子矩阵中元素的某些转换步骤是独立执行的(也就是说，不依赖于其他元素的转换结果)，因此，这些步骤可以在多个处理器上并行执行。与获得矩阵属性的现有顺序过程相比，在多个处理器上并行转换子矩阵可以大大减少处理时间并提高效率。

　　可选地执行基于变换后的子矩阵的任何附加处理。例如，可以计算并存储中间处理结果，以备后用。可以对转换后的子矩阵进行其他操作，等等。

　　确定迭代是否完成。在一些实施例中，检查条件，并且满足条件完成迭代。在各种实施例中，条件包括：子矩阵的对角元素为零，迭代周期的数量达到预设值，奇异值矩阵的元素以降序等。

　　当满足迭代条件并且迭代完成时，获得原始矩阵的矩阵属性，并且控制前进以从迭代结果获得矩阵，并输出矩阵属性。

　　如果迭代尚未完成，则过程继续回到上一步，在此将变换后的子矩阵设置为下一个迭代周期的当前矩阵。

　　然后，该过程执行下一次迭代。

　　一旦迭代完成，则输出矩阵属性。进而形成本接收区域的少数民族语言文字以及对应的手语配合表情或口型的流媒体展示，最终显示在屏幕或者显示器上，或者可以存储到存储位置以供以后使用等。

　　通过划分当前矩阵并修改子矩阵来迭代确定矩阵属性，与获得矩阵属性的许多现有技术相比，性能得到了提高。迭代方法大大缩短了计算时间。

　　此外，因为处理过程可用于获得不同类型的矩阵属性，所以软件功能的核心集和/或硬件组件的核心集，比传统技术更容易开发，验证和调试用于改进过程的软件和/或硬件实现。而且，该过程是高度收缩的，处理流水线中的数据以有序的规则方式移动，这使得该过程比现有的获取矩阵的技术更适合使用专用硬件(例如ASIC，FPGA， GPU等)来实现。

　　可以在转播中心的系统上执行上述过程。

　　该过程通过减少计算量并提供可并行化的操作来提高计算效率和速度。

　　为了促进对过程的讨论，定义舒尔补数的概念。假设n×n矩阵 R被划分为

　　其中A是r×r矩阵，F，B和C是(nr)×(nr)矩阵，其中r 和n是整数且r<n。

　　然后根据奈斯特罗姆公式，

　　C＝B A-1F

　　术语C-BA-1F是R中A的舒尔补数。如下文将更全面地解释的那样，舒尔补数将用于在迭代过程中变换子矩阵。

　　在302处，当前矩阵被初始化为对应于原始矩阵。

　　在这种情况下，原始矩阵是n×n矩阵，其中n是整数。

　　在此示例中，原始矩阵表示为R，当前矩阵表示为R0。

　　例如，

　　在次，迭代确定原始矩阵的矩阵属性。

　　在这种情况下，要确定的矩阵属性是原始矩阵的秩(r)。

　　矩阵的秩是矩阵中线性独立的行向量的最大数量或矩阵中线性独立的列向量的最大数量。

　　将当前矩阵划分成多个分区。在这种情况下，矩阵分为四个分区：左上分区(在这种情况下，标量对应于当前矩阵位置(1，1)上的元素)，右上分区对应于行向量包含从当前矩阵的(1，2)到(1，N) 的元素，左下分区与列向量对应的列向量包含从当前矩阵的(2，1)到(N，1)的元素以及包含其余元素的右下分区(也称为子矩阵)。行向量和列向量分区有时也称为分区的“括号”。

　　采取

　　例如，矩阵的划分如下：

　　在此，子矩阵被变换为对应于当前矩阵中左上分区(标量分区) 的舒尔补数。

　　在第一次迭代中，通过从子矩阵减去标量逆(A1<-1>)与列向量 (B1)和行向量(F1)的外积的乘积来变换R0的子矩阵(即C1))：

　　假设子矩阵中的每个元素都是独立计算的，而不依赖于其他变换后元素的结果，则可以在多个处理器上并行执行计算，从而显著地减少了处理时间。

　　为了确定迭代是否完成，检查了变换后的子矩阵的对角元素。

　　在第一次迭代期间，如果所有对角元素均为零，则行列式det[C1-B1A-1F1]＝0，并且R的秩为1。

　　如果C1-B1A-1F1的一个或多个对角元素不为零，则行列式 det[C1-B1A-1F1]≠0且R的秩>1，并且需要另一次迭代。

　　将变换后的子矩阵设置为下一迭代周期的当前矩阵。

　　处理返回，C1-B1A-1F1被划分为

　　在下一个迭代周期中，子矩阵C2被变换成C2-B2A2-1F2。

　　检查C2-B2A2-1F2的对角元素。

　　如果它们全为零，则R的秩为2；否则，将C2-B2A2-1F2设置为下一个子矩阵，并执行另一迭代。

　　在随后的迭代中，在迭代周期j处，如果Cj-BjAj-1Fj的对角元素全为零，则R的秩被确定为j，并且迭代完成。进一步，在到达迭代周期n-1并且标量Cn-1-Bn-1An-1-1Fn-1≠0时，则R具有等级n，并且迭代完成。

　　可选地,输出矩阵秩。根据实现的不同，可以将矩阵属性输出到分析引擎以进行进一步处理，显示在显示器上，存储到存储位置以供以后使用等。

　　这样，在观看方设备上视觉馈送和音频馈送的播放是连续且流畅的，没有间隙，而翻译后的句子与视觉馈送同步(例如，字幕将随着说话者及主持人的嘴)，并且最重要的是，字幕与手语信息是按所在地区的语言表述习惯进行修正的。

　　以这种方式，收看者设备的用户将能够有利地以接近或基本实时的方式观看和收听实时播报(因为第一视觉馈送分区和第一视频馈送分区的初始延迟为8秒)。第一个音频提要分区在传输之前会保持8 秒钟的时间延迟，而不会被打断，并且其首选语言的字幕会与新闻中的报道保持同步。

　　这增强了整体观看体验，还可以增广见闻了解到国内外大小事。

　　某些实施例教导了通过维护时间计数器来给音频馈送中的每个句子标记时间标记，该时间计数器跟踪视觉馈送的运行时间。当句子的开始被确定时，给时间标记分配一个时间计数器的值；并在句子上标记时间标记。

　　当检测到句子不完全在单个音频提要分区(或视觉提要分区)中，并且句子的一部分溢出到下一个音频提要分区时，某些实施例教导提取句子的一部分以创建句子。新句子。

　　然后，当已经确定了句子的一部分的开始时，给时间标记分配时间计数器的值。并将时间标记到新句子上。

　　因此，经过音频提要分区的长度的句子被“分解”，“分解”部分被标记为与下一个音频提要分区相对应的时间标记。

　　换句话说，“长”句子被分解为“短”句子，使得“短”翻译的句子将与视觉馈送分区和音频馈送分区同步地播放。

　　当检测到在单个音频提要分区(或视觉提要分区)中存在第一句和第二句，并且第二句的一部分溢出到下一个音频提要分区时，某些实施例教导分配时间-确定第二句部分开始时的带有计时器值的标记；并将时间标记为第二句话。

　　因此，第二个翻译的句子将与下一个音频提要分区一起播放。

　　在这种情况下，第二个翻译的句子将不会与视觉源和音频源“完全同步”。

　　这是因为第二翻译句子将仅与第二句子的第二部分(下一个音频提要分区)一起播放，而不与第二句子的第一部分一起播放。但是，这是可以接受的折衷方案，因为如果翻译的句子的“一部分”与音频供稿分区中的句子的“一部分”串联出现，那么在某些情况下，这些部分翻译的句子可能会失去其原始含义。因此，在某些实施例中，本发明将翻译句子的整体含义的保存优先于视觉馈送和音频馈送与翻译句子的“完全同步”。

　　在实施例中，可以通过将句子发送到语音识别引擎来开始将句子转换为翻译后的句子。语音识别引擎(可以由第三方实现)可以从句子中提取语音识别组件。然后，翻译引擎(可以由第三方实现)可以从语音识别组件生成翻译后的句子。

　　在某些实施例中，视觉馈送分区和音频馈送分区以及带有标记的时间标记的翻译语句以单独的信号被发送到观看方设备。在某些实施例中，视觉馈送分区和音频馈送分区以及带有标记的时间标记的翻译语句被一起编码并在一个信号中被发送到观看方设备。

　　将参考附图仅通过示例的方式描述本发明的实施例。附图中相同的附图标记和字符表示相同的元件或等同物。

　　图1示出了根据某些实施例的用于通过提供翻译的内容或翻译的句子来在新闻播报期间翻译的系统00。系统00可以包括视听内容(AVC)引擎01。AVC引擎01可以是任何服务器，计算机，或一组服务器或一组计算机等。在实施例中，AVC引擎01可以被配置为从源设备10接收实时流事件的视听内容(AVC)，并将该AVC发送给收看者设备11。AVC引擎01可以被配置为存储接收到的AVC。源设备10 和观看方设备11可以是任何电视，平板电脑，电子设备，台式或的携带式计算机，计算机终端，可穿戴技术设备等。在实施例中，AVC 包括视觉馈送和音频馈送，并且AVC引擎01可以被配置为接收视觉馈送和音频馈送。在实施例中，音频馈送可以包括多个句子。在本文公开的上下文中，句子是音频馈送的一部分，包括一个句子的语音。

　　在实施例中，AVC引擎01可以被配置为将视觉馈送划分为视觉馈送分区。优选地，该分隔使得视觉馈送分隔具有均匀(相同)的块长。例如块长度可以是6秒，8秒或在6秒和8秒的范围内(这是因为平均句子长度通常在6到8秒之间)，但是不限于此。在实施例中，可以使用自适应算法来改变分区的块长度，以确定最佳块长度。如果视觉馈送总共为24秒，并且统一块长度为8秒，则AVC引擎01会将视觉馈送划分为3个视觉馈送分区，每个分区的块长均为8秒。技术人员将理解，有时最后的可视提要分区将不会具有与其他分区相同的块长度。例如，如果视觉提要总计为30秒，则最后一个视觉提要分区的块长度仅为6秒。

　　在实施例中，AVC引擎01可以被配置为以与视觉馈送分区相同的方式将音频馈送划分为音频馈送分区。

　　在实施例中，将视觉馈送分区划分为视觉馈送分区并且将音频馈送划分为音频馈送分区可以使得在连续的分区之间存在重叠。例如重叠可以是1秒或2秒。例如，假设分区具有8秒的块长，则分区可以使得第一分区的“最后2秒”可以在第二分区的“前2秒”中被复制。可以在第三个分区的“前2秒”中复制第二个分区的“最后2秒”，依此类推。分区之间的重叠是为了确保当分区在接收方设备11上播放时分区之间的过渡更加平滑。优选地，在所有分区中重叠是一致的。

　　在实施例中，AVC引擎01可以被配置为给音频馈送中的每个句子标记时间标记。在本发明的上下文中，句子是音频馈送的一部分，包括一个句子的口语语音。例如，第一句子将是音频馈送的包括第一句子的口语语音的部分，而第二句子将是音频馈送的包括第二句子的口语语音的部分。AVC引擎01可以被配置为通过在检测到句子的开始时向时间标记分配时间计数器的值来向句子标记时间标记，然后将时间标记到句子。例如，当AVC引擎01检测到音频馈送中的第一有效峰值(其将对应于第一句的开头)时，AVC引擎01将向第一时间标记(T标记1)分配时间计数器的值。在那个时间点。时间计数器可以跟踪视觉提要的运行时间。例如T-mark1的值可以是秒和/或毫秒。

　　T标记1可以是从视觉提要开始到在音频提要中检测到第一个重要峰值为止的时间。AVC引擎01将T标记1标记到第一句。时间标记充当提示或指示何时在接收方设备11上显示翻译的句子(作为字幕)或播放翻译的句子(作为翻译语音)的时间，这将在稍后进行详细说明。与视觉信号保持同步(例如，与扬声器的嘴巴运动同步)。

　　当AVC引擎01检测到音频馈送中的下一个重要峰值(将与第二句的开头相对应)时，AVC引擎01将为第二个时间标记(T标记2) 分配该点的时间计数器值及时。然后，AVC引擎01将T标记2标记到第二句。AVC引擎01在继续接收音频馈送时重复该过程。

　　图2是根据实施例的流程图，其描绘了用于将时标记为音频馈送中的句子的方法。

　　在图2的步骤201中，AVC引擎01从源设备10接收视觉馈送和音频馈送。AVC引擎01可以存储视觉馈送和音频馈送。AVC引擎01 可以将视觉馈送和音频馈送存储在缓冲器中。

　　在步骤202中，AVC引擎01维护时间计数器，该时间计数器跟踪视觉馈送的运行时间。计时器可以以时间单位(秒和/或毫秒)递增。

　　在步骤203中，AVC引擎01检测音频馈送中的第一有效峰值(其对应于音频馈送中的第一句子的开始)。当说出单词“大家”时，AVC 引擎01检测到第一有效峰值(见图3)。

　　在步骤204中，当AVC引擎01检测到音频馈送中的第一有效峰值时，AVC引擎01为第一时间标记(Tjnark1)分配时间计数器的值。如图3所示，当时间计数器等于4秒时，AVC引擎01检测到第一有效峰值。因此，AVC引擎01向Tjnark1分配“4秒”的值。

　　在步骤205中，AVC引擎01将Tjnark1标记到音频馈送中的第一句话：“大家好”。图4中的数据集401示出了将Tjnark1标记为第一句。

　　在步骤206中，AVC引擎01检测音频馈送中的第二有效峰值(其对应于音频馈送中第二句子的开始)。AVC引擎01在说出单词“好”的点处检测到第二有效峰值(见图3)。

　　在步骤207中，当AVC引擎01检测到第二有效峰值时，AVC引擎01为第二时间标记(Tjnark2)分配时间计数器的值。如图3所示，当时间计数器等于10秒时，AVC引擎01检测到第二有效峰值。因此， AVC引擎01向Tjnark2分配“10秒”的值。

　　在步骤208中，AVC引擎01将Tjnark2标记到音频馈送中的第二句话：

　　尽管上面的示例仅描述了分别标记第一句和第二句的第一和第二时间标记，但这仅出于说明目的，技术人员将理解标记到句子的时间标记的数量是串联的以及音频供稿中的句子数。此外，在实施例中，可以通过记录与先前时间标记的时间差而不是特定时间值来实现时间标记。例如，利用T标记1为4秒且T标记2为10秒的示例，可以代之以6秒的值表示T标记2。因此，在这些实施例中，T标记2 指示从T标记1起6秒而不是等效的10秒。

　　图3提供了根据某些实施例的在音频馈送中的句子上标记时间标记的图示。此示例中的音频提要包含两个句子：“大家好”。“(蒙语)”。第一句话“大家好”在第一音频提要部分之内。第二句位于第二个音频输入部分。图4示出了根据本发明的实施例的与第一句子“大家好”有关的数据集的变形，该数据集在通过标记阶段，语音识别阶段和翻译阶段转变为第一翻译句子时。

　　在实施例中，AVC引擎01可以被配置为发起每个句子到翻译句子的转换，同时保留标记的时间标记。可以将句子(第一语言)转换为翻译后的句子(第二语言)，同时保留标记的时间标记。在实施例中，系统100可以包括语音识别引擎02和翻译引擎03。在实施例中，AVC引擎01可以被配置为将带有标记的时间标记的句子发送到语音识别引擎02。

　　在实施例中，语音识别引擎02可以被配置为接收带有标记的时间标记的句子，并从句子中提取语音识别成分，同时保留标记的时间标记。

　　语音识别组件可以是文本形式。备选地，语音识别组件可以是音频形式，因为语音识别引擎02可以被配置为直接解析或识别句子中语音词的音频声音。语音识别组件可以使用与句子中语音语言相同的语言。尽管以上实施例描述了语音识别是顺序进行的，但这仅出于说明的目的，并且语音识别引擎02可以被配置为并行执行语音识别，即，同时从多个句子中提取语音识别成分。

　　在实施例中，语音识别引擎02可以被配置为将带有标记的时间标记的语音识别组件发送给翻译引擎03。

　　在实施例中，翻译引擎03可以被配置为从语音识别引擎02接收具有标记的时间标记的语音识别组件。翻译引擎03可以被配置为从语音识别组件生成翻译的句子，同时保留标记的时间标记。

　　翻译的句子可以是已经从第一语言翻译成第二语言的语音识别组件。翻译后的句子可以采用翻译后的文本或翻译后的语音或两者的形式。在实施例中，可以经由翻译引擎03从观看者设备11接收“首选语言选择”来指定第二语言或翻译语言。可替代地，AVC引擎01可以被配置为从观看者设备11接收“首选语言选择”，并且将“首选语言选择”发送给翻译引擎03。在实施例中，如果没有从接收方设备11接收到“首选语言选择”，则翻译引擎03可以被配置为接收接收方设备11的位置信息，并使用在该位置信息指示的民族或城市说的主要语言，作为默认的第二种语言或翻译语言。位置信息可以是例如观看方设备11的全球定位卫星(GPS)坐标，内部协议(IP)地址等。

　　备选地，AVC引擎01可以被配置为观看方设备11的位置信息，从该位置信息确定默认的第二语言，并将其中继到翻译引擎03。

　　尽管上述实施例描述了语音识别组件的翻译是顺序进行的，但这仅出于说明的目的，翻译引擎03可以配置为并行执行多个语音识别组件的翻译。翻译引擎03还可以并行地执行单个语音识别组件的多次翻译，例如，将单个语音识别组件同时翻译成蒙语，维语，藏语等国内少数民族语言。因此，从单个语音识别组件生成多个翻译的句子。

　　语音识别引擎02和翻译引擎03可以是任何服务器，计算机，或者是同一组服务器或一组计算机等的一部分。在实施例中，AVC引擎 01，语音识别引擎02和翻译引擎03可以是相同的一个或多个服务器。在实施例中，语音识别引擎02和/或翻译引擎03可以由外部第三方服务器实现。在实施例中，语音识别引擎02和/或翻译引擎03的功能或应用编程接口(API)可以由外部第三方服务器来实现。换句话说，在某些实施例中，语音识别阶段和翻译阶段可以由第三方外包和执行。

　　在实施例中，AVC引擎01可以被配置为从翻译引擎03接收具有标记的时间标记的翻译句子。

　　在实施例中，AVC引擎01可以被配置为将音频馈送，视觉馈送以及具有标记的时间标记的翻译后的句子发送到观看者设备11。在实施例中，从其接收视觉馈送和音频馈送的时间起，AVC引擎01可以等待时间延迟(例如8秒到期)，然后将第一视觉分区，第一音频馈送分区和第一翻译的句子发送给观看者设备11。如果分区具有8 秒的块长，则这意味着AVC引擎01将向观看方设备11发送“价值8 秒”的视觉馈送和“价值8秒”的音频馈送。

　　第一翻译的句子具有标记的时间标记，并且具有与第一视觉提要分区和第一音频提要分区的关联(或相对应)。优选地，时间延迟等于分区的块长度。等待时间延迟的目的是为了迎合第一翻译句子的准备。但是，在第一个音频分区(例如，只有背景噪音)期间没有句子(没有语音)的情况下，显然不会有与第一个音频分区或第一个视觉分区相关联的翻译句子。在这种情况下，AVC引擎01仍然可以在发送第一视觉馈送分区和第一音频馈送分区之前等待时间延迟。

　　在实施例中，AVC引擎01然后在将第二视觉馈送分区，第二音频馈送分区和第二翻译的句子发送到观看者设备之前再次等待相同的时间延迟(8秒)。第二翻译句子具有标记的时间标记，并且与第二视觉提要分区和第二音频提要分区具有关联(或相对应)。等待时间延迟的目的是迎合第二翻译句子的准备，并且还确保将视觉馈送和音频馈送的恒定且连续的流发送到观看方设备。

　　在实施例中，收看者设备11可以被配置为接收第二视觉馈送分区，第二音频馈送分区和第二翻译句子。在实施例中，收看者设备 11可以被配置为在显示屏上显示第二视觉馈送分区并在音频扬声器上播放第二音频馈送分区。如果第二翻译句子是翻译文本的形式，则观看方设备11可以被配置为将第二翻译句子作为字幕叠加在第二视觉馈送分区上。例如，参考数据集503，观看方设备11将第二翻译的句子<imgclass＝“EMIRef”id＝“604890516-imgf000019_0001”/> 叠加在第二个视觉提要分区上，作为字幕，10秒(作为T标记)从开始在观看方设备11的显示屏上显示第一个视觉提要分区开始 2＝10)。如果第二翻译句子是翻译语音的形式，则接观看方设备11可以配置为播放 <imgclass＝“EMIRef”id＝“604890516-imgf000019_0002”/>。

　　在音频扬声器上，从观看设备11的显示屏上的第一个可视供稿分区开始显示起10秒。在实施例中，观看方设备11可以被配置为在抑制(或淹没)第二音频馈送分区以帮助第二翻译句子的可听性的同时在音频扬声器上播放第二翻译句子。然后，对后续的视觉提要分区和音频提要分区及其关联的翻译句子重复此过程。

　　下面是参考上述示例的在接收方设备11上发生的事件序列的摘要：

　　1.观看者设备11接收第一音频馈送分区(价值8秒)，第一视觉馈送分区(价值8秒)和第一翻译句子(在4秒处带有T标记1)。

　　2.在接下来的8秒中，观看方设备11播放第一音频提要分区和第一视觉提要分区8秒钟，并将 <imgclass＝“EMIRef”id＝“604890516-imgf000019_0003”/>叠加为字幕在4秒标记处(即，从第一个视觉提要分区的开始播放起4秒钟)。

　　3.观看设备11接收第二音频馈送分区(价值8秒)，第二视觉馈送分区(价值8秒)和第二翻译句子(在10秒处带有T标记2)。

　　4.在接下来的8秒钟内，观看方设备11播放第二音频提要分区和第二视觉提要分区，并将 <imgclass＝“EMIRef”id＝“604890516-imgf000020_0001”/>作为字幕叠加在第二音频提要分区上。10秒标记(即从播放第一个视觉提要分区的开始起10秒)。

　　因此观看方设备11有利地接收实时报道事件的不间断且连续的传输，其中翻译后的句子与实时报道事件同步。

　　尽管在图1中仅示出了一个接收方设备11，但对于本领域技术人员来说显而易见的是，系统100可以容纳多个接收方设备11。在实施例中，AVC引擎01可以被配置为将音频馈送分区，视觉馈送分区以及具有标记的时间标记的翻译语句同时发送到多个收看者设备11。发送到多个收看者设备11中的每一个的翻译的句子可以是不同的语言。

　　图4是根据某些实施例的流程图，其描绘了用于通过提供翻译后的句子来在新闻发布类事件期间实时翻译的方法。本发明的上下文中，句子是音频馈送的一部分，包括一个句子的口语语音。

　　在步骤402中，AVC引擎01将视觉提要划分为视觉提要分区，并且将音频提要划分为音频提要分区。优选地，分隔使得分隔具有均匀的块长度。例如块长度可以是6秒，8秒或在6秒和8秒的范围内。

　　在步骤403，AVC引擎01为音频馈送中的每个句子标记时间标记。 AVC引擎01可以被配置为通过在检测到句子的开始时向时间标记分配时间计数器的值来向句子标记时间标记，然后将时间标记到句子。数据集401说明T标记1被标记为第一句“大家好”，

　　在步骤404中，AVC引擎01发起每个句子到翻译句子的转换，同时保留标记的时间标记。AVC引擎01可以通过将带有已标记时间标记的句子发送到语音识别引擎02来实现此目的。语音识别引擎02 然后可以从每个句子中提取语音识别成分，同时保留标记的时间标记。图4中的数据集402示出了T标记1被标记为“大家好”的语音识别组件。然后，语音识别引擎02可以将带有标记时间标记的语音识别组件发送到翻译引擎03。然后，翻译引擎03可以从语音识别组件生成翻译后的句子，同时保留标记的时间标记。图4中的数据集403示出了T标记1被标记为翻译后的句子“ttf'f'P#？”，然后翻译引擎03可以将带有标记时间标记的翻译句子发送给AVC引擎01。

　　在步骤405中，从它第一次接收到视觉馈送和音频馈送的时间起， AVC引擎01在发送第一视觉馈送分区，第一音频馈送分区和翻译语句“ttf'f”之前等待时间延迟到期。P#？”到收看方设备11。优选地，时间延迟等于块长度。接收设备11播放第一音频馈送分区，第一视觉馈送分区并叠加“tt！f在第一个视觉提要分区上的 <imgclass＝“EMIRef”id＝“604890516-imgf000021_0002”/>作为字幕在T标记1(即，从播放第一个视觉提要分区的开始起4秒)。

　　收看人设备11播放第二个音频供稿分区，第二个视觉分区，并在第二个视觉供稿分区上将 <imgclass＝“EMIRef”id＝“604890516-imgf000022_0002”/>作为字幕叠加在T_mark2处(即从播放第一个可视Feed分区的开始起10 秒)。

　　因此，在收看方设备11上的视觉馈送和音频馈送的播放是连续且流畅的并且没有间隙，而翻译后的句子与视觉馈送完全同步(例如，字幕将随着移动的同时显示。说话者的嘴)。以这种方式，收看者设备11的用户将能够有利地以接近或基本实时的方式观看和收听实时流事件(因为在第一视觉馈送分区和第一音频馈送之前存在时间延迟)。分区传输)，而不会中断，并且其首选语言的字幕与报道事件中的画面同步。

　　在某些情况下，某个句子可能不完全位于单个音频供稿分区(或可视供稿分区)中，而句子的一部分就是下一个音频供稿分区。例如，在图6中，句子“今天外面天气晴朗，晴天”从第22个T标记3的第三个音频提要分区开始。但是其中一部分(“今天外面阳光明媚”)溢出或进入了第四个音频提要分区。某些实施例教导了提取句子的一部分(其重叠到下一个分区中)以创建新的句子。然后，当确定句子的一部分开始时，为时间标记分配一个计时器的值。并将时间标记标记到新句子上。在此示例中，句子被截断为“天气看起来很明亮”。创建了一个新句子“今天外面阳光明媚”。T标记4被标记到该新句子，T标记4的值为28秒。因此，经过音频提要分区的长度的句子被“分解”，其中“分解”部分被标记到与下一个音频提要分区的开始相对应的时间标记。

　　这样，“简短”翻译的句子将与视觉提要分区和音频提要分区同步播放。

　　可能存在以下情况：第一句话和第二句话在单个音频提要分区 (或视觉提要分区)中，而第二句话的一部分在下一个音频提要分区中。例如，在图7中，第一个句子“各个地区已解封”位于第五个音频供稿分区中，并且在32秒处从T标志5开始。第二句话“但XX地区仍然在封闭状态”也在T标记6的第五个音频供稿分区(36秒) 内开始，但其中的一部分(“XX地区仍然在封闭状态”)溢出或碰到第六个音频提要分区。某些实施例教导了当已经确定第二句的一部分的开始时，给时间标记分配时间计数器的值。并将时间标记标记为第二句话。在此示例中，现在忽略了T标记6(值为36秒)，该标记是第二句的原始标记时间标记。相反，现在将具有38秒值的T标记 7标记为第二句话“但XX地区仍然在封闭状态”。

　　以这种方式，翻译后的第二句将仅在T标记7(38秒)处显示，并与第六音频提要分区和第六视觉提要分区一起显示。在这种情况下，很明显，翻译后的句子不会与视觉源和音频源“完全同步”。但是，这是可以接受的折衷方案，因为如果翻译后的句子的“一部分”与音频提要分区/视觉提要分区中的句子的“一部分”串联出现，那么在某些情况下，这些部分翻译后的句子会失去其原始内容含义。例如，如果“但”的翻译显示为带有第五个可视分区的字幕，而“XX地区仍然在封闭状态”的翻译却显示为带有第六个可视分区的字幕。因此，在某些实施例中，本发明将翻译句子的整体含义的保存优先于视觉馈送和音频馈送与翻译句子的“完全同步”。

　　图8示出了根据某些实施例的具有用于存储过去的实时报道事件的存储库引擎801的系统800。在实施例中，AVC引擎01可以被配置为将过去的实时报道事件的音频馈送分区和视觉馈送分区缝合在一起作为存储库引擎801中的视频文件。在实施例中，AVC引擎01可以被配置为将带有标记的时间标记的翻译句子存储在存储库引擎 801中。因此，在实施例中，存储库引擎801可以用作过去事件的档案，可以由收看方设备11的用户重看。在实施例中，存储库引擎801 可以被配置为根据用户的请求将存档的视频文件和带有标记的时间标记的翻译后的句子发送给收看方设备11。然后，接收设备11将播放视频文件，并且根据先前描述的实施例，根据标记的时间标记来播放/显示翻译后的句子。

　　存储库引擎801可以是任何服务器，计算机，或一组服务器或一组计算机等。当AVC引擎01正在将视觉馈送，音频馈送和具有标记的时间标记的翻译语句发送到收看者设备11时，AVC引擎01被配置为允许源设备10和接收者设备11之间的双工通信。在该双工通信模式下，源设备10和接收方设备11轮流成为“源”和“接收方”。此外，在这些实施例中，AVC引擎01不再实现或等待时间延迟，并且从翻译的句子异步地将音频订阅源分区和视觉订阅源分区发送到接收方设备11。

　　在实施例中，描述了对等范例，其中收看者设备11可以执行AVC 引擎01的功能(并且不再需要AVC引擎01)并且源设备10直接与收看者设备11通信。收看人设备11配置为：从源设备10接收实时报道的音频进给和视觉进给，该音频进给具有语音；具有均匀块长度的分区，将视觉馈送分为视觉馈送分区，将音频馈入音频馈送分区；给音频提要中的每个句子加上时间标记；在保留标记的时间标记的同时，开始将每个句子转换为翻译后的句子，每个翻译后的句子与视觉提要分区之一和音频提要分区之一相关联；在播放视觉提要分区之一，音频提要分区之一和关联的翻译句子之前，根据标记的时间标记，在播放另一个可视提要分区之间的时间延迟到期之前。如果翻译的句子是翻译的文本形式，则根据标记的时间标记将翻译的句子显示为字幕。如果翻译句子是翻译语音的形式，则在抑制音频馈送分区的播放的同时，根据标记的时间标记来播放翻译句子。

　　在本申请中，本文所述的句子不必是完整的完整句子。如在一些实施例中所描述的，一些句子被分解。

《在新闻播报实时翻译文字和手语的方法和系统.doc》

将本文的Word文档下载到电脑，方便收藏和打印

推荐度：

点击下载文档

文档为doc格式(或pdf格式)

教育印鉴图文推荐

上一篇：一种遥感图像识别用显示设备

下一篇：一种用于教学用的液晶一体机固定架