欢迎光临小豌豆知识网!
当前位置:首页 > 电学技术 > 电通讯技术> 基于人工智能的字幕生成方法、装置、设备及存储介质独创技术35212字

基于人工智能的字幕生成方法、装置、设备及存储介质

2021-02-05 08:58:38

基于人工智能的字幕生成方法、装置、设备及存储介质

  技术领域

  本发明涉及人工智能领域,尤其涉及一种基于人工智能的字幕生成方法、装置、设备及存储介质。

  背景技术

  自人工智能在最后的棋牌领域围棋战胜了人类的最强选手以来,人工智能就不断受到人们的关注,从最开始的CNN神经网络到SSD神经网络,再到GAN神经网络。人工智能的技术在各种细分场景下不断应用,不同的神经网络涌现了各种不同的技术,各种改进算法给人工智能领域添砖加瓦。在移动支付领域,人脸识别的精准度和速度不断提高,人脸识别技术已经在高精度情况下迁移至安全防护领域比现有的虹膜识别有更广阔的应用场景。在自动驾驶领域,人工智能不断刷新人们对智能驾驶的认知,一幅幅科幻场景正在变成现实,传统基于统计学与分类的驾驶辅助技术正在被基于线性代数的人工智能辅助技术不断代替。

  然而在字幕领域中,现有的字幕生成技术还是基于传统的统计学与概率对声纹进行处理,生成字幕。不仅导致字幕的生成准确度不够,而且处理方式上,是直接将声纹转换成文字,然后将文字翻译为需要的文字。目前,也存在一些基于人工智能的字幕生成技术,但是处理上也是先将直接将声纹转换成文字,然后将文字翻译成目标语言,在翻译后对字幕染色,满足不了人们的需要实时生成染色字幕的需要,处理速度较慢。因此,需要一种能更迅速的生成易辨识翻译字幕的技术。

  发明内容

  本发明的主要目的在于解决现有技术生成易辨识翻译字幕较慢的技术问题。

  本发明第一方面提供了一种基于人工智能的字幕生成方法,所述基于人工智能的字幕生成方法包括:

  获取待生成字幕的视频数据,其中,所述视频数据包括:时间序列、所述时间序列对应的语音数据、所述时间序列对应的图像数据;

  读取语音语言种类和目标语言种类,以及调取所述语音语言种类和所述目标语言种类对应的机器学习转换算法,对所述语音数据进行转换处理,生成所述目标语言种类的字符串数据,其中,所述字符串数据包括:文字字符串、所述文字字符串对应的声纹标签序列;

  根据所述声纹标签序列中的标签种类,对所述文字字符串进行染色处理,生成所述声纹标签序列对应的目标语言染色字幕;

  根据所述时间序列,将所述目标语言染色字幕与所述图像数据进行合并处理,生成附带字幕的视频数据。

  可选的,在本发明第一方面的第一种实现方式中,所述调取所述语音语言种类对应的机器学习转换算法,对所述语音数据进行转换处理,生成所述目标语言种类的字符串数据包括:

  对所述语音数据的声纹特征进行提取,生成所述语音数据对应的特征矩阵;

  根据所述语音语言种类,调取所述语音语言种类对应的识别算法,以及根据所述识别算法,对所述特征矩阵进行识别处理,得到文字字符串;

  根据所述时间序列,将所述文字字符串与所述特征矩阵进行嵌入处理,得到标签特征矩阵;

  根据所述语音语言种类,调取所述语音语言种类对应的声纹分类算法,以及根据所述声纹分类算法,对所述标签特征矩阵进行分类标记处理,得到所述文字字符串对应的声纹标签序列;

  将所述声纹标签序列与所述文字字符串进行组合处理,得到字符串数据。

  可选的,在本发明第一方面的第二种实现方式中,所述根据所述识别算法,对所述特征矩阵进行识别处理,得到文字字符串包括:

  将所述特征矩阵与预置初始矩阵进行卷积处理,得到第一识别矩阵;

  对所述第一识别矩阵进行分批归一化处理,得到第二识别矩阵;

  对所述第二识别矩阵进行映射转换处理,得到第三识别矩阵;

  将所述第三识别矩阵与预置深度矩阵进行卷积处理,得到第四识别矩阵;

  根据预置激活函数,对所述第四识别矩阵进行激活判定,得到文字字符串。

  可选的,在本发明第一方面的第三种实现方式中,所述根据所述声纹分类算法,对所述标签特征矩阵进行分类标记处理,得到所述文字字符串对应的声纹标签序列包括:

  将所述标签特征矩阵代入预置第一期望函数中,得到第一期望值集,并将所述标签特征矩阵代入预置第二期望函数中,得到第二期望值集;

  根据所述文字字符串的排序,对所述第一期望值集和所述第二期望值集进行极大极小运算,得到极大极小值集;

  依次将所述极大极小值集中的数值与预置分类区间进行比对,得到所述文字字符串对应的声纹标签序列。

  可选的,在本发明第一方面的第四种实现方式中,所述依次将所述极大极小值集中的数值与预置分类区间进行比对,得到所述文字字符串对应的声纹标签序列包括:

  将所述极大极小值集中的数值与预置分类区间的中位数进行比对;

  判断所述数值是否大于所述分类区间的中位数;

  若大于所述中位数,则将所述中位数作为最小值重新赋值所述分类区间,以便将所述数值与所述分类区间的中位数重新进行比对;

  若小于所述中位数,则判断所述数值是否等于所述中位数;

  若不等于所述中位数,则将所述中位数作为最大值重新赋值所述分类区间,以便将所述数值与所述分类区间的中位数重新进行比对;

  若等于所述中位数,则读取所述中位数所在所述分类区间的声纹标签,将所述声纹标签标记至所述数值对应所述文字字符串的字符,循环标记得到所述文字字符串对应的声纹标签序列。

  可选的,在本发明第一方面的第五种实现方式中,所述根据所述声纹标签序列中的标签种类,对所述文字字符串进行染色处理,生成所述声纹标签序列对应的目标语言染色字幕包括:

  读取所述声纹标签序列的标签种类;

  根据所述标签种类,对所述文字字符串中字符进行分类染色,得到染色字符串;

  将所述染色字符串转化为字符图像数据,并将所述字符图像数据与所述时间序列进行对应标记处理,得到所述时间序列对应的目标语言染色字幕。

  可选的,在本发明第一方面的第六种实现方式中,在所述根据所述时间序列,将所述目标语言染色字幕与所述图像数据进行合并处理,生成附带字幕的视频数据之后,还包括:

  将所述附带字幕的视频数据传输至预置存储端口,以便保存所述附带字幕的视频数据。

  本发明第二方面提供了一种基于人工智能的字幕生成装置,包括:

  获取模块,用于获取待生成字幕的视频数据,其中,所述视频数据包括:时间序列、所述时间序列对应的语音数据、所述时间序列对应的图像数据;

  转换模块,用于读取语音语言种类和目标语言种类,以及调取所述语音语言种类和所述目标语言种类对应的机器学习转换算法,对所述语音数据进行转换处理,生成所述目标语言种类的字符串数据,其中,所述字符串数据包括:文字字符串、所述文字字符串对应的声纹标签序列;

  染色模块,用于根据所述声纹标签序列中的标签种类,对所述文字字符串进行染色处理,生成所述声纹标签序列对应的目标语言染色字幕;

  字幕生成模块,用于根据所述时间序列,将所述目标语言染色字幕与所述图像数据进行合并处理,生成附带字幕的视频数据。

  本发明第三方面提供了一种基于人工智能的字幕生成设备,包括:存储器和至少一个处理器,所述存储器中存储有指令,所述存储器和所述至少一个处理器通过线路互连;所述至少一个处理器调用所述存储器中的所述指令,以使得所述基于人工智能的字幕生成设备执行上述的基于人工智能的字幕生成方法。

  本发明的第四方面提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有指令,当其在计算机上运行时,使得计算机执行上述的基于人工智能的字幕生成方法。

  附图说明

  图1为本发明实施例中基于人工智能的字幕生成方法的第一个实施例示意图;

  图2为本发明实施例中基于人工智能的字幕生成方法的第二个实施例示意图;

  图3为本发明实施例中基于人工智能的字幕生成方法的第三个实施例示意图;

  图4为本发明实施例中基于人工智能的字幕生成装置的一个实施例示意图;

  图5为本发明实施例中基于人工智能的字幕生成装置的另一个实施例示意图;

  图6为本发明实施例中基于人工智能的字幕生成设备的一个实施例示意图。

  具体实施方式

  本发明实施例提供了一种基于人工智能的字幕生成方法、装置、设备及存储介质。

  本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的实施例能够以除了在这里图示或描述的内容以外的顺序实施。此外,术语“包括”或“具有”及其任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

  为便于理解,下面对本发明实施例的具体流程进行描述,请参阅图1,本发明实施例中基于人工智能的字幕生成方法的第一个实施例包括:

  101、获取待生成字幕的视频数据,其中,视频数据包括:时间序列、时间序列对应的语音数据、时间序列对应的图像数据;

  在本实施例中,通过有线传输或者无线传输,获取到待生成字幕的视频数据。在获取过程中,可以由用户先将视频数据缓存在中转区,获得用户操作的上传指令,直接抓取缓存视频数据。

  102、读取语音语言种类和目标语言种类,以及调取语音语言种类和目标语言种类对应的机器学习转换算法,对语音数据进行转换处理,生成目标语言种类的字符串数据,其中,字符串数据包括:文字字符串、文字字符串对应的声纹标签序列;

  在本实施例中,不同的目标语言有不同的转换算法,在进行转换处理,由用户进行选择目标语言,通过目标语言种类的选择即可通过调取对应的机器学习转换算法。每个机器学习转换算法都是对应目标语言种类的训练完成的。计算上,先对语音数据进行向量化,对声纹的特征进行提取,生成语音数据的特征矩阵。将该特征矩阵与训练的3*3卷积矩阵进行卷积,然后对所有元素求平均值uB,并求得所有元素的方差σB2,根据回归函数:

  

  其中,xi表示每个元素,Xi~表示映射后的元素,q是设置的偏差常数。

  然后根据转换对应函数:

  Yi=r*Xi~+c

  其中,Yi表示最终得到的转换元素,r表示斜率常数,c表示截距常数。

  转换后,继续使用Relu6函数进行转换,Relu6函数表示:

  

  其中,f(Yi)为转换后的元素。

  将元素转换后的矩阵再与预置1*1的卷积矩阵进行乘积,然后再使用一次分批归一化处理。将得到的矩阵结果使用ReLu函数进行激活,ReLu函数为:

  

  其中,μ为一个可通过反向传播算法(Back Propagation)学习的变量,μ的取值范围是(0,1),激活后生成转换的文字字符串。

  上述方法是完成对语音数据直接转换为文字,下面对转换的文字标记声纹标签。

  将特征矩阵与生成文字字符串按照转换顺序进行拼接,得到标签特征矩阵,标签特征矩阵作为基本的数据,先将标签特征矩阵进行卷积后代入第一函数中,得到结果PG(x;θ),然后将标签特征矩阵进行卷积的结果后代入第二函数中,得到Pdata(x),然后获得函数:

  V(G,D)=Ex~Pd[logD(x)]+Ex~PG[log(1-D(x))]

  

  求解函数F(G,D)其中,G(z)=x为神经网络的卷积的抽象函数,x为神经网络输出结果,z为标签特征矩阵,结果得到D(x)的第二函数的处理的结果。求得最大化V(G,D)后固定G,最小化V(G,D)的值D。固定G,max V(G,D)就表示PG(x;θ)和Pdata(x)之间的差异,然后要找一个最好的G,让这个最大值最小,也就是两个分布之间的差异最小。根据这个分类训练后得到卷积分类矩阵,直接对标签特征矩阵进行分类设置好标签。

  103、根据声纹标签序列中的标签种类,对文字字符串进行染色处理,生成声纹标签序列对应的目标语言染色字幕;

  在本实施例中,标签种类有:标签1、标签2、标签3、标签4、标签5。对字符串中标签1、标签2、标签3、标签4、标签5对应的字符串分别染色为红、绿、蓝、紫、黑,生成目标语言染色的字幕。

  104、根据时间序列,将目标语言染色字幕与图像数据进行合并处理,生成附带字幕的视频数据。

  在本实施例中,染色后的字幕根据时间序列,1.00-1.20时间的字符串显示在图像数据1.00-1.20中,2.20-2.50时间的字符串显示在图像数据2.20-2.50中。根据时间序列,将字幕与图像数据结合进行图像合并,将合并图像与音频数据再根据时间序列合并,生成附带字幕的视频数据。

  本发明实施例中,通过直接将音频数据直接转换为目标语言,少了音频转换为文字,再由文字转换目标语言的过程。在生成目标语言的字符串时,通过附带音频标签,通过音频标签将字符串染色,增加字幕辨识度,实现了快速生成易辨识的翻译字幕。

  请参阅图2,本发明实施例中基于人工智能的字幕生成方法的第二个实施例包括:

  201、获取待生成字幕的视频数据,其中,视频数据包括:时间序列、时间序列对应的语音数据、时间序列对应的图像数据;

  本实施例描述的方法实施例与第一个实施例类似,可以参考前述方法实施例中的对应过程,在此不再赘述。

  202、读取语音数据和目标语言种类;

  本实施例描述的方法实施例与第一个实施例类似,可以参考前述方法实施例中的对应过程,在此不再赘述。

  203、对语音数据的声纹特征进行提取,生成语音数据对应的特征矩阵;

  在本实施例中,声纹先通过滤波进行去噪,然后根据声波的移动提取出声波的矩阵,将该矩阵确定为特征矩阵。

  204、根据语音语言种类,调取语音语言种类对应的识别算法;

  在本实施例中,语言种类:汉语、英语、法语、日语、德语、西班牙语、葡萄牙语、俄语。依次对应的识别算法则有:算法1、算法2、算法3、算法4、算法5、算法6、算法7、算法8。算法1-8都是不同的神经网络模型训练的结果,结构虽然一样但是内置的参数不同。

  205、将特征矩阵与预置初始矩阵进行卷积处理,得到第一识别矩阵;

  在本实施例中,将特征矩阵与3*3的卷积矩阵进行乘积,得到第一识别矩阵。

  206、对第一识别矩阵进行分批归一化处理,得到第二识别矩阵;

  在本实施例中,对第一识别矩阵中的所有元素求平均值uB,并求得所有元素的方差σB2,根据回归函数:

  

  其中,xi表示每个元素,Xi~表示映射后的元素,q是设置的偏差常数。

  然后根据转换对应函数:

  Yi=r*Xi~+c

  其中,Yi表示最终得到的转换元素,r表示斜率常数,c表示截距常数。转换后得到第二识别矩阵。

  207、对第二识别矩阵进行映射转换处理,得到第三识别矩阵;

  在本实施例中,对第二识别矩阵中的每个元素,使用ReLu6函数进行转换,ReLu6函数表示:

  

  其中,f(Yi)为转换后的元素,生成第三识别矩阵。

  208、将第三识别矩阵与预置深度矩阵进行卷积处理,得到第四识别矩阵;

  在本实施例中,第三识别矩阵与1*1的卷积矩阵进行乘积,生成第四识别矩阵。

  209、根据预置激活函数,对第四识别矩阵进行激活判定,得到文字字符串;

  在本实施例中,将得到的第四识别矩阵使用ReLu函数进行激活,ReLu函数为:

  

  其中,μ为一个可通过反向传播算法(Back Propagation)学习的变量,μ的取值范围是(0,1),激活后生成转换的文字字符串。

  210、根据时间序列,将文字字符串与特征矩阵进行嵌入处理,得到标签特征矩阵;

  在本实施例中,文字字符串“SQ”与特征矩阵组合得到,{(S,Q),(2,6),(26,96)}的标签特征矩阵。

  211、根据语音语言种类,调取语音语言种类对应的声纹分类算法;

  在本实施例中,语言种类:汉语、英语、法语、日语、德语、西班牙语、葡萄牙语、俄语。依次生成声纹分类算法:算法q1、算法q2、算法q3、算法q4、算法q5、算法q6、算法q7、算法q8。

  212、将标签特征矩阵代入预置第一期望函数中,得到第一期望值集,并将标签特征矩阵代入预置第二期望函数中,得到第二期望值集;

  在本实施例中,第一期望函数,标签特征矩阵z先进行卷积Q(z)=x,然后将卷积结果代入得到D(x),根据D(x)得到第一期望值集Ex~Pd[logD(x)],同理使用第二期望函数得到第二期望值Ex~PG[log(1-D(x))]。

  213、根据文字字符串的排序,对第一期望值集和第二期望值集进行极大极小运算,得到极大极小值集;

  在本实施例中,V(G,D)=Ex~Pd[logD(x)]+Ex~PG[log(1-D(x))],

  

  求解函数F(G,D)其中,G(z)=x为神经网络的卷积的抽象函数,x为神经网络输出结果,z为标签特征矩阵,结果得到D(x)的第二函数的处理的结果。求得最大化V(G,D)后固定G,最小化V(G,D)的值D。固定G,max V(G,D)就表示PG(x;θ)和Pdata(x)之间的差异,然后要找一个最好的G,让这个最大值最小,也就是两个分布之间的差异最小。

  214、将极大极小值集中的数值与预置分类区间的中位数进行比对;

  在本实施例中,极大值极小值集{1233,4531,9561,5000}与分类区间A类、B类、C类的总区间[1,9999]比较。

  215、判断数值是否大于分类区间的中位数;

  在本实施例中,判断1233是否大于5000,4531是否大于5000,9561是否大于5000,5000是否大于5000。

  216、若大于中位数,则将中位数作为最小值重新赋值分类区间,以便将数值与分类区间的中位数重新进行比对;

  在本实施例中,9561大于5000,则在[5000,9999]区间内比较,设置浮点数的收敛位数在2位数即可。

  217、若小于中位数,则判断数值是否等于中位数;

  在本实施例中,判断1233是否大于5000,4531是否大于5000,5000是否大于5000。

  218、若不等于中位数,则将中位数作为最大值重新赋值分类区间,以便将数值与分类区间的中位数重新进行比对;

  在本实施例中,将1233和4531与区间[1,5000]的中位数进行比较,设置浮点数的收敛位数为2位。

  219、若等于中位数,则读取中位数所在分类区间的声纹标签,将声纹标签标记至数值对应文字字符串的字符,循环标记得到文字字符串对应的声纹标签序列;

  在本实施例中,5000等于5000,则直接读取5000位数的标签,这时标签类为A类。

  220、将声纹标签序列与文字字符串进行组合处理,得到字符串数据;

  在本实施例中,将A类标签与5000对应的文字字符串组合,得到附带标签的字符串数据。

  221、根据声纹标签序列中的标签种类,对文字字符串进行染色处理,生成声纹标签序列对应的目标语言染色字幕;

  本实施例描述的方法实施例与第一个实施例类似,可以参考前述方法实施例中的对应过程,在此不再赘述。

  222、根据时间序列,将目标语言染色字幕与图像数据进行合并处理,生成附带字幕的视频数据。

  本实施例描述的方法实施例与第一个实施例类似,可以参考前述方法实施例中的对应过程,在此不再赘述。

  本发明实施例中,通过直接将音频数据直接转换为目标语言,少了音频转换为文字,再由文字转换目标语言的过程。在生成目标语言的字符串时,通过附带音频标签,通过音频标签将字符串染色,增加字幕辨识度,实现了快速生成易辨识的翻译字幕。

  请参阅图3,本发明实施例中基于人工智能的字幕生成方法的第三个实施例包括:

  301、获取待生成字幕的视频数据,其中,视频数据包括:时间序列、时间序列对应的语音数据、时间序列对应的图像数据;

  本实施例描述的方法实施例与第一个实施例类似,可以参考前述方法实施例中的对应过程,在此不再赘述。

  302、读取语音数据和目标语言种类,以及调取语音语言种类和目标语言种类对应的机器学习转换算法,对语音数据进行转换处理,生成目标语言种类的字符串数据,其中,字符串数据包括:文字字符串、文字字符串对应的声纹标签序列;

  本实施例描述的方法实施例与第一个实施例类似,可以参考前述方法实施例中的对应过程,在此不再赘述。

  303、读取声纹标签序列的标签种类;

  在本实施例中,读取标签A类、B类、C类在字符串的设置。

  304、根据标签种类,对文字字符串中字符进行分类染色,得到染色字符串;

  在本实施例中,标签A类、B类、C类分别对应染色为:红、白、黑,得到染色字符串。

  305、将染色字符串转化为字符图像数据,并将字符图像数据与时间序列进行对应标记处理,得到时间序列对应的目标语言染色字幕;

  在本实施例中,染色字符串是电子数据,将电子数据转换成字符图像数据,将转换好的字符图像数据与时间序列合并,得到目标语言染色字幕。

  306、根据时间序列,将目标语言染色字幕与图像数据进行合并处理,生成附带字幕的视频数据;

  本实施例描述的方法实施例与第一个实施例类似,可以参考前述方法实施例中的对应过程,在此不再赘述。

  307、将附带字幕的视频数据传输至预置存储端口,以便保存附带字幕的视频数据。

  在本实施例中,得到的视频数据传输到本地存储介质的端口,由接口API进行存储过程。

  本发明实施例中,通过直接将音频数据直接转换为目标语言,少了音频转换为文字,再由文字转换目标语言的过程。在生成目标语言的字符串时,通过附带音频标签,通过音频标签将字符串染色,增加字幕辨识度,实现了快速生成易辨识的翻译字幕。

  上面对本发明实施例中基于人工智能的字幕生成方法进行了描述,下面对本发明实施例中基于人工智能的字幕生成装置进行描述,请参阅图4,本发明实施例中基于人工智能的字幕生成装置一个实施例包括:

  获取模块401,用于获取待生成字幕的视频数据,其中,所述视频数据包括:时间序列、所述时间序列对应的语音数据、所述时间序列对应的图像数据;

  转换模块402,用于读取语音语言种类和目标语言种类,以及调取所述语音语言种类对应的机器学习转换算法,对所述语音数据进行转换处理,生成所述目标语言种类的字符串数据,其中,所述字符串数据包括:文字字符串、所述文字字符串对应的声纹标签序列;

  染色模块403,用于根据所述声纹标签序列中的标签种类,对所述文字字符串进行染色处理,生成所述声纹标签序列对应的目标语言染色字幕;

  字幕生成模块404,用于根据所述时间序列,将所述目标语言染色字幕与所述图像数据进行合并处理,生成附带字幕的视频数据。

  本发明实施例中,通过直接将音频数据直接转换为目标语言,少了音频转换为文字,再由文字转换目标语言的过程。在生成目标语言的字符串时,通过附带音频标签,通过音频标签将字符串染色,增加字幕辨识度,实现了快速生成易辨识的翻译字幕。

  请参阅图5,本发明实施例中基于人工智能的字幕生成装置的另一个实施例包括:

  获取模块401,用于获取待生成字幕的视频数据,其中,所述视频数据包括:时间序列、所述时间序列对应的语音数据、所述时间序列对应的图像数据;

  转换模块402,用于读取语音语言种类和目标语言种类,以及调取所述语音语言种类对应的机器学习转换算法,对所述语音数据进行转换处理,生成所述目标语言种类的字符串数据,其中,所述字符串数据包括:文字字符串、所述文字字符串对应的声纹标签序列;

  染色模块403,用于根据所述声纹标签序列中的标签种类,对所述文字字符串进行染色处理,生成所述声纹标签序列对应的目标语言染色字幕;

  字幕生成模块404,用于根据所述时间序列,将所述目标语言染色字幕与所述图像数据进行合并处理,生成附带字幕的视频数据。

  其中,所述转换模块402包括:

  生成单元4021,用于对所述语音数据的声纹特征进行提取,生成所述语音数据对应的特征矩阵;

  识别单元4022,用于根据所述语音语言种类,调取所述语音语言种类对应的识别算法,以及根据所述识别算法,对所述特征矩阵进行识别处理,得到文字字符串;

  嵌入单元4023,用于根据所述时间序列,将所述文字字符串与所述特征矩阵进行嵌入处理,得到标签特征矩阵;

  分类单元4024,用于根据所述语音语言种类,调取所述语音语言种类对应的声纹分类算法,以及根据所述声纹分类算法,对所述标签特征矩阵进行分类标记处理,得到所述文字字符串对应的声纹标签序列;

  组合单元4025,用于将所述声纹标签序列与所述文字字符串进行组合处理,得到字符串数据。

  其中,所述识别单元4022具体用于:

  将所述特征矩阵与预置初始矩阵进行卷积处理,得到第一识别矩阵;

  对所述第一识别矩阵进行分批归一化处理,得到第二识别矩阵;

  对所述第二识别矩阵进行映射转换处理,得到第三识别矩阵;

  将所述第三识别矩阵与预置深度矩阵进行卷积处理,得到第四识别矩阵;

  根据预置激活函数,对所述第四识别矩阵进行激活判定,得到文字字符串。

  其中,所述分类单元4024具体用于:

  将所述标签特征矩阵代入预置第一期望函数中,得到第一期望值集,并将所述标签特征矩阵代入预置第二期望函数中,得到第二期望值集;

  根据所述文字字符串的排序,对所述第一期望值集和所述第二期望值集进行极大极小运算,得到极大极小值集;

  依次将所述极大极小值集中的数值与预置分类区间进行比对,得到所述文字字符串对应的声纹标签序列。

  其中,所述分类单元4024还可以具体用于:

  将所述极大极小值集中的数值与预置分类区间的中位数进行比对;

  判断所述数值是否大于所述分类区间的中位数;

  若大于所述中位数,则将所述中位数作为最小值重新赋值所述分类区间,以便将所述数值与所述分类区间的中位数重新进行比对;

  若小于所述中位数,则判断所述数值是否等于所述中位数;

  若不等于所述中位数,则将所述中位数作为最大值重新赋值所述分类区间,以便将所述数值与所述分类区间的中位数重新进行比对;

  若等于所述中位数,则读取所述中位数所在所述分类区间的声纹标签,将所述声纹标签标记至所述数值对应所述文字字符串的字符,循环标记得到所述文字字符串对应的声纹标签序列。

  其中,所述字幕生成模块404具体用于:

  读取所述声纹标签序列的标签种类;

  根据所述标签种类,对所述文字字符串中字符进行分类染色,得到染色字符串;

  将所述染色字符串转化为字符图像数据,并将所述字符图像数据与所述时间序列进行对应标记处理,得到所述时间序列对应的目标语言染色字幕。

  其中,所述基于人工智能的字幕生成装置还包括存储模块405,所述存储模块405具体用于:

  将所述附带字幕的视频数据传输至预置存储端口,以便保存所述附带字幕的视频数据。

  本发明实施例中,通过直接将音频数据直接转换为目标语言,少了音频转换为文字,再由文字转换目标语言的过程。在生成目标语言的字符串时,通过附带音频标签,通过音频标签将字符串染色,增加字幕辨识度,实现了快速生成易辨识的翻译字幕。

  上面图4和图5从模块化功能实体的角度对本发明实施例中的基于人工智能的字幕生成装置进行详细描述,下面从硬件处理的角度对本发明实施例中基于人工智能的字幕生成设备进行详细描述。

  图6是本发明实施例提供的一种基于人工智能的字幕生成设备的结构示意图,该基于人工智能的字幕生成设备600可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上处理器(central processing units,CPU)610(例如,一个或一个以上处理器)和存储器620,一个或一个以上存储应用程序633或数据632的存储介质630(例如一个或一个以上海量存储设备)。其中,存储器620和存储介质630可以是短暂存储或持久存储。存储在存储介质630的程序可以包括一个或一个以上模块(图示没标出),每个模块可以包括对基于人工智能的字幕生成设备600中的一系列指令操作。更进一步地,处理器610可以设置为与存储介质630通信,在基于人工智能的字幕生成设备600上执行存储介质630中的一系列指令操作。

  基于人工智能的字幕生成设备600还可以包括一个或一个以上电源640,一个或一个以上有线或无线网络接口650,一个或一个以上输入输出接口660,和/或,一个或一个以上操作系统631,例如Windows Serve,Mac OS X,Unix,Linux,FreeBSD等等。本领域技术人员可以理解,图6示出的基于人工智能的字幕生成设备结构并不构成对基于人工智能的字幕生成设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。

  本发明还提供一种计算机可读存储介质,该计算机可读存储介质可以为非易失性计算机可读存储介质,该计算机可读存储介质也可以为易失性计算机可读存储介质,所述计算机可读存储介质中存储有指令,当所述指令在计算机上运行时,使得计算机执行所述基于人工智能的字幕生成方法的步骤。

  所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统或装置、单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。

  所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(read-only memory,ROM)、随机存取存储器(random access memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

  以上所述,以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

《基于人工智能的字幕生成方法、装置、设备及存储介质.doc》
将本文的Word文档下载到电脑,方便收藏和打印
推荐度:
点击下载文档

文档为doc格式(或pdf格式)