一种边缘端运行的接发列车标准用语识别方法与流程
未命名
10-22
阅读:99
评论:0
1.本发明涉及接发列车标准用语识别领域,具体而言,是通过语音数据合成和深度学习训练的方式,建立接发列车音频数据和标准用语文本之间的关系,从而实现在边缘端实时识别出值班员接发车时的语音。
背景技术:
2.在整个铁路接发列车作业过程中,值班员需按照接发列车标准行为管理规定口呼标准用语。值班员在需要口呼指令的环节是否口呼且口呼指令准确无误,关系到整个接发列车作业的安全性。值班员在工作过程中由于疲劳、紧张、松懈、遗忘等原因可能会存在不能保质保量完成标准行为管理规定中的所有口呼指令。因此需要通过技术手段对值班员的行为进行监管,从而保障整个铁路接发列车的安全性。
3.对值班员口呼语音指令的合规性进行监管存在如下几个核心痛点问题:(1)接发列车标准用语词汇专业性较强,通用语音识别技术对于接发列车标准用语的识别准确率低;(2)值班员工作的环境存在复杂的环境背景音,音频清晰度不高严重影响语音识别算法的准确率;(3)接发列车存在实时性高的特点,且在忙碌的时候存在多趟列车同时接、发车的情况,因此对于监管技术的并发能力和实时性提出了很高的要求。
4.近年来,随着基于深度学习算法的语音合成、语音识别技术的发展,以及边缘端设备ai算力的升级,将深度学习语音识别技术应用于接发列车标准用语识别,通过数据驱动和人工智能技术的结合有望为解决上述问题提供另一种新的思路。
技术实现要素:
5.针对上述问题,本发明提出一种边缘端运行的接发列车标准用语识别方法,通过边端部署训练好的接发车用语识别模型,实时从定向拾音器中采样值班员的语音数据同时就地识别出语音对应的文本内容,具有计算流程简单、实时性高和准确性高的特点,具有如下步骤:
6.(1)根据接发列车的业务背景建立接发列车标准用语库t:
7.t={ti|i=1,2,...n}
8.其中ti表示第i条接发列车标准用语,共有n条;
9.(2)采集值班员作业过程中的原始音频数据v,依据t采用人工标注的方式,清洗出作业音频数据vr和噪声音频数据vz,vr∩vz=φ,将vr打上文本标签,得到带文本标注数据
10.v={vi|i=1,2,...m}
[0011]vr
={v
ri
|i=1,2,...m
′
}
[0012]vz
={v
zi
|i=1,2,...m
″
}
[0013][0014]
其中m表示原始音频数组总数,vi表示第i条原始音频数据;m
′
表示作业音频数据
总数,v
ri
表示第i条作业音频数据;m
″
表示噪声音频数据总数,v
zi
表示第i条噪声音频数据;m
″′
表示带文本标注数据对总数,(v
ri
,ti)表示第i对带文本标注数据;具体实现过程如下,编写带有语音间断点识别技术的语音录制软件并部署到值班员工作电脑;将定向拾音器通过音频输入口或者usb接口连接到值班员工作电脑;启动音频录制软件,自动采集值班员的音频话术生成wav格式的音频文件保存到指定目录下;编写音频分析软件,自动删除录制时间过短以及静默音的音频文件;编写音频标注软件,标注人员在软件中逐条试听音频数据,筛选出作业音频数据vr和噪声音频数据vz,将vr打上文本标签得到并自动保存;
[0015]
(3)在t和vz中抽取文本句t和噪声音频数据v,输入到定制的基于深度学习的语音合成算法vnet,得到合成的虚拟人声带文本标签音频数据
[0016][0017]
其中q表示合成的音频总数;详细描述为,在t和vz中分别抽取一个文本句t和一条噪声音频数据v;将文本句t输入到预先训练好的基于深度学习的多角色文本转语音模型中,得到合成的语音文件基于权重和因子衰减结合的混音算法将噪声音频数据v和合成的语音文件进行混音处理,得到音频vv;将和(vv,t)组合得到带文本标签音频数据重复以上步骤,直到t和vz所有的文本句和噪声音频数据使用完。
[0018]
(4)将真实场景音频数据和合成数据以及开源大规模语音数据集整合到一起,组成一个新的数据集按照一定比列划分出训练集,验证集和测试集;
[0019]
(5)基于transformer和卷积结构,设计轻量级端到端语音识别算法rnet,将训练数据集输入网络中,学习语音到文本之间的非线性映射关系;具体实现步骤包括,根据边缘端计算能力和训练数据集文本词汇量大小,基于transformer和卷积结构,构建轻量级网络语音识别算法rnet,主干网络包括3层卷积追加2层transformer结构,输出头包括一个ctc和attention loss层;根据测试集上模型的推理速度和精度调整rnet主干网络中模型层的参数;根据训练过程中的训练集和验证集上的损失函数的曲线调整网络训练的学习率、批大小、冲量、损失函数权重参数。
[0020]
(6)训练过程中根据端到端语音识别模型rnet中定义的损失函数(即ctc和attention的损失函数),在验证集上选取使得损失值最小的参数作为模型的权重参数;
[0021]
(7)通过测试集评估(6)中已确定网络权重参数模型rnet的泛化能力,并根据测试结果判断是否满足应用要求,针对识别错误的样本反馈调整模型的网络结构及损失函数的权重降低模型的字错率;包括:
[0022]
(7-1)根据测试集上模型的推理速度和精度调整rnet主干网络中模型层的参数(网络
[0023]
结构权重参数值调整,调整为通用方案);
[0024]
(7-2)根据训练过程中的训练集和验证集上的损失函数的曲线调整网络训练的学习率、批大小、冲量、损失函数权重参数(通用训练手段,降低参数值)。
[0025]
(8)重复步骤(5)至步骤(7)直至回归模型rnet的性能达到工程应用要求;
[0026]
(9)将语音识别模型rnet通过模型定制化迁移部署到边缘端设备上,实时采集语音数据就地识别出结果。
[0027]
有益效果
[0028]
本发明公开了一种边缘端运行的接发列车标准用语识别方法,该方法充分利用了基于深度学习的语音合成和轻量级端到端语音识别技术,训练出接发车用语识别模型,该模型抗非标准用语和噪声干扰能力强,识别准确率高,能够部署在边缘端实时运行,为监管接发列车标准化作业提供坚实的技术支撑。
附图说明
[0029]
图1为本发明边缘端运行的接发列车标准用语识别方法的系统流程框图;
[0030]
图2为本发明具体实例采集的原始语音数据;
[0031]
图3为本发明具体实例清洗后打上文本标签的语音数据;
[0032]
图4为本发明具体实例的深度学习语音合成算法rnet的结构图;
[0033]
图5为本发明具体实例轻量级语音识别模型损失函数训练结果图;
[0034]
图6为本发明具体实例轻量级语音识别模型算法结构图;
[0035]
图7为本发明具体实例边缘端部署的结构图;
[0036]
具体实施过程
[0037]
下面结合附图以及具体的实例,由具体的操作流程说明本发明提出的边缘端运行的接发列车标准用语识别方法的实施效果。应理解这些实施例仅用于说明本发明而不用于限制本发明的范围,在阅读了本发明之后,本领域技术人员对本发明的各种等价形式的修改均落于本技术所附权利要求所限定的范围。
[0038]
选取某站2022年3月1日到2022年9月1日期间值班员接发列车的真实场景数据,验证本发明所提出的一种边缘端运行的接发列车标准用语识别方法的有效性。
[0039]
本发明的总体系统流程图如图1所示,具体实施步骤如下:
[0040]
(1)根据接发列车的业务背景建立接发列车标准用语库t:
[0041]
t={ti|i=1,2,...25}
[0042]
其中ti表示第i条接发列车标准用语,共有25条,部分示例标准用语如下表所示:
[0043]
序号标准用语备注1同意*预告*表示列车号2*次&道停车通过*表示列车号,&表示数字3$方向&场&道发车$表示方位,&表示数字4&场&道接车进路信号好&表示数字5&场&道发车进路出站信号好了&表示数字6同意客车&预告&表示数字7&场&道通过转&场&表示数字...
ꢀꢀ
[0044]
(2)编写带有语音间断点识别技术的语音录制软件并部署到值班员工作电脑,将定向拾音器通过音频输入口连接到值班员工作电脑,启动音频录制软件,自动采集值班员的音频话术生成wav格式的音频数据v保存到指定目录下具体格式如图2所示,编写音频分析软件,自动删除录制时间过短以及静默音的音频文件,然后依据t采用人工标注的方式,清洗出作业音频数据vr和噪声音频数据vz,vr∩vz=φ,将vr打上文本标签,得到带文本标注
数据具体格式如图3所示:
[0045]
v={vi|i=1,2,...500000}
[0046]vr
={vi|i=1,2,...50000}
[0047]vz
={vi|i=1,2,...1000}
[0048][0049]
原始音频数有500000条,清洗出的作业音频数据50000条,噪声音频数据1000条,标注文本标注和音频数据50000条;
[0050]
(3)利用标注的50000条音频数据采用迁移训练方法训练深度学习语音合成算法tacotron得到接发列车语音合成模型,在t抽取文本句t并补全*或&替换符,在vz中噪声音频数据v,t输入到接发列车语音合成模型,得到合成的语音文件基于权重和因子衰减结合的混音算法将噪声音频数据v和合成的语音文件进行混音处理得到音频vv,噪声音频数据权重0.2,合成语音权重0.8,因子衰减值0.8,整套合成算法结构图如图4所示,将和(vv,t)组合得到带文本标签音频数据,反复执行以上流程直到t和vz所有的文本句和噪声音频数据使用完,得到最终的带标签数据集
[0051][0052]
(4)将真实场景音频数据和合成数据以及开源大规模语音数据集整合到一起,组成一个新的数据集共计500000条数据,按照一定7:2:1划分出训练集,验证集和测试集;
[0053]
(5)-(8)根据选用的以nvidia nx为算力的边缘盒子和训练集中的词量,选用开源框架wenet构建基于transformer和卷积结构的轻量级网络模型,模型参数量20mb,结合ctc和attention的损失函数构建语音识别算法rnet,设置网络的初始学习率为0.001,冲量0.95,总训练次数为200个epoch。将训练集输入到网络中,学习语音到文本之间的非线性映射关系,最优模型在测试集上字错率低于5%,模型算法结构图如图6所示,模型训练过程的损失曲线如图5所示;
[0054]
(9)将训练好的语音识别模型rnet通过tensorrt推理引擎部署到边缘端设备上,实时采集语音数据就地识别出结果,图7为实例边缘端部署的流程图。
[0055]
由上述分析可知,本发明的边缘端运行的接发列车标准用语识别方法,能够根据采集到的值班员的接发车语音数据和基于算法合成的语音数据集,基于深度学习语音识别算法训练得到准确率高的接发列车用语识别模型,且能够实时部署在边缘端设备上。可见,通过本发明可以实现快速、准确的识别值班员的语音信息,解决通用语音识别算法受接发车专业词汇和背景噪音影响造成的识别准确率低的问题,为监管列车标准化作业提供坚实的技术支撑。
技术特征:
1.一种边缘端运行的接发列车标准用语识别方法,其特征在于包括以下步骤:(1)根据接发列车的业务背景建立接发列车标准用语库t:t={t
i
|i=1,2,...n}其中t
i
表示第i条接发列车标准用语,共有n条;(2)采集值班员作业过程中的原始音频数据v,清洗出作业音频数据v
r
和噪声音频数据v
z
,v
r
∩v
z
=φ,依据标准用语库t采用人工标注的方式,将v
r
打上文本标签,得到带文本标注数据v={v
i
|i=1,2,...m}v
r
={v
ri
|i=1,2,...m
′
}v
z
={v
zi
|i=1,2,...m
″
}其中m表示原始音频数组总数,v
i
表示第i条原始音频数据;m
′
表示作业音频数据总数,v
ri
表示第i条作业音频数据;m
″
表示噪声音频数据总数,v
zi
表示第i条噪声音频数据;m
″′
表示带文本标注数据对总数,(v
ri
,t
i
)表示第i对带文本标注数据;(3)在t和v
z
中抽取文本句t
d
和噪声音频数据v
c
,输入到针对于接发列车标准用语设计的基于深度学习的语音合成算法vnet,得到合成的虚拟人声带文本标签音频数据的基于深度学习的语音合成算法vnet,得到合成的虚拟人声带文本标签音频数据其中q表示合成的音频总数,(v
vi
,t
i
)表示第i对合成的虚拟人声带文本标签音频数据;(4)将带文本标注数据和合成的虚拟人声带文本标签音频数据以及开源大规模语音数据集整合到一起,组成一个新的数据集按照一定比列划分出训练集,验证集和测试集;(5)设计基于transformer和卷积结构的轻量级端到端语音识别算法rnet,将训练数据集输入网络中,学习语音到文本之间的非线性映射关系;(6)训练过程中根据端到端语音识别模型rnet中定义的损失函数,在验证集上选取使得损失值最小的参数作为模型的权重参数;(7)通过测试集评估(6)中已确定网络权重参数模型rnet的泛化能力,并根据测试结果判断是否满足应用要求,针对识别错误的样本反馈调整模型的网络结构及损失函数的权重降低模型的字错率;(8)重复步骤(5)至步骤(7)直至语音识别模型rnet的模型准确度在测试集上达到95%的准准确率;(9)将语音识别模型rnet通过模型定制化迁移部署到边缘端设备上,实时采集语音数据就地识别出结果。2.根据权利要求1所述边缘端运行的接发列车标准用语识别方法,其特征在于,所述采集值班员作业过程中的原始音频数据v,完成音频数据清洗标注具有如下步骤:(2-1)编写带有语音间断点识别技术的语音录制软件并部署到值班员工作电脑;(2-2)将定向拾音器通过音频输入口或者usb接口连接到值班员工作电脑;(2-3)启动音频录制软件,自动采集值班员的音频话术生成wav格式的音频文件保存到指定目录下;
(2-4)编写音频分析软件,自动删除录制时间过短以及静默音的音频文件;(2-5)编写音频标注软件,标注人员在软件中逐条试听音频数据,筛选出作业音频数据v
r
和噪声音频数据v
z
,将v
r
打上文本标签得到并自动保存。3.根据权利要求1所述边缘端运行的接发列车标准用语识别方法,其特征在于,所述针对于接发列车标准用语设计的基于深度学习的语音合成算法vnet,合成的虚拟人声带文本标签音频数据具有如下步骤:(3-1)利用收集的带文本标注数据训练语音合成算法tacotron,得到符合接发列车真实场景的语音合成模型;(3-2)在t和v
z
中分别抽取一个文本句t和一条噪声音频数据v;(3-3)将文本句t输入到(3-1)步骤中训练好的语音合成模型中中,得到合成的语音文件v~;(3-4)设计一种基于权重和因子衰减结合的混音算法将噪声音频数据v和合成的语音文件进行混音处理,得到虚拟音频v
v
:噪声音频数据v使用权重α,合成的语音文件权重β,音频衰减因子λ,(3-5)将和(v
v
,t)组合得到带文本标签的虚拟音频数据(3-6)重复以上步骤,直到t和v
z
所有的文本句和噪声音频数据使用完,得到合成的带文本标签的虚拟音频数据4.根据权利要求1所述边缘端运行的接发列车标准用语识别方法,其特征在于,基于transformer和卷积结构的轻量级端到端语音识别算法rnet,其主干网络包括3层卷积追加2层transformer结构,输出头包括一个ctc和attention loss层。5.根据权利要求4所述边缘端运行的接发列车标准用语识别方法,其特征在于,根据测试集上模型的推理速度和精度调整rnet主干网络中模型层的参数;根据训练过程中的训练集和验证集上的损失函数的曲线调整网络训练的学习率、批大小、冲量、损失函数权重参数。6.根据权利要求1所述边缘端运行的接发列车标准用语识别方法,其特征在于,所述针对识别错误的样本,优化基于transformer架构的轻量级端到端语音识别算法rnet的字错率,包括以下措施:(7-1)根据测试集上模型的推理速度和精度调整rnet主干网络中模型层的参数;(7-2)根据训练过程中的训练集和验证集上的损失函数的曲线调整网络训练的学习率、批大小、冲量、损失函数权重参数。
技术总结
本发明公开了一种边缘端运行的接发列车标准用语识别方法,首先根据接发列车业务建立标准用语库;接着采集值班员接发列车音频数据,依据标准用语库,清洗出作业音频及噪声音频;然后基于改进的深度学习语音生成算法输入标准用语和噪声音频数据合成虚拟人接发列车音频数据;进一步将清洗出的值班员作业音频数据、合成的接发列车音频数据和开源音频训练集,整合成融合数据集;最后将数据集划分成训练集、验证集、测试集送入轻量级端到端语音识别网络训练接发列车标准用语识别模型,部署到边缘端运行。该方法抗非标准用语和噪声干扰能力强能准确实时识别出值班员作业过程中接发列车语音话术,为监管接发列车标准化作业提供坚实的技术支撑。坚实的技术支撑。坚实的技术支撑。
技术研发人员:姜磊 璩泽刚 卜禹 汤伟伟
受保护的技术使用者:南京富岛信息工程有限公司
技术研发日:2023.07.04
技术公布日:2023/10/19
版权声明
本文仅代表作者观点,不代表航家之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)
航空之家 https://www.aerohome.com.cn/
航空商城 https://mall.aerohome.com.cn/
航空资讯 https://news.aerohome.com.cn/
上一篇:一种转底炉含铁含锌尘泥固体肥料处理装置的制作方法 下一篇:一体化净水设备的制作方法