对言语数据进行匿名化的制作方法

未命名 08-02 阅读:146 评论:0


1.本公开涉及用于对言语数据进行匿名化的系统和技术。


背景技术:

2.许多现代车辆包括语音识别系统。这种系统包括传声器。所述系统将由传声器检测到的口头词语转换成文本或可以与命令匹配的另一种形式。所识别的命令可以包括调整气候控制、选择要播放的媒体等。


技术实现要素:

3.本文描述的系统和技术可以对言语数据进行匿名化。对言语数据进行匿名化可以防止语音识别系统基于分析言语来识别说话者。具体地,该系统可以接收第一言语数据,从所述第一言语数据中移除说话者识别特性的第一矢量以生成提取的第一言语数据,生成所述说话者识别特性的随机矢量,以及通过将所述随机矢量应用于所述提取的第一言语数据来生成第二言语数据。因此,第二言语数据是匿名化的。此外,该系统可以保留言语数据的非识别特性,诸如内容和语音风格,例如语速、音量、音高、口音等。
4.一种计算机包括处理器和存储器,并且所述存储器存储指令,所述指令可由所述处理器执行以:接收第一言语数据,从所述第一言语数据中移除说话者识别特性的第一矢量以生成提取的第一言语数据,生成所述说话者识别特性的随机矢量,以及通过将所述随机矢量应用于所述提取的第一言语数据来生成第二言语数据。
5.所述指令还可以包括用于根据第一言语数据来确定文本的指令。所述指令还可以包括用于基于所述第一言语数据的至少一个片段的所述文本在某个类别中而移除所述至少一个片段的指令。在移除所述第一言语数据的所述至少一个片段之后生成所述第二言语数据可发生。
6.所述类别可以是个人可识别信息。
7.所述指令还可以包括用于将所述第二言语数据传输到远程服务器的指令。所述指令还可以包括用于将随机矢量传输到远程服务器的指令。
8.第一言语数据可以包括语音命令。所述指令还可以包括用于基于语音命令来致动车辆的部件的指令。
9.生成所述随机矢量可以包括根据所述说话者识别特性的分布来进行采样。所述分布可源自对来自说话者群体的所述说话者识别特性的测量。
10.第一矢量可以包括语谱图。语谱图可以是梅尔语谱图。
11.从所述第一言语数据中移除所述第一矢量可包括对不具有所述第一矢量的所述第一言语数据进行编码以生成所述提取的第一言语数据。对不具有第一矢量的第一言语数据进行编码可以包括执行机器学习程序。机器学习程序可以是使用下采样的卷积神经网络。
12.将所述随机矢量应用于所述提取的第一言语数据可包括使用所述随机矢量对所
述提取的第一言语数据进行解码。对提取的第一言语数据进行解码可以包括执行机器学习程序。机器学习程序可以是使用上采样的卷积神经网络。
13.一种方法包括接收第一言语数据,从所述第一言语数据中移除说话者识别特性的第一矢量以生成提取的第一言语数据,生成所述说话者识别特性的随机矢量,以及通过将所述随机矢量应用于所述提取的第一言语数据来生成第二言语数据。
附图说明
14.图1是示例性车辆的框图。
15.图2是示例性言语数据的表示。
16.图3是用于对言语数据进行匿名化的机器学习程序的示例性集合的图示。
17.图4是用于对言语数据进行匿名化的示例性过程的过程流程图。
具体实施方式
18.参考附图,其中贯穿若干视图,相同的数字指示相同的部分,车辆100中的计算机102包括处理器和存储器,并且所述存储器存储指令,所述指令可由所述处理器执行以:接收第一言语数据104,从所述第一言语数据104中移除说话者识别特性的第一矢量105以生成提取的第一言语数据106,生成所述说话者识别特性的随机矢量108,以及通过将所述随机矢量108应用于所述提取的第一言语数据106来生成第二言语数据110。
19.参考图1,车辆100可以是任何乘用汽车或商用汽车,诸如轿车、卡车、运动型多功能车、跨界车、货车、小型货车、出租车、公共汽车等。
20.计算机102是基于微处理器的计算装置,例如包括处理器和存储器的通用计算装置、电子控制器等、现场可编程门阵列(fpga)、专用集成电路(asic)、上述各者的组合等。通常,在电子设计自动化中使用诸如vhdl(超高速集成电路硬件描述语言)之类的硬件描述语言来描述诸如fpga和asic之类的数字和混合信号系统。例如,asic是基于制造前提供的vhdl编程而制造的,而fpga内部的逻辑部件可基于例如存储在电连接到fpga电路的存储器中的vhdl编程来配置。因此,计算机102可包括处理器、存储器等。计算机102的存储器可包括用于存储可由处理器执行的指令以及用于电子地存储数据和/或数据库的介质,和/或计算机102可包括诸如提供编程的前述结构的结构。计算机102可以是联接在一起的多个计算机。
21.计算机102可通过通信网络112(诸如控制器局域网(can)总线、以太网、wifi、局域互连网(lin)、车载诊断连接器(obd-ii))和/或通过任何其他有线或无线通信网络传输和接收数据。计算机102可以经由通信网络112通信地耦合到传声器114、可由语音命令激活的车辆100的部件116、收发器118和其他部件116。
22.传声器114是将声音转换成电信号的换能器。传声器114可以是任何合适的类型,例如动圈式传声器,其包括悬挂在磁场中的电线线圈;电容式传声器,其使用振动隔膜作为电容器板;接触式传声器,其使用压电晶体;等等。
23.部件116能够通过来自车辆100的乘员(或者如果计算机102未安装在车辆100上,则来自用户)的语音命令激活,如下面将描述的。部件116可以是例如媒体娱乐系统、电话控制系统(例如,其与具有蜂窝功能的乘员的移动装置同步)、气候控制系统等。媒体娱乐系统
可以包括无线电装置并且可以包括可以播放存储的或流式传输的音频文件的同步移动装置。电话控制系统可以经由同步移动装置拨打和接收呼叫。气候控制系统可控制车辆100的乘客舱的加热和冷却。
24.收发器118可适用于通过任何合适的无线通信协议(诸如蜂窝、低功耗(ble)、超宽带(uwb)、wifi、ieee802.11a/b/g/p、蜂窝-v2x(cv2x)、专用短程通信(dsrc)、其他rf(射频)通信等)无线地发射信号。收发器118可适用于与远程服务器120(即,与车辆100不同且间隔开的服务器)通信。远程服务器120可位于车辆100的外部。例如,远程服务器120可与另一个车辆相关联(例如,v2v通信),与基础设施部件相关联(例如,v2i通信),与紧急响应者相关联,与和车辆100的所有者和操作者相关联的移动装置相关联、与和车辆100的制造商或车队所有者相关联的云服务器相关联等。收发器118可以是一个装置或可包括单独的发射器和接收器。
25.参考图2,计算机102可以被编程为接收乘员说出的言语的第一言语数据104。出于本公开的目的,“言语数据”被定义为可以根据其播放言语的音频的数据。第一言语数据104可以标准音频文件格式(诸如.wav)存储。
26.第一言语数据104可以是在车辆100中捕获的任何话语,例如,可以包括针对部件116的语音命令,例如“呼叫披萨店”、“播放播客”、“降低温度”等。计算机102可以被编程为例如通过转换为文本(如将在下文描述的)或通过已知的模式识别算法来识别来自第一言语数据104的语音命令。计算机102可以被编程为基于语音命令(例如,分别针对示例性语音命令)通过经由电话控制系统指示乘员的移动装置发起电话呼叫、通过媒体娱乐系统从移动装置播放音频文件、通过气候控制系统增加空调或减少加热、向可以与车辆100的制造商相关联的远程服务器120提交错误报告等来致动部件116。
27.计算机102可以被编程为根据第一言语数据104确定文本。计算机102可以使用任何合适的算法来将言语转换成文本,例如,隐马尔可夫模型、基于动态时间规整的言语识别、神经网络、端到端言语识别等。
28.计算机102可以被编程为例如响应于文本中的一些或全部在某个类别中而基于该文本移除第一言语数据104的片段。例如,所述类别可以是个人可识别信息(pii)。出于本公开的目的,“个人可识别信息”被定义为允许合理地推断出信息所适用的个人的身份的信息的表示,诸如姓名、电话号码、地址等。计算机102可以被编程为移除第一言语数据104的有文本在所述类别中的片段,从而产生经编辑的第一言语数据104。出于本公开的目的,“片段”是由有限时间间隔限定的言语数据的一部分。例如,计算机102可以例如通过删除第一言语数据104开始后的5秒和第一言语数据104结束前的7秒的片段或将该片段覆写为静默来移除该片段。在从所述第一言语数据104移除所述片段之后生成所述第二言语数据110(如下所述)可发生。换句话说,下面针对生成第二言语数据110的描述可以使用经编辑的第一言语数据104而不是未经编辑的第一言语数据104作为输入。替代地,生成第二言语数据110可以在不从第一言语数据104中移除片段(即,通过使用未经编辑的第一言语数据104作为输入)的情况下发生。例如,响应于来自远程服务器120的指示计算机102这样做的消息,生成第二言语数据110可以使用未经编辑的第一言语数据104而不是经编辑的第一言语数据104作为输入。例如,远程服务器120可以利用使用未编辑的第一言语数据104生成的第二言语数据110来分析例如识别语音命令中的错误。原本作为pii被移除的片段对于这种分析
可能很重要。
29.第一言语数据104可以由说话者识别特性的第一矢量105来描述(如图3所示)。出于本公开的目的,“说话者识别特性”是言语数据的特定于该言语数据的说话者的特征,即,可由语音识别算法使用其来识别说话者。说话者识别特性可以是第一言语数据104的除内容(即,文本的基础)和语音风格(说话大声或轻声、快或慢)之外的方面。说话者识别特性可以表示为第一矢量105,所述第一矢量是数值的有序列表,并且形成第一矢量105的数值可以测量可以用于识别说话者的第一言语数据104的各方面,即是在第一矢量中提供的说话者识别特性。例如,数值可以是第一言语数据104(例如,第一言语数据104的波形)的数学函数,或者数值可以通过将机器学习算法应用于第一言语数据104而产生,例如,得自神经网络的中间或终端层的值,例如,如下面关于第一机器学习程序122所描述。例如,第一矢量105可以包括语谱图126。语谱图将振幅示出为时间和频率的函数。语谱图126可以是梅尔语谱图,即,具有根据梅尔标度测量的频率的语谱图。梅尔标度是赫兹标度的非线性变换。梅尔标度通常比赫兹标度更适合于分析言语。
30.参考图3,计算机102可以被编程为从(经编辑的)第一言语数据104中移除第一矢量105以生成提取的第一言语数据106。从所述第一言语数据104中移除所述第一矢量105可包括将不具有所述第一矢量105的所述第一言语数据104编码为所述提取的第一言语数据106。换句话说,所提取的第一言语数据106是来自第一言语数据104的除第一矢量105之外的数据的编码。提取的第一言语数据106可以包括不具有说话者识别特性的第一言语数据104的内容和语音风格。因此,提取的第一言语数据106实际上可能不是言语数据,因为提取的第一言语数据106可能不可作为音频播放(与经编辑或未经编辑的第一言语数据104和第二言语数据110不同)。
31.例如,对不具有第一矢量105的第一言语数据104进行编码可以包括执行第一机器学习程序122。可以在执行第一机器学习程序122之前使用快速傅里叶变换(fft)处理第一言语数据104,fft可以用作第一机器学习程序122中的中间步骤,和/或提取的第一言语数据106可以在执行第一机器学习程序122之后使用fft来处理。第一机器学习程序122可以是例如使用下采样的卷积神经网络(cnn)。利用下采样的cnn可以适合于检测内容和语音风格,同时通过移除第一矢量105以得到提取的第一言语数据106来简化第一言语数据104。第一机器学习程序122可以以无监督的方式使用来自多个说话者的样本言语数据与第二机器学习程序124(下文描述)联合训练。来自不同说话者的样本言语数据可以具有不同的不相关内容。联合训练可以包括连续地执行第一机器学习程序122和第二机器学习程序124,其中第二机器学习程序将第一机器学习程序122的输出作为输入,并且训练取决于第二机器学习程序124的输出。可以通过交换两个说话者的言语数据的相应第一矢量来针对一系列配对的样本说话者训练第一机器学习程序122和第二机器学习程序124,使得输出是具有说话者中的一者的内容和风格以及另一说话者的所述说话者识别特性的言语数据。训练可以使损失函数最小化,所述损失函数部分地取决于可以根据第二机器学习程序124的输出重建原始样本言语数据的程度。
32.计算机102可以被编程为生成说话者识别特性的随机矢量108。生成所述随机矢量108可以包括根据所述说话者识别特性的分布来进行采样,例如,根据梅尔语谱图的不同频率下的振幅。所述分布可源自对来自说话者群体的所述说话者识别特性的测量。例如,可以
记录说话者群体说出一个或多个预设短语,可以将记录转换为梅尔语谱图,并且可以在梅尔语谱图上进行分布。
33.计算机102可以被编程为在接收到第一言语数据104之前生成随机矢量108。例如,计算机102可以被编程为生成随机矢量108一次并将随机矢量108存储在存储器中。对于另一个示例,计算机102可以被编程为在每个车辆100行程开始时(例如,响应于起动车辆100)生成随机矢量108。替代地,计算机102可以被编程为在接收到第一言语数据104之后针对第二言语数据110的每次生成独立地生成随机矢量108。
34.计算机102可以被编程为通过将随机矢量108应用于提取的第一言语数据106而生成第二言语数据110。生成第二言语数据110可以包括对由第一机器学习程序122输出的提取的第一言语数据106进行解码。换句话说,第二言语数据110是利用随机矢量108对提取的第一言语数据106的解码。第二言语数据110可以包括与由随机矢量108而不是第一矢量105提供的说话者识别特性相结合的来自第一言语数据104的(经编辑的)内容和语音风格。因此,第二言语数据110可能不可用于识别说话者,但是第二言语数据110仍然是可以被播放和理解的言语数据,使得第二言语数据110可用于分析。
35.例如,对提取的第一言语数据106进行解码可以包括执行第二机器学习程序124。第二机器学习程序124可以是例如使用上采样的卷积神经网络(cnn)。利用上采样的cnn可以适合于将提取的第一言语数据106的内容和语音风格与说话者识别特性的随机矢量108组合。第二机器学习程序124实际上逆转第一机器学习程序122的操作。如上所述,第二机器学习程序124可以与第一机器学习程序122联合训练。
36.计算机102可以被编程为从第二言语数据110中移除元数据。元数据可以包括例如车辆识别号码(vin)和/或另一个源标识符。
37.计算机102可以被编程为例如经由收发器118将第二言语数据110传输到远程服务器120。例如,计算机102可以被编程为在生成第二言语数据110后传输第二言语数据110,或者计算机102可以被编程为传输来自作为一批的多次生成的第二言语数据110,例如,在车辆100的行程中生成的第二言语数据110。
38.计算机102可以被编程为将随机矢量108传输到远程服务器120。计算机102可以在单个消息中与第二言语数据110一起传输随机矢量108或在与第二言语数据110分开的消息中传输随机矢量108。在分开的消息中传输随机矢量108可以帮助增强可包括pii的数据的安全性。无论随机矢量108是在与第二言语数据110相同还是分开的消息中传输,远程服务器120都可以单独地存储随机矢量108和第二言语数据110以帮助增强隐私。
39.图4是示出用于通过生成第二言语数据110来使第一言语数据104匿名化的示例性过程400的过程流程图。计算机102的存储器存储用于执行过程400的步骤的可执行指令和/或可以在诸如上述的结构中来实施编程。计算机102可以响应于车辆100被开启而发起过程400。作为过程400的总体概述,计算机102生成随机矢量108。只要车辆100保持开启,计算机102就重复地接收第一言语数据104,确定第一言语数据104的文本,根据第一言语数据104中的语音命令来致动部件116,移除第一言语数据104的具有文本在所述类别中的片段,从第一言语数据104移除第一矢量105以生成提取的第一言语数据106,根据提取的第一言语数据106生成第二言语数据110,从第二言语数据110中移除元数据,并且将第二言语数据110和随机矢量108传输到远程服务器120。
40.过程400在框405中开始,其中计算机102针对说话者识别特性生成随机矢量108,如上所述。
41.接下来,在框410中,计算机102接收第一言语数据104,如上所述。
42.接下来,在框415中,计算机102根据第一言语数据104来确定文本,如上所述。
43.接下来,在框420中,计算机102基于语音命令(例如,如从在框415中确定的文本中识别的)来致动部件116,如上所述。
44.接下来,在框425中,计算机102基于第一言语数据104的片段的文本在所述类别中(例如,为pii)来移除所述片段,如上所述。
45.接下来,在框430中,计算机102从第一言语数据104中移除说话者识别特性的第一矢量105以生成提取的第一言语数据106,如上所述。
46.接下来,在框435中,计算机102通过将随机矢量108应用于提取的第一言语数据106而生成第二言语数据110,如上所述。
47.接下来,在框440中,计算机102从第二言语数据110中移除元数据,如上所述。
48.接下来,在框445中,计算机102将第二言语数据和随机矢量108传输到远程服务器120,如上所述。
49.接下来,在决策框450中,计算机102确定车辆100是否仍然开启。如果车辆100开启,则过程400返回到框410以继续接收第一言语数据104。如果车辆100已经关闭,则过程400结束。
50.通常,所描述的计算系统和/或装置可采用多个计算机操作系统中的任一者,包括但绝不限于以下版本和/或变型:福特应用程序、applink/smart device link中间件、微软操作系统、微软操作系统、unix操作系统(例如,由加州红杉海岸的oracle公司发布的操作系统)、由纽约阿蒙克市的inter national business machines公司发布的aix unix操作系统、linux操作系统、由加州库比蒂诺的苹果公司发布的mac osx和ios操作系统、由加拿大滑铁卢的黑莓有限公司发布的blackberry os以及由谷歌公司和开放手机联盟开发的android操作系统、或由qnx soft ware systems供应的car信息娱乐平台。计算装置的示例包括但不限于车载计算机、计算机工作站、服务器、台式机、笔记本、膝上型计算机或手持计算机、或某一其他计算系统和/或装置。前述描述可以由前述计算装置中的一者或多者执行。
51.计算装置通常包括计算机可执行指令,其中所述指令可由诸如以上列出的那些的一个或多个计算装置执行。可从使用多种编程语言和/或技术创建的计算机程序编译或解译计算机可执行指令,所述编程语言和/或技术单独地或者组合地包括但不限于java
tm
、c、c++、matlab、simulink、stateflow、visual basic、java script、python、perl、html等。这些应用程序中的一些可在诸如java虚拟机、dalvik虚拟机等虚拟机上编译和执行。通常,处理器(例如,微处理器)接收例如来自存储器、计算机可读介质等的指令,并且执行这些指令,从而执行一个或多个过程(包括本文所述过程中的一者或多者)。此类指令和其他数据可使用各种计算机可读介质来存储和传输。计算装置中的文件通常是存储在诸如存储介质、随机存取存储器等计算机可读介质上的数据的集合。
52.计算机可读介质(也称为处理器可读介质)包括参与提供可由计算机(例如,由计
算机的处理器)读取的数据(例如,指令)的任何非暂时性(例如,有形)介质。此类介质可采用许多形式,包括但不限于非易失性介质和易失性介质。指令可通过一种或多种传输介质来传输,所述一种或多种传输介质包括光纤、导线、无线通信,包括构成联接到计算机的处理器的系统总线的内部件。常见形式的计算机可读介质包括例如ram、prom、eprom、快闪eeprom、任何其他存储器芯片或盒式磁带、或计算机可从中读取的任何其他介质。
53.本文所述的数据库、数据存储库或其他数据存储可包括用于存储、存取/访问和检索各种数据的各种机制,包括分层数据库、文件系统中的文件集、专用格式的应用程序数据库、关系型数据库管理系统(rdbms)、非关系数据库(nosql)、图形数据库(gdb)等。每个这样的数据存储通常被包括在采用诸如以上提及中的一种的计算机操作系统的计算装置内,并且以各种方式中的任何一种或多种来经由网络进行访问。文件系统可从计算机操作系统访问,并且可包括以各种格式存储的文件。除了用于创建、存储、编辑和执行已存储的程序的语言(诸如上述pl/sql语言)之外,rdbms通常还采用结构化查询语言(sql)。
54.在一些示例中,系统元件可被实施为一个或多个计算装置(例如,服务器、个人计算机等)上、存储在与其相关联的计算机可读介质(例如,磁盘、存储器等)上的计算机可读指令(例如,软件)。计算机程序产品可包括存储在计算机可读介质上的用于实施本文描述的功能的此类指令。
55.在附图中,相同的附图标记指示相同的元素。另外,可改变这些元素中的一些或全部。关于本文描述的介质、过程、系统、方法、启发等,应理解,虽然此类过程等的步骤已被描述为按照某一有序的顺序发生,但是可通过以与本文所述顺序不同的顺序执行所述步骤来实践此类过程。还应理解,可同时执行某些步骤,可添加其他步骤,或者可省略本文所述的某些步骤。
56.除非本文作出相反的明确指示,否则权利要求中使用的所有术语意图给出如本领域技术人员所理解的普通和通常的含义。特别地,诸如“一个”、“该”、“所述”等单数冠词的使用应被解读为叙述所指示的元素中的一个或多个,除非权利要求叙述相反的明确限制。形容词“第一”和“第二”贯穿本文档用作标识符,并且不意图表示重要性、顺序或数量。“响应于”、“在确定
……
时”等的使用指示因果关系,而不仅是时间关系。
57.已经以说明性方式描述了本公开,并且应理解,已经使用的术语意图是描述性的词语的性质,而不是限制性的。鉴于以上教导,本公开的许多修改和变化是可能的,并且本公开可不同于具体描述的其他方式来实践。
58.根据本发明,提供了一种计算机,该计算机具有处理器和存储器,所述存储器存储指令,所述指令可由所述处理器执行以:接收第一言语数据;从所述第一言语数据中移除说话者识别特性的第一矢量以生成提取的第一言语数据;生成所述说话者识别特性的随机矢量;以及通过将所述随机矢量应用于所述提取的第一言语数据来生成第二言语数据。
59.根据一个实施例,所述指令还包括用于根据第一言语数据来确定文本的指令。
60.根据一个实施例,所述指令还包括用于基于所述第一言语数据的至少一个片段的所述文本在某个类别中而移除所述至少一个片段的指令。
61.根据一个实施例,在移除所述第一言语数据的所述至少一个片段之后生成所述第二言语数据发生。
62.根据一个实施例,所述类别是个人可识别信息。
63.根据一个实施例,所述指令还包括用于将所述第二言语数据传输到远程服务器的指令。
64.根据一个实施例,所述指令还包括用于将随机矢量传输到远程服务器的指令。
65.根据一个实施例,所述第一言语数据包括语音命令。
66.根据一个实施例,所述指令还包括用于基于语音命令来致动车辆的部件的指令。
67.根据一个实施例,生成所述随机矢量包括根据所述说话者识别特性的分布来进行采样。
68.根据一个实施例,所述分布源自对来自说话者群体的所述说话者识别特性的测量。
69.根据一个实施例,所述第一矢量包括语谱图。
70.根据一个实施例,所述语谱图是梅尔语谱图。
71.根据一个实施例,从所述第一言语数据中移除所述第一矢量包括对不具有所述第一矢量的所述第一言语数据进行编码以生成所述提取的第一言语数据。
72.根据一个实施例,对不具有第一矢量的第一言语数据进行编码包括执行机器学习程序。
73.根据一个实施例,机器学习程序是使用下采样的卷积神经网络。
74.根据一个实施例,将所述随机矢量应用于所述提取的第一言语数据包括使用所述随机矢量对所述提取的第一言语数据进行解码。
75.根据一个实施例,对提取的第一言语数据进行解码包括执行机器学习程序。
76.根据一个实施例,机器学习程序是使用上采样的卷积神经网络。
77.根据本发明,一种方法包括:接收第一言语数据;从所述第一言语数据中移除说话者识别特性的第一矢量以生成提取的第一言语数据;生成所述说话者识别特性的随机矢量;以及通过将所述随机矢量应用于所述提取的第一言语数据来生成第二言语数据。

技术特征:
1.一种方法,其包括:接收第一言语数据;从所述第一言语数据中移除说话者识别特性的第一矢量以生成提取的第一言语数据;生成所述说话者识别特性的随机矢量;以及通过将所述随机矢量应用于所述提取的第一言语数据来生成第二言语数据。2.如权利要求1所述的方法,其还包括根据所述第一言语数据确定文本。3.如权利要求2所述的方法,其还包括基于所述第一言语数据的至少一个片段的所述文本在某个类别中而移除所述至少一个片段。4.如权利要求3所述的方法,其中在移除所述第一言语数据的所述至少一个片段之后生成所述第二言语数据发生。5.如权利要求3所述的方法,其中所述类别是个人可识别信息。6.如权利要求1所述的方法,其还包括将所述第二言语数据传输到远程服务器。7.如权利要求1所述的方法,其中所述第一言语数据包括语音命令,所述方法还包括基于所述语音命令来致动车辆的部件。8.如权利要求1所述的方法,其中生成所述随机矢量包括根据所述说话者识别特性的分布来进行采样。9.如权利要求8所述的方法,其中所述分布源自对来自说话者群体的所述说话者识别特性的测量。10.如权利要求1所述的方法,其中所述第一矢量包括语谱图。11.如权利要求1所述的方法,其中从所述第一言语数据中移除所述第一矢量包括对不具有所述第一矢量的所述第一言语数据进行编码以生成所述提取的第一言语数据。12.如权利要求11所述的方法,其中对不具有所述第一矢量的所述第一言语数据进行编码包括执行机器学习程序,并且所述机器学习程序是使用下采样的卷积神经网络。13.如权利要求11所述的方法,其中将所述随机矢量应用于所述提取的第一言语数据包括使用所述随机矢量对所述提取的第一言语数据进行解码。14.如权利要求13所述的方法,其中对所述提取的第一言语数据进行解码包括执行机器学习程序,并且所述机器学习程序是使用上采样的卷积神经网络。15.一种计算机,其包括处理器和存储器,所述存储器存储指令,所述指令能够由所述处理器执行以执行如权利要求1至14中的一项所述的方法。

技术总结
本公开提供了“对言语数据进行匿名化”。一种计算机包括处理器和存储器,并且所述存储器存储指令,所述指令可由所述处理器执行以:接收第一言语数据,从所述第一言语数据中移除说话者识别特性的第一矢量以生成提取的第一言语数据,生成所述说话者识别特性的随机矢量,以及通过将所述随机矢量应用于所述提取的第一言语数据来生成第二言语数据。一言语数据来生成第二言语数据。一言语数据来生成第二言语数据。


技术研发人员:大卫
受保护的技术使用者:福特全球技术公司
技术研发日:2023.01.20
技术公布日:2023/7/31
版权声明

本文仅代表作者观点,不代表航家之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)

航空之家 https://www.aerohome.com.cn/

飞机超市 https://mall.aerohome.com.cn/

航空资讯 https://news.aerohome.com.cn/

分享:

扫一扫在手机阅读、分享本文

相关推荐