基于声音序列来预测并触发对预测背景噪声的未来响应的制作方法

未命名 09-28 阅读:81 评论:0


1.本公开涉及例如在在线会议期间主动消除或减少麦克风信号中存在的噪声的电子设备。


背景技术:

2.存在用于听力保护、噪声消除的若干解决方案以及用于处理与在线会议相关的不想要的声音的解决方案。
3.一个示例是降噪耳机,其抑制或阻挡外部噪声并允许佩戴者专注于喜欢的歌曲或正在进行的对话。被称为主动噪声控制(anc)的技术的工作原理是通过使用麦克风拾取(低频)噪声并在噪声到达耳朵之前对其进行中和。也被称为噪声消除或主动降噪(anr)的主动噪声控制(anc)是一种用于通过添加被专门设计为抵消第一声音的第二声音来减少不想要的声音的方法。该耳机生成与不想要的噪声发生180度的相位反转的声音信号,从而导致彼此抵消的两个声音。
4.另一示例是听力保护设备(hpd),其通过电子器件和结构组件的组合来减少到达耳膜的声音。hpd是一种在暴露于有害噪声时佩戴在耳朵中或耳朵上以有助于防止噪声引起的听力损失的耳朵保护设备。hpd降低(而不是清除)进入耳朵的噪声的水平。hpd还可以防止噪声暴露的其他影响,例如耳鸣和听觉过敏。存在可用于使用的许多不同类型的hpd,包括耳罩、耳塞、电子听力保护设备和半插入式设备。被称为听力增强保护系统的一些电子hpd提供听力保护以免受高电平声音的影响,同时允许其他声音(如语音)的传输。一些电子hpd还具有放大低电平声音的能力。该类型对于在嘈杂环境中但仍需要访问较低电平声音的用户可能是有益的。例如,依靠检测并定位野生动物的微弱声音的猎人仍希望保护他们的听力免受枪支爆炸的影响。
5.微软已经展示了在通话期间使用人工智能(ai)来检测并抑制分散注意力的背景噪声的实时噪声抑制。实时噪声抑制将过滤掉会议中某些人敲击其键盘的声音、一袋薯片的沙沙声以及在后台运行的真空吸尘器。ai将实时移除背景噪声,因此您只能听到通话中的语音。
6.噪声抑制在microsoft teams、skype和skype for business应用中已经存在多年了。其他通信工具和视频会议应用也具有某种形式的噪声抑制。但该噪声抑制涵盖了静态噪声,例如在后台运行的电脑风扇或空调。传统的噪声抑制方法是寻找语音停顿,估计噪声的基线,假设连续的背景噪声不随时间改变并将其过滤掉。
7.将人类语音的声音与不想要的背景声音隔离并非易事,因为它们可能在相同的频率上重叠。在语音信号的频谱图上,不想要的噪声出现在语音之间的间隙中并且与该语音重叠。因此几乎不可能过滤掉噪声——如果语音和噪声重叠,则算法无法区分二者。相反,算法可能需要事先训练神经网络来了解噪声是什么样的并因此了解语音是什么样的。微软训练了一种机器学习模型来理解噪声与语音之间的区别,然后机器学习模型尝试在推理期间抑制噪声,同时保持语音不受影响。
8.机器学习包括通过经验自动改进的计算机算法。它被视为人工智能的一部分。机器学习算法基于被称为“训练数据”的样本数据来构建模型,以便在没有显式编程为这样做的情况下做出预测或决策。机器学习算法用于诸如电子邮件过滤和计算机视觉之类的各种应用,在这些应用中难以或无法开发常规算法来执行所需的任务。


技术实现要素:

9.本文公开的一些实施例涉及一种设备,该设备包括:至少一个处理器,被配置为从至少一个麦克风接收至少一个麦克风信号;以及至少一个存储器,存储能够由至少一个处理器执行的程序代码。由至少一个处理器执行的操作包括:识别至少一个麦克风信号中出现触发声音。操作还包括:在触发声音出现之后,预测具有定义的干扰特性的后续声音在至少一个麦克风信号中出现的概率。操作还包括:当具有定义的干扰特性的后续声音出现的概率满足补救动作规则时,触发要执行的补救动作以使至少一个麦克风信号静音或抑制至少一个麦克风信号中的后续声音。
10.一些实施例涉及一种由设备执行的方法,该方法包括:识别从至少一个麦克风接收的至少一个麦克风信号中出现触发声音。该方法还包括:在触发声音出现之后,预测具有定义的干扰特性的后续声音在至少一个麦克风信号中出现的概率。该方法还包括:当具有定义的干扰特性的后续声音出现的概率满足补救动作规则时,触发要执行的补救动作以使至少一个麦克风信号静音或抑制至少一个麦克风信号中的后续声音。
11.一些实施例涉及一种包括非暂时性计算机可读介质的计算机程序产品,该非暂时性计算机可读介质存储能够由设备的至少一个处理器执行以执行操作的程序代码。操作包括:识别从至少一个麦克风接收的至少一个麦克风信号中出现触发声音。操作还包括:在触发声音出现之后,预测具有定义的干扰特性的后续声音在至少一个麦克风信号中出现的概率。操作还包括:当具有定义的干扰特性的后续声音出现的概率满足补救动作规则时,触发要执行的补救动作以使至少一个麦克风信号静音或抑制至少一个麦克风信号中的后续声音。
12.本文公开的设备的这些和另外的操作可以提供许多潜在的优点。本公开的潜在优点包括:在涉及在线会议时对不想要的声音更快做出响应,因为这些操作预测具有定义的干扰特性的后续声音出现的概率,然后可以通过触发补救动作规则对其进行响应以在后续声音出现之前使后续声音静音或抑制后续声音。在具有定义的干扰特性的后续声音出现之前执行这种补救动作可以避免后续声音的任何部分被发送给在线会议中的远程参与者。
13.在查看以下附图和详细描述之后,根据实施例的其他设备、方法和计算机程序产品对于本领域技术人员将是显而易见的或将变得显而易见。所有这种设备、方法和计算机程序产品都旨在包括在本说明书中,在本公开的范围内,并受所附权利要求保护。此外,意图是本文公开的所有实施例可以单独实施或以任何方式和/或组合组合。
附图说明
14.本公开的各个方面通过示例来说明,并且不受附图的限制。在附图中:
15.图1示出了根据本公开的一些实施例的可以由设备处理以抑制具有定义的干扰特性的声音的声音序列的示例;
16.图2示出了包含被配置为根据本公开的一些实施例进行操作的组件的系统图;
17.图3至图8示出了根据本公开的一些实施例的由设备执行的操作的流程图;
18.图9示出了根据一些实施例的通过用户设备控制声音播放的计算系统;
19.图10示出了根据一些实施例配置的另一计算系统的组件电路;
20.图11是被配置为根据本公开的一些实施例进行操作的计算服务器的组件电路的框图;以及
21.图12是根据本公开的一些实施例的可以包括自适应音乐系统的功能或者可以通信地连接到自适应音乐系统的用户设备的组件电路的框图;
22.图13示出了根据本公开的一些实施例的用于声音序列的马尔可夫链(markov chain);以及
23.图14示出了根据本公开的一些实施例的后续声音的条件概率。
具体实施方式
24.在下文中,将参考附图更全面地描述本发明构思,在附图中示出了本发明构思的实施例的示例。然而,本发明构思可以用多种不同形式来体现,并且不应当被解释为限于本文中所阐述的实施例。相反,提供这些实施例使得本公开将全面和完整,并且将各个本发明构思的范围充分传达给本领域技术人员。还应注意,这些实施例并不互相排斥。来自一个实施例的组成部分可以被默认假设为存在于/用于另一实施例中。
25.本公开的各种实施例描述了一种设备和方法,其使用人工智能(ai)或其他机器学习以通过分析声音序列及其在时间和空间上的相关关系来抑制不想要的声音或使不想要的声音静音。
26.现有的主动噪声消除技术不足以抑制背景噪声被发送给在线会议中的参与者。
27.听力保护设备(hpd)涉及在来自例如枪支爆炸的响亮声音的情况下,通过尝试快速地抑制具有高瞬态的噪声来减少到达本地听众的耳膜的声音。hpd技术也不足以抑制背景噪声被发送给在线会议中的参与者。
28.微软已经展示了在通话期间使用人工智能来检测并抑制分散注意力的背景噪声的实时噪声抑制。然而,一个困难的问题是隔离人类语音的声音,因为其他噪声也同时发生。一种备选方法是训练机器学习模型来理解噪声与语音之间的区别。
29.此外,在检测和适当的动作二者方面,都难以抑制突然的高瞬态声音。例如,狗吠声或关门声都具有需要立即抑制或静音的短而高的峰值瞬态。如果静音或抑制不够快,则至少一部分噪声将通过。通常,机器学习模型需要一定时间来对声音进行检测或分类,这可能导致太晚的噪声补救响应以及一部分噪声被发送给其他设备。
30.图1示出了根据本公开的一些实施例的可以由设备处理以抑制具有定义的干扰特性的声音的声音序列的示例。示例声音序列包括以下中的至少一些:诸如前廊上的脚步声之类的不触发设备的反应的可检测声音100、诸如敲门声之类的触发声音102、诸如狗吠声之类的预测噪声104、以及在狗吠声之后有人大喊“安静”106。在初始触发声音出现之后,该声音序列可以具有较高的出现的概率,在所示示例中初始触发声音是前廊上的脚步声100。例如,在前廊上行走的包裹递送员接近门可以产生声音100,然后是敲门声102,这会触发狗吠声104,之后有人大喊“安静”106。
31.本公开的各种实施例涉及通过分析声音序列(例如,图1所示的声音序列)以及它们在时间和空间上的单独关系来预测在当前出现触发声音之后出现后续声音或后续声音序列的出现概率,以使用ai抑制不想要的声音或使不想要的声音静音。
32.图2示出了包含被配置为根据本公开的一些实施例进行操作的组件的系统图。在该所示系统中,主持人用户设备200(“设备”)的麦克风202检测声音序列,例如声音100、102、104和106中的至少一些。
33.主持人用户设备200例如可以是膝上型计算机、平板计算机、智能电话、扩展现实耳机等。主持人用户设备200包括至少一个处理器,其被配置为从至少从一个麦克风202接收至少一个麦克风信号并且可以被配置为向扬声器提供音频信号。麦克风202和任何扬声器可以物理地或无线地(例如,蓝牙或wi-fi耳机)连接到主持人用户设备200。多个麦克风或麦克风阵列和/或扬声器可以物理地或无线地连接到主持人用户设备200。
34.主持人用户设备200可以通信地耦接到虚拟会议服务器210。虚拟会议服务器210可以包括预测性声音补救组件212。预测性声音补救组件212可以备选地位于主持人用户设备200中。预测性声音补救组件212可以使用机器学习算法来训练。虚拟会议服务器210被配置为通过有线和/或无线网络连接从主持人用户设备200向参与者用户设备220和222提供音频流。
35.根据本文公开的各种实施例,经由预测性声音补救组件212的系统可以被配置为在触发声音(例如,前廊上的脚步声100)出现之后,预测具有定义的干扰特性的后续声音(例如,敲门声102和狗吠声104)在麦克风信号中出现的概率。当具有定义的干扰特性的后续声音出现的概率满足补救动作规则时,该系统可以触发要执行的补救动作以使麦克风信号静音或抑制麦克风信号中的后续声音。
36.图3示出了根据本公开的一些实施例的由诸如主持人用户设备200和/或虚拟会议服务器210之类的设备执行的操作的流程图。为了方便起见,图3的操作在由虚拟会议服务器210执行的上下文中进行描述,尽管它们可以附加地或备选地由主持人用户设备200和/或由系统的另一组件执行。
37.在一些实施例中,虚拟会议服务器210被配置为识别300至少一个麦克风信号中出现触发声音(例如,“前廊上的脚步声”100和/或“敲门声”102)。虚拟会议服务器210还被配置为在触发声音(例如,“前廊上的脚步声”100和/或“敲门声”102)出现之后,预测302具有定义的干扰特性的后续声音(例如,“狗吠声”104)在至少一个麦克风信号中出现的概率。该设备还被配置为:当具有定义的干扰特性的后续声音(例如,“狗吠声”104和“安静”106)出现的概率满足补救动作规则时,触发304要执行的补救动作以使至少一个麦克风信号静音或抑制至少一个麦克风信号中的后续声音(例如,“狗吠声”104)和喊叫词“安静”106。
38.本公开的一些实施例的潜在优点是它们提供对触发声音的快速响应并且可以在具有定义的干扰特性的后续声音(例如,“狗吠声”104和“安静”106)出现之前发起补救动作。在在线会议期间,这些实施例可以避免主持人用户设备200的麦克风信号中的后续声音的任何部分在音频流中发送给参与者用户设备220和222。
39.在一些实施例中,预测302具有定义的干扰特性的后续声音在至少一个麦克风信号中出现的概率包括:预测满足定义的干扰水平的后续声音出现的概率。
40.在一些实施例中,预测302满足定义的干扰水平的后续声音出现的概率包括确定
以下条件中的至少一个被满足的概率:后续声音的预测峰值分贝水平超过峰值阈值;后续声音的预测持续时间超过持续时间阈值;后续声音的预测频率分量在定义的频带内;以及后续声音具有已经被定义为不可接受的预测声音类别。
41.可以训练机器学习模型以在所检测的环境声音的序列中检测某个声音,即触发声音。触发声音然后用于预测声音序列中的下一个声音,并预测具有定义的干扰特性的下一个声音出现的概率x。如果用x概率和y定义的干扰特性来预测声音序列中的下一个声音,则:如果x和y小于阈值(例如,不满足阈值规则),则操作预测声音序列中的再下一个声音出现的概率;以及如果x和y大于或等于阈值(例如,满足阈值规则),则操作触发可以包括使麦克风信号静音或执行声音抑制的动作。
42.各种实施例可以耦合到在线会议应用(例如microsoft teams或zoom),并且被配置为向在线会议应用提供所预测的不想要的声音将(例如,在毫秒、秒、或分钟内)很快出现的指示,以触发在线会议应用在该声音出现之前使该声音静音或抑制该声音。例如,可以向在线会议应用提供倒计时信号,该倒计时信号指示在要被静音或抑制的预期声音干扰出现之前剩余的预测时间量。可以向在线会议应用指示关于多个麦克风信号中的哪个麦克风信号要被静音或抑制以及预期声音干扰的持续时间,使得在线会议应用可以相应地控制麦克风信号静音或声音抑制的持续时间。被触发的动作可以是使所有麦克风、所选择的麦克风子集、特定麦克风、或与麦克风相关联的硬件端口静音。被触发的动作还可以或备选地是调整检测阈值或者对声音进行检测和/或分类的算法的其他概率参数。
43.在一些实施例中,确定具有定义的干扰特性的后续声音出现的概率何时满足补救动作规则包括确定以下上下文参数中的至少一个是否满足补救动作规则:当触发声音出现时的设备位置数据;当触发声音出现时的时间数据;当触发声音出现时的日期数据;至少一个麦克风信号中的背景噪声分量的特性;指示是否要触发补救动作的用户输入数据;定义的声源类型已经被相机识别的指示;以及用户人口统计特性。定义的声源类型已经被相机识别的示例指示是安全相机已经指示狗的存在的指示。
44.用于预测后续声音出现的概率、定义什么是定义的干扰特性和/或定义什么是补救动作规则的操作的灵敏度可以基于上下文参数来调整。可以设置示例上下文参数来指示用户是在工作还是在家。可以定义上下文参数以适配某些预先确定的上下文,例如“独自在家”或“与家人一起在家”或“与宠物一起在家”等。上下文参数可以指示用户的周围环境,例如在户外公园内、在诸如消防局的急救站内、在汽车内、在火车内、在飞机内等。上下文参数可以指示用户的位置、时间和日期等。上下文参数可以指示设备正被使用的方式,例如用于工作、个人使用等。
45.用于预测后续声音出现的概率,定义什么是定义的干扰特性,和/或定义什么是补救动作规则的操作的灵敏度可以在定义的阈值或阈值范围(高-中-低)之间增加或降低。例如,在“工作中”的上下文中与干扰级别“高”相关联的声音水平可以与在周末期间独自在家的上下文中的干扰级别“低”相关联。
46.一些实施例的另一方面是可以使用其他传感器来向操作(例如,向机器学习模型)提供关于上下文参数的输入。例如,视频相机可以基于识别狗的存在来生成上下文参数,麦克风可以基于在工作环境中听到相对较高的背景噪声来生成上下文参数,可以基于确定用户登录到家庭网络来生成上下文参数,可以基于一天中的时间来定义上下文参数以指示用
户可能存在于某个环境内等。
47.在另一实施例中,可以基于一般声音序列和/或从人口统计群体收集的声音序列来集中地训练机器学习模型和/或机器学习模型的部分,然后将经训练的模型提供给预测性声音补救组件212。
48.图4和图5示出了根据本公开的一些实施例的由执行静音和抑制技术的设备(例如,主持人用户设备200和/或虚拟会议服务器210)执行的操作的流程图。
49.首先参考图4,触发304要执行的补救动作以使至少一个麦克风信号静音或抑制至少一个麦克风信号中的后续声音的操作包括:预测400后续声音的持续时间。然后,操作在基于后续声音的预测持续时间确定的持续时间内,使至少一个麦克风信号静音402或抑制402至少一个麦克风信号中的后续声音。
50.现在参考图5,触发304要执行的补救动作以使至少一个麦克风信号静音或抑制至少一个麦克风信号中的后续声音的操作包括:预测500触发声音的出现与后续声音的开始之间的时间延迟。然后,在触发声音出现之后,操作基于时间延迟的到期来触发502补救动作开始。
51.自动静音可以由参与在线视频会议的主持人用户设备200执行。预测性声音补救组件212可以是在线会议应用的一部分并且可以使用在本地和/或在虚拟会议服务器210中执行的经训练的机器学习模型。机器学习模型可以被配置为识别与不同上下文相关的大量声音序列以及声音如何互相相关(出现时间相关)。
52.在一个示例中,主持人用户设备200的用户从家中参加在线会议,并且上下文参数可以被定义为指示妻子、孩子和吠叫的狗存在于家中。在该场景中,接近房子的前门的人在前廊上产生脚步声100,然后这个人产生敲门声102,这引发狗吠声104,之后妻子大喊“安静”106。该场景给用户和在线会议中的参与者带来很多干扰。
53.本公开的各种实施例通过可以使用机器学习模型执行的操作来解决该问题,这些操作识别触发声音(例如,前廊上的脚步声100)并预测后续声音序列出现的概率,这可以触发补救动作。机器学习模型检测触发声音(例如,前廊上的脚步声100)出现,在触发声音出现之后,预测具有定义的干扰特性的后续声音(例如,敲门声102)出现的概率。在一个示例中,后续声音出现的概率被确定为“低”。
54.机器学习模型检测序列中的后续声音(例如,敲门声102),并以一定的概率确定序列中的随后的声音,并预测下一个后续声音“狗吠声”104和人大喊“安静”106出现的概率为“高”。
55.因为具有定义的干扰特性的下一个后续声音“狗吠声”104和人大喊“安静”106出现的概率为“高”,所以出现的概率满足补救动作规则,这触发要执行的补救动作以使至少一个麦克风信号静音或抑制至少一个麦克风信号中的下一个后续声音。补救动作可以由预测性声音补救组件212执行和/或通过向在线会议应用通知关于使“突然的高背景噪声”静音的原因来执行。
56.这可能在第一设备/应用中启动定时器,该定时器在到期时将静音恢复为非静音。可以基于后续声音的预测持续时间来设置该定时器。
57.图9示出了根据一些实施例的通过用户设备控制声音播放的计算系统。
58.参考图9,预测性声音补救组件包括至少一个处理电路912作为预测性声音补救组
件910的一部分。预测性声音补救组件910可以位于设备900上或通信地耦接到设备900。为了便于说明处理电路912的各种功能操作,在图9的实施例中,处理电路912被示为包括分析电路920、机器学习处理电路930和补救动作电路940。处理电路912可以具有比图9所示的电路更多或更少的电路。例如,如下面进一步说明的,分析电路920、机器学习处理电路930和补救动作电路940中的任一个或多个可以组合为集成电路或划分为两个或更多个单独的电路。用户设备900可以被配置为接收可以由用户设备900内的麦克风电路或者通过有线或无线连接与其连接而提供的麦克风信号。例如,耳机可以包括被配置为向用户设备900提供数字化麦克风信号的麦克风。
59.尽管只是为了便于示出和说明,分析电路920、机器学习处理电路930和补救动作电路940在本文的图9和各种其他图中被示为单独的块,但这些电路中的任何两个或更多个可以在共享电路中实现,并且这些电路中的任一个可以至少部分地在数字电路中实现,例如通过存储在至少一个存储电路中的程序代码来实现,该程序代码由至少一个处理器电路912执行。
60.图10示出了根据一些实施例配置的另一计算系统的组件电路。尽管预测性声音补救组件910被示为与各种所示类型的用户设备1002和预录声音序列的数据库1000分开并通过网络1010通信地连接到各种所示类型的用户设备1002和预录声音序列的数据库1000,预测性声音补救组件910的一些或所有电路组件(例如,分析电路920、补救动作电路940、机器学习处理电路930、训练电路1042等)可以由在任一个或多个用户设备1002中和/或在数据库1000中实现的电路来实现。
61.参考图10,训练电路1042被配置为基于本文各种实施例中讨论的许多参数的组合来训练机器学习模型932。
62.分析电路920被配置为分析来自用户设备1002和/或预录声音序列的数据库1000的输入,以用于训练机器学习处理电路930。
63.分析电路920可以表征由用户设备1002的麦克风感测到的声音和/或从数据库1000获得的声音。例如,表征可以包括表征声音频谱(例如,过零率、频谱质心、频谱滚降、频谱包络的整体形状、色度频率等)、(基于环境噪声的时频图,其也可以被称为频谱图的)声音声学指纹、声音响度和声音噪声重复模式中的至少一种。
64.过零率可以对应于沿信号的符号变化率,即信号从正变为负或从负变回正的速率。频谱包络可以对应于声音的“质心”所在的位置,并且可以被计算为声音中存在的频率的加权平均值。频谱滚降可以对应于信号的形状测量,例如表示总频谱能量的指定百分比位于其下方的频率。整体形状可以对应于声音的梅尔频率倒谱系数(mfcc),mfcc是简明地描述频谱包络的整体形状的小特征集(通常约为10至20)。色度频率可以对应于声音的表示,其中整个频谱被划分为定义的数量(例如,12)的区间,这些区间表示声音频谱倍频程的所定义数量(例如,12)的不同半音(或色度)。
65.分析电路920可以表征在由用户设备1002的麦克风感测到的声音和/或从数据库1000获得的声音中出现的声音序列。
66.分析电路920可以表征由预测性声音补救组件212执行的补救动作和/或由用户响应于所表征声音的出现而执行的补救动作。例如,分析电路920可以响应于所表征声音的出现而表征用户动作:使麦克风静音、增大扬声器音量、感测主持人用户设备200的移动、暂停
音频播放、感测门的关闭、感测窗户的关闭等。
67.分析电路920可以基于所表征的声音和所表征的声音序列来预测具有定义的干扰特性的后续声音出现的概率。
68.机器学习处理电路930被配置为被训练以在触发声音出现之后,预测具有定义的干扰特性的后续声音在至少一个麦克风信号中出现的概率,当具有定义的干扰特性的后续声音出现的概率满足补救动作规则时,触发要执行的补救动作以使至少一个麦克风信号静音或抑制至少一个麦克风信号中的后续声音。机器学习处理电路930可以触发补救动作电路940执行补救动作以使至少一个麦克风信号静音或抑制至少一个麦克风信号中的后续声音。补救动作电路940可以至少部分地驻留在每个用户设备1002内。
69.机器学习处理电路930可以在运行模式和训练模式下操作,尽管这些模式不是互相排斥的并且至少一些训练可以在运行期间执行。
70.在运行期间,由分析电路920输出的表征数据可以由数据预调节电路1020来调节,以例如在表征数据通过运行路径1040到达机器学习处理电路930之前,对表征数据的值进行归一化和/或过滤表征数据。机器学习处理电路930包括机器学习模型932,在一些实施例中,机器学习模型932包括神经网络电路934。通过机器学习模型932处理表征数据以预测在触发声音出现之后具有定义的干扰特性的后续声音在至少一个麦克风信号中出现的概率,并且当具有定义的干扰特性的后续声音出现的概率满足补救动作规则时,触发要执行的补救动作以使至少一个麦克风信号静音或抑制至少一个麦克风信号中的后续声音。
71.在训练期间,训练电路1042基于来自分析电路920的表征数据来适配机器学习模型932,以预测具有定义的干扰特性的声音序列出现的概率,其中表征数据可以由预调节电路1020调节。当机器学习模型932包括神经网络电路934时,训练可以包括适配神经网络层中的组合节点的权重和/或适配由神经网络电路934的组合节点使用的激活(firing)阈值。训练电路1042可以基于可以从历史数据储存库1030获得的历史表征数据值来训练机器学习处理电路930。历史数据储存库1030可以随时间用分析电路920输出的表征数据值来填充。
72.图11是被配置为根据本公开的一些实施例操作的计算服务器910的组件电路的框图。计算服务器910可以例如对应于虚拟会议服务器210(图2)。参见图11,计算服务器910包括有线/无线网络接口电路1120、至少一个处理电路1100(处理电路)和至少一个存储电路1110(存储器),该至少一个存储电路1110在下面也被描述为计算机可读介质。处理电路1100可以对应于图9中的处理电路912。存储器1110存储程序代码1112,该程序代码1112由处理电路1100执行以针对计算服务器的至少一个实施例执行本文公开的操作。程序代码1112可以包括机器学习模型代码932,其被配置为执行本文所述的至少一些操作以用于机器学习。处理电路1100可以包括可以并置或分布在一个或多个数据网络上的一个或多个数据处理电路,例如通用和/或专用处理器(例如,微处理器和/或数字信号处理器)。计算服务器910还可以包括显示设备1150和用户输入接口1160。
73.图12是根据本公开的一些实施例的用户设备900的组件电路的框图,这些组件电路可以包括预测性声音补救组件的功能或者可以通信地连接到计算服务器。用户设备900可以例如对应于主持人用户设备200(图2)或用户设备1002(图10)。用户设备900可以包括无线网络接口电路1220、至少一个处理电路1200(处理电路)和至少一个存储电路1210(存
储器),该至少一个存储电路1210在下面也被描述为计算机可读介质。处理电路1200可以对应于图9中的处理电路912。存储器1210存储程序代码1212,该程序代码1212由处理电路1200执行以针对用户设备的至少一个实施例执行本文公开的操作。程序代码1212可以包括机器学习模型代码932,其被配置为执行本文所述的至少一些操作以用于机器学习。处理电路1200可以包括可以并置或分布在一个或多个数据网络上的一个或多个数据处理电路,例如通用和/或专用处理器(例如,微处理器和/或数字信号处理器)。用户设备900还可以包括位置确定电路1270、麦克风1230、显示设备1250和用户输入接口1260(例如,键盘或触敏显示器)。位置确定电路1270可以操作以基于卫星定位(例如,gnss(全球导航卫星系统)、gps(全球定位系统)、glonass、北斗或伽利略)和/或基于地面基网络辅助定位(例如,基于信令飞行时间的蜂窝塔三角测量或基于wi-fi的定位)来确定用户设备900的地理位置。用户设备900可以包括其他传感器1240,例如相机。
74.本公开的一些实施例包括机器学习模型,其用于检测所检测的环境声音的序列中的某个声音,即触发声音。机器学习模型基于声音序列来训练,这些声音序列根据以下方面进行分类:由至少一个麦克风记录的第一触发声音102和声音的瞬态/水平和持续时间,序列中的具有相对于第一声音102的定时的下一个声音104和下一个声音的瞬态/水平和持续时间,具有定时数据的后续声音106和后续声音的瞬态/水平和持续时间,以及上下文数据。
75.机器学习模型使用来自设备麦克风的输入来训练。该训练侧重于声音序列、声音水平、频谱特性、以及它们在时间、空间上与(用户)上下文参数的关系。
76.机器学习模型将基于触发声音推断来推断/预测触发声音之后的声音序列。预测将基于概率和干扰程度(例如,与其瞬态、分贝水平、持续时间、方向、当前上下文参数等相关的高-中-低)来确定硬件或应用应适配声音序列中的哪个(些)声音。
77.图6、图7和图8示出了根据本公开的一些实施例的由执行机器学习训练技术的设备(例如,主持人用户设备200或虚拟会议服务器210)执行的操作的流程图。
78.在图6的操作实施例中,操作包括训练600机器学习算法以对设备和/或另一设备接收的声音进行分类,并且识别序列中出现的经分类的声音之间的概率相关性。操作还包括通过机器学习算法处理602触发声音以预测具有定义的干扰特性的后续声音在至少一个麦克风信号中出现的概率。
79.在一些实施例中,操作还包括基于以下上下文参数中的至少一个从机器学习算法集中选择要训练的机器学习算法:当要分类的声音之一出现时的设备位置数据;当要分类的声音之一出现时的时间数据;当要分类的声音之一出现时的日期数据;当要分类的声音之一出现时出现的背景噪声分量的特性;以及指示所感测类型的对象或环境参数的传感器数据。
80.在一些实施例中,机器学习算法的训练600还包括:基于指示要分类的声音是否具有定义的干扰特性的用户反馈来训练机器学习算法。
81.参考图7的操作示例,机器学习算法的训练600还包括:基于一组预先记录的声音序列是由满足与设备的相似性规则的设备接收的,从预先记录的声音序列的数据库中选择700一组预先记录的声音序列。操作还包括基于该组预先记录的声音序列来训练702机器学习算法。
82.另外的实施例涉及重复针对声音序列的操作,例如,其可以被表示为如图13所示
的马尔可夫状态模型,其在下面进行描述。
83.参考图8的操作示例,操作还包括通过机器学习算法处理800后续声音以预测具有定义的干扰特性的下一个后续声音在至少一个麦克风信号中出现的下一个概率,其中,下一个后续声音是在接收到后续声音之后由该设备接收的。操作还包括:当具有定义的干扰特性的下一个后续声音出现的下一个概率满足补救动作规则时,触发802要执行的补救动作以使至少一个麦克风信号静音或抑制至少一个麦克风信号中的下一个后续声音。
84.在一些实施例中,操作还包括训练机器学习算法,以指示具有定义的干扰特性的后续声音出现的概率何时满足补救动作规则。
85.机器学习算法的训练可以包括基于指示补救动作何时由用户触发的用户反馈来训练机器学习算法。
86.机器学习算法的训练可以包括基于指示用户已经执行以下补救动作中的至少一个的用户反馈来训练机器学习算法:用户使至少一个麦克风静音;用户提高了扬声器音量;当后续声音出现时,用户将设备从位置移开;以及该设备检测关于用户执行了与该设备的操作分开的动作以抑制后续声音的指示。该“检测”包括检测用户何时已经关闭门、窗等。
87.在另一实施例中,基于一般声音序列和/或从人口统计群体收集的声音序列来集中地训练机器学习模型和/或机器学习模型的部分,然后将经训练的模型推送到用户设备以供推理使用。
88.本公开的各种实施例描述了一种在声音序列上训练模型并训练声音如何取决于不同上下文而在时间和顺序上相关的方式。例如,设备能力、第一用户上下文(在家里、与家人一起在家里、一天中的时间等)、用户是否在开会等。另一示例包括第一(触发)声音与在触发声音之后的后续声音之间的相关性,其中后续声音与某些概率相关联,级联到第三级声音和第四级声音,每个合理的概率为t3%和f4%。例如,“门铃”将以91%的概率导致“狗吠”,而“狗吠”以99%的概率落入“黛西,狗”的频谱掩码。
89.又一示例包括干扰水平与序列中的某个声音的相关性。这可以使用监督学习、或无监督学习和监督学习的组合来进行。
90.还可以训练与时间(可听时间)和频率样本(如8至16khz)相关的声音序列。此外,序列中的声音之间的定时是很重要的。
91.建立第一声音(即,触发声音)以引起后续声音的某个序列或实际上引起可以演变成后续声音或终止的第二声音可以根据马尔可夫链来考虑。图13示出了根据本公开的一些实施例的声音序列的马尔可夫链表示。图13包括用于示出马尔可夫链的示例的示例概率和矩阵。
92.参考图13,为简单起见,假设三个声音g、m和a,则假设的马尔可夫状态可以由t表示,其中tij是一个声音在另一声音之后的对应概率。马尔可夫链的一个基本属性是:仅事件路径中的最近点(被称为轨迹)影响接下来发生的事情,这通常被表示为马尔可夫属性。令{x0,x1,x2,...}为离散随机变量的序列。则{x0,x1,x2,...}是满足马尔可夫属性的马尔可夫链:对于所有t=1,2,3,...,并且对于所有状态s0,s1,...,st,s,p(xt+1=s|xt=st,...,x0=s0)=p(xt+1=s|xt=st)。
93.然后,在例如三状态模型中,假设检测到触发声音g,则声音g再次出现的概率为80%,并且声音m出现的概率为20%;如果然后在“下一个时间实例”我们出现在声音m处,则
接下来出现声音g的概率为80%,并且我们回到声音g的概率为20%,如果我们然后在“下一个时间实例”以某种方式在声音a处结束,则接下来是另一a声音的概率为90%,声音g再次出现的概率为10%,以及声音m在声音a之后的概率为零(即,先前尚未被机器学习模型检测到)。
94.然后操作可以确定任何特定路径的概率是多少;以及给定仅事件路径中的最近点影响接下来发生的事情的马尔可夫属性,这些操作可以通过将开始概率和所有后续单步骤概率相乘来计算任何轨迹的概率。例如,根据p(x2=5|x0=1)的计算意味着考虑从时刻0处的状态1到时刻2处的状态5的转换。
95.一种方法可以包括机器学习模型对声音序列进行检测和分类,从而确定马尔可夫状态转移矩阵的概率因子。
96.此外,一种方法可以包括用户上下文可以由不同的状态转换矩阵来描述;一个“工作矩阵”和例如一个“空闲时间”矩阵;备选地,表示所有(给定物理存在的对象)可能状态的全转换状态矩阵,但某些状态-状态转换可能被禁止(即,被认为是非因果或非物理的),例如“门铃生成狗吠,但狗不在家里”等。
97.此外,假设机器学习模型训练(调整)用户上下文中的当前对象的上下文中的状态转换条目。
98.根据条件概率的已知原则,即给定门铃是已知的开始状态,根据图14,引起干扰性狗吠的条件概率是多少。图14示出了根据本公开的一些实施例的第一声音之后的后续声音的条件概率。
99.放宽仅先前状态的要求,还可以考虑其他精心设计的计算方案。
100.也可以在深度学习网络、决策树、贝叶斯网络等的上下文中考虑机器学习模型调整事件(状态)之间的转换系数的上述方法或使用条件概率方法。
101.联合学习(“fl”)系统可以用于本公开的各种实施例。在fl系统中,中央服务器(被称为主体或主实体)负责维护全局模型,该全局模型通过聚合模型/权重来创建,这些模型/权重在参与节点/客户端(被称为工人或工人实体)的迭代过程中使用本地数据来训练。
102.fl取决于工人持续参与用于训练模型并与主体传送模型权重的迭代过程。该主体可以与不同数量(范围在数十到数百万之间)的工人进行通信,并且被传送的模型权重更新的大小的范围在数千字节到数十兆字节之间。
103.联合学习(fl)是一种可以用于训练模型以在不同系统上使用的方法。然而,通常用于联合学习的模型生命周期可能是严格的,因为:
104.1)不允许新工人加入活动的联合。新工人仅可以在选择过程期间入职。
105.2)它没有解决特征选择问题,因为不同的特征对于所有操作员可能不具有同等的重要性。
106.3)联合的产物是联合平均模型,该联合平均模型在尝试捕获所有操作员的特征时可能无法匹配单个操作员的特征。
107.4)尽管联合学习可以在任何类型的设备(例如,移动设备、基站、网络节点等)上运行,但它通常假设所有设备具有相同的能力并且可能不考虑在联合学习发生时可能引起的数据传输成本。因此,联合仅可以遵循非常严格的主体到工人的循环,这在某些情况下可能受到限制。
108.5)联合学习生成联合模型。虽然从长远来看这可能是有意义的,但存在孤立训练或甚至集中训练可能会产生更好性能的情况。
109.本文描述的一些实施例解决了与联合学习相关联的一个或多个挑战。具体地,本文描述的一些实施例经由联合特征选择、联合模型微调和/或用于联合模型的计算资源的动态选择来解决这些挑战中的一个或多个挑战。
110.联合特征选择涉及选择系统特征以包含在神经网络中。模型微调涉及使用由主实体提供的联合信息来调谐本地模型。用于联合模型计算资源的动态选择可以涉及计算或估计存储器需求、处理能力(例如,每秒浮点运算或flops)、资源的可用性和网络数据传输资源,以创建fl模型的计算拓扑用于训练/推理。取决于不同设备的能力/可用性,可以作出联合或不联合、预训练、不预训练、回退到更特定的模型等的决策。
111.在一些实施例中,操作还包括向用户生成指示补救动作将被触发和/或已经被触发的视觉、听觉和/或触觉通知。
112.在这些实施例中,关于即将被抑制或静音的不想要的声音的信息作为用户界面(“ux”)元素被进一步中继到用户,从而使用户有可能在某些情况下选择性地覆盖系统默认值。一个示例是静音狗按钮,如果基于当前上下文和可能的声音序列的系统包含被推断来自狗源的吠叫声音分量,则可以[在移动设备、扩展现实(“xr”)眼镜等中]为用户提供静音狗按钮。换言之,用户将有可能打开或关闭对多个分量序列中不需要的声音分量的抑制或静音,并且可以基于来自音频输入的对象识别向用户显示作为其最可能来源的表示的每个分量。可以使用相机来进一步改进对象识别。
[0113]
在一些实施例中,识别由家庭代理系统观察到的触发事件的出现,其中,预测在触发声音的出现之后具有定义的干扰特性的后续声音在至少一个麦克风信号中出现的概率的操作进一步基于所识别的触发事件的出现。家庭代理可以包括相机,该相机被配置为识别人的存在、识别特定的人、识别动物的存在、识别特定的动物、识别门的打开和关闭、识别窗户的打开和关闭等。家庭代理可以包括被配置为识别某些类型的声音(例如,门铃、电话铃声、火警等)的麦克风。
[0114]
在这些实施例中,由家庭代理系统观察到的触发事件包括以下中的至少一项:门铃;火警;即将来临的包裹或服务递送的通知;以及预定的来电。
[0115]
在新兴的家庭自动化解决方案中,可能变得很普遍的是,除了聆听居民口头表达的披萨上门服务并据此订购披萨(例如,与alexa一样)的“仅”智能家居代理之外,该解决方案还管理例如门铃、灯光系统等。
[0116]
然后上面讨论的检测事件链的解决方案稍后可以/可以不引起一些干扰,相同的机器学习模型的学习等可以由家庭自动化系统来管理;因为,控制例如门铃的系统和用户关联的扬声器/麦克风可以在第一步骤中检测到门铃被外面的某个人调用(但尚未开始播放叮当声),在第二步骤中将门铃识别为稍后狗吠声的触发声音(给定用户上下文等)并从中确定某些所选择的用户扬声器可能被静音,在第三步骤中调用麦克风静音,以及在稍后的步骤中根据所选择的规则来确定要静音的扬声器,然后调用门铃叮当声的播放。
[0117]
在这方面,家庭代理系统可以设计有“请勿打扰”设置,其可以被自动调用给定用户上下文。
[0118]
另外的定义和实施例:
[0119]
在对发明构思的各种实施例的以上描述中,要理解的是,本文使用的术语仅用于描述具体的实施例的目的,而不意图限制发明构思。除非另外定义,否则本文使用的所有术语(包括技术术语和科学术语)具有与本发明构思所属领域的普通技术人员通常所理解的意义相同的意义。将理解,诸如在通用词典中定义的术语等的术语应被解释为具有与它们在本说明书的上下文和相关技术中的意义相一致的意义,而不被解释为理想或过于正式的意义,除非本文有这样的明确定义。
[0120]
当元件被称为“连接到”、“耦接到”、“响应于”另一元件或其变型时,它可以直接连接到、耦接到或者响应于另一元件,或者可以存在中间元件。相反,当元件被称作“直接连接到”、“直接耦接到”、“直接响应于”另一元件或其变型时,不存在中间元件。贯穿全文,类似附图标记表示类似的元件。此外,本文使用的“耦接”、“连接”、“响应”或其变型可以包括无线耦接、连接或响应。如本文使用的,单数形式“一”,“一个”和“所述”意在还包括复数形式,除非上下文明确地给出相反的指示。为了简洁和/或清楚,可能没对公知的功能或结构进行详细描述。术语“和/或”包括关联列出的一个或多个项目的任意和所有组合。
[0121]
将理解,尽管本文中可以使用术语第一、第二、第三等来描述各元件/操作,但这些元件/操作不应被这些术语限制。这些术语仅用于将一个元件/操作与另一元件/操作相区分。因此,在一些实施例中的第一元件/操作可以在其他实施例中称作第二元件/操作,而不会脱离本发明构思的教导。贯穿说明书,相同的附图标记或相同的参考符号表示相同或类似的元件。
[0122]
如本文中所使用的,术语“包括(comprise、comprising、comprises、include、including、includes)”、“具有(have、has、having)”或其变型是开放式的,并且包括一个或多个所陈述的特征、整数、元件、步骤、组件、或功能,但不排除存在或添加一个或多个其他特征、整数、元件、步骤、组件、功能或其组合。此外,如本文所使用的,常用缩写“e.g.(例如)”(其源于拉丁短语“exempli gratia”)可以用于介绍或指定之前提到的项目的一般示例,而不意图作为该项目的限制。常用缩写“即(i.e.)”(其源于拉丁短语“id est”)可以用于指定更广义的引述的具体项目。
[0123]
本文参考计算机实现的方法、装置(系统和/或设备)和/或计算机程序产品的框图和/或流程图图示描述了示例实施例。应当理解,可以通过由一个或多个计算机电路执行的计算机程序指令来实现框图和/或流程图图示的框以及框图和/或流程图图示中的框的组合。可以将这些计算机程序指令提供给通用计算机电路、专用计算机电路和/或其它可编程数据处理电路的处理器电路来产生机器,使得经由计算机和/或其它可编程数据处理装置的处理器执行的指令转换和控制晶体管、存储器位置中存储的值、以及这种电路内的其他硬件组件,以实现框图和/或流程图框中指定的功能/动作,并其中,创建用于实现框图和/或流程图框中指定的功能/动作的装置(功能体)和/或结构。
[0124]
这些计算机程序指令也可以存储在有形计算机可读介质中,该有形计算机可读介质能够指导计算机或其它可编程数据处理装置按照具体的方式作用,使得在计算机可读介质中存储的指令产生制品,该制品包括实现在框图和/或流程图的框中指定的功能/动作的指令。因此,本发明构思的实施例可以在硬件和/或在诸如数字信号处理器之类的处理器上运行的软件(包括固件、贮存软件、微代码等)上实现,该处理器可以统称为“电路”、“模块”或其变型。
[0125]
还应注意,在一些备选实现中,在框中标记的功能/动作可以不以流程图中标记的顺序发生。例如,取决于所涉及的功能/动作,连续示出的两个框实际上可以实质上同时执行,或者框有时候可以按照相反的顺序执行。此外,可以将流程图和/或框图的给定框的功能分成多个框和/或流程图和/或框图的两个或更多个框的功能可以至少部分地被集成。最后,在不脱离发明构思的范围的情况下,可以在所示出的框之间添加/插入其他框,和/或可以省略框/操作。此外,尽管一些框包括用于指示通信的主要方向的关于通信路径的箭头,但应当理解,通信可以以与所表示的箭头相反的方向发生。
[0126]
在基本上不脱离本发明构思原理的前提下,可以对实施例做出许多改变和修改。所有这些改变和修改旨在被包括在本文的本发明构思的范围内。因此,上述所公开的主题应理解为示例性的而非限制性的,并且所附实施例的示例旨在覆盖落入本发明构思的精神和范围之内的所有这些修改、改进和其他实施例。因此,在法律允许的最大范围内,本发明构思的范围应由包括实施例的以下示例及其等同物的本公开的最宽允许解释来确定,并且不应受限于或限制于之前的具体实施方式。

技术特征:
1.一种设备(200、210、900、910),包括:至少一个处理器(1200、1100),被配置为从至少一个麦克风(1230)接收至少一个麦克风信号;以及至少一个存储器(1210、1110),存储能够由至少一个处理器执行以执行操作的程序代码,所述操作包括:识别所述至少一个麦克风信号中出现触发声音;在所述触发声音出现之后,预测具有定义的干扰特性的后续声音在所述至少一个麦克风信号中出现的概率;当具有所述定义的干扰特性的后续声音出现的概率满足补救动作规则时,触发要执行的补救动作以使所述至少一个麦克风信号静音或抑制所述至少一个麦克风信号中的所述后续声音。2.根据权利要求1所述的设备(200、210、900、910),其中,所述预测具有定义的干扰特性的后续声音在所述至少一个麦克风信号中出现的概率的操作包括:预测满足定义的干扰水平的后续声音出现的概率。3.根据权利要求2所述的设备(200、210、900、910),其中,所述预测满足定义的干扰水平的后续声音出现的概率的操作包括确定以下条件中的至少一个条件被满足的概率:所述后续声音的预测峰值分贝水平超过峰值阈值;所述后续声音的预测持续时间超过持续时间阈值;所述后续声音的预测频率分量在定义的频带内;以及所述后续声音具有已经被定义为不可接受的预测声音类别。4.根据权利要求1至3中任一项所述的设备(200、210、900、910),其中,确定具有所述定义的干扰特性的后续声音出现的概率何时满足所述补救动作规则的操作包括确定以下上下文参数中的至少一个上下文参数是否满足所述补救动作规则:当所述触发声音出现时的设备位置数据;当所述触发声音出现时的时间数据;当所述触发声音出现时的日期数据;所述至少一个麦克风信号中的背景噪声分量的特性;指示是否要触发所述补救动作的用户输入数据;定义的声源类型已经被相机识别的指示;以及用户人口统计特性。5.根据权利要求1至4中任一项所述的设备(200、210、900、910),其中,所述触发要执行的补救动作以使所述至少一个麦克风信号静音或抑制所述至少一个麦克风信号中的所述后续声音的操作包括:预测所述后续声音的持续时间;以及在基于所述后续声音的所预测的持续时间而确定的持续时间内,使所述至少一个麦克风信号静音或抑制所述至少一个麦克风信号中的所述后续声音。6.根据权利要求1至5中任一项所述的设备(200、210、900、910),其中,所述触发要执行的补救动作以使所述至少一个麦克风信号静音或抑制所述至少一个麦克风信号中的所述后续声音的操作包括:
预测所述触发声音的出现与所述后续声音的开始之间的时间延迟;以及在所述触发声音出现之后,基于所述时间延迟的到期来触发所述补救动作开始。7.根据权利要求1至6中任一项所述的设备(200、210、900、910),其中,所述操作还包括:训练机器学习算法,以对由所述设备和/或另一设备接收的声音进行分类,并且识别序列中出现的经分类的声音之间的概率相关性;以及通过所述机器学习算法来处理所述触发声音,以预测具有所述定义的干扰特性的后续声音在所述至少一个麦克风信号中出现的概率。8.根据权利要求7所述的设备(200、210、900、910),其中,所述操作还包括:基于以下上下文参数中的至少一个上下文参数,从机器学习算法集中选择要训练的机器学习算法:当要分类的声音之一出现时的设备位置数据;当要分类的声音之一出现时的时间数据;当要分类的声音之一出现时的日期数据;当要分类的声音之一出现时出现的背景噪声分量的特性;以及指示所感测类型的对象或环境参数的传感器数据。9.根据权利要求7至8中任一项所述的设备(200、210、900、910),其中,所述训练机器学习算法的操作还包括:基于指示要分类的声音是否具有定义的干扰特性的用户反馈来训练所述机器学习算法。10.根据权利要求7至9中任一项所述的设备(200、210、900、910),其中,所述训练机器学习算法的操作还包括:基于一组预先记录的声音序列是由满足与所述设备的相似性规则的设备接收的,从预先记录的声音序列的数据库中选择所述一组预先记录的声音序列;以及基于所述一组预先记录的声音序列来训练所述机器学习算法。11.根据权利要求7至10中任一项所述的设备(200、210、900、910),所述操作还包括:通过所述机器学习算法来处理所述后续声音,以预测具有所述定义的干扰特性的下一个后续声音在所述至少一个麦克风信号中出现的下一个概率,其中,所述下一个后续声音是在接收到所述后续声音之后由所述设备接收的;以及当具有所述定义的干扰特性的下一个后续声音出现的下一个概率满足所述补救动作规则时,触发要执行的补救动作以使所述至少一个麦克风信号静音或抑制所述至少一个麦克风信号中的所述下一个后续声音。12.根据权利要求1至11中任一项所述的设备(200、210、900、910),其中,所述操作还包括:训练机器学习算法,以指示具有所述定义的干扰特性的后续声音出现的概率何时满足所述补救动作规则。13.根据权利要求12所述的设备(200、210、900、910),其中,训练所述机器学习算法的操作还包括:基于指示所述补救动作何时由所述用户触发的用户反馈来训练所述机器学习算法。14.根据权利要求13所述的设备(200、210、900、910),其中,训练所述机器学习算法的
操作还包括基于指示所述用户已经执行以下补救动作中的至少一个补救动作的用户反馈来训练所述机器学习算法:用户使所述至少一个麦克风静音;用户提高了扬声器音量;当所述后续声音出现时,用户将所述设备从位置移开;以及所述设备检测关于所述用户执行了与所述设备的操作分开的动作以抑制所述后续声音的指示。15.根据权利要求1至14中任一项所述的设备(200、210、900、910),其中,所述操作还包括:向用户生成指示所述补救动作将被触发和/或已经被触发的视觉、听觉和/或触觉通知。16.根据权利要求1至15中任一项所述的设备(200、210、900、910),其中,所述操作还包括:识别由家庭代理系统观察到的触发事件的出现,其中,在所述触发声音出现之后,预测具有所述定义的干扰特性的后续声音在所述至少一个麦克风信号中出现的概率的操作进一步基于经识别的触发事件的出现。17.根据权利要求16所述的设备(200、210、900、910),其中,由所述家庭代理系统观察到的触发事件包括以下中的至少一项:门铃;火警;即将来临的包裹或服务递送的通知;以及预定的来电。18.一种由设备执行的方法,所述方法包括:识别(300)从至少一个麦克风接收的至少一个麦克风信号中出现触发声音;在所述触发声音出现之后,预测(302)具有定义的干扰特性的后续声音在所述至少一个麦克风信号中出现的概率;当具有所述定义的干扰特性的后续声音出现的概率满足补救动作规则时,触发(304)要执行的补救动作以使所述至少一个麦克风信号静音或抑制所述至少一个麦克风信号中的所述后续声音。19.根据权利要求18所述的方法,所述预测(302)具有定义的干扰特性的后续声音在所述至少一个麦克风信号中出现的概率包括:预测满足定义的干扰水平的后续声音出现的概率。20.根据权利要求19所述的方法,其中,所述预测(302)满足定义的干扰水平的后续声音出现的概率包括确定以下条件中的至少一个条件被满足的概率:所述后续声音的预测峰值分贝水平超过峰值阈值;所述后续声音的预测持续时间超过持续时间阈值;所述后续声音的预测频率分量在定义的频带内;以及所述后续声音具有已经被定义为不可接受的预测声音类别。21.根据权利要求18至20中任一项所述的方法,其中,确定具有所述定义的干扰特性的
后续声音出现的概率何时满足所述补救动作规则的操作包括确定以下上下文参数中的至少一个上下文参数是否满足所述补救动作规则:当所述触发声音出现时的设备位置数据;当所述触发声音出现时的时间数据;当所述触发声音出现时的日期数据;所述至少一个麦克风信号中的背景噪声分量的特性;指示是否要触发所述补救动作的用户输入数据;定义的声源类型已经被相机识别的指示;以及用户人口统计特性。22.根据权利要求18至21中任一项所述的方法,其中,所述触发(304)要执行的补救动作以使所述至少一个麦克风信号静音或抑制所述至少一个麦克风信号中的所述后续声音包括:预测(400)所述后续声音的持续时间;以及在基于所述后续声音的所预测的持续时间而确定的持续时间内,使所述至少一个麦克风信号静音(402)或抑制所述至少一个麦克风信号中的所述后续声音。23.根据权利要求18至22中任一项所述的方法,其中,所述触发(304)要执行的补救动作以使所述至少一个麦克风信号静音或抑制所述至少一个麦克风信号中的所述后续声音包括:预测(500)所述触发声音的出现与所述后续声音的开始之间的时间延迟;以及在所述触发声音出现之后,基于所述时间延迟的到期来触发(502)所述补救动作开始。24.根据权利要求18至23中任一项所述的方法,还包括:训练(600)机器学习算法,以对由所述设备和/或另一设备接收的声音进行分类,并且识别序列中出现的经分类的声音之间的概率相关性;以及通过所述机器学习算法来处理(602)所述触发声音,以预测具有所述定义的干扰特性的后续声音在所述至少一个麦克风信号中出现的概率。25.根据权利要求24所述的方法,还包括:基于以下上下文参数中的至少一个上下文参数,从机器学习算法集中选择要训练的机器学习算法:当要分类的声音之一出现时的设备位置数据;当要分类的声音之一出现时的时间数据;当要分类的声音之一出现时的日期数据;以及当要分类的声音之一出现时出现的背景噪声分量的特性。26.根据权利要求24至25中任一项所述的方法,其中,所述训练(600)机器学习算法还包括:基于指示要分类的声音是否具有定义的干扰特性的用户反馈来训练所述机器学习算法。27.根据权利要求24至26中任一项所述的方法,其中,所述训练(600)机器学习算法还包括:基于一组预先记录的声音序列是由满足与所述设备的相似性规则的设备接收的,从预先记录的声音序列的数据库中选择(700)所述一组预先记录的声音序列;以及
基于所述一组预先记录的声音序列来训练(702)所述机器学习算法。28.根据权利要求24至27中任一项所述的方法,还包括:通过所述机器学习算法来处理(800)所述后续声音,以预测具有所述定义的干扰特性的下一个后续声音在所述至少一个麦克风信号中出现的下一个概率,其中,所述下一个后续声音是在接收到所述后续声音之后由所述设备接收的;以及当具有所述定义的干扰特性的下一个后续声音出现的下一个概率满足所述补救动作规则时,触发(802)要执行的补救动作以使所述至少一个麦克风信号静音或抑制所述至少一个麦克风信号中的所述下一个后续声音。29.根据权利要求18至28中任一项所述的方法,还包括:训练机器学习算法,以指示具有所述定义的干扰特性的后续声音出现的概率何时满足所述补救动作规则。30.根据权利要求29所述的方法,其中,所述训练所述机器学习算法还包括:基于指示所述补救动作何时由所述用户触发的用户反馈来训练所述机器学习算法。31.根据权利要求30所述的方法,其中,所述训练所述机器学习算法还包括基于指示所述用户已经执行以下补救动作中的至少一个补救动作的用户反馈来训练所述机器学习算法:用户使所述至少一个麦克风静音;用户提高了扬声器音量;当所述后续声音出现时,用户将所述设备从位置移开;以及所述设备检测关于所述用户执行了与所述设备的操作分开的动作以抑制所述后续声音的指示。32.根据权利要求18至31中任一项所述的方法,还包括:向用户生成指示所述补救动作将被触发和/或已经被触发的视觉、听觉和/或触觉通知。33.根据权利要求18至32中任一项所述的方法,还包括:识别由家庭代理系统观察到的触发事件的出现,其中,在所述触发声音出现之后,预测所述具有定义的干扰特性的后续声音在所述至少一个麦克风信号中出现的概率的操作进一步基于经识别的触发事件的出现。34.根据权利要求33所述的方法,其中,由所述家庭代理系统观察到的触发事件包括以下中的至少一项:门铃;火警;即将来临的包裹或服务交付的通知;以及预定的来电。35.一种计算机程序产品,包括:非暂时性计算机可读介质,存储程序代码,所述程序代码能够由设备的至少一个处理器执行以执行操作,所述操作包括:识别(300)从至少一个麦克风接收的至少一个麦克风信号中出现触发声音;在所述触发声音出现之后,预测(302)具有定义的干扰特性的后续声音在所述至少一
个麦克风信号中出现的概率;当具有所述定义的干扰特性的后续声音出现的概率满足补救动作规则时,触发(304)要执行的补救动作以使所述至少一个麦克风信号静音或抑制所述至少一个麦克风信号中的所述后续声音。36.根据权利要求35所述的计算机程序产品,其中,能够由所述设备的至少一个处理器执行的程序代码还执行根据权利要求19至34所述的方法中的任一方法的操作。37.一种设备(200、210、900、910),适于执行根据权利要求18至34中任一项所述的方法。

技术总结
一种执行操作的设备,操作包括识别至少一个麦克风信号中出现触发声音。操作还包括:在触发声音出现之后,预测具有定义的干扰特性的后续声音在至少一个麦克风信号中出现的概率。操作还包括:当具有定义的干扰特性的后续声音出现的概率满足补救动作规则时,触发要执行的补救动作以使至少一个麦克风信号静音或抑制至少一个麦克风信号中的后续声音。至少一个麦克风信号中的后续声音。至少一个麦克风信号中的后续声音。


技术研发人员:汤米
受保护的技术使用者:瑞典爱立信有限公司
技术研发日:2021.03.18
技术公布日:2023/9/23
版权声明

本文仅代表作者观点,不代表航家之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)

航空之家 https://www.aerohome.com.cn/

航空商城 https://mall.aerohome.com.cn/

航空资讯 https://news.aerohome.com.cn/

分享:

扫一扫在手机阅读、分享本文

评论

相关推荐