交互式语音响应系统的可选择控件的制作方法

未命名 08-03 阅读：60 评论：0

交互式语音响应系统的可选择控件

背景技术：

1.交互式语音响应(ivr)系统或电话树允许呼叫者通过语音输入或数字键盘与计算机操作的电话系统进行交互。例如，电话系统可以将ivr用于移动购买、银行支付、服务、零售订单、公共事业服务、旅行信息和天气报告。ivr系统通常使用一系列音频菜单来识别和划分呼叫者，这些音频菜单包括对于呼叫者进行理解、导航或记忆而言可能是困难的多个选项。

技术实现要素：

2.本文描述针对ivr系统提供可选择控件的系统和技术。所述系统和技术可以确定与计算装置的用户和第三方之间的语音或视频呼叫相关联的音频数据是否包括多个可选择选项。第三方在呼叫期间通过可听见方式提供可选择选项。响应于确定音频数据包括可选择选项，计算装置可以确定多个可选择选项的文本描述。然后，所述系统和技术可以在显示器上显示两个或更多个可选择控件。用户可以选择可选择控件来指示多个可选择选项中的被选择选项。以这种方式，所述系统和技术可以通过使得ivr系统更容易导航和理解来改善用户对于语音呼叫和视频呼叫的体验。
3.所述系统和技术可以提高用户(例如有某些通信障碍的用户)与ivr系统交互的容易性。作为示例，所述系统和技术可以允许这样的用户向ivr系统提供响应：有听力困难的用户并且原本可能发现与ivr系统交互困难或者不可能的用户。类似地，所述系统和技术可以允许这样的用户向ivr系统提供响应：所述用户有话音障碍并且原本可能发现与ivr系统交互困难或者不可能。所述系统和技术还可以协助有短期记忆缺陷用户向ivr系统提供响应，所述用户原本无法记住ivr系统提供的选项列表。所述系统和技术还可以提高用户与ivr系统交互的容易性，其中用户原本将难以理解语音或视频呼叫中提供的选项，例如当音频失真或者用户被并非源自语音或视频呼叫的环境噪声干扰时。
4.例如，计算装置获得从在计算装置上执行的通信应用输出的音频数据。音频数据包括计算装置的用户与第三方之间的语音呼叫或视频呼叫的可听见部分。计算装置使用语音呼叫或视频呼叫的可听见部分来确定音频数据是否包括两个或更多个可选择选项。第三方在语音呼叫或视频呼叫期间通过可听见方式提供两个或更多个可选择选项。响应于确定音频数据包括两个或更多个可选择选项，计算装置确定两个或更多个可选择选项的文本描述，文本描述提供两个或更多个可选择选项的至少一部分的转录。然后，计算装置显示两个或更多个可选择控件。两个或更多个可选择控件可以是可选择的来向第三方指示两个或更多个可选择选项中的被选择选项。两个或更多个可选择控件的每个可选择控件提供相应可选择选项的文本描述。
5.本文还描述针对ivr系统提供可选择控件的其他方法、配置和系统。
6.提供本发明内容是为了介绍在具体实施方式和附图中进一步描述的针对ivr系统提供可选择控件的简化概念。本发明内容并非意图识别所要求保护主题的必要特征，亦非意图用来确定所要求保护主题的范围。
附图说明
7.本文参考以下附图描述针对ivr系统提供可选择控件的视觉用户界面的一个或多个方面的细节。在多个附图中使用相同的附图标记来指代相似的特征和组件。
8.图1示出包括可以针对ivr系统提供可选择控件的计算装置的示例性环境。
9.图2示出可以针对交互式语音响应系统提供视觉用户界面的计算装置的示例性装置图。
10.图3示出可以响应于ivr系统提供可选择控件的文本描述的计算装置的机器学习模型的示例图。
11.图4示出可以提供与语音呼叫和视频呼叫相关的可选择控件和用户数据的计算装置的示例性操作的流程图。
12.图5示出针对ivr系统提供可选择控件的示例性操作。
13.图6a至图6d示出计算装置的协助用户进行语音呼叫和视频呼叫的示例性用户界面。
14.图7a至图7c示出计算装置的协助用户进行语音呼叫和视频呼叫的其他示例性用户界面。
15.图8a至图8d示出计算装置的协助用户进行语音呼叫和视频呼叫的其他示例性用户界面。
具体实施方式
16.概述
17.本文描述在用于ivr系统的计算装置上提供可选择控件的技术和系统。如上所述，ivr系统允许呼叫者通过语音输入或数字键盘生成的双音多频音(dtmf)与电话系统进行交互。ivr系统可以提供一系列菜单，每个菜单包括多个可选择选项。音频菜单对于呼叫者进行导航而言可能是费解的和困难的。例如，一些ivr系统在每个菜单中提供很多选项或难以回忆的详细选项。有听力困难的用户可能会发现听到这些选项是困难的或者是不可能的，并且因此通常无法提供响应来选择选项。有话音障碍的用户可能无法对选项提供语音响应。有短期记忆缺陷的用户在提供响应时可能无法记起ivr系统提供的选项。
18.考虑带有允许用户进行语音呼叫或视频呼叫的通信应用的智能手机。例如，用户可以使用通信应用来呼叫诊所。诊所可以使用ivr系统将呼叫者引导至适当的信息、人员或部门。第一音频菜单可以要求用户选择适当的语言。在通过以可听见方式传递或按下与优选语言相关联的数字来选择语言时，ivr系统可以呈现另一个选项菜单。例如，ivr系统可以将呼叫者引导至与计费、排期、医疗问题、服务提供者和人员问题相关的附加菜单。
19.通信应用通常不协助用户导航ivr系统。相反，通信应用和计算装置通常要求用户回忆菜单选项，并使用语音输入或数字键盘来导航音频菜单。
20.所述技术和系统可以通过提供与可选择选项相关联的可选择控件来帮助用户导航ivr系统。具体而言，所述技术和系统可以从语音呼叫或视频呼叫获得音频数据，并确定会话是否包括两个或更多个可选择选项。响应于确定会话包括可选择选项，所述技术和系统可以确定与可选择选项相关联的文本描述。
21.考虑上述诊所场景。智能手机可以聆听语音呼叫，并确定诊所是否通过可听见方
式提供可选择选项的ivr菜单。响应于确定诊所通过可听见方式提供可选择选项，所述系统和技术可以确定可选择选项的文本描述，并在智能手机显示器上显示可选择控件。每个可选择控件提供相应可选择选项的文本描述。通过选择可选择控件中的一个，用户可以使得智能手机指示被选择选项。通过这种方式，所述技术和系统提供用户友好的体验以供智能手机用户容易地导航ivr系统，并且可以允许通常无法与ivr系统交互的用户与这样的系统进行交互。所述技术和系统与各种不同的现有ivr系统兼容。
22.作为非限制性示例，计算装置可以获得从通信应用输出的音频数据。音频数据包括计算装置的用户与第三方之间的语音呼叫或视频呼叫的可听见部分。计算装置使用可听见部分来确定音频数据是否包括由第三方在语音呼叫或视频呼叫期间通过可听见方式提供的两个或更多个可选择选项。响应于确定音频数据包括两个或更多个可选择选项，计算装置确定两个或更多个可选择选项的文本描述。文本描述包括两个或更多个可选择选项的至少一部分的转录。然后，计算装置在计算装置的显示器上显示两个或更多个可选择控件。两个或更多个可选择控件提供相应可选择选项的文本描述。用户可以选择可选择控件，以向第三方指示两个或更多个可选择选项中的被选择选项。
23.在计算装置从计算装置的用户接收明确许可之后，计算装置可以仅使用来自音频数据的信息。例如，在上面讨论的计算装置可以从语音和视频呼叫收集音频数据的情况下，可以向个人用户提供机会来提供输入，以控制计算装置的程序或特征是否可以收集和使用信息。可以进一步向个人用户提供机会来控制程序或特征可以或不可以对信息做什么。
24.本示例只是所述ivr系统的可选择控件如何改善计算装置上的用户体验并允许有通信障碍的用户与ivr系统交互的一个示例。遍及本文描述了其他示例和实施方式。本文现在描述为计算装置上的ivr系统提供可选择控件的附加示例性配置、组件和方法。
25.示例性环境
26.图1示出包括可以针对ivr系统提供可选择控件的示例性计算装置102的示例性环境100。除了计算装置102之外，环境100还包括计算系统104和呼叫者系统106。计算装置102、计算系统104和呼叫者系统106通信地耦合到网络108。
27.虽然将计算装置102的操作描述为在本地执行，但是在一些示例中，可以通过包括图1所示之外的附加计算装置和系统的多个计算装置和系统(例如计算系统104)来执行这些操作。例如，计算系统104、呼叫者系统106或通信地耦合到网络108的任何其他装置或系统可以执行计算装置102的一部分或全部功能，反之亦然。
28.计算系统104表示能够经由网络108与计算装置102交换信息的一个或多个计算机、大型机、服务器、云计算系统或其他类型的远程计算系统的任何组合。计算系统104可以存储或提供对计算装置102所需的附加处理器、存储的数据或其他计算资源的访问，以实现在计算装置102上针对ivr系统提供可选择控件的系统和技术。
29.呼叫者系统106可以执行ivr系统110，以经由网络108与计算装置102传输和接收电话数据。例如，呼叫者系统106可以是移动电话、陆线电话、膝上型计算机、电话呼叫中心的工作站或被配置为向呼叫者呈现ivr系统110的其他计算装置。呼叫者系统106还可以表示能够经由网络108传递信息以实现呼叫者系统106与计算装置102之间的语音呼叫或视频呼叫的计算机、计算装置、大型机、服务器、云计算系统或其他类型的远程计算系统的任何组合。
30.网络108表示用于在计算系统、服务器与计算装置之间传输数据(例如语音通信、视频通信、数据包)的任何公共通信网络或专用通信网络。例如，网络108可以包括公共交换电话网络(pstn)、无线网络(例如蜂窝网络、无线局域网(wlan))、有线网络(例如局域网(lan)、广域网(wan))、互联网协议(ip)电话网络(例如通过ip的语音(voip)网络)或其任何组合。网络108可以包括网络集线器、网络交换机、网络路由器或操作地相互耦合的任何其他网络设备。计算装置102、计算系统104和呼叫者系统106可以使用任何合适的通信技术在网络108上传输和接收数据。计算装置102、计算系统104和呼叫者系统106可以使用相应的网络链路操作地耦合到网络108。
31.计算装置102表示能够针对ivr系统提供可选择控件的任何合适的计算装置。例如，计算装置102可以是用户在其上提供输入以与呼叫者实体(例如呼叫者系统106)进行或接受语音呼叫或视频呼叫的智能电话。
32.计算装置102包括一个或多个通信单元112。通信单元112允许计算装置102通过无线或有线网络(包括网络108)进行通信。例如，通信单元112可以包括用于蜂窝电话通信或网络数据通信的收发器。计算装置102可以将通信单元112和支持电路(例如天线、前端模块、放大器)调谐到由各种通信标准定义的一个或多个频带。
33.计算装置102包括用户界面组件114，用户界面组件114包括音频组件116、显示组件118和输入组件120。计算装置102还包括操作系统122和通信应用124。这些组件和计算装置102的其他组件(未示出)通过各种方式(包括有线和无线总线和链路)操作地耦合。为了清楚起见，计算装置102可以包括从图1中省略的附加组件和接口。
34.用户界面组件114管理由操作系统122或在计算装置102上执行的应用控制的用户界面126的输入和输出。例如，通信应用124可以使得用户界面126显示各种用户界面元件，包括输入控件、导航组件、信息组件或它们的组合。
35.如上所述，用户界面组件114可以包括音频组件116、显示组件118和输入组件120。音频组件116、显示组件118和输入组件120可以分离，也可以集成为单个组件。音频组件116(例如单个扬声器或多个扬声器)可以接收音频信号作为输入，并将音频信号转换为可听见的声音。显示组件118可以在用户界面126上显示视觉元件。显示组件118可以包括任何合适的显示技术，包括发光二极管(led)、有机发光二极管(oled)和液晶显示器(lcd)技术。输入组件120可以是麦克风、存在敏感装置、触摸屏、鼠标、键盘或被配置为接收用户输入的其他类型的组件。
36.操作系统122总体上控制计算装置102，包括通信单元112、用户界面组件114和其他外设。例如，操作系统122可以管理计算装置102的硬件和软件资源，并为应用提供通用服务。作为另一个示例，操作系统122可以控制任务调度。操作系统122和应用通常可由一个或多个处理器(例如片上系统(soc)、中央处理单元(cpu))执行，以实现与计算装置102的通信和用户交互。操作系统122通常通过用户界面126来提供用户交互。
37.操作系统122还为应用(例如通信应用124)提供执行环境。通信应用124允许计算装置102与呼叫者(包括呼叫者系统106)进行和接收语音呼叫和视频呼叫。
38.在语音呼叫或视频呼叫期间，通信应用124可以使得用户界面126显示呼叫者框128、数字键盘图标130、扬声电话图标132、可选择控件134和结束呼叫图标136。呼叫者框128可以指示呼叫者(例如呼叫者系统106)的姓名和电话号码。数字键盘图标130是在被选
择时使得数字键盘在用户界面126上显示的可选择图标。扬声电话图标132是在被选择时使得计算装置102将扬声电话功能用于语音呼叫或视频呼叫的可选择图标。
39.可选择控件134是计算装置102的用户可选择的来执行特定操作或功能。在所示的示例中，可选择控件134是用户可选择的来向呼叫者系统106指示从ivr系统110提供的可选择选项中选择的选项。可选择控件134可以包括按钮、切换键、可选择文本、滑块、复选框或图标。结束呼叫图标136允许计算装置102的用户终止语音呼叫或视频呼叫。
40.操作系统122可以将在输入组件120检测的输入与用户界面126的元件相关联。响应于在输入组件120接收输入(例如敲击)，操作系统122或通信应用124可以从用户界面组件114接收关于检测的输入的信息。操作系统122或通信应用124可以响应于检测的输入来执行功能或操作。例如，操作系统122可以确定输入对应于用户选择可选择控件134中的一个，并且作为响应，向呼叫者系统106发送对应的被选择选项的指示。
41.在操作中，操作系统122或通信应用124可以自动生成与呼叫者系统106提供的ivr系统110的可选择选项相对应的可选择控件134。计算装置102可以从操作系统122的音频混合器或声音引擎获得音频数据。音频数据通常包括语音呼叫或视频呼叫的可听见部分，包括ivr系统110提供的ivr选项。
42.示例性配置
43.本部分说明针对ivr系统提供可选择控件的系统的示例性配置，它们可以单独地出现，也可以全部或部分地出现。本部分描述各个示例性配置，为了方便阅读，分别关于附图描述每个配置。
44.图2示出可以针对ivr系统(例如ivr系统110)提供可选择控件的计算装置202的示例性装置图200。计算装置202是带有一些附加细节的计算装置102的示例。
45.如图2所示，计算装置202可以是智能手机202-1、平板装置202-2、笔记本电脑202-3、台式计算机202-4、计算机化手表202-5或其他可穿戴装置、语音助理系统202-6、智能显示系统或安装在车辆中的计算系统。
46.除了通信单元112和用户界面组件114之外，计算装置202还包括一个或多个处理器204和计算机可读存储介质(crm)206。
47.处理器204可以包括一个或多个控制器、微控制器、处理器、微处理器、硬件处理器、硬件处理单元、数字信号处理器、图形处理器、图形处理单元等的任何组合。例如，处理器204可以是集成处理器和存储器子系统，作为非限制性示例，包括soc、cpu、图形处理单元或张量处理单元。soc通常将计算装置202的很多组件集成到单个装置中，包括中央处理单元、存储器以及输入和输出端口。cpu通常执行计算装置202所需的命令和处理。图形处理单元执行操作来显示计算装置202的图形，并且可以执行其他具体计算任务。张量处理单元通常在神经网络机器学习应用中执行符号匹配操作。处理器204可以包括单核或多核。
48.crm 206可以为计算装置202提供可执行指令(例如固件、恢复固件、软件、应用、模块、程序、功能)和数据(例如用户数据、操作数据)的持久存储和非持久存储，以支持可执行指令的执行。例如，crm 206包括通过处理器204执行时执行操作系统122和通信应用124的指令。crm 206的示例包括易失性存储器和非易失性存储器、固定和可移动媒体装置以及维护可执行指令和支持数据的任何合适的存储器装置或电子数据存储。crm 206可以包括各种存储器装置配置中的随机存取存储器(ram)、静态ram(sram)、动态ram(dram)、非易失性
ram(nvram)、只读存储器(rom)、闪存和其他存储存储器类型的各种实施方式。crm 206不包括传播信号。crm 206可以是固态驱动器(ssd)或硬盘驱动器(hdd)。
49.操作系统122还可以包括或控制音频混合器208和字幕模块210。音频混合器208和字幕模块210可以是专用的硬件组件、软件组件或它们的组合。在其他示例中，音频混合器208和字幕模块210与操作系统122分离(例如作为本地安装在计算装置202上的系统插件或附加后加服务)。
50.音频混合器208可以获得并合并在计算装置202上执行的应用(包括通信应用124)所生成的音频数据。音频混合器208从诸如通信应用124的应用获得音频流，并生成音频输出信号，音频输出信号在组合并从音频组件116输出时再现在音频流中编码的声音。音频混合器208可以通过其他方式调节音频信号，例如，控制焦点、意图和音量。音频混合器在生成内容的应用源与根据内容创建声音的音频组件116之间提供接口。音频混合器208可以管理原始音频数据，对其进行分析，并引导音频信号被音频组件116输出或经由通信单元112发送给另一个计算装置(例如呼叫者系统106)。
51.字幕模块210被配置为分析音频混合器208所接收的原始形式的音频数据(例如作为字节流)。例如，字幕模块210可以对音频数据执行话音辨识，以确定音频数据是否包括ivr系统的可选择选项、对用户信息的请求或者与呼叫场境(context)相关的传递的信息。字幕模块210可以识别适合于字幕化的单独的、预混合的音频数据流，而非处理每个音频信号。例如，字幕模块210可以自动将口语音频数据而非通知或发声(sonification)音频数据(例如系统哔哔声、铃声)字幕化。字幕模块210可以将滤波器应用于音频混合器208所接收的字节流，以识别适合于字幕化的音频数据。字幕模块210可以使用机器学习模型来根据语音呼叫或视频呼叫的可听见部分确定音频数据描述。
52.操作系统122可以使用元数据将字幕化集中于音频数据的特定部分，而非将所有音频数据字幕化。例如，字幕模块210可以集中于与针对ivr系统提供可选择控件、响应于请求的用户信息或者与呼叫场境相关的传递的信息相关的音频数据。换言之，操作系统122可以基于元数据来识别“可字幕化”音频数据，并避免将所有音频数据字幕化。一些元数据示例包括指定语音呼叫或视频呼叫的性质的场境指示符。音频混合器可以使用场境指示符来控制关于音频数据的路由、焦点和字幕化决策。
53.一些计算装置可以转录语音呼叫或视频呼叫。然而，转录通常提供呼叫的可听见部分的直接转录而不能确定会话是否包括ivr系统的可选择选项、对用户信息的请求或者与呼叫场境相关的传递的信息。用户仍然必须阅读文字转录以确定所需的菜单选项、所请求的用户信息或传递的信息。因此，即使计算装置提供转录，用户仍然可能会发现导航ivr系统并选择所需选项有困难。与之相比，所述系统和技术通过显示可选择控件和具有相关信息的消息元件来协助用户导航ivr系统、响应于请求提供用户信息或者管理来自语音呼叫和视频呼叫的传递的信息。
54.计算装置202还包括一个或多个传感器214。传感器214获得指示计算装置202的物理操作环境或计算装置202在物理操作环境中工作时的特性的场境信息。例如，字幕模块210可以使用该场境信息作为元数据来集中音频数据处理。传感器214的示例包括运动传感器、温度传感器、位置传感器、接近度传感器、环境光传感器、湿度传感器、压力传感器等。
55.在操作中，操作系统122或字幕模块210确定音频数据是否用于字幕化。例如，字幕
模块210可以确定音频数据是否包括ivr系统的可选择选项、对于用户信息的请求或者与呼叫场境相关的传递的信息。响应于确定音频数据用于字幕化，操作系统122确定音频数据描述。例如，操作系统122可以执行被训练为生成语音呼叫或视频呼叫的可听见部分的描述的机器学习模型(例如端到端循环神经网络变换器(transducer)自动话音辨识模型)。机器学习模型可以是包括口语音频的转录的适合于学习声音的描述的任何类型的模型。操作系统122所使用的机器学习模型可以比其他机器学习模型更小并且不那么复杂，因为它只需要被训练为识别语音呼叫和视频呼叫的可听见部分。机器学习模型可以避免处理发送给音频混合器208的所有音频数据。通过这种方式，所述系统和技术可以避免使用远程处理资源(例如远程计算装置上的机器学习模型)，从而避免不必要的隐私风险和潜在的处理时延。
56.通过依赖原始音频数据而非音频组件116所生成的音频信号，机器学习模型可以生成更准确地表示语音呼叫和视频呼叫的可听见部分的描述。通过在使用机器学习模型之前确定音频数据是否用于字幕化，操作系统122可以避免浪费资源来过度分析通信应用124所输出的所有音频数据。该字幕化确定使得计算装置202能够执行更高效、更小并且不那么复杂的机器学习模型。通过这种方式，机器学习模型可以在本地执行自动话音辨识和自动声音分类技术，以维护隐私。
57.操作系统122接收机器学习模型描述，并使用显示组件118来显示它。显示组件118还可以显示与描述相关的其他视觉元件(例如允许用户在计算装置202上执行动作的可选择控件)。例如，操作系统122可以将视觉元件(例如可选择控件134)呈现为用户界面126的一部分。描述可以包括语音呼叫和视频呼叫的可听见部分(例如电话会话)的转录或摘要。描述还可以识别音频数据的可听见部分的场境。关于图3更详细地描述机器学习模型的细节和操作。
58.图3示出可以响应于ivr系统提供可选择控件的文本描述的计算装置202的机器学习模型302的示例图300。在其他实施方式中，计算装置202可以是图1的计算装置102或类似的计算装置。
59.如图3所示，机器学习模型302可以是字幕模块210的一部分。机器学习模型302可以将音频数据304转换为语音呼叫或视频呼叫的可听见部分的文本描述306(例如ivr系统110所提供的可选择选项的文本描述)，无需将音频数据304转换为声音。音频数据304可以包括来自通信应用124的数据的不同类型、形式或变体。例如，音频数据304可以包括原始的、预混合的音频字节流数据或经过处理的字节流数据。机器学习模型302可以包括组合成单个模型的多个机器学习模型，该单个模型响应于音频数据304提供文本描述306。
60.应用(包括通信应用124)可以使用机器学习模型302将音频数据304处理成文本描述306。例如，通信应用124可以使用应用编程接口(api)(例如跨所有应用的公共api)通过操作系统122或字幕模块210与机器学习模型302进行通信。在一些实施方式中，机器学习模型302可以在操作系统122或crm 206的安全区或飞地(enclave)内处理音频数据304，以确保用户隐私和安全。
61.机器学习模型302可以进行推断。具体而言，机器学习模型302可以被训练为接收音频数据304作为输入，并提供呼叫的可听见部分的文本描述306作为输出数据。通过使用机器学习模型302执行推断，字幕模块210可以在本地处理音频数据304。机器学习模型302还可以执行分类、回归、聚类、异常检测、推荐生成和其他任务。
62.工程师可以使用监督学习技术来训练机器学习模型302。例如，工程师可以使用训练数据308(例如真值数据)来训练机器学习模型302，训练数据308包括根据来自一系列语音呼叫和视频呼叫的音频数据304的示例推断的描述的示例。推断可以由工程师或其他专家手动施行、通过众包生成或者通过其他技术(例如复杂话音辨识和内容辨识算法)提供。训练数据308可以包括从语音呼叫和视频呼叫到音频数据304的音频数据。作为示例，考虑音频数据304包括与诊所使用的ivr系统的语音呼叫。用于机器学习模型302的训练数据308可以包括来自广泛范围的与ivr系统的语音呼叫和视频呼叫的很多音频数据文件。作为另一个示例，考虑音频数据304包括与企业的客户代表的语音呼叫。训练数据308可以包括来自广泛范围的类似语音呼叫和视频呼叫的很多音频数据文件。工程师还可以使用无监督学习技术来训练机器学习模型302。
63.机器学习模型302可以在训练计算系统进行训练，然后在一个或多个计算装置202被提供用于存储和实现。例如，训练计算系统可以包括模型训练器。训练计算系统可以包括在实现机器学习模型302的计算装置202中，也可以与之分离。
64.工程师还可以在线或离线训练机器学习模型302。在离线训练(例如批量学习)中，工程师在训练数据308的静态集合的整体上训练机器学习模型302。在在线学习中，当新的训练数据308变得可用时(例如当在计算装置202上使用机器学习模型302来执行推理时)，工程师连续训练机器学习模型。例如，工程师可以初始训练机器学习模型302来复制(replicate)应用于语音呼叫和视频呼叫的可听见部分的描述(例如字幕化的ivr系统、字幕化的电话会话)。当机器学习模型302根据音频数据304来推断文本描述306时，计算装置202可以将文本描述306(以及音频数据304的对应部分)作为新的训练数据308反馈回机器学习模型。通过这种方式，机器学习模型302可以连续提高文本描述306的准确性。在一些实施方式中，计算装置202的用户可以向机器学习模型302提供输入，以将特定描述标记为有错误。计算装置202可以使用这个标记来训练机器学习模型302并改善未来预测。
65.工程师或训练者可以对多个机器学习模型302进行集中式训练(例如基于集中存储的数据集)。在其他实施方式中，训练者或工程师可以使用分散式训练技术(包括分布式训练或联合学习)来训练、更新或个性化机器学习模型302。只有从用户接收明确许可之后，工程师才可以使用用户信息来个性化机器学习模型302。例如，在计算装置202可以收集用户信息的情况下，可以向个人用户提供机会来提供输入，以控制机器学习模型302的程序或特征是否可以收集和使用用户信息。可以进一步向个人用户提供机会来控制程序或特征可以或不可以对用户信息做什么。
66.机器学习模型302可以是一个或多个人工神经网络或包括一个或多个人工神经网络。在这样的实施方式中，机器学习模型302可以包括一组连接的节点或者非完全连接的节点(例如神经元)。工程师还可以将机器学习模型302组织成一个或多个层(例如深度网络)。在深度网络实施方式中，机器学习模型302可以包括输入层、输出层以及位于输入层与输出层之间的一个或多个隐藏层。
67.机器学习模型302还可以包括一个或多个循环神经网络。例如，机器学习模型302可以是端到端循环神经网络变换器自动话音辨识模型。示例性循环神经网络包括长短期记忆(lstm)循环神经网络、门控循环单元、双向循环神经网络，连续时间循环神经网络和神经历史压缩器、回声状态网络、elman网络、jordan网络、递归神经网络、hopfield网络、全循环
网络以及序列到序列配置。
68.循环神经网络的至少一部分节点可以形成一个循环。当被配置为循环神经网络时，机器学习模型302对于处理顺序输入数据(例如音频数据304)特别有用。例如，循环神经网络可以使用循环或定向周期性(cyclical)节点连接将信息从音频数据304的先前部分传递或保留到音频数据304中的后续部分。
69.音频数据304还可以包括时间序列数据(例如声音数据相对于时间)。作为循环神经网络，机器学习模型302可以随时间推移分析音频数据304来检测或预测口语声音和相关的非口语声音，从而生成音频数据304的至少一部分的文本描述306。例如，来自音频数据304的顺序声音可以指示句子中的口语单词(例如自然语言处理、话音检测或处理)。
70.机器学习模型302还可以包括一个或多个卷积神经网络。卷积神经网络可以包括多个卷积层，卷积层使用所学习的滤波器或内核对输入数据执行卷积。工程师通常使用卷积神经网络来诊断静止图像或视频中的视觉问题。工程师还可以将卷积神经网络应用于音频数据304的自然语言处理，以生成文本描述306。
71.本文关于图4更详细地描述字幕模块210和机器学习模型302的操作。
72.示例性方法
73.图4示出可以提供与语音呼叫和视频呼叫相关的可选择控件和用户数据的计算装置的示例性操作400的流程图。下面在图2的计算装置202的场境下描述操作400。在其他实施方式中，计算装置202可以是图1的计算装置102或类似的计算装置。操作400可以按照与图4所示不同的顺序来执行，或者通过附加的操作或更少的操作来执行。
74.在402，计算装置可选地获得包括计算装置用户的用户信息的内容。计算装置可以使用用户信息来帮助用户检索所请求的信息或保存与语音呼叫和视频呼叫相关的传递的信息。在获得用户信息或执行以下所述选项之前，计算装置202可以获得用户的同意，将用户信息用于语音呼叫和视频呼叫。例如，只有在接收明确同意之后，计算装置202才可以使用用户信息。计算装置202可以从到计算装置202上的应用的用户条目中获得用户信息(例如，将联系信息输入用户简档中，经由第三方应用输入账号)，或者从在应用中接收的信息中学习用户信息(例如包括在电子邮件声明中的账号、保存的日历条目)。
75.在404，计算装置显示通信应用的图形用户界面。例如，响应于用户进行或接收语音呼叫或视频呼叫，计算装置202可以引导显示组件118呈现用于通信应用124的用户界面126。
76.在406，计算装置获得从在计算装置上执行的通信应用输出的音频数据。音频数据包括语音呼叫或视频呼叫的可听见部分。例如，通信应用124允许计算装置202的用户进行和接收语音呼叫和视频呼叫。音频混合器208在语音呼叫和视频呼叫期间获得从通信应用124输出的音频数据304。音频数据304包括计算装置202的用户与第三方之间的语音呼叫或视频呼叫的可听见部分。为了在语音呼叫或视频呼叫期间向用户提供可选择控件和其他信息，字幕模块210可以提取来自音频混合器208的音频数据304。
77.在408，计算装置使用语音呼叫或视频呼叫的可听见部分来确定音频数据是否包括相关信息。相关信息可以是ivr系统的两个或更多个可选择选项(例如电话树选项)、对于用户信息的请求(例如对于信用卡号、地址、账号的请求)或传递的信息(例如预约细节、联系信息、账号信息)。例如，字幕模块210可以使用机器学习模型302来确定音频数据304是否
包括相关信息。相关信息可以包括ivr系统的两个或更多个可选择选项、对于用户信息的请求或传递的信息。用户或第三方在语音呼叫或视频呼叫期间通过可听见方式提供相关信息。字幕模块210或机器学习模型302可以过滤掉不需要处理的音频数据304，包括通知声音和背景噪声。在图6a和图8a中示出机器学习模型302确定音频数据304是否包括两个或更多个可选择选项的示例。在图6b、图6c、图7a和图8b中示出机器学习模型302确定音频数据304是否包括对于用户信息的请求的示例。在图6d、图7b、图7c和图8c中示出机器学习模型302确定音频数据304是否包括传递的信息的示例。
78.如果音频数据不包括相关信息，则在416，计算装置显示用于通信应用的用户界面。例如，响应于确定音频数据304不包括相关信息，计算装置202显示通信应用124的用户界面126。
79.如果计算装置确定音频数据包括相关信息，则在410，计算装置确定相关信息的文本描述。文本描述转录相关信息。例如，字幕模块210可以使用机器学习模型302来对音频数据304执行话音辨识，并确定相关信息的文本描述306。文本描述306提供两个或更多个可选择选项、对用户信息的请求或传递的信息的至少一部分的转录。在图6a和图8a中示出机器学习302确定两个或更多个可选择选项的文本描述306的示例。在图6b、图6c、图7a和图8b中示出机器学习模型302确定对用户信息的请求的文本描述306的示例。在图6d、图7b、图7c和图8c中示出机器学习模型302确定传递的信息的文本描述的示例。
80.字幕模块210可以通过各种方式来提高文本描述306的准确性，包括通过基于计算装置202的场境来偏置机器学习模型302。例如，字幕模块210可以基于第三方对语音呼叫或视频呼叫的身份来偏置机器学习模型302。考虑计算装置202的用户向诊所进行语音呼叫。字幕模块210可以使用来自诊所会话的常用词来偏置机器学习模型302。通过这种方式，计算装置202可以改善用于该语音呼叫的文本描述306。字幕模块210可以使用其他场境信息类型(包括从传感器214得出的位置信息和来自其他应用的信息)来偏置机器学习模型302。
81.在一些实施方式中，计算装置202可以在显示文本描述306之前将其翻译成另一种语言。例如，字幕模块210可以根据操作系统122确定用户的优选语言并将文本描述306翻译成优选语言。通过这种方式，即使音频数据304采用不同的语言(例如中文或英文)，日本用户也可以看到日文的文本描述306。
82.在412，计算装置可选地响应于对用户信息的请求而识别用户数据。如果音频数据不包括对用户信息的请求，则计算装置不执行该操作。例如，响应于确定第三方请求用户信息，计算装置202可以响应于用户信息请求来识别用户数据。计算装置202可以从crm 206、通信应用124、计算装置202上的另一个应用或者与用户或计算装置202相关联的远程计算装置检索用户数据。考虑上面的诊所呼叫场景。诊所接待员可以要求用户提供她的保险信息。作为响应，计算装置202可以从用户先前接收并存储在计算装置202上的电子邮件中检索医疗保险提供者和用户账号。在图6b、图6c、图7a和图8b中示出计算装置202识别对用户信息的请求的用户数据响应的示例。
83.只有在计算装置从计算装置的用户接收明确许可之后，计算装置才可以响应于对用户信息的请求来使用信息。例如，在上面讨论的计算装置可以收集用户数据的情况下，可以向个人用户提供机会来提供输入，以控制计算装置的程序或特征是否可以收集和使用用户数据。可以进一步向个人用户提供机会来控制程序或特征可以或不可以对用户数据做什
么。
84.在414，计算装置显示用户数据或可选择控件。可选择控件可由用户选择并包括文本描述。假设音频数据包括对用户信息的请求。在该场景中，计算装置可以显示所识别的用户数据。假设音频数据包括ivr系统的两个或更多个可选择选项。在该场景中，用户可以使用可选择控件向第三方指示两个或更多个可选择选项中的选择的选项。假设音频数据包括传递的信息。在该场景中，用户可以使用可选择控件将传递的信息保存在计算装置、通信应用或另一个应用中。例如，计算装置202可以使得显示组件118显示用户数据或可选择控件134。显示组件118可以在用户界面126上提供用户数据作为文本通知。考虑上面的诊所呼叫场景。显示组件118可以在语音呼叫期间将医疗保险提供者和用户账户信息显示为用户界面126上的文本框。显示组件118还可以提供可选择控件134。显示组件118可以提供文本描述306或所请求的信息作为用于通信应用124的用户界面126上的按钮的一部分。在图6a和图8a中示出显示组件118显示可选择控件134的示例。在图6b、图6c、图7a和图8b中示出显示组件118显示用户数据的示例。在图6d、图7b、图7c和图8c中示出显示组件118响应于传递的信息显示可选择控件134和用户数据的示例。
85.考虑诊所使用ivr系统110将语音呼叫引导至接待员。显示组件118可以显示可选择控件134。可选择控件134提供由ivr系统110提供的两个或更多个可选择选项的相应文本描述318。用户可以使用可选择控件134向诊所指示两个或更多个可选择选项中的选择的选项。
86.此外，考虑用户与诊所对预约进行排期。显示组件118可以显示可选择控件134。可选择控件134包括预约的文本描述。用户可以使用可选择控件134将预约细节保存到日历应用。
87.在416，计算装置显示用于通信应用的用户界面。例如，显示组件118可以显示与通信应用124相关联的用户界面126。用户界面126可以包括用户数据和可选择控件134。
88.图5示出针对ivr系统提供可选择控件的示例性操作500。在图2的计算装置202的场境下描述操作500。操作500可以按照不同的顺序或者通过附加的操作或更少的操作来执行。
89.在502，计算装置获得从在计算装置上执行的通信应用输出的音频数据。音频数据包括计算装置的用户与第三方之间的语音呼叫或视频呼叫的可听见部分。例如，计算装置202的音频混合器208可以获得从在计算装置202上执行的通信应用124输出的音频数据304。字幕模块210可以从音频混合器208接收音频数据304。音频数据304包括计算装置202的用户与第三方(例如个人、计算机化ivr系统)之间的语音呼叫或视频呼叫的可听见部分。
90.在504，计算装置使用可听见部分来确定音频数据是否包括两个或更多个可选择选项。第三方在语音呼叫或视频呼叫期间通过可听见方式提供两个或更多个可选择选项。例如，字幕模块210的机器学习模型302可以使用音频数据304的可听见部分来确定音频数据304是否包括两个或更多个可选择选项(例如ivr菜单或电话树的编号选项)。第三方在语音呼叫或视频呼叫期间通过可听见方式提供两个或更多个可选择选项。
91.在506，响应于确定音频数据包括两个或更多个可选择选项，计算装置确定两个或更多个可选择选项的文本描述。文本描述提供两个或更多个可选择选项中的至少一部分的转录。例如，响应于确定音频数据304包括两个或更多个可选择选项，机器学习模型302确定
两个或更多个可选择选项的文本描述306。文本描述306提供两个或更多个可选择选项的至少一部分的转录。在一些实施方式中，文本描述306包括两个或更多个可选择选项的逐字转录。在其他实施方式中，文本描述306提供两个或更多个可选择选项的解释。
92.在508，计算装置显示两个或更多个可选择控件。两个或更多个可选择控件可由用户选择，以向第三方指示两个或更多个可选择选项中的被选择选项。两个或更多个可选择控件的每个可选择控件提供相应可选择选项的文本描述。例如，显示组件118在计算装置202的显示器上显示两个或更多个可选择控件134。显示器包括用户界面126。两个或更多个可选择控件134可由用户选择，以向第三方提供两个或更多个可选择选项中的被选择选项的指示。两个或更多个可选择控件中的每个可选择控件提供相应可选择选项的文本描述306。
93.示例性实施方式
94.本部分说明可以协助用户进行语音呼叫和视频呼叫的所述系统和技术的示例性实施方式，它们可以单独操作或整体或部分地一起操作。本部分描述各种示例性实施方式，为了方便阅读，关于特定附图显示每个实施方式。
95.图6a至图6d示出计算装置的协助用户进行语音呼叫和视频呼叫的示例性用户界面。图6a至图6d在图2的计算装置202的场境中依次描述。计算装置202可以提供与图6a至图6d所示用户界面相比具有更少特征或附加特征的不同用户界面。
96.在图6a中，计算装置202使得显示组件118显示用户界面126。用户界面126与通信应用124相关联。用户界面126包括呼叫者框128、数字键盘图标130、扬声电话图标132、可选择控件134和结束呼叫图标136。
97.考虑用户已经呼叫新的医疗提供者doctor office(诊疗室)。在该实施方式中，用户已经使用通信应用124进行语音呼叫。在其他实施方式中，用户可以使用通信应用124或计算装置202上的另一个应用进行视频呼叫。呼叫者框128指示第三方的企业名称(例如doctor office)和电话号码(例如(111)555-1234)。doctor office使用ivr系统110通过可听见方式来提供可选择选项的菜单。ivr系统110可以将呼叫者引导至doctor office的适当人员和工作人员。考虑ivr系统110在回答语音呼叫时提供以下对话：“thank you for calling doctor office.please listen to the following options and choose the option that best matches the purpose of your call today.for prescription refills,please press 1.to schedule an appointment,please press 2.for billing,please press 3.to speak to a nurse,please press 4.(感谢您致电诊疗室。请聆听以下选项并选择最符合您今天呼叫目的的选项。处方补药请按“1”。排期预约请按“2”。计费请按“3”。与护士通话请按“4”)。”98.当ivr系统110通过可听见方式提供可选择选项时，字幕模块210获得从通信应用124输出的音频数据304。如上所述，音频混合器208可以将音频数据304发送给字幕模块210。然后，字幕模块210确定音频数据304包括多个可选择选项。响应于该确定，字幕模块210确定可选择选项的文本描述306。例如，机器学习模型302可以转录可选择选项的至少一部分。转录可以是每个可选择选项的逐字转录或解释。
99.然后，字幕模块210使得显示组件118在用户界面126上显示可选择控件134。可选择控件134包括与ivr系统110提供的每个可选择选项相关联的可选择控件：第一可选择控
件134-1、第二可选择控件134-2、第三可选择控件134-3和第四可选择控件134-4。可选择控件134包括与相应可选择选项相关联的文本描述306。例如，第一可选择控件134-1包括文本“1
–
prescription refills(1-处方补药)”。数字“1”指示第一可选择控件134-1与ivr系统110提供的第一可选择选项相关联。第二可选择控件134-2提供文本“2
–
schedule an appointment(2-排期预约)”。第三可选择控件134-3显示文本“3
–
billing(3-计费)”。并且第四可选择控件134-4包括文本“4
–
speak with a nurse(4-与护士通话)”。在一些实施方式中，可选择控件134可以省略与每个可选择选项相关联的数字。
100.如上所述，在用户界面126上可以通过各种形式呈现可选择控件134。例如，可选择控件134可以是按钮、切换键、可选择文本、滑块、复选框或图标。用户可以选择可选择控件134以使得计算装置202向ivr系统110指示多个可选择选项中的被选择选项。
101.响应ivr系统110提供可选择选项，用户可以选择数字键盘图标130以显示数字键盘，并选择与所需可选择选项相关联的数字。例如，用户可以在数字键盘中选择数字“2”来排期预约。作为响应，计算装置202可以向ivr系统110发送dtmf音。在其他实施方式中，ivr系统110可以允许用户通过可听见方式说出数字“2”来提供被选择选项。此外，所述系统和技术允许用户选择与所需选项相关联的可选择控件134。在该示例中，用户选择第二可选择控件134-2来排期新的预约。响应于用户选择第二可选择控件134-2，输入组件120使得计算装置202向ivr系统110发送与数字“2”相关联的dtmf音或数字“2”的可听见通信。通过这种方式，所述系统和技术帮助用户导航可选择的ivr菜单选项并选择所需选项。
102.在一些实施方式中，计算装置202可以响应于不同级别的ivr菜单来提供一系列可选择控件134。计算装置202可以更新可选择控件134以对应当前可选择选项。在其他实施方式中，计算装置202可以提供选项以显示根据更早的语音呼叫或视频呼叫的可选择选项的先前菜单。
103.图6b是响应于对用户信息的请求的用户界面126的示例。响应于用户在先前场景中选择第二可选择控件134-2，ivr系统110将用户引导至doctor office的接待员。因为用户是新患者，所以接待员可以询问一系列问题来建立与用户相关联的账户或简档。例如，接待员可以向用户请求医疗保险信息。在这种情况下，音频数据304可能包括以下问题：“do you have medical insurance？(您有医疗保险吗？)”机器学习模型302可以使用与doctor office的语音呼叫的可听见部分来确定音频数据304是否包括对用户信息的请求。在该示例中，机器学习模型302可以使用单词“medical insurance(医疗保险)”连同会话的其他部分以及第三方是诊所的场境一起来确定音频数据304包括对用户信息的请求。
104.作为响应，机器学习模型302可以确定对用户信息的请求的文本描述306。在该示例中，机器学习模型302或字幕模块210确定文本描述306包括“medical insurance”。然后，字幕模块210或计算装置202可以响应于对crm 206中的医疗保险信息的请求来识别用户数据，并使得显示组件118将其显示在用户界面126上。在该示例中，用户数据可以包括保险提供者、保单号或账户标识符。计算装置202还可以从电子邮件应用中的电子邮件或联系应用中存储的简档信息中检索医疗保险信息。在一些实施方式中，计算装置202可以从crm 206的安全飞地或计算装置202中的其他存储器存储和检索敏感用户数据。
105.显示组件118可以在用户界面126上的消息元件600中显示用户数据(例如保险提供者和保单号)。消息元件600可以是显示文本信息的图标、通知、消息框或类似的用户界面
元件。消息元件600还可以包括对用户信息的请求的文本描述306，以提供场境。在该示例中，消息元件600提供以下文本：“your insurance provider:apex medical insurance co.(您的保险提供者：apex医疗保险公司)”和“your policy number:123456789-0(您的保单号：123456789-0)”。在所述实施方式中，消息元件600在单个消息元件600中提供这两组用户数据。在其他实施方式中，显示组件118可以在多个消息元件604中包括用户数据。
106.在接待员提问之后不久，显示组件118在用户界面126上显示消息元件600。在一些实施方式中，计算装置202可以根据音频数据304确定用户是doctor office的新患者。响应于该场境，机器学习模型302或字幕模块210可以预期，接待员将询问医疗保险信息并检索该用户数据。在其他实施方式中，机器学习模型302或字幕模块210可以预期，当用户呼叫诊所时可能会请求医疗保险信息。在这种情况下，可以响应于对该信息的请求来显示医疗保险信息。
107.计算装置202可以使用传感器214来确定计算装置202的场境。响应于确定用户没有观看显示器，计算装置202可以使得音频组件116提供音频信号或触觉反馈。音频信号可以提醒用户，与用户信息请求相关的用户数据被显示。例如，如果计算装置202确定用户将计算装置202置于她的耳朵上(例如通过使用接近度传感器、陀螺仪或加速度计)，则计算装置202可以使得音频组件116提供只有用户能听到的音频信号(例如柔和音)。在其他实施方式中，计算装置202可以向用户提供触觉反馈作为提醒。
108.响应于阅读具有医疗保险信息的消息元件600，用户可以通过可听见方式将该信息提供给接待员。在某些情况下，用户可能处于公共场合中并且可能不愿意通过可听见方式提供用户数据。结果，用户可以选择若干可选择控件134中的一个。显示组件118显示第五可选择控件134-5和第六可选择控件134-6。第五可选择控件134-5包括以下文本：
[0109]“read my insurance provider.(读出我的保险提供者)。”第六可选择控件134-6包括以下文本：“read my policy number.(读出我的保单号)。”响应于用户选择可选择控件134之一，计算装置202使得音频混合器208通过可听见方式向接待员读出相应用户数据，无需用户通过可听见方式提供该信息。在其他实施方式中，计算装置202可以给予用户附加的可选择控件134，以通过电子邮件、文本或其他方式向接待员发送用户数据(例如医疗保险信息)。通过这种方式，所述技术和系统提供在语音呼叫和视频呼叫期间与其他人员或实体共享敏感用户数据的安全和私密方式。
[0110]
在图6c中，计算装置202响应于建议预约时间提供用户数据。考虑给doctor office的先前语音呼叫。在用户提供其医疗保险信息之后，接待员建议周二上午11点的预约。例如，音频数据304包括来自接待员的以下问题：“does next tuesday at 11am work for you？(下周二上午11点是否适合您？)”响应于建议时间，计算装置202可以检查日历应用中的用户日历信息并识别潜在时间冲突。在该示例中，用户周二上午11:15排期了牙医预约。计算装置202使得显示组件118在消息元件600中显示该信息。例如，显示组件118可以显示以下文本：“dentist appointment at 11:15am.(上午11:15牙医预约)。”在一些实施方式中，计算装置202还可以基于用户日历信息自动建议替选时间。显示组件118可以显示以下文本：“you have a conflict,try these times instead:tues.at 9:30am[or]wed.at 1:00pm.(您有时间冲突，替换试试这些时间：周二上午9:30[或]周三下午1:00)。”通过这种方式，计算装置202帮助用户在doctor office排期新的预约。用户在与接待员通话时不必
回忆先前排期的牙医预约或打开计算装置202上的日历应用。用户还可以避免在想起该冲突之后再致电doctor office重新排期预约。
[0111]
在图6d中，计算装置202显示与语音呼叫相关的传递的信息。考虑给doctor office的先前语音呼叫。接待员在周三下午1点有预约时段并通过告知“we have you scheduled for an appointment at 1pm on wednesday,november 4.(我们排期您11月4日周三下午1点的预约)”来确认预约。作为响应，计算装置202可以使得显示组件118在消息元件600中显示预约的细节：例如，消息元件600可以提供以下传递的信息：“wednesday,nov.4,2020at 1pm,medical appointment@doctor office.(2020年11月4日周三下午1点，doctor office的医疗预约)。”[0112]
计算装置202还可以向用户提供与传递的信息相关的若干可选择控件，包括第七可选择控件134-7和第八可选择控件134-8。在该示例中，第七可选择控件134-7显示文本“save to calendar(保存到日历)。”在被选择时，第七可选择控件134-7使得计算装置202将预约信息保存到日历应用。第八可选择控件134-8显示文本“send to spouse(发送给配偶)”。在被选择时，第八可选择控件134-8使得计算装置202将预约信息发送给配偶。用户还可以经由可听见命令使得计算装置202将预约信息保存到日历应用。
[0113]
计算装置202可以使得显示组件118在用户界面126上留下与预约相关的消息元件600和可选择控件134直到语音呼叫终止，并在之后持续几分钟。在其他实施方式中，用户可以通过在通信应用124的历史菜单中选择与doctor office的会话来检索包括消息元件600和可选择控件的这个信息。通过这种方式，用户可以保存来自语音呼叫或视频呼叫的传递的信息，无需写下预约、以后回忆预约或将预约单独录入日历应用。关于图6a至图6d描述的特征和功能允许计算装置202对于语音呼叫和视频呼叫提供更友好的用户体验。
[0114]
图7a至图7c示出计算装置的协助用户进行语音呼叫和视频呼叫的其他示例性用户界面。图7a至7c在计算装置202的场境中依次描述。计算装置202可以提供与图7a至7c所示用户界面相比具有更少特征或附加特征的不同用户界面。
[0115]
在图7a中，计算装置202使得显示组件显示用户界面126。考虑用户已经使用通信应用124向她的朋友amy进行语音呼叫。呼叫者框128提供amy的姓名和电话号码(例如(111)555-6789)。在语音呼叫期间，amy向用户询问她的新地址。如图7a所示，音频数据304包括以下短语：“what is your new address？(您的新地址是什么？)”[0116]
响应于确定音频数据304包括对用户信息(例如用户地址)的请求，计算装置202确定该请求的描述。在该示例中，字幕模块210确定请求的文本描述306包括用户的家庭地址。计算装置202在crm 206中找到家庭地址并将其显示在用户界面126上。例如，显示组件118可以使得消息元件700提供文本描述306和响应用户数据。消息元件700提供以下信息：“your address:100first street,san francisco,ca 94016(您的地址：加利福尼亚州旧金山第一街道100，94016)。”在大多数情况下，用户可能会想起这个用户数据，但是可能需要帮助来回忆具体细节(例如邮政编码)。
[0117]
计算装置202还可以使得显示组件118显示可选择控件702。用户可以通过可听见方式向amy提供她的家庭地址。在某些情况下，用户可能处于公共场合中并且可能不愿意通过可听见方式提供她的地址。结果，用户可以选择可选择控件702中的一个。在该示例中，可选择控件702包括第一可选择控件702-1、第二可选择控件702-2和第三可选择控件702-3。
company的先前语音呼叫。账户专家向用户提供账户信息(例如账号和个人识别码(pin))。在这种情况下，音频数据304包括以下陈述：“your new account number is util12345,and the pin associated with your account is 6789(您的新账号是util12345，与您的账户相关联的pin是6789)。”作为响应，计算装置202在消息元件800中显示账号和pin。具体而言，消息元件802显示：“your account number:util12345,your pin:6789(您的账号：util12345，您的pin：6789)。”计算装置202可以向用户提供第五可选择控件802-5和第六可选择控件802-6。第五可选择控件802-5包括以下文本：“save in contacts(保存在联系人中)”。在被选择时，第五可选择控件802-5使得计算装置202将账号和pin保存到联系人应用。第六可选择控件802-6包括以下文本：“save in secure memory(保存在安全存储器中)”。在被选择时，第六可选择控件802-6使得计算装置202将账号和pin保存到需要特殊权限被应用或用户访问的安全存储器中。
[0131]
在图8d中，计算装置202显示与先前语音呼叫相关的传递的信息。考虑对utility company的先前语音呼叫。在该示例中，用户无法在语音呼叫期间或之后不久重新查看在用户界面上显示的传递的信息。计算装置202可以存储与语音呼叫相关的消息元件802、第五可选择控件802-5、第六可选择控件802-6或它们的组合。通过这种方式，用户可以之后访问通信信息的文本描述306。
[0132]
呼叫历史可以提供与每个语音呼叫或视频呼叫相关联的用户界面126。例如，与utility company的语音呼叫的历史相关联的用户界面126可以包括历史元件804。历史元件804可以包括关于语音呼叫的历史信息，包括以下文本：“outgoing call on november 2(11月2日的呼出)。”[0133]
在某些情况下，用户可能需要在与utility company的语音呼叫终止之后立即进行另一个语音呼叫或视频呼叫，或者可能需要在计算装置202上执行另一个功能。计算装置202可以将与每个语音呼叫或视频呼叫相关联的消息元件800和可选择控件802存储在与通信应用124相关联的存储器中。通信应用124可以包括呼叫历史。通过这种方式，用户可以之后在方便时检索与语音呼叫或视频呼叫相关的消息元件800和可选择控件802。
[0134]
示例
[0135]
在以下部分中，提供示例。
[0136]
示例1：一种方法，包括：由计算装置获得从在所述计算装置上执行的通信应用输出的音频数据，所述音频数据包括所述计算装置的用户与第三方之间的语音呼叫或视频呼叫的可听见部分；由所述计算装置使用所述可听见部分来确定所述音频数据是否包括两个或更多个可选择选项，所述两个或更多个可选择选项由所述第三方在所述语音呼叫或所述视频呼叫期间通过可听见方式提供；响应于确定所述音频数据包括所述两个或更多个可选择选项，由所述计算装置确定所述两个或更多个可选择选项的文本描述，所述文本描述提供所述两个或更多个可选择选项中的至少一部分的转录；以及在所述计算装置的显示器上显示两个或更多个可选择控件，所述两个或更多个可选择控件被配置为能够由所述用户选择以向所述第三方提供所述两个或更多个可选择选项中的被选择选项的指示，所述两个或更多个可选择控件中的每个可选择控件提供相应可选择选项的所述文本描述。
[0137]
示例2：根据示例1所述的方法，所述方法进一步包括：接收对所述两个或更多个可选择控件中与所述被选择选项相关联的一个可选择控件的选择，所述选择由所述用户在所
述语音呼叫或所述视频呼叫期间进行；以及响应于接收对所述一个可选择控件的所述选择，由所述计算装置将所述被选择选项传递给所述第三方。
[0138]
示例3：根据示例2所述的方法，其中，将所述被选择选项传递给所述第三方包括由所述计算装置向所述第三方发送音频响应或双音多频dtmf音，而无需所述用户通过可听见方式传递所述被选择选项。
[0139]
示例4：根据示例2或示例3所述的方法，所述方法进一步包括：响应于将所述被选择选项传递给所述第三方，由所述计算装置来获得从所述通信应用输出的附加音频数据，所述附加音频数据包括由所述第三方在所述语音呼叫或所述视频呼叫期间响应于所述被选择选项通过可听见方式提供的两个或更多个附加可选择选项。
[0140]
示例5：根据任一项前述示例所述的方法，所述方法进一步包括：由所述计算装置使用所述可听见部分来确定所述音频数据是否包括对用户信息的请求，所述对用户信息的请求由所述第三方在所述语音呼叫或所述视频呼叫期间通过可听见方式提供；响应于所述对用户信息的请求，由所述计算装置使用所述可听见部分来识别用户数据；以及在所述语音呼叫或所述视频呼叫期间，由所述计算装置在所述显示器上显示所述用户数据，或者由所述计算装置向所述第三方提供所述用户数据。
[0141]
示例6：根据任一项前述示例所述的方法，所述方法进一步包括：由所述计算装置使用所述可听见部分确定所述音频数据是否包括传递的信息，所述传递的信息与所述语音呼叫或所述视频呼叫的场境相关并且由所述第三方或所述用户在所述语音呼叫或所述视频呼叫期间通过可听见方式提供；响应于确定所述音频数据包括所述传递的信息，由所述计算装置确定所述传递的信息的文本描述，所述传递的信息的所述文本描述提供所述传递的信息的至少一部分的转录；以及在所述显示器上显示另一个可选择控件，所述另一个可选择控件提供所述传递的信息的所述文本描述并且被配置为能够由所述用户选择以将所述传递的信息保存在所述计算装置、所述应用或所述计算装置上的另一个应用中的至少一个中。
[0142]
示例7：根据任一项前述示例所述的方法，其中，确定所述两个或更多个可选择选项的所述文本描述包括由所述计算装置执行机器学习模型以确定所述两个或更多个可选择选项的所述文本描述，所述机器学习模型被训练为根据所述音频数据来确定文本描述，所述音频数据是从所述计算装置的音频混合器接收的。
[0143]
示例8：根据示例7所述的方法，其中，所述机器学习模型包括端到端循环神经网络变换器自动话音辨识模型。
[0144]
示例9：根据任一项前述示例所述的方法，其中，所述两个或更多个可选择选项是表示交互式语音响应ivr系统或语音响应单元vru系统的选项的菜单，所述ivr系统或vru系统被配置为与所述用户交互并将所述用户引导至以下中的至少一个：所述ivr系统或vru系统的另一个菜单、与所述第三方相关联的人员、与所述第三方相关联的部门、与所述第三方相关联的服务或与所述第三方向相关联的信息。
[0145]
示例10：根据任一项前述示例所述的方法，其中，所述两个或更多个可选择控件包括按钮、切换键、可选择文本、滑块、复选框或图标中的至少一个并且被包括在所述通信应用的用户界面中。
[0146]
示例11：根据任一项前述示例所述的方法，其中，所述文本描述包括与所述两个或
更多个可选择选项中的每个可选择选项相关联的数字，并且其中，所述可选择控件中的每个可选择选项包括与所述两个或更多个可选择选项中的每个可选择选项相关联的所述数字的视觉表示。
[0147]
示例12：根据任一项前述示例所述的方法，其中，所述计算装置的所述显示器包括触敏屏幕，并且其中，所述可选择控件在所述触敏屏幕上呈现。
[0148]
示例13：根据任一项前述示例所述的方法，其中，所述计算装置包括智能手机、计算机化手表、平板装置、可穿戴装置或膝上型计算机。
[0149]
示例14：一种计算装置，包括被配置为执行根据示例1至13所述的方法中的任一个的至少一个处理器。
[0150]
示例15：一种包括指令的计算机可读存储介质，所述指令在被执行时配置计算装置的处理器来执行根据示例1至13所述的方法中的任一个。
[0151]
结论
[0152]
虽然已经通过专用于特征和/或方法的语言描述了在用于ivr系统的计算装置上提供可选择控件的各种配置和方法，但是应当理解，所附权利要求书的主题不一定限于所述特定特征或方法。更准确而言，将具体特征和方法公开为在用于ivr系统的计算装置上提供可选择控件的非限制性示例。此外，虽然上面已经描述了各种示例，其中每个示例具有某些特征，但是应当理解，一个示例的特定特征不一定专用于这个示例。相反，除了这些示例的任何其它特征之外或者作为替选，上文描述的和/或附图中示出的任何特征都可以与这些示例中的任何示例组合。

技术特征：
1.一种方法，包括：由计算装置获得从在所述计算装置上执行的通信应用输出的音频数据，所述音频数据包括所述计算装置的用户与第三方之间的语音呼叫或视频呼叫的可听见部分；由所述计算装置使用所述可听见部分来确定所述音频数据是否包括两个或更多个可选择选项，所述两个或更多个可选择选项由所述第三方在所述语音呼叫或所述视频呼叫期间通过可听见方式提供；响应于确定所述音频数据包括所述两个或更多个可选择选项，由所述计算装置确定所述两个或更多个可选择选项的文本描述，所述文本描述提供所述两个或更多个可选择选项中的至少一部分的转录；以及在所述计算装置的显示器上显示两个或更多个可选择控件，所述两个或更多个可选择控件被配置为能够由所述用户选择以向所述第三方提供所述两个或更多个可选择选项中的被选择选项的指示，所述两个或更多个可选择控件中的每个可选择控件提供相应的可选择选项的文本描述。2.根据权利要求1所述的方法，所述方法进一步包括：接收对所述两个或更多个可选择控件中与所述被选择选项相关联的一个可选择控件的选择，所述选择由所述用户在所述语音呼叫或所述视频呼叫期间进行；以及响应于接收到对所述一个可选择控件的所述选择，由所述计算装置将所述被选择选项传递给所述第三方。3.根据权利要求2所述的方法，其中，将所述被选择选项传递给所述第三方包括由所述计算装置向所述第三方发送音频响应或双音多频dtmf音，而无需所述用户通过可听见方式传递所述被选择选项。4.根据权利要求2或权利要求3所述的方法，所述方法进一步包括：响应于将所述被选择选项传递给所述第三方，由所述计算装置获得从所述通信应用输出的附加音频数据，所述附加音频数据包括由所述第三方在所述语音呼叫或所述视频呼叫期间响应于所述被选择选项而通过可听见方式提供的两个或更多个附加可选择选项。5.根据任一项前述权利要求所述的方法，所述方法进一步包括：由所述计算装置使用所述可听见部分来确定所述音频数据是否包括对用户信息的请求，所述对用户信息的请求由所述第三方在所述语音呼叫或所述视频呼叫期间通过可听见方式提供；响应于所述对用户信息的请求，由所述计算装置使用所述可听见部分来识别用户数据；以及在所述语音呼叫或所述视频呼叫期间，由所述计算装置在所述显示器上显示所述用户数据，或者由所述计算装置向所述第三方提供所述用户数据。6.根据任一项前述权利要求所述的方法，所述方法进一步包括：由所述计算装置使用所述可听见部分来确定所述音频数据是否包括传递的信息，所述传递的信息与所述语音呼叫或所述视频呼叫的场境相关并且由所述第三方或所述用户在所述语音呼叫或所述视频呼叫期间通过可听见方式提供；响应于确定所述音频数据包括所述传递的信息，由所述计算装置确定所述传递的信息的文本描述，所述传递的信息的所述文本描述提供所述传递的信息的至少一部分的转录；
以及在所述显示器上显示另一个可选择控件，所述另一个可选择控件提供所述传递的信息的所述文本描述并且被配置为能够由所述用户选择来将所述传递的信息保存在所述计算装置、所述应用或所述计算装置上的另一个应用中的至少一个中。7.根据任一项前述权利要求所述的方法，其中，确定所述两个或更多个可选择选项的所述文本描述包括由所述计算装置执行机器学习模型以确定所述两个或更多个可选择选项的所述文本描述，所述机器学习模型被训练为根据所述音频数据来确定文本描述，所述音频数据是从所述计算装置的音频混合器接收的。8.根据权利要求7所述的方法，其中，所述机器学习模型包括端到端循环神经网络变换器自动话音辨识模型。9.根据任一项前述权利要求所述的方法，其中，所述两个或更多个可选择选项是表示交互式语音响应ivr系统或语音响应单元vru系统的选项的菜单，所述ivr系统或所述vru系统被配置为与所述用户交互并将所述用户引导至以下中的至少一个：所述ivr系统或所述vru系统的另一个菜单、与所述第三方相关联的人员、与所述第三方相关联的部门、与所述第三方相关联的服务或者与所述第三方向相关联的信息。10.根据任一项前述权利要求所述的方法，其中，所述两个或更多个可选择控件包括按钮、切换键、可选择文本、滑块、复选框或者图标中的至少一个并且被包括在所述通信应用的用户界面中。11.根据任一项前述权利要求所述的方法，其中，所述文本描述包括与所述两个或更多个可选择选项中的每个可选择选项相关联的数字，并且其中，所述可选择控件中的每个可选择控件包括与所述两个或更多个可选择选项中的每个可选择选项相关联的数字的视觉表示。12.根据任一项前述权利要求所述的方法，其中，所述计算装置的所述显示器包括触敏屏幕，并且其中，所述可选择控件在所述触敏屏幕上呈现。13.根据任一项前述权利要求所述的方法，其中，所述计算装置包括智能手机、计算机化手表、平板装置、可穿戴装置或膝上型计算机。14.一种计算装置，包括至少一个处理器，所述至少一个处理器被配置为执行根据权利要求1至13所述的方法中的任一个。15.一种包括指令的计算机可读存储介质，所述指令在被执行时配置计算装置的处理器来执行根据权利要求1至13所述的方法中的任一个。

技术总结
本文描述针对交互式语音响应(IVR)系统实现可选择控件的系统和技术。所述系统和技术可以确定与计算装置的用户和第三方之间的语音或视频呼叫相关联的音频数据是否包括多个可选择选项。第三方在呼叫期间通过可听见方式提供可选择选项。响应于确定音频数据包括可选择选项，计算装置可以确定多个可选择选项的文本描述。然后，所述系统和技术可以在显示器上显示两个或更多个可选择控件。用户可以选择可选择控件来指示多个可选择选项中的被选择选项。以这种方式，所述系统和技术可以通过使得IVR系统更容易导航和理解来改善对于语音呼叫和视频呼叫的用户体验。视频呼叫的用户体验。视频呼叫的用户体验。

技术研发人员：布兰东
受保护的技术使用者：谷歌有限责任公司
技术研发日：2020.12.08
技术公布日：2023/8/1

版权声明

本文仅代表作者观点，不代表航家之家立场。
本文系作者授权航家号发表，未经原创作者书面授权，任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时，须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的，航空之家将依法追究其法律责任。（航空之家官方QQ：2926969996）

航空之家 https://www.aerohome.com.cn/

飞机超市 https://mall.aerohome.com.cn/

航空资讯 https://news.aerohome.com.cn/

上一篇：用于制造圆柱形二次电池的电极组件的心轴的制作方法 下一篇：可变功率冷微波组织处理器的制作方法

交互式语音响应系统的可选择控件的制作方法

版权声明

航空之家

相关推荐

文章排行

最近发表

标签列表

交互式语音响应系统的可选择控件的制作方法

版权声明

相关文章

航空之家

相关推荐

文章排行

最近发表

标签列表