在某些情形下响应于助理调用来选择性地渲染键盘接口的制作方法

未命名 09-28 阅读:53 评论:0

在某些情形下响应于助理调用来选择性地渲染键盘接口


背景技术:

1.人类可以利用本文称为“自动助理”(也称为“数字智能体”、“聊天机器人”、“交互式个人助理”、“智能个人助理”、“助理应用”、“会话智能体”等)等交互式软件应用参与人对计算机的对话。例如,人类(当他们与自动助理交互时,可以被称为“用户”)可以使用口语自然语言输入(即,话语)和/或通过提供文本(例如,键入的)自然语言输入来向自动助理提供命令和/或请求,在一些情况下,口语自然语言输入可以被转换成文本并然后被处理。
2.可以通过诸如音频接口、触摸接口和/或相机接口等不同模态来调用自动助理。根据用户试图与自动助理交互的场境,这些模态中的每一个都可能更合适。然而,为了选择特定的模态,用户可能需要向自动助理提供一个或多个输入,以确保自动助理被初始化用于经由期望的模态接收进一步的入。例如,按下“主页(home)”按钮或挤压移动设备的侧部是调用输入,调用输入能够用于初始化一些自动助理以用于接收口语话语。不管用户意图采用以自动助理交互的输入模态,自动助理可以不区别地使默认接口被初始化用于接收用户输入。
3.在一些场境中,诸如当用户处于嘈杂的环境中时,用户可能希望或可能不希望使用口语话语进一步与自动助理接涉。例如,可以向轻击他们的“主页”按钮来初始化他们的自动助理的用户呈现麦克风图标,其指示自动助理已经被初始化用于接收来自用户的可听输入。为了经由另一接口(例如,键盘接口)进一步与自动助理交互,用户可能需要向计算设备提供附加的输入以到达另一接口。至少考虑到自动助理已经被初始化,这样的附加输入可能是冗余的。此外,附加输入可能间接浪费当接口(例如,麦克风)被初始化但然后不被用户使用时所消耗的计算资源。


技术实现要素:

4.本文阐述的实施方式涉及一种自动助理,其能够主动地渲染预测的接口,以用于用户与自动助理通信。当用户用关于多个候选接口中的哪一个应该被渲染(排他性地或与其他候选接口组合)不明确的输入或者用指定与所渲染的预测接口的不同接口的输入来调用自动助理时,这些实施方式中的一些渲染预测接口。在许多实施方式中,通过轻击“主页”按钮、应用图标、其他按钮持续一定时间量,挤压移动设备,说出调用短语(例如“ok,assistant(好的,助理)”),凝视移动计算设备一段阈值持续时间和/或提供其他自动助理调用输入,能够在移动计算设备处调用自动助理。响应于调用,自动助理能够典型地默认初始化用于接收来自用户的口语输入的音频接口,而不管用户是否计划使用口语输入与自动助理交互。结果,用户可能需要向自动助理和/或计算设备提供附加的输入,以便向自动助理指示用户想要经由另一接口与自动助理交互。例如,用户可能需要选择与音频接口一起渲染的键盘图标但不渲染键盘接口,并且响应于键盘图标的选择,然后能够渲染键盘接口(例如,并且不再渲染音频接口)。尽管这使得用户能够选择备选接口,但这能够最终延长用户与自动助理之间的交互所消耗的时间量,并且在处理将自动助理引导到另一接口的用户输入时还浪费计算资源。
5.为了消除用户指定某些接口的需要,自动助理能够处理某些数据,以便标识用户被预测将征求为用于即将进行的交互的输入模态的接口。例如,当用户在计算设备的接口(例如,按钮)处使用轻击手势(例如,使用用户肢体的直接物理输入)调用自动助理时,自动助理能够确定用户的场境不适合用于口语输入或其他间接物理输入(即,由用户在距计算设备非零距离处提供的非触摸输入)和/或更适合用于直接键入输入(例如,经由虚拟键盘)。基于该确定,自动助理能够使键盘图形用户接口(gui)在计算设备的显示接口处渲染。例如,键盘gui能够代替音频/口语接口或者与音频/口语接口一起渲染,而在没有确定场境不适合用于口语输入的情况下,能够渲染音频/口语接口而不渲染键盘gui(例如,替代地渲染键盘图标,键盘图标能够被选择,然后使得键盘gui被渲染)。当响应于调用而渲染键盘gui时,用户然后能够通过向自动助理提供键入输入来立即开始与自动助理交互。以这种方式,通过提供附加的输入,通过消除用户将自动助理引导到键盘gui的需要,能够节省大量时间和资源。例如,在用户与自动助理之间交互期间能够提供更少量的用户输入(例如,至少通过消除用户提供附加的输入来将自动助理引导至键盘gui的需要),并且用户与自动助理之间的交互能够更快地结束。
6.此外,通过响应于自动助理调用并且当确定用户的场境不适合用于间接输入和/或更适合用于直接键入输出时仅选择性地使键盘gui被初始渲染,当不太可能利用键盘gui和/或当可能利用间接输入时,能够阻止键盘gui的初始渲染。如本文所描述的,在许多实施方式中,确定是否初始渲染键盘gui能够基于当前场境并且基于用户与自动助理之间的以前的交互和/或一个或多个其他用户与一个或多个其他计算设备之间的以前的交互。例如,能够基于训练示例来训练机器学习模型,每个训练示例包括作为训练实例输入的历史过去当前场境,以及在历史过去当前场境中当自动助理被调用时,对应用户利用了哪个接口的指示。例如,假设用户在给定的场境中调用自动助理,并且响应于该调用,仅初始渲染音频接口,但是用户然后选择键盘图标来使键盘gui被渲染和/或一旦渲染就使用键盘gui。在这种实例中,训练示例能够包括基于给定场境的输入,并且能够包括指示键盘gui被利用的输出。以这些和其他方式,基于当前场境和以前的交互来确定是否选择性地渲染键盘gui能够确保,至少总的来说,渲染键盘gui将减少用户在与自动助理交互期间输入的数量和/或使得交互能够更快地结束。换句话说,即使对是否渲染键盘gui的预测在一些情境下能够被证明是不正确的,但总的来说,预测(例如,对给定用户或用户集合的多个预测)将更经常是正确的,并导致各种效率。
7.作为一个特定示例,假设用户正在使用计算设备,该计算设备正在该计算设备的显示接口处渲染网站和/或应用。当用户通过选择计算设备的接口元素来调用自动助理时,自动助理能够基于在计算设备处渲染的gui和/或应用来确定是否初始化计算设备的音频接口。例如,应用的当前状态能够是其中用户以前没有频繁地(例如,小于或等于阈值频率)与处于该状态的应用并发地与计算设备的键盘接口接涉的状态。结果,当用户在应用处于当前状态时调用自动助理时,键盘可能不被呈现给用户以用于向自动助理提供输入。备选地或附加地,应用(例如,网站和/或本地应用)能够表现出另一状态,在该另一状态中,用户偶尔(例如,超过阈值频率)与处于另一状态的应用并发地与计算设备的键盘接口接涉。结果,当用户在应用处于另一状态时调用自动助理时,键盘被呈现给用户以用于向自动助理提供输入。备选地或附加地,音频接口能够被初始化以在应用表现出另一状态时向自动助
理提供口语输入。
8.在一些实施方式中,应用和/或网站的特定状态能够是其中用户和/或用户集合(任选地包括该用户)可能已经示出或可能没有示出采用键盘接口的倾向的状态。例如,表征用户与一个或多个应用之间的先前交互的交互数据能够指示当应用处于特定状态时键盘的使用频率满足附加阈值。结果,当应用表现出特定状态时,自动助理能够使得快捷方式或其他可选择元素在应用的接口处被渲染。其他可选择元素能够是例如当用户选择该按钮时使键盘接口出现的按钮(例如,在按钮处上滑以显现键盘)。以这种方式,当基于与应用的当前状态相关联的数据确定满足附加阈值,并且用户调用自动助理时,能够初始化音频接口,并且键盘指示(例如,按钮、闪烁、高亮显示、链接等)能够在计算设备处被渲染。
9.在一些实施方式中,一个或多个不同的gui元素能够基于其中用户已经调用其自动助理的场境在计算设备的显示接口处渲染。例如,能够基于其中用户调用自动助理的场境在显示接口处渲染部分键盘和/或可选择建议。当用户选择可选择建议和/或部分键盘时,输入的一部分能够被提交到自动助理应用的输入字段和/或键盘接口能够在计算设备处渲染。在一些实施方式中,可选择建议能够是预测用户在调用自动助理之后将作为输入提供给自动助理的单词和/或短语。
10.例如,当用户通过轻击“主页”按钮来调用自动助理时,自动助理能够标识用户可能更喜欢的用于与自动助理交互的输入模态,以及用于用户可能提供给自动助理的自然语言输入的一个或多个预测。自动助理然后能够使与输入模态相关联的可选择元素在计算设备处渲染,并且还使另一可选择元素被渲染以用于标识用户可以提供的预测的自然语言输入(例如,“call

(呼叫
……
)”或“send a message to

(发送消息到
……
)”)。以这种方式,在用户可能不喜欢向自动助理提供默认输入类型(例如,口语输入)的情形下,自动助理能够向用户提供用于经由在该情形下更合适的单独模态与自动助理交互的快速进入点。
11.提供以上描述作为本公开的一些实施方式的概述。下面更详细地描述这些实施方式和其他实施方式的进一步描述。
12.其他实施方式能够包括非暂时性计算机可读存储介质,非暂时性计算机可读存储介质存储可由一个或多个处理器(例如,中央处理单元(cpu)、图形处理单元(gpu)和/或张量处理单元(tpu))运行以执行诸如上文描述和/或本文其他地方描述的方法中的一个或多个方法的方法的指令。然而,其他实施方式能够包括一个或多个计算机的系统,一个或多个计算机包括一个或多个处理器,一个或多个处理器可被操作来运行存储的指令以执行诸如上文描述和/或本文其他地方描述的方法中的一个或多个方法的方法。
13.应当领会,本文更详细描述的前述概念和附加概念的所有组合被认为是本文公开的主题的一部分。例如,出现在本公开末尾的所要求保护的主题的所有组合被认为是本文公开的主题的一部分。
附图说明
14.图1a和图1b图示了用户调用自动助理的视图,该自动助理能够基于用户的场境选择用于与自动助理交互的初始接口。
15.图2a、图2b和图2c图示了用户与自动助理交互的视图,自动助理能够预测和选择用户将在用户调用了自动助理的场境中采用的接口。
16.图3图示了用于提供自动助理的系统,该自动助理能够预测在用户已经调用自动助理之后,用户何时将更喜欢使用非音频接口用于与自动助理交互。
17.图4图示了操作自动助理的方法,自动助理响应于被调用,能够主动预测和/或建议用户可以在某些场境中与之交互的接口,以便更有效地与自动助理接涉。
18.图5是示例计算机系统的框图。
具体实施方式
19.图1a和图1b图示了调用自动助理的用户102的视图100和视图120,自动助理能够基于用户102的场境选择用于与自动助理交互的初始接口。例如,用户102能够与计算设备104交互,计算设备104能够提供对自动助理的访问,用户102能够经由计算设备104的多个不同接口向自动助理提供输入。然而,由于用户102的场境112,用户102可能不愿意向计算设备104的音频接口提供口语输入。例如,来自用户102的口语话语可能打断正在场境112中向观众呈现的讲演者114。无论如何,用户102能够依赖自动助理来选择用于在给定场境112(例如,用户102的位置、在计算设备104的显示接口106的前台中渲染的应用、应用的状态等)中与自动助理交互的合适接口。
20.例如,为了调用自动助理,用户102能够用他们的手110轻击在计算设备104的显示接口106处渲染的可选择元素108。响应于选择可选择元素108,自动助理能够标识要初始化以用于用户102与自动助理交互的特定接口。在一些实施方式中,自动助理能够处理来自一个或多个源的数据(例如,场境数据116),以便生成接口数据118,以用于标识用于用户102与自动助理交互的合适接口。自动助理能够在用户102调用自动助理之前和/或响应于用户102调用自动助理来处理该数据。在一些实施方式中,该数据能够表征用户102的位置、场境112中的噪声量、由一个或多个相机捕获的图像数据以及与计算设备104的通信、前台应用的特征、应用的状态、由与计算设备104通信的一个或多个麦克风捕获的音频数据、和/或基于一个或多个用户与一个或多个计算设备之间交互的交互数据(例如,特定助理接口的使用频率)。
21.例如,能够处理用户的场境的一个或多个特征以生成度量,该度量能够与一个或多个阈值进行比较,以标识要初始化以用于用户与自动助理进行交互的一个或多个接口。例如,能够基于用户访问特定位置(例如,在库中)中的特定类型的应用(例如,电子邮件应用)来生成度量和/或嵌入。能够将该度量和/或嵌入与阈值和/或其他嵌入进行比较,以便确定响应于用户调用自动助理,是否使键盘接口在接口处完全渲染、部分渲染或不渲染。例如,基于对度量的处理,自动助理能够使键盘接口在计算设备的显示接口处完全渲染,以便经由自动助理接收助理输入。备选地,或者附加地,基于用户与非常接近(例如,小于10英尺远)的某人说话,在用户的先前许可下,能够生成另一度量。基于其他度量与阈值度量之间的关系,自动助理能够确定当用户已经对非常接近的某人大声说话时,他们可能更喜欢对他们的自动助理说话。结果,当用户调用自动助理时,自动助理能够初始化计算设备的音频接口,而不会键盘接口和/或键盘建议在计算设备处渲染。
22.例如,在一些实施方式中,能够处理数据以便生成度量,该度量是基于特定接口用于在特定场境中与自动助理交互的合适性。当度量满足阈值时,自动助理能够通过初始化第一输入模态来响应调用输入。当度量不满足阈值时,自动助理能够通过初始化第二输入
reminder(

设定提醒)”等),以向用户202通知他们可以通过选择可选择元素228来访问键盘。
29.如图2b中所图示,用户202能够用他们的手210选择可选择建议(例如,
“…
set a reminder”),这可以使内容结合到输入字段226中,用于创建要提交给自动助理的命令。响应于接收到命令,自动助理能够经由同一接口或已被自动助理指示为可用的另一接口来提供对该命令的响应242。例如,在用户202正在向自动助理键入附加输入244时,指示者214可能离开用户202正在与自动助理交互的场境212。基于场境212中的该改变,用户202能够选择提供口语话语246,诸如
“……
今晚有他的学校项目(

with his school project tonight,)”,而不是继续经由键盘248键入输入,如图2c的视图240中所图示。以这种方式,尽管自动助理正确地标识了用户202在调用自动助理之后将采用的接口,但自动助理也标识了用户202在场境212改变时可采用的另一接口。以这种方式,能够由自动助理响应于调用输入并根据调用自动助理的场境的一个或多个特征来初始化一个或多个不同的接口。
30.图3图示了用于提供自动助理304的系统300,该自动助理304能够预测在用户已经调用自动助理304之后,用户何时将更喜欢使用非音频接口用于与自动助理304交互。自动助理304能够作为在诸如计算设备302的一个或多个计算设备和/或服务器设备处提供的助理应用的一部分来操作。用户能够经由助理接口320与自动助理304交互,助理接口320能够是麦克风、相机、触摸屏显示器、用户接口和/或能够提供用户与应用之间的接口的任何其他装置。例如,用户能够通过向助理接口320提供口头、文本和/或图形输入来初始化自动助理304,以使自动助理304初始化一个或多个动作(例如,提供数据、控制外围设备、访问智能体、生成输入和/或输出等)。备选地,自动助理304能够基于使用一个或多个经训练的机器学习模型对场境数据336的处理来初始化。
31.场境数据336能够表征自动助理304能够访问的环境的一个或多个特征,和/或被预测为意图与自动助理304交互的用户的一个或多个特征。计算设备302能够包括显示设备,该显示设备能够是显示面板,该显示面板包括用于接收触摸输入和/或手势的触摸接口,以允许用户经由触摸接口控制计算设备302的应用334。在一些实施方式中,计算设备302能够没有显示设备,从而提供可听用户接口输出,而不提供图形用户接口输出。此外,计算设备302能够提供诸如麦克风的用户接口,用于接收来自用户的口语自然语言输入。在一些实施方式中,计算设备302能够包括触摸接口,并且能够没有相机,但是能够任选地包括一个或多个其他传感器。
32.计算设备302和/或其他第三方客户端设备能够通过诸如因特网的网络与服务器设备通信。附加地,计算设备302和任何其他计算设备能够通过诸如wi-fi网络的局域网(lan)彼此通信。计算设备302能够将计算任务卸载到服务器设备,以便节省计算设备302处的计算资源。例如,服务器设备能够托管自动助理304,和/或计算设备302能够将在一个或多个助理接口320处接收的输入传输到服务器设备。然而,在一些实施方式中,自动助理304能够托管在计算设备302处,并且能够在计算设备302处执行能够与自动助理操作相关联的各种过程。
33.在各种实施方式中,自动助理304的所有方面或少于所有方面能够在计算设备302上实施。在这些实施方式中的一些中,自动助理304的方面经由计算设备302实施,并且能够与服务器设备接口,服务器设备能够实施自动助理304的其他方面。服务器设备能够任选地
经由多个线程服务于多个用户及其相关联的助理应用。在经由计算设备302实施自动助理304的所有方面或少于所有方面的实施方式中,自动助理304能够是与计算设备302的操作系统分离的应用(例如,安装在操作系统的“顶部上”)或者能够备选地由计算设备302的操作系统直接实施(例如,被认为是操作系统的但是与操作系统成一体的应用,)。
34.在一些实施方式中,自动助理304能够包括输入处理引擎306,其能够采用多个不同的模块来处理用于计算设备302和/或服务器设备的输入和/或输出。例如,输入处理引擎306能够包括语音处理引擎308,语音处理引擎308能够处理在助理接口320处接收的音频数据以标识包含在音频数据中的文本。音频数据能够从例如计算设备302传输到服务器设备,以便保存计算设备302处的计算资源。附加地,或者备选地,音频数据能够仅在计算设备302处被处理。
35.用于将音频数据转换为文本的过程可以包括语音识别算法,该语音识别算法能够采用神经网络和/或统计模型来标识对应于单词或短语的音频数据组。从音频数据转换的文本能够由数据解析引擎310解析,并对自动助理304可获得作为文本数据,该文本数据能够用于生成和/或标识命令短语、意图、动作、槽值和/或用户指定的任何其他内容。在一些实施方式中,由数据解析引擎310提供的输出数据能够被提供给参数引擎312,以确定用户是否提供了对应于能够由自动助理304和/或能够经由自动助理304访问的应用或智能体执行的特定意图、动作和/或例程的输入。
36.例如,助理数据338能够存储在服务器设备和/或计算设备302处,并且能够包括限定能够由自动助理304执行的一个或多个动作的数据,以及执行动作所必需的参数。参数引擎312能够生成用于意图、动作和/或槽值的一个或多个参数,并将一个或多个参数提供给输出生成引擎314。输出生成引擎314能够使用一个或多个参数与助理接口320通信以向用户提供输出,和/或与一个或多个应用334通信以向一个或多个应用334提供输出。
37.在一些实施方式中,自动助理304能够是能够安装在计算设备302的操作系统“的顶部上”和/或本身能够形成计算设备302的操作系统的部分(或全部)的应用。自动助理应用包括和/或具有对设备上的语音识别、设备上的自然语言理解和设备上的履行的访问。例如,能够使用设备上语音识别模块来执行设备上语音识别,该设备上语音识别模块使用本地存储在计算设备302处的端到端语音识别机器学习模型来处理音频数据(由麦克风检测)。设备上语音识别为音频数据中存在的口语话语(如果有的话)生成已识别的文本。此外,例如,能够使用设备上自然语言理解(nlu)模块来执行设备上自然语言理解(nlu),设备上nlu模块处理使用设备上语音识别生成的识别文本和任选的场境数据,以生成nlu数据。
38.nlu数据能够包括对应于口语话语的意图和任选地用于意图的参数(例如,槽值)。能够使用设备上履行模块来执行设备上履行,该设备上履行模块利用nlu数据(来自设备上nlu)和任选地其他本地数据来确定要采取的动作,以辨析口语话语的意图(以及任选地用于意图的参数)。这能够包括确定对口语话语的本地和/或远程响应(例如,回答)、基于口语话语执行的与本地安装的应用的交互、基于口语话语向物联网(iot)设备(直接或经由对应的远程系统)传输的命令、和/或基于口语话语执行的其他辨析动作。然后,设备上履行能够初始化所确定的动作的本地和/或远程执行/运行,以辨析口语话语。
39.在各种实施方式中,能够至少选择性地利用远程语音处理、远程nlu和/或远程履行。例如,识别的文本能够至少选择性地被传输到远程自动助理组件,以用于远程nlu和/或
远程履行。例如,所识别的文本能够被任选地传输用于与设备上的执行并行的远程执行,或者响应于设备上nlu和/或设备上履行的失败而传输用于远程执行。然而,设备上的语音处理、设备上的nlu、设备上的履行和/或设备上的运行能够被优先化,至少是由于它们在辨析口语话语时提供的等待时间减少(由于不需要客户端-服务器往返来辨析口语话语)。此外,在没有网络连接或网络连接有限的情境下,设备上的功能可能是唯一可用的功能。
40.在一些实施方式中,计算设备302能够包括一个或多个应用334,一个或多个应用334能够由不同于提供计算设备302和/或自动助理304的实体的第三方实体提供。自动助理304和/或计算设备302的应用状态引擎能够访问应用数据330,以确定能够由一个或多个应用334执行的一个或多个动作,以及一个或多个应用334中的每个应用的状态和/或与计算设备302相关联的相应设备的状态。自动助理304和/或计算设备302的设备状态引擎能够访问设备数据332,以确定能够由计算设备302和/或与计算设备302相关联的一个或多个设备执行的一个或多个动作。此外,应用数据330和/或任何其他数据(例如,设备数据332)能够由自动助理304访问以生成场境数据336,该场境数据336能够表征特定应用334和/或设备正在运行的场境,和/或特定用户正在访问计算设备302、访问应用334和/或任何其他设备或模块的场境。
41.当一个或多个应用334正在计算设备302处运行时,设备数据332能够表征在计算设备302处运行的每个应用334的当前操作状态。此外,应用数据330能够表征正在运行的应用334的一个或多个特征,诸如在一个或多个应用334的指导下渲染的一个或多个图形用户接口的内容。备选地或附加地,应用数据330能够表征动作模式,其能够由相应应用和/或由自动助理304基于相应应用的当前操作状态来更新。备选地或附加地,用于一个或多个应用334的一个或多个动作模式能够保持静态,但是能够由应用状态引擎访问,以便经由自动助理304确定要初始化的合适动作。
42.计算设备302还能够包括助理调用引擎322,助理调用引擎322能够使用一个或多个经训练的机器学习模型来处理应用数据330、设备数据332、场境数据336和/或计算设备302能够访问的任何其他数据。助理调用引擎322能够处理该数据,以便确定是否等待用户显式说出调用短语来调用自动助理304,或者将该数据视为指示用户调用自动助理的意图——而不是要求用户显式说出调用短语。例如,能够使用训练数据的实例来训练一个或多个经训练的机器学习模型,训练数据的实例基于用户处于多个设备和/或应用表现出各种操作状态的环境中的场景。能够生成训练数据的实例,以便捕获表征用户调用自动助理的场境和用户不调用自动助理的其他场境的训练数据。
43.当根据训练数据的这些实例来训练一个或多个经训练的机器学习模型时,助理调用引擎322能够使自动助理304基于场境和/或环境的特征来检测或限制检测来自用户的口语调用短语。附加地或备选地,助理调用引擎322能够使自动助理304基于场境和/或环境的特征来检测来自用户的一个或多个助理命令或限制其检测。例如,通常每天早晨一进入他们的车辆就立即调用他们的自动助理的用户能够使训练数据被生成,用于训练自动助理在用户随后进入他们的车辆时进行初始化。在一些实施方式中,基于场境和/或环境的助理调用能够包括进一步确定是否和/或如何渲染键盘以用于向自动助理提供助理输入。例如,当基于用户进入他们的车辆来初始化自动助理时,自动助理可能不会使键盘接口渲染。然而,当基于用户进入库并访问搜索引擎网站来初始化自动助理时,自动助理可以使键盘快捷键
(例如,可选择的gui元素,当被滑动时,可选择的gui元素导致全键盘初始化)被渲染。
44.在一些实施方式中,系统300能够包括场境特征引擎316,其能够处理各种数据以便标识用户已经调用了自动助理304的场境的一个或多个特征。例如,场境特征引擎316能够处理应用数据330、设备数据332和/或场境数据336,以便标识用户已经调用或可能随后调用自动助理304的场境的一个或多个特征。在一些实施方式中,由场境特征引擎316处理的数据能够用于生成嵌入,嵌入能够映射到潜在空间。当为特定场境生成嵌入时,能够标识潜在空间中的欧几里德距离。欧几里德距离能够对应于嵌入与对应于助理接口的其他嵌入之间的潜在空间中的距离。当距离满足一个或多个阈值时,并且当用户调用自动助理304时,能够基于满足一个或多个阈值来初始化或不初始化一个或多个接口。
45.在一些实施方式中,系统300能够包括接口预测引擎318,接口预测引擎318能够标识用户在给定场境中可能更喜欢使用以与自动助理304交互的一个或多个接口。接口预测引擎318能够处理由场境特征引擎316生成的数据,以便预测可能更适合用于给定场境中的助理交互的特定接口。在一些实施方式中,接口预测引擎318能够采用一个或多个经训练的机器学习模型,以便处理来自场境特征引擎316的数据和/或基于一个或多个其他用户(在来自这些其他用户的事先许可下)与他们相应的自动助理之间的交互的数据。以这种方式,当另一用户已经调用了他们的自动助理但是选择了非默认接口(例如,当另一用户调用他们的自动助理时不太频繁地被激活的接口)时的实例能够被用作训练实例,用于进一步训练一个或多个经训练的机器学习模型。
46.例如,在特定场境中,用户能够调用他们的自动助理,并且能够初始化音频接口,而无需为用户渲染键盘接口。然而,随着时间的推移,用户可能开始在特定场境中访问键盘接口,这能够导致生成附加的训练数据,用于更新接口预测引擎318所采用的一个或多个模型。结果,当用户处于特定场境中时,能够基于当用户在某些场境中访问自动助理时改变他们的习惯而生成的反馈,用键盘接口来初始化自动助理。在一些实施方式中,分配给一个或多个场境特征的权重能够基于这样的实例来调整,从而导致潜在空间中嵌入的位置的改变。这能够允许接口预测引擎318做出更准确的接口预测,这种更准确的接口预测能够导致精简的助理交互和/或由自动助理和/或计算设备302处理的更少的输入。
47.在一些实施方式中,系统300能够包括接口激活引擎326,接口激活引擎326能够控制计算设备302或另一计算设备的一个或多个助理接口320是否响应于用户调用他们的自动助理而被初始化。对接口激活引擎326是否初始化接口的确定能够基于由场境特征引擎316和/或接口预测引擎318执行的处理。在一些实施方式中,接口激活引擎326能够基于用户的场境为一个或多个接口生成“混合”接口。例如,当一个或多个阈值被确定满足用于提供键盘接口的“混合”接口时,接口激活引擎326能够生成数据,该数据能够用于渲染“混合”键盘接口。在一些实例中,该数据能够表征对要提供给自动助理的命令的部分的一个或多个可选择建议(例如,如图2b中所图示)。备选地或附加地,接口激活引擎326能够生成数据,该数据能够用于向用户指示一个或多个接口已被初始化或未被初始化。例如,带有停用标记的(crossed-out)麦克风(例如,如图1b中所图示)能够由自动助理生成和/或选择,以便向用户指示音频接口尚未响应于最近的助理调用输入而被初始化。
48.在一些实施方式中,系统300能够包括交互数据引擎324,该交互数据引擎324能够生成交互数据,该交互数据是基于一个或多个用户与自动助理之间、和/或一个或多个用户
与一个或多个设备之间(例如,间接和/或直接)的交互。交互数据然后能够由系统300的一个或多个引擎处理,以便预测用户在给定场境中可能更喜欢采用来与自动助理交互的接口和/或输入类型(例如,距接口非零距离处的物理运动)。备选地或附加地,在用户的先前许可下,能够使用交互数据来训练一个或多个经训练的机器学习模型,一个或多个经训练的机器学习模型能够在随后处理场境相关数据时使用。例如,系统300能够基于用户从预测接口切换到非预测接口来确定接口预测是错误的。这能够在例如用户在特定场境中(例如,在他们的办公室处)按下按钮来调用自动助理304,被提供键盘接口的完整渲染,但却替代地使用音频接口来向自动助理提供输入时发生。交互数据引擎324能够使用此实例来生成负反馈数据,用于进一步训练一个或多个经训练的机器学习模型,使得自动助理304不太可能在该特定场境中渲染全键盘接口。在一些实例中,用户可以在另一场境中采用预测的接口,并且在这些实例中,能够生成正反馈数据,用于进一步训练一个或多个经训练的机器学习模型,以在这样的另一场境中继续提供键盘接口。
49.图4图示了操作自动助理的方法400,该自动助理响应于被调用,能够主动预测和/或建议用户在特定场境中可以与之交互的接口,以便与自动助理接涉。方法400能够由一个或多个设备、应用和/或能够控制自动助理的任何其他设备或模块来执行。方法400能够包括操作402:确定是否已经检测到助理调用。助理调用能够是对自动助理的输入,其使自动助理初始化以检测来自用户的进一步输入。例如,计算设备的按钮能够被编程为在用户选择按钮时调用自动助理。备选地或附加地,能够响应于调用短语(例如,“assistant(助理)”)来调用自动助理,调用短语能够是当由用户说出时使自动助理操作以检测来自用户的进一步输入的单词或短语。当检测到调用输入时,方法400能够从操作402进行到操作404。否则,自动助理和/或计算设备能够继续检测来自用户的助理调用输入。
50.操作404能够包括响应于调用输入确定是否限制某些接口被初始化。换言之,自动助理能够响应于调用输入来确定是否初始化计算设备的除键盘接口和/或其他非音频输入(例如,键盘的gui渲染)之外的其他接口。在一些实施方式中,操作404能够基于表征用户与一个或多个计算设备、和/或一个或多个其他用户和/或一个或多个其他计算设备之间的先前交互的交互数据来确定。交互数据能够指示各种场境的特征,在这些场境中,用户与某些接口接涉以便与相应的自动助理交互。例如,交互数据能够指示在某些公共走道上,用户更有可能更喜欢经由键盘接口而不是音频接口与他们的自动助理进行交互。备选地或附加地,交互数据能够指示,当用户在他们的家中或在他们的车辆中时,用户更有可能更喜欢经由音频接口而不是键盘接口与他们的自动助理交互。
51.当自动助理确定不将激活助理接口限于键盘接口或其他非音频接口时,方法400能够进行至操作406。操作406能够包括初始化音频接口以用于用户与自动助理交互。音频接口能够包括一个或多个麦克风,一个或多个麦克风能够用于检测从用户对自动助理的口语输入。在一些实施方式中,自动助理能够使gui元素在计算设备的显示接口处渲染,以便指示音频接口是激活的。
52.方法400能够从操作406进行到任选操作410,任选操作410能够包括确定是否建议键盘作为备选助理接口。换言之,自动助理能够确定是否向用户渲染关于单独的助理接口的建议,该单独的助理接口可能比音频接口更有效和/或更适合与自动助理通信。在一些实施方式中,该确定能够基于用于操作404处的确定的交互数据和/或能够指示用户的场境的
特征的其他数据。以这种方式,自动助理能够根据用户情形的变化来适应和/或根据用户的情形来提供各种不同的接口布置。当自动助理确定不建议将键盘作为备选助理接口时,方法400能够进行到操作412。否则,方法400能够进行到任选操作414。
53.任选操作414能够包括使键盘建议在计算设备的接口处渲染。键盘建议能够包括在用户向其提供调用输入的计算设备的显示接口处渲染的一个或多个可选择元素。例如,键盘建议能够包括键盘图像的一部分和/或自然语言命令的一部分(例如,“assistant,navigate to(助理,导航到)”),其能够经由口语话语和/或文本输入提供给自动助理。当在计算设备的接口处渲染键盘建议时,方法400能够进行到操作412,用于确定是否已经在任何激活输入处接收到助理输入。
54.当在操作404处,自动助理决定将任何初始激活的接口限制为包括键盘时,方法400能够进行到操作408。操作408能够包括渲染键盘接口用于接收来自用户和用于自动助理的随后输入。在这些情形下,能够提供键盘接口而不是默认初始化用于接收来自用户的口语话语的音频接口。这能够证明更高效,因为此过程能够减少如果用户不得不手动指导自动助理初始化键盘接口用于总是默认为音频接口的交互否则可能发生的处理的量。
55.方法400能够从操作408进行到操作412,用于确定是否已经在可用于接收助理输入的接口处接收到输入。当接收到输入时,方法400能够进行到操作416,用于使自动助理根据在激活的接口处接收到的输入做出响应。否则,当持续一段持续时间没有接收到输入时,方法400能够返回到操作402。
56.图5是示例计算机系统510的框图500。计算机系统510通常包括至少一个处理器514,至少一个处理器514经由总线子系统512与多个外围设备通信。这些外围设备可以包括包括例如存储器525和文件存储子系统526的存储子系统524、用户接口输出设备520、用户接口输入设备522和网络接口子系统516。输入设备和输出设备允许与计算机系统510的用户交互。网络接口子系统516提供到外部网络的接口,并耦合到其他计算机系统中的对应接口设备。
57.用户接口输入设备522可以包括键盘,诸如鼠标、轨迹球、按钮、触摸板或图形输入板的指向设备、扫描仪、结合到显示器中的触摸屏,诸如话音识别系统的音频输入设备、麦克风和/或其他类型的输入设备。一般而言,术语“输入设备”的使用旨在包括将信息输入到计算机系统510或通信网络上的所有可能类型的设备和方式。
58.用户接口输出设备520可以包括显示子系统、打印机、传真机或者诸如音频输出设备的非可视显示器。显示子系统可以包括阴极射线管(crt)、诸如液晶显示器(lcd)的平板设备、投影设备或用于创建可视图像的一些其他机构。显示子系统还可以诸如经由音频输出设备提供非可视显示。一般而言,词语“输出设备”的使用意图包括从计算机系统510向用户或另一机器或计算机系统输出信息的所有可能类型的设备和方式。
59.存储子系统524存储提供本文描述的一些或所有模块的功能的编程和数据结构。例如,存储子系统524可以包括执行方法400的选定方面和/或实施系统300、计算设备104、计算设备204、自动助理和/或本文讨论的任何其他应用、设备、装置和/或模块中的一个或多个的逻辑。
60.这些软件模块通常由处理器514单独地运行或者与其他处理器组合地运行。存储子系统524中使用的存储器525能够包括多个存储器,包括用于在程序运行期间存储指令和
数据的主随机存取存储器(ram)530和存储固定指令的只读存储器(rom)532。文件存储子系统526能够为程序和数据文件提供持久性存储,并且可以包括硬盘驱动器、软盘驱动器以及相关联的可移动介质、cd-rom驱动器、光驱或可移动介质盒。实施某些实施方式的功能的模块可以由文件存储子系统526存储在存储子系统524中,或者存储在处理器514能够访问的其他机器中。
61.总线子系统512提供了一种用于使计算机系统510的各个组件和子系统按预期彼此通信的机构。尽管总线子系统512示意性地示出为单个总线,但是总线子系统的备选实施方式可以使用多个总线。
62.计算机系统510能够是各种类型,包括工作站、服务器、计算集群、刀片服务器、服务器群或任何其他数据处理系统或计算设备。由于计算机和网络的不断变化的性质,为说明一些实施方式的目的,图5中描绘的计算机系统510的描述仅意图作为具体示例。计算机系统510的许多其他配置可能具有比图5中所描绘的计算机系统更多或更少的组件。
63.在本文描述的系统收集关于用户(或者本文经常称为“参与者”)的个人信息,或者可以使用个人信息的情境下,可以向用户提供机会来控制程序或特征是否收集用户信息(例如,关于用户的社交网络、社交行动或活动、职业、用户的偏好或者用户的当前地理位置的信息),或者控制是否和/或如何从内容服务器接收可能与用户更相关的内容。同样,在存储或使用某些数据之前,可以以一种或多种方式处置某些数据,以便移除个人可标识信息。例如,可以对用户的身份进行处置,使得不能确定用户的个人可标识信息,或者可以在获得地理位置信息的地方概括用户的地理位置(诸如城市、邮政编码或州级),使得不能确定用户的特定地理位置。因此,用户可以控制如何收集和/或使用关于用户的信息。
64.尽管本文已经描述和图示了若干实施方式,但可以利用各种其他方式和/或结构来执行功能和/或获得本文所描述的结果和/或优点中的一个或多个优点,并且这样的变型和/或修改中的每一个被认为在本文描述的实施方式的范围内。更一般而言,本文所描述的所有参数、尺寸、材料和配置都意味着是示例性的,并且实际参数、尺寸、材料和/或配置将取决于使用该教导的一个或多个具体应用。本领域的技术人员将认识到或者能够仅使用常规实验来确定本文描述的具体实施方式的许多等同物。因此,应当理解,前述实施方式仅作为示例呈现,并且在所附权利要求及其等同物的范围内,实施方式可以以不同于具体描述和要求的方式实施。本公开的实施方式针对本文描述的每个单独的特征、系统、物品、材料、套件和/或方法。此外,两个或更多个这样的特征、系统、物品、材料、套件和/或方法的任何组合,如果这样的特征、系统、物品、材料、套件和/或方法不是相互矛盾的被包括在本公开的范围内。
65.在一些实施方式中,由一个或多个处理器实施的方法被阐述为包括诸如在计算设备处接收用于调用能够经由该计算设备访问的自动助理的用户输入的操作,其中该自动助理响应于来自用户经由该计算设备的音频接口输入和键盘接口输入。该方法还可包括由自动助理响应于用户输入确定是否在计算设备的显示接口处渲染键盘接口的操作,其中响应于用户输入确定是否渲染键盘接口是基于一个或多个用户与一个或多个计算设备之间的一个或多个先前交互。该方法还能够包括以下操作:当自动助理确定不在计算设备的显示接口处渲染键盘接口时,响应于用户输入,使该计算设备或另一计算设备的音频接口被初始化以用于接收来自用户的口语话语。
66.在一些实施方式中,响应于用户输入确定是否在计算设备的显示接口处渲染键盘接口包括:标识正在计算设备的显示接口处渲染的前台应用,以及确定用户与前台应用之间的先前交互是否涉及从包括键盘接口和音频接口的接口组中选择的接口,其中当用户在先前交互期间访问键盘接口时,自动助理确定在计算设备的显示接口处渲染键盘接口。在一些实施方式中,响应于用户输入确定是否在计算设备的显示接口处渲染键盘接口包括:标识正在计算设备的显示接口处渲染的前台应用,以及确定用户与前台应用之间的先前交互是否涉及从包括键盘接口和音频接口的接口组中选择的接口,其中,当在先前交互期间使用键盘接口和音频接口时,自动助理确定在计算设备的显示接口处渲染键盘快捷键或键盘接口的一部分。
67.在一些实施方式中,响应于用户输入确定是否在计算设备的显示接口处渲染键盘接口包括:标识正在计算设备的显示接口处渲染的前台应用的当前状态,以及确定用户在与前台应用的先前交互期间是否在以前访问了从包括键盘接口和音频接口的接口组中选择的接口,其中在先前交互期间,前台应用在对应于当前状态的状态下操作。在一些实施方式中,该方法还能够包括以下操作:当自动助理确定不在计算设备的显示接口处渲染键盘接口时,确定是否在显示接口处渲染可选择元素,该可选择元素在被选择时使得键盘接口在显示接口处渲染。在一些实施方式中,确定是否在显示接口处渲染可选择元素包括:确定度量是否满足特定阈值,其中该度量基于当前台应用在该状态下操作时用户访问键盘接口的实例的数量,并且其中当该度量不满足该特定阈值时,自动助理使可选择元素渲染。
68.在一些实施方式中,可选择元素包括助理输入建议,并且当可选择元素被选择时,助理输入建议被渲染为能够使用键盘接口编辑的草稿输入的一部分。在一些实施方式中,前台应用是互联网浏览器应用,并且前台应用的当前状态基于正在前台应用处渲染的网站。在一些实施方式中,该方法还能够包括以下操作:当自动助理确定在计算设备的显示接口处渲染键盘接口时,响应于用户输入,使计算设备渲染触觉输出。在一些实施方式中,响应于用户输入确定是否在计算设备的显示接口处渲染键盘接口包括:当用户提供用于调用自动助理的用户输入时,确定用户的位置,以及确定在该位置处在用户与计算设备之间的先前交互是否涉及从包括键盘接口和音频接口的组中选择的接口,其中,当确定用户在先前交互期间已经访问了键盘接口时,自动助理确定在计算设备的显示接口处渲染键盘接口。
69.在一些实施方式中,响应于用户输入确定是否在计算设备的显示接口处渲染键盘接口包括:使用一个或多个经训练的机器学习模型来处理交互数据,其中交互数据是基于一个或多个先前交互,并且其中一个或多个经训练的机器学习模型是使用基于用户与计算设备之间的一个或多个其他先前交互的训练数据来训练的。在一些实施方式中,响应于用户输入确定是否在计算设备的显示接口处渲染键盘接口包括:使用一个或多个经训练的机器学习模型来处理交互数据,其中交互数据是基于用户与计算设备之间的一个或多个先前交互,并且其中一个或多个经训练的机器学习模型是使用基于其他用户与其他计算设备之间的一个或多个其他先前交互的训练数据来训练的。
70.在又一些实施方式中,一种由一个或多个处理器实施的方法被阐述为包括诸如在计算设备处接收用于调用自动助理的用户输入的操作,该自动助理能够经由该计算设备访问,其中该计算设备包括第一输入模态和第二输入模态,并且该用户输入是在第一输入模
态处接收的。该方法还能够包括由自动助理确定是否使计算设备渲染第二输入模态是激活的以用于接收来自用户的单独输入的指示的操作。该方法还可以包括以下操作:当自动助理确定不渲染第二输入模态是激活的以用于接收来自用户的单独输入的指示时,响应于用户输入,使计算设备渲染第一输入模态是激活以用于接收来自用户的附加输入的单独指示,其中自动助理能够经由第一输入模态处的直接物理接触来接收附加输入。
71.在一些实施方式中,该方法还能够包括以下操作:当自动助理确定渲染第二输入模态是激活的以用于接收来自用户的进一步输入的指示时,响应于用户输入,使计算设备渲染第二输入模态是激活的以用于接收来自用户的单独输入的指示,其中自动助理能够经由对第二输入模态的间接物理输入来接收单独输入。在一些实施方式中,直接物理接触包括使用用户的肢体执行的触摸输入,并且其中间接物理输入包括由用户经由在距计算设备非零距离处发生的物理运动执行的非触摸输入。
72.在又一些实施方式中,一种由一个或多个处理器实施的方法被阐述为包括诸如在计算设备处接收用于调用自动助理的用户输入的操作,该自动助理能够经由该计算设备访问,其中该计算设备包括第一输入模态和不同于第一输入模态的第二输入模态。该方法还可包括处理交互数据的操作,该交互数据指示用户在特定情形下采用计算设备的第一输入模态用于向自动助理提供输入的频率。该方法还能够包括基于交互数据确定频率是否满足一个或多个阈值的操作,一个或多个阈值用于指示一个或多个特定输入模态可用于接收来自用户的进一步输入。该方法还能够包括以下操作:当频率满足用于指示第一输入模态可用于接收来自用户的进一步输入的一个或多个阈值中的一个阈值时,使计算设备渲染对应于第一输入模态的图形用户接口(gui)元素。
73.在一些实施方式中,该方法还可以包括以下操作:当频率满足用于指示第一输入模态和第二输入模态可用于接收来自用户的附加输入的一个或多个阈值中的不同阈值时,使计算设备并发地渲染gui元素和附加gui元素,其中附加gui元素对应于第二输入模态。在一些实施方式中,使计算设备并发地渲染gui元素和附加gui元素包括:使gui元素被渲染为可以接收来自用户对自动助理的进一步输入的键盘的一部分。在一些实施方式中,附加gui元素指示计算设备的音频接口已经响应于用户输入而被初始化。在一些实施方式中,特定情形包括其中特定应用正在计算设备的显示接口的前台处渲染的情形。

技术特征:
1.一种由一个或多个处理器实施的方法,所述方法包括:在计算设备处接收用于调用自动助理的用户输入,所述自动助理能够经由所述计算设备访问,其中,所述自动助理响应于来自用户经由所述计算设备的音频接口输入和键盘接口输入;由所述自动助理响应于所述用户输入确定是否在所述计算设备的显示接口处渲染所述键盘接口,其中,基于一个或多个用户与一个或多个计算设备之间的一个或多个先前交互来响应于所述用户输入确定是否渲染所述键盘接口;以及当所述自动助理确定不在所述计算设备的所述显示接口处渲染所述键盘接口时:响应于所述用户输入,使所述计算设备或另一计算设备的音频接口被初始化以用于接收来自所述用户的口语话语。2.根据权利要求1所述的方法,其中,响应于所述用户输入确定是否在所述计算设备的所述显示接口处渲染所述键盘接口包括:标识在所述计算设备的所述显示接口处渲染的前台应用,以及确定所述用户与所述前台应用之间的先前交互是否涉及从包括所述键盘接口和所述音频接口的接口组中选择的接口,其中,当所述用户在所述先前交互期间访问所述键盘接口时,所述自动助理确定在所述计算设备的所述显示接口处渲染所述键盘接口。3.根据权利要求1所述的方法,其中,响应于所述用户输入确定是否在所述计算设备的所述显示接口处渲染所述键盘接口包括:标识在所述计算设备的所述显示接口处渲染的前台应用,以及确定所述用户与所述前台应用之间的先前交互是否涉及从包括所述键盘接口和所述音频接口的接口组中选择的接口,其中,当在所述先前交互期间所述键盘接口和所述音频接口被使用时,所述自动助理确定在所述计算设备的所述显示接口处渲染键盘快捷键或所述键盘接口的一部分。4.根据权利要求1所述的方法,其中,响应于所述用户输入确定是否在所述计算设备的所述显示接口处渲染所述键盘接口包括:标识在所述计算设备的所述显示接口处渲染的前台应用的当前状态,以及确定所述用户在与所述前台应用的先前交互期间是否在以前访问了从包括所述键盘接口和所述音频接口的接口组中选择的接口,其中,在所述先前交互期间,所述前台应用在对应于所述当前状态的状态下操作。5.根据权利要求2至4中任一项所述的方法,进一步包括:当所述自动助理确定不在所述计算设备的所述显示接口处渲染所述键盘接口时:确定是否在所述显示接口处渲染可选择元素,当所述可选择元素被选择时,使所述键盘接口在所述显示接口处渲染。6.根据权利要求5所述的方法,其中,确定是否在所述显示接口处渲染所述可选择元素包括:确定度量是否满足特定阈值,
其中,所述度量基于当所述前台应用在所述状态下操作时所述用户访问所述键盘接口的实例的数目,以及其中,当所述度量不满足所述特定阈值时,所述自动助理使所述可选择元素渲染。7.根据权利要求6所述的方法,其中,所述可选择元素包括助理输入建议,并且当所述可选择元素被选择时,所述助理输入建议被渲染为能够使用所述键盘接口编辑的草稿输入的一部分。8.根据权利要求5至7中任一项所述的方法,其中,所述前台应用是互联网浏览器应用,并且所述前台应用的所述当前状态基于正在所述前台应用处渲染的网站。9.根据前述权利要求中任一项所述的方法,进一步包括:当所述自动助理确定在所述计算设备的所述显示接口处渲染所述键盘接口时:响应于所述用户输入,使所述计算设备渲染触觉输出。10.根据权利要求1所述的方法,其中,响应于所述用户输入确定是否在所述计算设备的所述显示接口处渲染所述键盘接口包括:当所述用户提供用于调用所述自动助理的所述用户输入时,确定所述用户的位置,以及确定在所述位置处在所述用户与所述计算设备之间的先前交互是否涉及从包括所述键盘接口和所述音频接口的组中选择的接口,其中,当确定所述用户在所述先前交互期间访问了所述键盘接口时,所述自动助理确定在所述计算设备的所述显示接口处渲染所述键盘接口。11.根据权利要求1所述的方法,其中,响应于所述用户输入确定是否在所述计算设备的所述显示接口处渲染所述键盘接口包括:使用一个或多个经训练的机器学习模型来处理交互数据,其中,所述交互数据基于所述一个或多个先前交互,以及其中,所述一个或多个经训练的机器学习模型是使用基于所述用户与所述计算设备之间的一个或多个其他先前交互的训练数据而训练的。12.根据权利要求1所述的方法,其中,响应于所述用户输入确定是否在所述计算设备的所述显示接口处渲染所述键盘接口包括:使用一个或多个经训练的机器学习模型来处理交互数据,其中,所述交互数据基于所述用户与所述计算设备之间的所述一个或多个先前交互,以及其中,所述一个或多个经训练的机器学习模型是使用基于其他用户与其他计算设备之间的一个或多个其他先前交互的训练数据而训练的。13.一种由一个或多个处理器实施的方法,所述方法包括:在计算设备处接收用于调用自动助理的用户输入,所述自动助理能够经由所述计算设备访问,其中,所述计算设备包括第一输入模态和第二输入模态,并且在所述第一输入模态处接收所述用户输入;由所述自动助理确定是否使所述计算设备渲染所述第二输入模态是激活的以用于接收来自所述用户的单独输入的指示;以及
当所述自动助理确定不渲染所述第二输入模态是激活的以用于接收来自所述用户的所述单独输入的指示时:响应于所述用户输入,使所述计算设备渲染所述第一输入模态是激活的以用于接收来自所述用户的附加输入的单独指示,其中,所述自动助理能够经由在所述第一输入模态处的直接物理接触来接收所述附加输入。14.根据权利要求13所述的方法,进一步包括:当所述自动助理确定渲染所述第二输入模态是激活的以用于接收来自所述用户的进一步输入的指示时:响应于所述用户输入,使所述计算设备渲染所述第二输入模态是激活的以用于接收来自所述用户的所述单独输入的指示,其中,所述自动助理能够经由对所述第二输入模态的间接物理输入来接收所述单独输入。15.根据权利要求14所述的方法,其中,所述直接物理接触包括使用用户的肢体执行的触摸输入,以及其中,所述间接物理输入包括由所述用户经由在距所述计算设备非零距离处发生的物理运动执行的非触摸输入。16.一种由一个或多个处理器实施的方法,所述方法包括:在计算设备处接收用于调用自动助理的用户输入,所述自动助理能够经由所述计算设备访问,其中,所述计算设备包括第一输入模态和不同于所述第一输入模态的第二输入模态;处理交互数据,所述交互数据指示用户在特定情形中采用所述计算设备的所述第一输入模态用于向所述自动助理提供输入的频率;基于所述交互数据确定所述频率是否满足一个或多个阈值,所述一个或多个阈值用于指示一个或多个特定输入模态能够用于接收来自所述用户的进一步输入;以及当所述频率满足用于指示所述第一输入模态能够用于接收来自所述用户的进一步输入的所述一个或多个阈值中的阈值时:使所述计算设备渲染对应于所述第一输入模态的图形用户接口gui元素。17.根据权利要求16所述的方法,进一步包括:当所述频率满足用于指示所述第一输入模态和所述第二输入模态能够用于接收来自所述用户的附加输入的所述一个或多个阈值中的不同阈值时:使所述计算设备并发地渲染所述gui元素和附加gui元素,其中,所述附加gui元素对应于所述第二输入模态。18.根据权利要求17所述的方法,其中,使所述计算设备并发地渲染所述gui元素和所述附加gui元素包括:使所述gui元素渲染为能够接收来自所述用户对所述自动助理的进一步输入的键盘的一部分。19.根据权利要求18所述的方法,其中,所述附加gui元素指示所述计算设备的音频接口已响应于所述用户输入而被初始化。
20.根据权利要求16至18中任一项所述的方法,其中,所述特定情形包括正在所述计算设备的显示接口的前台处渲染特定应用的情形。21.一种包括指令的计算机程序,当所述指令由计算系统的一个或多个处理器运行时,使所述计算系统执行前述权利要求中任一项所述的方法。22.一种计算设备,所述计算设备被配置成执行权利要求1至20中任一项所述的方法。

技术总结
本文所阐述的实施方式涉及一种自动助理,该自动助理能够适应用户可能以经由非默认接口与该自动助理交互的意图来调用自动助理的情形。例如,在一些实例中,用户可以通过选择可选择的GUI元素来调用自动助理。作为响应,自动助理能够确定,在当前场境中,口语话语可能不适合用于提供给自动助理。基于该确定,自动助理能够使键盘接口渲染和/或初始化以用于接收来自用户的键入输入。如果用户随后改变场境,自动助理能够确定话音输入现在适合用于用户输入,并响应于用户在随后的场境中提供调用输入而初始化音频接口。入而初始化音频接口。入而初始化音频接口。


技术研发人员:任根洙 陈智菟 布伦丹
受保护的技术使用者:谷歌有限责任公司
技术研发日:2021.12.14
技术公布日:2023/9/23
版权声明

本文仅代表作者观点,不代表航家之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)

航空之家 https://www.aerohome.com.cn/

航空商城 https://mall.aerohome.com.cn/

航空资讯 https://news.aerohome.com.cn/

分享:

扫一扫在手机阅读、分享本文

评论

相关推荐