交互平台在信息界面的交互方法、系统和电子设备与流程
未命名
07-30
阅读:78
评论:0

1.本发明涉及信息交互领域,尤其涉及一种交互平台在信息界面的交互方法、系统和电子设备。
背景技术:
2.交互平台是用来训练、验证交互机器人的交互性能的软件工具。交互机器人,是通过与特定的环境交互来完成一定的任务目标的自动系统,常见的类型包括实体机器人、电子游戏机器人、文字游戏机器人等。交互平台提供一系列仿真的交互环境及任务目标,让机器人与之交互以完成任务,并在该交互过程中计算一些分数来评估机器人的性能。这些分数同样可以用作“回报”,以采用强化学习算法训练、优化机器人的交互策略,从而提高其性能。上述交互平台通常会使用实体机器人仿真平台、基于电子游戏的交互接口以及基于文字游戏的交互接口实现。具体的:
3.实体机器人仿真平台,是用来为研究控制实体机器人提供一套数字仿真平台,可以极大降低训练、验证的成本,同时可以避免,研究初期尚不成熟的控制算法在现实中造成严重的破坏性后果。
4.基于电子游戏的交互接口,是通常用来训练、测试的游戏机器人。游戏机器人的交互目标是赢下一场游戏或在游戏中取得更高的分数。电子游戏接口需要为之提供电子游戏界面的图像作为观测。这些观测图像通常具有复杂的图形、色彩特征,需要游戏机器人具有强大的理解视觉信息的能力才能实现最优交互。
5.基于文字游戏的交互接口,是通常用来训练、测试文字的游戏机器人。文字游戏指,游戏系统会通过自然语文描述某个场景,人类或机器人玩家需要根据其描述想象环境,决定要采取的动作并同样以自然语文将之表述出来,通过多轮类似的交互,最终成功推进剧情或达成某个任务目标。这需要机器人玩家具有强大的理解自然语言,及根据自然语言想象的能力,方能赢得游戏。
6.在实现本发明过程中,发明人发现相关技术中至少存在如下问题:
7.上述交互平台为针对实体机器人、电子游戏或文字游戏机器人设计,其提供的信息主要是视觉或文字的单模态信号,或传感器信号等结构化数据,与包含复杂多模态内容与空间结构的信息界面相差较大,不适用于训练、验证信息界面的交互机器人。
8.信息界面包含丰富的文字内容作为主体,同时有各种多媒体内容穿插其中,并以多种渲染样式和空间结构将其组织成一张页面。这要求界面交互机器人在具备强大的理解自然语言的能力的同时,还要具备一定的理解空间结构、渲染样式与多模态内容的能力,然而现有的信息界面交互平台的应用适用性与任务扩展能力受限,仅能支持少数特定应用程序与任务集,难以迁移到新的应用环境或扩展到新的任务上。
技术实现要素:
9.为了至少解决现有技术中信息界面交互平台的应用适用性与任务扩展能力不足
的问题。第一方面,本发明实施例提供一种交互平台在信息界面的交互方法,包括:
10.利用交互平台的仿真器捕获操作系统对于输入动作的系统反馈,所述仿真器将对所述系统反馈的观测结果发送至交互机器人以及所述交互平台内的任务管理器;
11.所述任务管理器确定所述观测结果中与所述动作对应的事件槽,并生成与所述事件槽连接的事件树,将与所述事件槽连接的事件树发送至所述交互机器人,其中,所述事件树由作为叶子节点的事件源以及作为中间节点的组合算子构成,所述事件源与所述系统反馈相关,所述组合算子用于组合各事件源的事件逻辑;
12.所述仿真器接收所述交互机器人基于所述观测结果以及与所述事件槽连接的事件树确定出的决策动作,将所述决策动作输入至所述操作系统,以完成在所述操作系统内信息界面的训练与验证。
13.第二方面,本发明实施例提供一种交互平台在信息界面的交互系统,包括:
14.观测程序模块,用于利用交互平台的仿真器捕获操作系统对于输入动作的系统反馈,所述仿真器将对所述系统反馈的观测结果发送至交互机器人以及所述交互平台内的任务管理器;
15.事件确定程序模块,用于所述任务管理器确定所述观测结果中与所述动作对应的事件槽,并生成与所述事件槽连接的事件树,将与所述事件槽连接的事件树发送至所述交互机器人,其中,所述事件树由作为叶子节点的事件源以及作为中间节点的组合算子构成,所述事件源与所述系统反馈相关,所述组合算子用于组合各事件源的事件逻辑;
16.交互程序模块,用于所述仿真器接收所述交互机器人基于所述观测结果以及与所述事件槽连接的事件树确定出的决策动作,将所述决策动作输入至所述操作系统,以完成在所述操作系统内信息界面的训练与验证。
17.第三方面,本发明实施例提供一种用于信息界面的交互平台,包括:
18.仿真器,用于利用交互平台的仿真器捕获操作系统对于输入动作的系统反馈,所述仿真器将对所述系统反馈的观测结果发送至交互机器人以及所述交互平台内的任务管理器,接收所述交互机器人确定出的决策动作,将所述决策动作输入至所述操作系统;
19.任务管理器,用于确定所述观测结果中与所述动作对应的事件槽,并生成与所述事件槽连接的事件树,将与所述事件槽连接的事件树发送至所述交互机器人,其中,所述事件树由作为叶子节点的事件源以及作为中间节点的组合算子构成,所述事件源与所述系统反馈相关,所述组合算子用于组合各事件源的事件逻辑。
20.第四方面,提供一种电子设备,其包括:至少一个处理器,以及与所述至少一个处理器通信连接的存储器,其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行本发明任一实施例的交互平台在信息界面的交互方法的步骤。
21.第五方面,本发明实施例提供一种存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现本发明任一实施例的交互平台在信息界面的交互方法的步骤。
22.本发明实施例的有益效果在于:利用事件树抽象化操作系统中的动作,以支持多种系统反馈,并支持组合出复杂的事件逻辑,提高了交互平台对各种应用程序的适用能力,并且任务管理器生成的事件树可以通过配置文件轻松更改、替换任务配置,提高了交互平
台扩展新任务的能力,并且不会给通过配置文件扩展新任务带来明显的额外难度,兼顾了应用适用性与任务扩展能力。
附图说明
23.为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
24.图1是本发明一实施例提供的一种交互平台在信息界面的交互方法的流程图;
25.图2是本发明一实施例提供的一种交互平台在信息界面的交互方法的交互平台在系统整体中的框架图;
26.图3是本发明一实施例提供的一种交互平台在信息界面的交互方法的事件树示意图;
27.图4是本发明一实施例提供的一种交互平台在信息界面的交互方法的基于llm的代理框架示意图;
28.图5是本发明一实施例提供的一种交互平台在信息界面的交互方法的映射规则示意图;
29.图6是本发明一实施例提供的一种交互平台在信息界面的交互方法的测试结果示意图;
30.图7是本发明一实施例提供的一种交互平台在信息界面的交互系统的结构示意图;
31.图8为本发明一实施例提供的一种交互平台在信息界面的交互的电子设备的实施例的结构示意图。
具体实施方式
32.为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
33.如图1所示为本发明一实施例提供的一种交互平台在信息界面的交互方法的流程图,包括如下步骤:
34.s11:利用交互平台的仿真器捕获操作系统对于输入动作的系统反馈,所述仿真器将对所述系统反馈的观测结果发送至交互机器人以及所述交互平台内的任务管理器;
35.s12:所述任务管理器确定所述观测结果中与所述动作对应的事件槽,并生成与所述事件槽连接的事件树,将与所述事件槽连接的事件树发送至所述交互机器人,其中,所述事件树由作为叶子节点的事件源以及作为中间节点的组合算子构成,所述事件源与所述系统反馈相关,所述组合算子用于组合各事件源的事件逻辑;
36.s13:所述仿真器接收所述交互机器人基于所述观测结果以及与所述事件槽连接的事件树确定出的决策动作,将所述决策动作输入至所述操作系统,以完成在所述操作系
统内信息界面的训练与验证。
37.在本实施方式中,考虑到现有技术要提升交互平台扩展到信息界面的新任务的能力,需要将与特定任务有关的各种交互事件配置与交互平台的代码解耦,将任务事件配置移到支持插拔替换的配置文件中。但是,配置文件的表达能力相对于编程代码比较受限,因此也限制了其表示的任务事件逻辑的复杂性。考虑到上述缺陷,本方法改进了交互平台以用于信息界面,并利用此交互平台在信息界面进行交互以解决上述问题。
38.本方法的用于信息界面的交互平台,包括:
39.仿真器,用于利用交互平台的仿真器捕获操作系统对于输入动作的系统反馈,所述仿真器将对所述系统反馈的观测结果发送至交互机器人以及所述交互平台内的任务管理器,接收所述交互机器人确定出的决策动作,将所述决策动作输入至所述操作系统;
40.任务管理器,用于确定所述观测结果中与所述动作对应的事件槽,并生成与所述事件槽连接的事件树,将与所述事件槽连接的事件树发送至所述交互机器人,其中,所述事件树由作为叶子节点的事件源以及作为中间节点的组合算子构成,所述事件源与所述系统反馈相关,所述组合算子用于组合各事件源的事件逻辑。
41.如图2所示为本方法交互平台的结构,其由两个组件组成:仿真器和任务管理器。由仿真器来管理连接的操作系统(如图中所示举例的安卓系统)的状态,捕捉系统反馈,并将其系统反馈提供给代理及任务管理器。对于仿真器,它是安卓模拟器的包装器。
42.任务管理器通过仿真器接收系统反馈,并根据任务配置管理任务的交互状态。任务管理器根据仿真器呈递的观测结果,解析出回报、交互终结等任务事件并反馈给交互机器人。交互机器人会从仿真器这里获得对操作系统的观测结果,从任务管理器这里获得任务事件信息,再据之决策要采取的动作发送回仿真器,以对安卓系统进行下一步的动作操作。
43.对于步骤s11,以安卓系统为例(若其他系统的权限下放,也可以选用其他操作系统),利用交互平台的仿真器来捕获安卓系统对于输入动作的系统反馈。其中,所述动作包括:在操作系统内观察空间和/或动作空间的动作,所述观察空间包括:屏幕截图、屏幕方向、时间增量以及xml格式的视图层次结构,所述动作空间包括:触摸动作、抬起动作以及基于安卓调试桥的动作。
44.具体的,本方法交互平台的观察空间包括四个部分:屏幕截图、屏幕方向、时间增量和可选的xml格式的vh(view hierarchy,视图层次结构)。视图层次结构是android屏幕的事件树描述,就像网页的html dom(文档对象模型)一样。尽管vh具有一系列限制,例如冗余和不可见的节点,或来自多个敏感应用程序的空对象,但在许多情况下,vh仍然可以提供关键信息。要注意的是,本方法发现,从adb(android debug bridge,安卓调试桥)获得vh序列化比从仿真器的grpc接口获得截图花费的时间明显更长。因此,默认情况下关闭vh输出以保证交互效率。除了上述观察之外,全局任务描述也可用于语言条件交互的代理。代理应该与环境交互以完成任务目标。
45.本方法交互平台的动作空间包括三种类型的动作:touch、lift和text。touch表示触摸屏幕上的特定点,lift表示从屏幕上抬起“手指”。点坐标从屏幕左上方测量,并归一化为[0,1]。text动作将通过adb输入预定义词汇表中的标记。
[0046]
除了上述观察空间和动作空间之外,还提供了一套环境包装器来定制观察空间和
行动空间。例如,vh包装器可用于将vh元素式交互转换为基本动作的组合,或者离散化包装器将网格化屏幕,以便可以使用交互平台训练离散动作空间的代理。
[0047]
作为一种实施方式,所述系统反馈包括:所述操作系统的屏幕图像、视图框架以及运行日志。具体的,例如,在操作系统的动作空间进行了touch触摸操作,此时系统反馈的屏幕图像发生了触摸反馈;视图框架可以按照mvc模式绘图,其中,mvc模式绘图包括数据的模型(model),交互界面的视图(view),以及再界面上的操作控制(controller);并且也在运行日志中记录了该touch触摸操作。
[0048]
最后,仿真器将收集各输入动作的系统反馈,将各动作的系统反馈整理、集合为仿真器对于各动作的观测结果,并将观测结果发送给交互机器人以及所述交互平台内的任务管理器(若只有单个动作的系统反馈则可以直接将系统反馈进行发送)。
[0049]
对于步骤s12,任务管理器的核心可以视为事件系统。通过事件系统,任务管理器从仿真器发送的观测结果中解析可以感知这一系列动作所触发的任务事件。事件系统被设计为一组事件槽,其中,事件槽连接有虚拟事件处理程序的专用树。
[0050]
作为一种实施方式,所述事件槽的类别包括:回报事件槽、步骤指令事件槽以及交互终结事件槽。在本实施方式中,所谓的“事件槽”是对固定类型的任务事件的抽象化表示,即回报、步骤指令和事件结束。事件树由两种类型的节点组成:作为叶节点的事件源和作为内部节点的两个组合算子and和or。所述事件树由所述任务管理器基于与所述交互平台代码解耦的配置文件生成,以便于所述训练与验证任务的扩展。在本实施方式中,交互平台的事件树是任务管理器根据配置文件在运行时生成的,而非静态编码于平台中,因此扩展、切换新任务非常方便。
[0051]
每类事件源都和特定某类的后台系统反馈关联。其中,视图框架和运行日志是平台内置支持的,而屏幕文本与屏幕图标则可以通过外挂一套文字、图标识别系统来启用。组合算子用来基于单个的虚拟事件组合出更复杂的事件逻辑。与仅支持日志事件的现有交互平台相比,本方法采用的多种类型操作系统反馈的能力大大提高了交互平台的适应性。组合算子被实现为组合多个虚拟事件以组装更复杂的逻辑。此外,还支持将虚拟事件声明为另一个事件的前提条件,以正确处理多步骤任务的步骤顺序。示例的事件树如图3所示,是一棵连接在回报事件槽上的树,其关联的事件源共有七个三类。黑实线显示的是信号与数据自底向上汇聚的流,灰断线展示的则是两个虚拟事件间的时序依赖关系,即右侧的or事件需要在左侧的or事件触发过后才能触发。在每个交互步骤之后,信号和数据从叶逐级聚合到根。在聚合期间,只有先决条件事件被触发的事件才会处于活动状态。每一步交互后,信号和数据都会从事件树的叶子节点向根节点传递,并最终呈递给事件槽,形成要反馈给交互机器人的信号。在任务管理器确定出与事件槽连接的事件树之后,将与事件槽连接的事件树发送到交互机器人中以供交互机器人训练和验证。
[0052]
对于步骤s13,由于在任务管理器的事件槽和事件树有着更丰富的信息,并且事件树是任务管理器实时可更改的配置文件在运行时生成的,这也就使得发给交互机器人的事件树所代表的任务是可以随时更新的。交互机器人根据观测结果以及事件槽连接的事件树以确定出对于安卓系统的决策动作。交互机器人将决策动作发送给仿真器来控制安卓系统,然后安卓系统又一次接收到“输入动作”,进行下一次在信息界面的交互,这样通过不断的交互实现了在操作系统内信息界面的训练与验证。
[0053]
本方法进一步的发现了,许多信息应用程序通过互联网提供动态内容。这一特性给在操作系统上的应用程序上培训和评估代理带来了额外的困难,因为应用程序中的内容会根据不同的时间甚至使用历史而变化。因此,任务提供商必须统一,以便交互进行一致的培训和评估。例如,某些应用程序的推荐,不同的用户或者不同的时间或者不同的搜索记录,给用户推荐的内容都是不一样的。由于推荐的不同,也就出现了上述说到的动态内容的问题。然而,大多数应用程序对网络连接采用ssl(secure sockets layer,安全套接层协议),并且不信任ssl重放所需的mitm(man-in-the-middle,中间人)代理的自添加证书。为了解决这个问题,本方法对应用程序进行模拟系统证书、运行时验证器替换和apk重新打包的处理。
[0054]
通过上述实施方式可以看出,利用事件树抽象化操作系统中的动作,以支持多种系统反馈,并支持组合出复杂的事件逻辑,提高了交互平台对各种应用程序的适用能力,并且任务管理器生成的事件树可以通过配置文件轻松更改、替换任务配置,提高了交互平台扩展新任务的能力,并且不会给通过配置文件扩展新任务带来明显的额外难度,兼顾了应用适用性与任务扩展能力。
[0055]
对本方法进行具体实验说明,为了演示本方法交互平台的使用,构建了基于wikihow应用程序的演示任务集。其中,wikihow是一个关于各种现实生活技巧的协作wiki网站,有超过34万篇在线文章。它花费了太多的时间来下载所有可用的文章,因此本方法只从网站缓存了大约10万篇。由于观察到应用程序中的页面与浏览器中的页面不同,本方法检查了各种类型页面的http请求头,并模拟了应用程序请求以获得正确的内容。考虑到用户总是从主页浏览应用程序,爬虫也从主页开始,以广度优先顺序访问链接。为了简单起见,省略了wikihow外部的链接。所有链接(包括所有类型的媒体)都可以访问和存储,以便完美回放。最后,转储856045个资源,其中有107448个不同的页面。这些网站资源总计占用约88gib。除了静态资源之外,几乎不可能遍历所有可能的关键字组合来转储搜索结果页面。因此,采用了开源信息检索引擎pyserini来模拟wikihow搜索引擎,并在回放过程中根据wikihow模板动态构建虚假搜索页面。
[0056]
wikihow由若干类型的文章网页、作者信息、类别列表等组成。根据这些网页的特点,设计了一套单页任务定义模板。页面特定的关键字被制作为模板中的槽,并且可以通过前面提到的模板工具包使用关键字配置文件实例化模板。然后,根据可访问性约束顺序地组合单个页面任务,以确保下一个目标页面直接引用上一个目标页。通过这种方法,大约5000个任务被采样。
[0057]
对于本方法的实验,利用llm(large language model,大型语言模型)对收集的wikihow任务集的有效性进行评估。基于llm的代理的框架如图4所示。来自观察结果与语言条件任务信息一起被馈送到llm中,以决定当前步骤的适当动作。图中的文字为(上述过程译为:任务:搜索一篇文章,学习如何隐藏仪表。然后,访问文章“如何隐藏仪表”。屏幕:《button alt=“打开导航抽屉”id=“0”可点击=“true”》《/button》《img class=“wikihow工具栏徽标”id=“1”可点击=“false”》《img class=“搜索按钮”alt=“搜索”id=“2”可点击=“true”》《div class=“webview”id=“3”可点击=“true”》《/div》《div class=“statusbarbackground”id=“4”可点击=“false”》《/div》。说明:搜索一篇文章,学习如何隐藏仪表。动作历史)。具体而言,输入包括任务描述、屏幕表示、当前步骤指令和动作历史。
选择html而不是原始视图层次结构是因为llm更熟悉html,因为其训练语料库中存在html代码。根据图5所示的映射规则,所有可见叶vh节点都被转换为html元素。vh节点的文本财产被转换成html元素的文本内容或输入元素的值属性。
[0058]
在实验中,选择两个交互步骤,并对其进行注释,以实现双热点提示设置。在收集的wikihow任务集中,只有70个任务被评估为更经济的成本。如果步骤数达到15,交互将被视为失败,因为根据高级人体测试,交互迭代的正常次数大约为5。结果如图6所示。可以看出基于llm的模型完美地完成了大多数任务,这证明了llm理解和匹配具有简化结构文本屏幕表示的人类指令的强大能力。
[0059]
要注意的是,基于llm的代理有时会在某些步骤中卡住,并重复一些错误的操作。然而,它可能会成功地走出循环,并在几个循环步骤后做出正确的决定。删除操作历史输入后,代理更频繁地陷入错误操作的循环中,并且在相同输入的此设置下,代理似乎不可能摆脱它。如图6所示,在消融设置下,平均步数增加,平均回报减少,成功率显著下降。使用这种纯文本表示,基于llm的代理很难检索到任何有效信息,并且很少能够完成任务。这可以归因于html语法以结构化的方式呈现屏幕信息,这有助于llm的代理全面理解屏幕。
[0060]
由于搜索关键字不正确,基于llm的代理在多个任务上失败。基于llm的代理总是重复最初选择的关键字,从不尝试另一组,这表明当前基于llm代理探索和采用交互反馈的能力较弱,应设计更有效的反馈机制以提高llm的性能并开发其潜力。
[0061]
如图7所示为本发明一实施例提供的一种交互平台在信息界面的交互系统的结构示意图,该系统可执行上述任意实施例所述的交互平台在信息界面的交互方法,并配置在终端中。
[0062]
本实施例提供的一种交互平台在信息界面的交互系统10包括:观测程序模块11,事件确定程序模块12和交互程序模块13。
[0063]
其中,观测程序模块11用于利用交互平台的仿真器捕获操作系统对于输入动作的系统反馈,所述仿真器将对所述系统反馈的观测结果发送至交互机器人以及所述交互平台内的任务管理器;事件确定程序模块12用于所述任务管理器确定所述观测结果中与所述动作对应的事件槽,并生成与所述事件槽连接的事件树,将与所述事件槽连接的事件树发送至所述交互机器人,其中,所述事件树由作为叶子节点的事件源以及作为中间节点的组合算子构成,所述事件源与所述系统反馈相关,所述组合算子用于组合各事件源的事件逻辑;交互程序模块13用于所述仿真器接收所述交互机器人基于所述观测结果以及与所述事件槽连接的事件树确定出的决策动作,将所述决策动作输入至所述操作系统,以完成在所述操作系统内信息界面的训练与验证。
[0064]
本发明实施例还提供了一种非易失性计算机存储介质,计算机存储介质存储有计算机可执行指令,该计算机可执行指令可执行上述任意方法实施例中的交互平台在信息界面的交互方法;
[0065]
作为一种实施方式,本发明的非易失性计算机存储介质存储有计算机可执行指令,计算机可执行指令设置为:
[0066]
利用交互平台的仿真器捕获操作系统对于输入动作的系统反馈,所述仿真器将对所述系统反馈的观测结果发送至交互机器人以及所述交互平台内的任务管理器;
[0067]
所述任务管理器确定所述观测结果中与所述动作对应的事件槽,并生成与所述事
件槽连接的事件树,将与所述事件槽连接的事件树发送至所述交互机器人,其中,所述事件树由作为叶子节点的事件源以及作为中间节点的组合算子构成,所述事件源与所述系统反馈相关,所述组合算子用于组合各事件源的事件逻辑;
[0068]
所述仿真器接收所述交互机器人基于所述观测结果以及与所述事件槽连接的事件树确定出的决策动作,将所述决策动作输入至所述操作系统,以完成在所述操作系统内信息界面的训练与验证。
[0069]
作为一种非易失性计算机可读存储介质,可用于存储非易失性软件程序、非易失性计算机可执行程序以及模块,如本发明实施例中的方法对应的程序指令/模块。一个或者多个程序指令存储在非易失性计算机可读存储介质中,当被处理器执行时,执行上述任意方法实施例中的交互平台在信息界面的交互方法。
[0070]
图8是本技术另一实施例提供的交互平台在信息界面的交互方法的电子设备的硬件结构示意图,如图8所示,该设备包括:
[0071]
一个或多个处理器810以及存储器820,图8中以一个处理器810为例。交互平台在信息界面的交互方法的设备还可以包括:输入装置830和输出装置840。
[0072]
处理器810、存储器820、输入装置830和输出装置840可以通过总线或者其他方式连接,图8中以通过总线连接为例。
[0073]
存储器820作为一种非易失性计算机可读存储介质,可用于存储非易失性软件程序、非易失性计算机可执行程序以及模块,如本技术实施例中的交互平台在信息界面的交互方法对应的程序指令/模块。处理器810通过运行存储在存储器820中的非易失性软件程序、指令以及模块,从而执行服务器的各种功能应用以及数据处理,即实现上述方法实施例交互平台在信息界面的交互方法。
[0074]
存储器820可以包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需要的应用程序;存储数据区可存储数据等。此外,存储器820可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实施例中,存储器820可选包括相对于处理器810远程设置的存储器,这些远程存储器可以通过网络连接至移动装置。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
[0075]
输入装置830可接收输入的数字或字符信息。输出装置840可包括显示屏等显示设备。
[0076]
所述一个或者多个模块存储在所述存储器820中,当被所述一个或者多个处理器810执行时,执行上述任意方法实施例中的交互平台在信息界面的交互方法。
[0077]
上述产品可执行本技术实施例所提供的方法,具备执行方法相应的功能模块和有益效果。未在本实施例中详尽描述的技术细节,可参见本技术实施例所提供的方法。
[0078]
非易失性计算机可读存储介质可以包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需要的应用程序;存储数据区可存储根据装置的使用所创建的数据等。此外,非易失性计算机可读存储介质可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实施例中,非易失性计算机可读存储介质可选包括相对于处理器远程设置的存储器,这些远程存储器可以通过网络连接至装置。上述网络的实例包括但不限于互联
网、企业内部网、局域网、移动通信网及其组合。
[0079]
本发明实施例还提供一种电子设备,其包括:至少一个处理器,以及与所述至少一个处理器通信连接的存储器,其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行本发明任一实施例的交互平台在信息界面的交互方法的步骤。
[0080]
本技术实施例的电子设备以多种形式存在,包括但不限于:
[0081]
(1)移动通信设备:这类设备的特点是具备移动通信功能,并且以提供话音、数据通信为主要目标。这类终端包括:智能手机、多媒体手机、功能性手机,以及低端手机等。
[0082]
(2)超移动个人计算机设备:这类设备属于个人计算机的范畴,有计算和处理功能,一般也具备移动上网特性。这类终端包括:pda、mid和umpc设备等,例如平板电脑。
[0083]
(3)便携式娱乐设备:这类设备可以显示和播放多媒体内容。该类设备包括:音频、视频播放器,掌上游戏机,电子书,以及智能玩具和便携式车载导航设备。
[0084]
(4)其他具有数据处理功能的电子装置。
[0085]
在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”,不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括
……”
限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
[0086]
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
[0087]
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如rom/ram、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
[0088]
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
技术特征:
1.一种交互平台在信息界面的交互方法,包括:利用交互平台的仿真器捕获操作系统对于输入动作的系统反馈,所述仿真器将对所述系统反馈的观测结果发送至交互机器人以及所述交互平台内的任务管理器;所述任务管理器确定所述观测结果中与所述动作对应的事件槽,并生成与所述事件槽连接的事件树,将与所述事件槽连接的事件树发送至所述交互机器人,其中,所述事件树由作为叶子节点的事件源以及作为中间节点的组合算子构成,所述事件源与所述系统反馈相关,所述组合算子用于组合各事件源的事件逻辑;所述仿真器接收所述交互机器人基于所述观测结果以及与所述事件槽连接的事件树确定出的决策动作,将所述决策动作输入至所述操作系统,以完成在所述操作系统内信息界面的训练与验证。2.根据权利要求1所述的方法,其中,所述事件树由所述任务管理器基于与所述交互平台代码解耦的配置文件生成,以便于所述训练与验证任务的扩展。3.根据权利要求1所述的方法,其中,所述动作包括:在操作系统内观察空间和/或动作空间的动作,所述观察空间包括:屏幕截图、屏幕方向、时间增量以及xml格式的视图层次结构,所述动作空间包括:触摸动作、抬起动作以及基于安卓调试桥的动作。4.根据权利要求1所述的方法,其中,所述事件槽的类别包括:回报事件槽、步骤指令事件槽以及交互终结事件槽。5.根据权利要求1所述的方法,其中,所述系统反馈包括:所述操作系统的屏幕图像、视图框架以及运行日志。6.根据权利要求1所述的方法,其中,所述操作系统包括安卓操作系统。7.一种交互平台在信息界面的交互系统,包括:观测程序模块,用于利用交互平台的仿真器捕获操作系统对于输入动作的系统反馈,所述仿真器将对所述系统反馈的观测结果发送至交互机器人以及所述交互平台内的任务管理器;事件确定程序模块,用于所述任务管理器确定所述观测结果中与所述动作对应的事件槽,并生成与所述事件槽连接的事件树,将与所述事件槽连接的事件树发送至所述交互机器人,其中,所述事件树由作为叶子节点的事件源以及作为中间节点的组合算子构成,所述事件源与所述系统反馈相关,所述组合算子用于组合各事件源的事件逻辑;交互程序模块,用于所述仿真器接收所述交互机器人基于所述观测结果以及与所述事件槽连接的事件树确定出的决策动作,将所述决策动作输入至所述操作系统,以完成在所述操作系统内信息界面的训练与验证。8.一种用于信息界面的交互平台,包括:仿真器,用于利用交互平台的仿真器捕获操作系统对于输入动作的系统反馈,所述仿真器将对所述系统反馈的观测结果发送至交互机器人以及所述交互平台内的任务管理器,接收所述交互机器人确定出的决策动作,将所述决策动作输入至所述操作系统;任务管理器,用于确定所述观测结果中与所述动作对应的事件槽,并生成与所述事件槽连接的事件树,将与所述事件槽连接的事件树发送至所述交互机器人,其中,所述事件树由作为叶子节点的事件源以及作为中间节点的组合算子构成,所述事件源与所述系统反馈相关,所述组合算子用于组合各事件源的事件逻辑。
9.一种电子设备,其包括:至少一个处理器,以及与所述至少一个处理器通信连接的存储器,其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1-6中任一项所述方法的步骤。10.一种存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现权利要求1-6中任一项所述方法的步骤。
技术总结
本发明实施例提供一种交互平台在信息界面的交互方法、系统和电子设备。该方法包括:利用交互平台的仿真器捕获操作系统对于输入动作的系统反馈,仿真器将对系统反馈的观测结果发送至交互机器人以及交互平台内的任务管理器;任务管理器确定观测结果中与动作对应的事件槽,并生成与事件槽连接的事件树,将与事件槽连接的事件树发送至交互机器人;仿真器接收交互机器人基于观测结果以及与事件槽连接的事件树确定出的决策动作,将决策动作输入至操作系统。本发明实施例利用事件树抽象化操作系统中的动作,提高了交互平台对各种应用程序的适用能力,并且提高了交互平台扩展新任务的能力,兼顾了应用适用性与任务扩展能力。兼顾了应用适用性与任务扩展能力。兼顾了应用适用性与任务扩展能力。
技术研发人员:俞凯 陈露 张丹阳
受保护的技术使用者:思必驰科技股份有限公司
技术研发日:2023.03.20
技术公布日:2023/7/26
版权声明
本文仅代表作者观点,不代表航家之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)
航空之家 https://www.aerohome.com.cn/
飞机超市 https://mall.aerohome.com.cn/
航空资讯 https://news.aerohome.com.cn/