一种基于MR智能眼镜的内容交互方法与流程

未命名 10-26 阅读:51 评论:0

一种基于mr智能眼镜的内容交互方法
技术领域
1.本发明涉及智能交互技术领域,特别是一种基于mr智能眼镜的内容交互方法。


背景技术:

2.目前,业内常用的现有技术为,全息影像的解释,全息影像是指在机器(近眼显示设备、智能眼镜)生成的虚拟对象通过智能眼镜的光学显示器看到的虚拟影像。交互式世界包含真实内容(与物理环境中的真实对象相关联) 和虚拟内容的任何组合,在最普遍的意义上,修改现实技术可以产生这样一个互动的世界。ar技术和mr技术提供了交互式世界,其包括作为基础的物理环境的展示,其中添加了任何类型的虚拟对象。虚拟对象可以包括文本,图标,视频,图形用户界面演示,静态场景元素,动画角色等。v技术提供完全由虚拟内容组成的交互式世界。近眼显示设备是一款集成眼动追踪技术、脑电波感应技术、图像识别技术与近眼光学成像等技术的智能设备,未来它能够代替手机成为新一代智能计算终端设备。它可以帮助人们在日常生活中便利地解决许多问题,它将成为人们离不开的智能工具。
3.目前ar/vr智能眼镜的交互技术有手势识别、语音识别、眼动追踪、脑机接口、控制手柄这几种交互技术,其中眼动追踪是其使用过程中最重要的交互方式之一。当然眼动追踪交互方式具有移动选择快、隐私性强、消耗体力少、方便快捷等无可取代的优势。当通过注视目标一定时长、双目眨眼、单目眨眼、眼球运动方向(眼球往上看、往左右看等)等一系列的眼睛行为与近眼显示设备或者显示器中所呈现的虚拟影像进行交互时(交瓦包括选择确认、点击、翻页滑动、属性弹出等,包括但不限于上述交互行为)需要人在主观意识层面上付出巨大的认知和精力去协调眼睛对近眼显示设备界面的交互。以上的交互方式不像是在使用鼠标在点击左右键的时候,人的主观意识不需要过多的参与到操作中来,而目前的眼动交互行为,例如眼睛眨眼“点击确定”需要人付出人的一定主观精力,并且影响视线,因此单纯的眼动追踪交互方式不是一个好的人机交互方式。
4.为了在使用mr智能眼镜时,判断用户的状态和需求属性,对获取的图像内容进行处理,并确定相关应用、服务和信息的优先度排序,根据用户的需求属性和优先度排序,检索数据库获取答案或打开相关应用,并在光学显示器上呈现,我们设计了一种基于mr智能眼镜的内容交互方法。


技术实现要素:

5.鉴于上述和/或现有的一种基于mr智能眼镜的内容交互方法中存在的问题,提出了本发明。
6.因此,本发明所要解决的问题是:如何根据用户的需求属性和优先度排序检索数据库获取答案或打开相关应用,并在光学显示器上呈现。
7.为解决上述技术问题,本发明提供如下技术方案:一种基于mr智能眼镜的内容交互方法,包括,判断用户的状态和用户的需求属性,并获取视觉注视点区域的局部图像;对获取的图像内容进行人工智能处理,根据处理结果,对相关应用、服务和信息的通知图标进
行优先度排序;根据用户的需求属性和优先度排序,检索数据库获取答案或打开相关应用,并在光学显示器上呈现。
8.作为本发明所述一种基于mr智能眼镜的内容交互方法的一种优选方案,其中:所述判断用户的状态包括,根据用户的眼动行为和脑电判断用户状态,判断用户注意力是否集中在智能眼镜,若用户注意力集中在智能眼镜,则获取视觉注视点区域的局部图像,若用户注意力未集中在智能眼镜,则通过语音提示、震动方式提醒用户重新集中注意力,若用户注意力重新集中,则获取视觉注视点区域的局部图像。
9.作为本发明所述一种基于mr智能眼镜的内容交互方法的一种优选方案,其中:所述用户的眼动行为包括,通过眼动跟踪技术监测和记录眼睛在观察过程中的运动轨迹,根据分析运动轨迹,判断用户注意力是否集中在智能眼镜;所述脑电包括,通过分析脑电信号,获取关于用户的认知状态、情绪和注意力水平的信息,判断用户注意力是否集中在智能眼镜;所述用户的需求属性包括,根据面部肌肉指令识别和注视点位置的图像信息判断用户的需求属性。
10.作为本发明所述一种基于mr智能眼镜的内容交互方法的一种优选方案,其中:所述判断用户注意力是否集中在智能眼镜包括数据预处理、特征提取、特征选择与降维、注意力评估模型及注意力分数计算;所述数据预处理包括眼动数据预处理和脑电信号预处理;所述眼动数据预处理包括去除噪声和插值处理,去除噪声使用滤波器去除由于眼动仪器误差引起的异常注视点,插值处理对存在缺失的注视点数据使用插值方法填补空白区域;所述脑电信号预处理包括去除伪迹、运动伪迹去除及滤波,去除伪迹使用伪迹去除技术,去除头皮上的伪迹信号,运动伪迹去除使用陀螺仪进行运动伪迹修正,消除头部运动对脑电信号的影响,滤波使用滤波器以去除高频和低频噪声;所述特征提取包括眼动数据特征提取及脑电信号特征提取;所述眼动数据特征提取包括注视点密度和注视点持续时间,注视点密度包括,将屏幕划分为网格,计算每个网格内的注视点数量,注视点持续时间计算连续注视某个点的时长;所述脑电信号特征提取包括计算信号的均值、方差、斜度及峰度统计量;所述特征选择与降维包括,使用相关性分析和信息增益方法选择最具有区分性的眼动数据和脑电信号特征,使用主成分分析降维技术减少特征维度;所述注意力评估模型为训练支持向量机学习模型,将眼动数据和脑电信号的特征向量作为输入,将注意力状态作为目标标签进行训练;所述注意力分数计算根据注意力评估模型的决策函数,将特征向量输入到模型中,并得到一个注意力分数,根据输出的距离来表示用户集中注意力的程度。
11.作为本发明所述一种基于mr智能眼镜的内容交互方法的一种优选方案,其中:所述视觉注视点区域的局部图像包括,若用户注视智能眼镜所呈现的全息影像,则智能眼镜检测用户的注视方向和焦点位置,根据用户的注视点确定区域,发送指令给全息投影系统,调整全息内容突出用户的注视点,智能眼镜的摄像头会捕捉到用户注视的全息影像,进行人工智能处理;若用户注视现实场景中的真实对象,智能眼镜的摄像头捕捉用户注视的真实场景图像,利用注视点信息确定区域,并截取区域图像。
12.作为本发明所述一种基于mr智能眼镜的内容交互方法的一种优选方案,其中:所述人工智能处理包括图像识别、图像理解、功能分类及数据库匹配;所述图像识是指别使用深度学习算法和卷积神经网络进行目标检测和语义分割,结合迁移学习和自适应学习方法,通过对特定领域或任务进行微调;所述图像理解是指在进行多任务学习时,同时进行情
感识别、动作识别、属性识别多个任务,并进行关联,结合自然语言处理技术,将图像内容与文本语义进行对齐;所述功能分类是指引入层次化功能分类,将功能标签根据不同粒度进行组织和关联;所述数据库匹配包括,构建复杂的多模态数据库,将图像内容、语义信息、空间信息多个维度的数据进行关联和索引,运用图数据库技术,对数据库中的实体和关系进行建模和表达,入相似度搜索技术,处理大规模数据库中的高维数据。
13.作为本发明所述一种基于mr智能眼镜的内容交互方法的一种优选方案,其中:所述优先度根据图像处理结果中与应用、服务和信息相关的特征,通知图标的可识别程度、重要性和紧迫程度的影响,通过计算得到优先度的结果,表示为:
14.其中,为优先度,为图像处理结果中与应用、服务和信息相关的特征的权重因子,为图像处理结果中与通知图标可识别程度的权重因子,为图像处理结果中与通知图标的重要性的权重因子,为图像处理结果中与通知图标的紧迫程度的权重因子,为额外调整因子,、、、分别为对应于、、、的权重系数。
15.作为本发明所述一种基于mr智能眼镜的内容交互方法的一种优选方案,其中:所述在光学显示器上呈现包括,根据优先度排序结果,将应用、服务和信息在光学显示器上呈现,若多个内容不具有相同的优先度,则优先度排序为第一个的内容展示在光学显示器的正中心,优先度排序二到十的内容,按顺序在光学显示器两侧展示,若有多个内容具有相同的优先度,则在光学显示器两侧依次展示,用户通过语音指令和手势操作控制智能眼镜中的内容和功能。
16.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如上所述基于mr智能眼镜的内容交互方法的步骤。
17.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如上所述基于mr智能眼镜的内容交互方法的步骤。
18.本发明有益效果为:本发明提供的一种基于mr智能眼镜的内容交互方法通过判断用户的状态,包括注意力集中情况和认知状态,可以提供更准确的内容交互体验。通过人工智能处理图像内容,可以实现目标检测、语义分割等功能,提高对图像的理解和识别能力。根据优先度排序结果,将相关应用、服务和信息呈现在光学显示器上,使用户能够快速获取所需信息。数据预处理、特征提取和选择、注意力评估模型等步骤的引入,提高了注意力判断的准确性和效率。引入多模态数据库和相似度搜索技术,加速匹配和查询过程,提高了内容检索的效率。
附图说明
19.为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。其中:
20.图1为本发明第一个实施例提供的一种基于mr智能眼镜的内容交互方法的整体流
程图。
具体实施方式
21.为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合说明书附图对本发明的具体实施方式做详细的说明。
22.在下面的描述中阐述了很多具体细节以便于充分理解本发明,但是本发明还可以采用其他不同于在此描述的其它方式来实施,本领域技术人员可以在不违背本发明内涵的情况下做类似推广,因此本发明不受下面公开的具体实施例的限制。
23.其次,此处所称的“一个实施例”或“实施例”是指可包含于本发明至少一个实现方其中的特定特征、结构或特性。在本说明书中不同地方出现的“在一个实施例中”并非均指同一个实施例,也不是单独的或选择性的与其他实施例互相排斥的实施例。
24.实施例1
25.参照图1,为本发明第一个实施例,该实施例提供了一种基于mr智能眼镜的内容交互方法,包括:判断用户的状态和用户的需求属性,并获取视觉注视点区域的局部图像;对获取的图像内容进行人工智能处理,根据处理结果,对相关应用、服务和信息的通知图标进行优先度排序;根据用户的需求属性和优先度排序,检索数据库获取答案或打开相关应用,并在光学显示器上呈现。
26.步骤一、根据用户的眼动行为和脑电判断用户状态,判断用户注意力是否集中在智能眼镜,若用户注意力集中在智能眼镜,则获取视觉注视点区域的局部图像,若用户注意力未集中在智能眼镜,则通过语音提示、震动方式提醒用户重新集中注意力;用户的眼动行为包括,通过眼动跟踪技术监测和记录眼睛在观察过程中的运动轨迹,根据分析运动轨迹,判断用户注意力是否集中在智能眼镜;脑电包括,通过分析脑电信号,获取关于用户的认知状态、情绪和注意力水平的信息,判断用户注意力是否集中在智能眼镜。根据面部肌肉指令识别和注视点位置的图像信息判断用户的需求属性。
27.步骤二、通过数据预处理、特征提取、特征选择与降维、注意力评估模型及注意力分数计算判断注意力是否集中在智能眼镜。数据预处理包括眼动数据预处理和脑电信号预处理;眼动数据预处理包括去除噪声和插值处理;注视点的坐标为(x1, y1),(x2, y2),...,(xn, yn)去除噪声使用滤波器去除由于眼动仪器误差引起的异常注视点;插值处理对存在缺失的注视点数据使用插值方法填补空白区域。脑电信号预处理包括去除伪迹、运动伪迹去除及滤波,我们有一段脑电图(eeg)数据;去除伪迹使用伪迹去除技术,例如平均参考、公共空间模式,去除头皮上的伪迹信号;运动伪迹去除使用陀螺仪进行运动伪迹修正,消除头部运动对脑电信号的影响;滤波使用滤波器以去除高频和低频噪声。
28.特征提取包括眼动数据特征提取及脑电信号特征提取;眼动数据特征提取包括注视点密度和注视点持续时间;注视点密度包括,将屏幕划分为网格,计算每个网格内的注视点数量;注视点持续时间计算连续注视某个点的时长。脑电信号特征提取包括计算信号的均值、方差、斜度、峰度等统计量。
29.特征选择与降维包括,使用相关性分析、信息增益方法选择最具有区分性的眼动数据和脑电信号特征,使用主成分分析降维技术减少特征维度。
30.注意力评估模型为训练支持向量机学习模型,将眼动数据和脑电信号的特征向量
作为输入,将注意力状态作为目标标签进行训练。
31.注意力分数计算根据注意力评估模型的决策函数,将特征向量输入到模型中,并得到一个注意力分数,根据输出的距离来表示用户集中注意力的程度。决策函数表示为:
[0032][0033]
其中,为超平面的法向量,表示特征空间中的权重,为输入特征向量,为偏置项,为常数,决定了超平面与原点之间的距离。
[0034]
步骤三、若用户注视智能眼镜所呈现的全息影像,则智能眼镜检测用户的注视方向和焦点位置,根据用户的注视点确定区域,发送指令给全息投影系统,调整全息内容以突出或交互用户的注视点,例如,可以通过变化投影的明暗度、颜色或动态效果来引起用户的注意或提供反馈。同时,智能眼镜的摄像头会捕捉到用户注视的全息影像,并将其发送至计算机系统内部进行处理。这包括截图、图像增强、目标识别等操作。
[0035]
若用户注视现实场景中的真实对象,智能眼镜的摄像头捕捉用户注视的真实场景图像,发送至计算机系统内部,计算机系统利用注视点信息确定区域,并截取该区域的图像。
[0036]
智能眼镜可以通过显示相关的信息、提供语音指引或触发特定操作来与用户交互。
[0037]
步骤四、人工智能处理包括图像识别、图像理解、功能分类及数据库匹配;图像识别是指使用深度学习算法和卷积神经网络进行目标检测和语义分割,以实现精确的物体定位和像素级别的分割结果,结合迁移学习和自适应学习方法,通过对特定领域或任务进行微调,提高模型在特定场景下的准确性和泛化能力。图像理解是指在进行多任务学习时,同时进行情感识别、动作识别、属性识别等多个任务,并进行关联,提供更综合和全面的图像理解功能。结合自然语言处理技术,将图像内容与文本语义进行对齐,从而实现更丰富的语义理解和推断,例如生成图像描述或回答与图像相关的问题。功能分类是指引入层次化功能分类,将功能标签根据不同粒度进行组织和关联;例如,将人脸识别细分为性别识别、年龄识别、情感识别等子任务,并将它们与主任务进行整合。数据库匹配包括,构建复杂的多模态数据库,将图像内容、语义信息、空间信息等多个维度的数据进行关联和索引;运用图数据库技术,对数据库中的实体和关系进行建模和表达,实现高效的匹配和查询;引入相似度搜索技术,处理大规模数据库中的高维数据,并加速匹配过程。
[0038]
步骤五、优先度根据图像处理结果中与应用、服务和信息相关的特征,通知图标的可识别程度、重要性和紧迫程度的影响,通过计算得到优先度的结果,表示为:
[0039]
其中,为优先度,为图像处理结果中与应用、服务和信息相关的特征的权重因子,为图像处理结果中与通知图标可识别程度的权重因子,为图像处理结果中与通知图标的重要性的权重因子,为图像处理结果中与通知图标的紧迫程度的权重因子,为额外调整因子,、、、分别为对应于、、、的权重系数,表示不同特征的相对重要性。
[0040]
步骤六、根据优先度排序结果,将应用、服务和信息在光学显示器上呈现,若多个
内容不具有相同的优先度,则优先度排序为第一个的内容展示在光学显示器的正中心,优先度排序二到十的内容,按顺序在光学显示器两侧展示,若有多个内容具有相同的优先度,则在光学显示器两侧依次展示这些内容,用户通过语音指令和手势操作控制智能眼镜中的内容和功能。
[0041]
实施例2
[0042]
本发明的第二个实施例,其不同于前一个实施例的是:
[0043]
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:u盘、移动硬盘、只读存储器(rom,read-only memory)、随机存取存储器(ram,random access memory)、磁碟或者光盘等各种可以存储程序代码的介质。
[0044]
在流程图中表示或在此以其他方式描述的逻辑和/或步骤,例如,可以被认为是用于实现逻辑功能的可执行指令的定序列表,可以具体实现在任何计算机可读介质中,以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用,或结合这些指令执行系统、装置或设备而使用。就本说明书而言,“计算机可读介质”可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。
[0045]
计算机可读介质的更具体的示例(非穷尽性列表)包括以下:具有一个或多个布线的电连接部(电子装置)、便携式计算机盘盒(磁装置)、随机存取存储器(ram)、只读存储器(rom)、可擦除可编辑只读存储器(eprom或闪速存储器)、光纤装置以及便携式光盘只读存储器(cdrom)。另外,计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质,因为可以例如通过对纸或其他介质进行光学扫描,接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序,然后将其存储在计算机存储器中。
[0046]
应当理解,本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方其中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如,如果用硬件来实现,和在另一实施方其中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(pga),现场可编程门阵列(fpga)等。
[0047]
实施例3
[0048]
本发明第三个实施例,其不同于前两个实施例的是:为对本发明中采用的技术效果加以验证说明,以验证本方法所具有的真实效果。
[0049]
目前ar/vr智能眼镜的交互技术有手势识别、语音识别、眼动追踪、脑机接口、控制手柄这几种交互技术,其中眼动追踪是其使用过程中最重要的交互方式之一。当然眼动追踪交互方式具有移动选择快、隐私性强、消耗体力少、方便快捷等无可取代的优势。当通过注视目标一定时长、双目眨眼、单目眨眼、眼球运动方向(眼球往上看、往左右看等)等一系
列的眼睛行为与近眼显示设备或者显示器中所呈现的虚拟影像进行交互时(交瓦包括选择确认、点击、翻页滑动、属性弹出等,包括但不限于上述交互行为)需要人在主观意识层面上付出巨大的认知和精力去协调眼睛对近眼显示设备界面的交互。
[0050]
我方发明为了在使用mr智能眼镜时,判断用户的状态和需求属性,对获取的图像内容进行处理,并确定相关应用、服务和信息的优先度排序,根据用户的需求属性和优先度排序,检索数据库获取答案或打开相关应用,并在光学显示器上呈现,我们设计了一种基于mr智能眼镜的内容交互方法。通过判断用户的状态,包括注意力集中情况和认知状态,可以提供更准确的内容交互体验。通过人工智能处理图像内容,可以实现目标检测、语义分割等功能,提高对图像的理解和识别能力。根据优先度排序结果,将相关应用、服务和信息呈现在光学显示器上,使用户能够快速获取所需信息。数据预处理、特征提取和选择、注意力评估模型等步骤的引入,提高了注意力判断的准确性和效率。引入多模态数据库和相似度搜索技术,加速匹配和查询过程,提高了内容检索的效率。
[0051]
本实施例利用传统方法和我方发明方法同时检测,其检测对比结果如下表所示:
[0052]
表1 传统方法与我方发明方法对比表
[0053][0054]
通过上述对比结果可以看出,我方发明方法的图像的理解和识别能力比传统方法强很多,我方发明方法获取所需信息时间为5s比传统方法的27s减少了22s,我方发明方法的注意力判断的准确性为92%比传统方法的81%提高了11%,我方发明方法注意力判断的时间为2s比传统方法的10s减少了7s,我方发明方法内容检索的时间为2s比传统方法的7s减少了5s。
[0055]
应说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或者等同替换,而不脱离本发明技术方案的精神和范围,其均应涵盖在本发明的权利要求范围当中。

技术特征:
1.一种基于mr智能眼镜的内容交互方法,其特征在于:包括,判断用户的状态和用户的需求属性,并获取视觉注视点区域的局部图像;对获取的图像内容进行人工智能处理,根据处理结果,对相关应用、服务和信息的通知图标进行优先度排序;根据用户的需求属性和优先度排序,检索数据库获取答案或打开相关应用,并在光学显示器上呈现。2.如权利要求1所述的一种基于mr智能眼镜的内容交互方法,其特征在于:所述判断用户的状态包括,根据用户的眼动行为和脑电判断用户状态,判断用户注意力是否集中在智能眼镜,若用户注意力集中在智能眼镜,则获取视觉注视点区域的局部图像,若用户注意力未集中在智能眼镜,则通过语音提示、震动方式提醒用户重新集中注意力,若用户注意力重新集中,则获取视觉注视点区域的局部图像。3.如权利要求2所述的一种基于mr智能眼镜的内容交互方法,其特征在于:所述用户的眼动行为包括,通过眼动跟踪技术监测和记录眼睛在观察过程中的运动轨迹,根据分析运动轨迹,判断用户注意力是否集中在智能眼镜;所述脑电包括,通过分析脑电信号,获取关于用户的认知状态、情绪和注意力水平的信息,判断用户注意力是否集中在智能眼镜;所述用户的需求属性包括,根据面部肌肉指令识别和注视点位置的图像信息判断用户的需求属性。4.如权利要求3所述的一种基于mr智能眼镜的内容交互方法,其特征在于:所述判断用户注意力是否集中在智能眼镜包括数据预处理、特征提取、特征选择与降维、注意力评估模型及注意力分数计算;所述数据预处理包括眼动数据预处理和脑电信号预处理;所述眼动数据预处理包括去除噪声和插值处理,去除噪声使用滤波器去除由于眼动仪器误差引起的异常注视点,插值处理对存在缺失的注视点数据使用插值方法填补空白区域;所述脑电信号预处理包括去除伪迹、运动伪迹去除及滤波,去除伪迹使用伪迹去除技术,去除头皮上的伪迹信号,运动伪迹去除使用陀螺仪进行运动伪迹修正,消除头部运动对脑电信号的影响,滤波使用滤波器以去除高频和低频噪声;所述特征提取包括眼动数据特征提取及脑电信号特征提取;所述眼动数据特征提取包括注视点密度和注视点持续时间,注视点密度包括,将屏幕划分为网格,计算每个网格内的注视点数量,注视点持续时间计算连续注视某个点的时长;所述脑电信号特征提取包括计算信号的均值、方差、斜度及峰度统计量;所述特征选择与降维包括,使用相关性分析和信息增益方法选择最具有区分性的眼动数据和脑电信号特征,使用主成分分析降维技术减少特征维度;所述注意力评估模型为训练支持向量机学习模型,将眼动数据和脑电信号的特征向量作为输入,将注意力状态作为目标标签进行训练;所述注意力分数计算根据注意力评估模型的决策函数,将特征向量输入到模型中,并得到一个注意力分数,根据输出的距离来表示用户集中注意力的程度。5.如权利要求4所述的一种基于mr智能眼镜的内容交互方法,其特征在于:所述视觉注
视点区域的局部图像包括,若用户注视智能眼镜所呈现的全息影像,则智能眼镜检测用户的注视方向和焦点位置,根据用户的注视点确定区域,发送指令给全息投影系统,调整全息内容突出用户的注视点,智能眼镜的摄像头会捕捉到用户注视的全息影像,进行人工智能处理;若用户注视现实场景中的真实对象,智能眼镜的摄像头捕捉用户注视的真实场景图像,利用注视点信息确定区域,并截取区域图像。6.如权利要求5所述的一种基于mr智能眼镜的内容交互方法,其特征在于:所述人工智能处理包括图像识别、图像理解、功能分类及数据库匹配;所述图像识别是指使用深度学习算法和卷积神经网络进行目标检测和语义分割,结合迁移学习和自适应学习方法,通过对特定领域或任务进行微调;所述图像理解是指在进行多任务学习时,同时进行情感识别、动作识别、属性识别多个任务,并进行关联,结合自然语言处理技术,将图像内容与文本语义进行对齐;所述功能分类是指引入层次化功能分类,将功能标签根据不同粒度进行组织和关联;所述数据库匹配包括,构建复杂的多模态数据库,将图像内容、语义信息及空间信息多个维度的数据进行关联和索引,运用图数据库技术,对数据库中的实体和关系进行建模和表达,引入相似度搜索技术,处理大规模数据库中的高维数据。7.如权利要求6所述的一种基于mr智能眼镜的内容交互方法,其特征在于:所述优先度根据图像处理结果中与应用、服务和信息相关的特征,通知图标的可识别程度、重要性和紧迫程度的影响,通过计算得到优先度的结果,表示为,,其中,为优先度,为图像处理结果中与应用、服务和信息相关的特征的权重因子,为图像处理结果中与通知图标可识别程度的权重因子,为图像处理结果中与通知图标的重要性的权重因子,为图像处理结果中与通知图标的紧迫程度的权重因子,为额外调整因子,、、、分别为对应于、、、的权重系数。8.如权利要求7所述的一种基于mr智能眼镜的内容交互方法,其特征在于:所述在光学显示器上呈现包括,根据优先度排序结果,将应用、服务和信息在光学显示器上呈现,若多个内容不具有相同的优先度,则优先度排序为第一个的内容展示在光学显示器的正中心,优先度排序二到十的内容,按顺序在光学显示器两侧展示,若有多个内容具有相同的优先度,则在光学显示器两侧依次展示,用户通过语音指令和手势操作控制智能眼镜中的内容和功能。

技术总结
本发明公开了一种基于MR智能眼镜的内容交互方法,涉及智能交互技术领域,包括判断用户的状态和用户的需求属性,并获取视觉注视点区域的局部图像;对获取的图像内容进行人工智能处理,根据处理结果,对相关应用、服务和信息的通知图标进行优先度排序;根据用户的需求属性和优先度排序,检索数据库获取答案或打开相关应用,并在光学显示器上呈现。提供更准确的内容交互体验,实现目标检测、语义分割等功能,提高对图像的理解和识别能力,提高了注意力判断的准确性和效率,使用户能够快速获取所需信息。引入多模态数据库和相似度搜索技术,加速匹配和查询过程,提高了内容检索的效率。提高了内容检索的效率。提高了内容检索的效率。


技术研发人员:魏春玲 何斌 魏萌
受保护的技术使用者:中物联讯(北京)科技有限公司
技术研发日:2023.09.13
技术公布日:2023/10/20
版权声明

本文仅代表作者观点,不代表航家之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)

航空之家 https://www.aerohome.com.cn/

航空商城 https://mall.aerohome.com.cn/

航空资讯 https://news.aerohome.com.cn/

分享:

扫一扫在手机阅读、分享本文

评论

相关推荐