一种目标分割方法、装置、设备和存储介质与流程

未命名 10-21 阅读:66 评论:0


1.本公开实施例涉及计算机技术,尤其涉及一种目标分割方法、装置、设备和存储介质。


背景技术:

2.随着计算机技术的快速发展,往往需要对图像中的目标进行识别分割。目前,通常是利用特定目标的分割掩码图像mask对网络模型进行训练,并利用训练后的网络模型对图像中的特定目标进行分割。然而,这种方式分割出的目标是固定不变的,如果需要分割其他目标则需要对网络模型进行进一步训练。可见,当前急需一种能够实时分割任意目标的分割方式。


技术实现要素:

3.本公开提供一种目标分割方法、装置、设备和存储介质,以实时分割出任意目标,满足用户分割需求,并且保证目标分割的准确性和效率。
4.第一方面,本公开实施例提供了一种目标分割方法,包括:
5.确定目标用户观看目标对象时的当前注视点位置信息;
6.基于当前注视点位置信息和视觉基础模型,对所述目标对象进行注视点位置处的目标分割,确定当前分割结果,并展示当前分割结果;
7.响应于所述目标用户针对当前分割结果触发的分割结束操作,将当前分割结果作为所述目标对象对应的目标分割结果。
8.第二方面,本公开实施例还提供了一种目标分割装置,包括:
9.注视点信息确定模块,用于确定目标用户观看目标对象时的当前注视点位置信息;
10.目标分割模块,用于基于当前注视点位置信息和视觉基础模型,对所述目标对象进行注视点位置处的目标分割,确定当前分割结果,并展示当前分割结果;
11.分割结束模块,用于响应于所述目标用户针对当前分割结果触发的分割结束操作,将当前分割结果作为所述目标对象对应的目标分割结果。
12.第三方面,本公开实施例还提供了一种电子设备,所述电子设备包括:
13.一个或多个处理器;
14.存储装置,用于存储一个或多个程序,
15.当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如本公开实施例任一所述的目标分割方法。
16.第四方面,本公开实施例还提供了一种包含计算机可执行指令的存储介质,所述计算机可执行指令在由计算机处理器执行时用于执行如本公开实施例任一所述的目标分割方法。
17.本公开实施例,通过确定目标用户观看目标对象时的当前注视点位置信息,以便
基于当前注视点位置信息获知目标用户当前想要分割的目标。基于视觉基础模型可以准确地进行注视点位置处的目标分割,并向目标用户展示当前分割结果。当目标用户对展示的当前分割结果满意时可以触发分割结束操作,通过响应于该分割结束操作,可以将当前分割结果作为目标对象最终的目标分割结果,从而实时分割出用户想要分割的任意目标,满足了用户分割需求,并且仅需用户观看目标对象,无需用户进行手动点击等操作,从而提高了目标分割的效率。
附图说明
18.结合附图并参考以下具体实施方式,本公开各实施例的上述和其他特征、优点及方面将变得更加明显。贯穿附图中,相同或相似的附图标记表示相同或相似的元素。应当理解附图是示意性的,原件和元素不一定按照比例绘制。
19.图1是本公开实施例所提供的一种目标分割方法的流程示意图;
20.图2是本公开实施例所涉及的一种视觉基础模型的架构示例;
21.图3是本公开实施例所提供的另一种目标分割方法的流程示意图;
22.图4是本公开实施例所涉及的一种目标渐进式分割的数据流示例;
23.图5是本公开实施例所涉及的一种目标渐进式分割的示例图;
24.图6是本公开实施例所提供的一种目标分割装置的结构示意图;
25.图7是本公开实施例所提供的一种电子设备的结构示意图。
具体实施方式
26.下面将参照附图更详细地描述本公开的实施例。虽然附图中显示了本公开的某些实施例,然而应当理解的是,本公开可以通过各种形式来实现,而且不应该被解释为限于这里阐述的实施例,相反提供这些实施例是为了更加透彻和完整地理解本公开。应当理解的是,本公开的附图及实施例仅用于示例性作用,并非用于限制本公开的保护范围。
27.应当理解,本公开的方法实施方式中记载的各个步骤可以按照不同的顺序执行,和/或并行执行。此外,方法实施方式可以包括附加的步骤和/或省略执行示出的步骤。本公开的范围在此方面不受限制。
28.本文使用的术语“包括”及其变形是开放性包括,即“包括但不限于”。术语“基于”是“至少部分地基于”。术语“一个实施例”表示“至少一个实施例”;术语“另一实施例”表示“至少一个另外的实施例”;术语“一些实施例”表示“至少一些实施例”。其他术语的相关定义将在下文描述中给出。
29.需要注意,本公开中提及的“第一”、“第二”等概念仅用于对不同的装置、模块或单元进行区分,并非用于限定这些装置、模块或单元所执行的功能的顺序或者相互依存关系。
30.需要注意,本公开中提及的“一个”、“多个”的修饰是示意性而非限制性的,本领域技术人员应当理解,除非在上下文另有明确指出,否则应该理解为“一个或多个”。
31.本公开实施方式中的多个装置之间所交互的消息或者信息的名称仅用于说明性的目的,而并不是用于对这些消息或信息的范围进行限制。
32.可以理解的是,本技术方案所涉及的数据(包括但不限于数据本身、数据的获取或使用)应当遵循相应法律法规及相关规定的要求。
33.图1为本公开实施例所提供的一种目标分割方法的流程示意图,本公开实施例适用于对图像或者视频中的用户所注视的目标进行分割的情况,该方法可以由目标分割装置来执行,该装置可以通过软件和/或硬件的形式实现,可选的,通过电子设备来实现,该电子设备可以是移动终端、pc端或服务器等。
34.如图1所示,目标分割方法具体包括以下步骤:
35.s110、确定目标用户观看目标对象时的当前注视点位置信息。
36.其中,目标用户可以是指观看目标对象的任一用户。目标对象可以是当前需要分割的对象。例如,目标对象可以是当前需要分割的图像或者视频。目标图像也可以是指样本图像,也就是模型训练所使用的图像。当前注视点位置信息可以是指当前时刻下目标用户的视线所对准的图像位置点。当前注视点位置信息可以用于表征目标用户当前想要分割的目标位置信息。当前注视点位置信息可以是目标对象中的任一位置信息,也就是待分割的目标可以是指目标对象中的任一物体。
37.具体地,目标用户在观看目标对象时,将视线注视到当前想要分割的目标位置上,并可以利用任意一种注视点定位方式,实时确定出目标用户的当前注视点位置信息。
38.示例性地,s110可以包括:获取目标用户通过可穿戴设备观看目标对象时的当前眼动信息或者当前头动信息;基于当前眼动信息或者当前头动信息,确定目标用户的当前注视点位置信息。
39.其中,可穿戴设备可以是指用户佩戴的用于采集用户眼动信息或者头动信息的设备。例如,可穿戴设备可以是指用户头部佩戴的头戴式设备。可穿戴设备可以是指眼动仪设备或者vr设备等。
40.具体地,可穿戴设备具有头显,可以将目标对象输入至可穿戴设备中并展示在头显上,使得目标用户通过头显可以观看到目标对象。如图2所示,目标用户在观看目标对象过程中,可穿戴设备中的眼动传感器等位置追踪装置可以实时采集目标用户的当前眼动信息或者当前头动信息,并将当前眼动信息或者当前头动信息转换为图像坐标系中的像素坐标,从而获得目标用户的当前注视点位置信息。需要说明的是,基于目标用户的当前眼动信息可以更加准确地定位出目标用户的当前注视点位置信息。
41.示例性地,在使用可穿戴设备之前,需要对可穿戴设备进行校准,以便保证目标分割的准确性。例如,目标用户可以跟随提示注视屏幕上出现的数据锚点,完成眼动传感器等位置追踪装置与屏幕位置关系的映射和校准。
42.s120、基于当前注视点位置信息和视觉基础模型,对目标对象进行注视点位置处的目标分割,确定当前分割结果,并展示当前分割结果。
43.其中,视觉基础模型可以是指在大规模数据集上进行预训练获得的,具有图像分割能力的基础模型。视觉基础模型可以是一种预训练的交互式分割模型,以便基于提示信息进行目标分割。例如,视觉基础模型可以是指sam(segment anything model,分割一切模型)或者seem(segment everything everywhere all at once,一键分割任何物体模型)等视觉大模型。视觉基础模型在大量标注数据上进行预训练,具有良好的泛化性和鲁棒性,能够适配各种细分场景下的下游任务。当前分割结果可以是指目标用户当前注视的目标分割结果。当前分割结果可以是指目标对象中当前分割出的目标的抠图,也可以是指与目标对象尺寸一致的目标掩码图像。例如,若目标对象中存在一个小猫,目标用户的当前注视点位
置处于小猫上,则当前分割结果即为小猫的抠图或者掩码图像mask。
44.具体地,将目标对象和当前注视点位置信息输入至预训练获得的视觉基础模型中进行注视点位置处的目标分割,并基于视觉基础模型的输出,获得目标对象的当前分割结果。需要说明的是,若目标对象为图像,则可以直接将该图像和当前注视点位置信息输入至预训练获得的视觉基础模型中对该图像进行注视点位置处的目标分割。若目标对象为视频,则可以将视频中目标用户当前时刻所注视的视频帧和当前注视点位置信息输入至预训练获得的视觉基础模型中对该视频帧进行注视点位置处的目标分割。
45.视觉基础模型可以将输入的当前注视点位置信息作为当前分割点提示信息确定目标对象中的目标位置并进行相应分割,将分割后的结果进行输出,从而实现交互式的自动分割。视觉基础模型可以直接输出目标对象最终的当前分割结果,也可以输出多个待选分割结果和每个待选分割结果对应的分割质量分数,此时可以将分割质量分数最高的待选分割结果作为目标对象最终的当前分割结果。其中,分割质量分数可以用于表征分割结果的完整度和边缘齐整度等。在获得当前分割结果之后,需要向目标用户展示当前分割结果,以使目标用户查看确认当前分割结果是否是想要且准确的分割结果。
46.示例性地,如图2所示,视觉基础模型可以包括图像编码器、提示编码器和掩码解码器。视觉基础模型中的具体分割过程为:将目标对象输入至图像编码器中,将目标用户的当前注视点位置信息输入至提示编码器中,在图像编码器中将输入的目标对象编码为高维特征空间的图像向量信息,在提示编码器中将输入的当前注视点位置信息编码为相应的提示点向量信息。将图像向量信息和提示点向量信息输入至掩码解码器中进行解码,确定出目标对象中的注视点位置处的目标并进行分割,输出分割后的目标对象的当前分割结果。
47.示例性地,s120中的“展示当前分割结果”,可以包括:在可穿戴设备所展示的目标对象中标记出当前分割结果。
48.具体地,由于可穿戴设备中正在展示目标对象,从而可以直接在展示的目标对象中实时标记出当前分割结果,比如以高亮形式或者灰度形式在目标对象中标记出当前分割结果,以便突出显示当前分割结果,使得目标用户可以在目标对象中直观清楚地查看当前分割结果,从而将当前分割结果以可视化方式呈现在当前观看的目标对象中。
49.s130、响应于目标用户针对当前分割结果触发的分割结束操作,将当前分割结果作为目标对象对应的目标分割结果。
50.其中,分割结束操作可以是目标用户通过执行预设眼部动作或者预设手势动作进行触发的。其中,预设眼部动作可以是预先设置的,用于结束分割操作的指定眼部动作,比如连续眨眼两次或者闭眼等动作。预设手势动作可以是预先设置的,用于结束分割操作的指定手势动作,比如手势ok动作或者握拳等动作。目标分割结果可以是指目标对象中的最终分割结果,即目标用户最终想要的分割结果。
51.具体地,在目标用户确认展示的当前分割结果为所需的分割结果,对当前分割结果满意之后,可以通过触发分割结束操作的方式结束分割操作,将当前分割结果作为目标对象对应的目标分割结果,从而通过单次分割便可满足用户分割需求。
52.需要说明的是,目标用户仅需注视目标对象中想要分割的目标,便可实现任意目标的实时分割,相比于鼠标点击或者画线的方式而言,眼睛注视的交互式分割方式更加便捷迅速,提高了目标分割效率,并且结合视觉基础模型进行交互式分割可以保证目标分割
的准确性。
53.示例性地,在确定目标对象对应的目标分割结果之后,还可以包括:将目标对象作为样本对象,相应的目标分割结果作为样本标签,对分割网络模型进行模型训练。通过上述实时分割方式可以快速获得样本掩码图像mask,无需人工进行像素级别的样本标注,从而提高了标注效率,降低了标注成本。
54.本公开实施例的技术方案,通过确定目标用户观看目标对象时的当前注视点位置信息,以便基于当前注视点位置信息获知目标用户当前想要分割的目标。基于视觉基础模型可以准确地进行注视点位置处的目标分割,并向目标用户展示当前分割结果。当目标用户对展示的当前分割结果满意时可以触发分割结束操作,通过响应于该分割结束操作,可以将当前分割结果作为目标对象最终的目标分割结果,从而实时分割出目标用户想要分割的任意目标,满足了用户分割需求,并且仅需用户观看目标对象,无需用户进行手动点击等操作,从而提高了目标分割的效率。
55.在上述技术方案的基础上,在s130之前还可以包括:响应于目标用户针对当前分割结果触发的重新分割操作,重新获取目标用户的当前注视点位置信息,并基于重新获取的当前注视点位置信息进行目标重新分割。
56.其中,重新分割操作可以是目标用户通过执行预设眼部动作或者预设手势动作进行触发的。不同的分割操作对应不同的预设眼部动作或者预设手势动作,以便用户触发不同的分割操作。
57.具体地,在目标用户确认展示的当前分割结果并不是想要的分割结果,对当前分割结果并不满意时,可以通过触发重新分割操作的方式进行重新分割。响应于目标用户触发的重新分割操作,可以通过返回执行步骤s110-s120的方式重新获取目标用户的当前注视点位置信息,并基于重新获取的当前注视点位置信息进行目标重新分割,使得目标用户可以通过调整注视点的方式快速调整分割结果,直到目标用户对当前分割结果满意时触发分割结束操作为止,从而实现实时快速的交互式分割,满足用户分割需求。
58.图3为本公开实施例所提供的另一种目标分割方法的流程示意图,本公开实施例在上述公开实施例的基础上,对目标的渐进式分割过程进行了详细描述。其中与上述各公开实施例相同或相应的术语的解释在此不再赘述。
59.如图3所示,目标分割方法具体包括以下步骤:
60.s310、确定目标用户观看目标对象时的当前注视点位置信息。
61.s320、获取缓存的目标对象对应的历史分割结果。
62.其中,历史分割结果可以是指当次分割之前已经从目标对象中分割出的局部区域。例如,历史分割结果可以是指距离当前时刻最近的上次分割结果,以便在上次分割结果的基础上继续分割。历史分割结果也可以是指当前正在展示的分割结果,以使用户确定是否在该历史分割结果的基础上继续分割。每次分割的结果可以是目标对象中的局部区域,以便通过至少两次分割叠加为整个目标物体,从而实现目标的渐进式分割。
63.具体地,每次分割之后,将每次分割的结果进行缓存,以便下次分割时可以在已分割的基础上继续分割。在对目标对象进行当次分割(即第二次分割或者后续分割)时,可以从缓存器中获取缓存的目标对象的历史分割结果,比如上次分割结果。需要说明的是,若缓存器中不存在目标对象的历史分割结果,则表明当前还未对目标对象进行首次分割,此时
可以直接基于目标用户的当前注视点位置信息和视觉基础模型,对目标对象进行注视点位置处的首次分割,并将首次分割的结果进行缓存,以便在首次分割的基础上进行第二次分割,依次类推,直到获得目标用户对分割结果满意为止。
64.作为一种实现方式,s320可以包括:响应于目标用户针对历史分割结果触发的继续分割操作,获取缓存的目标对象对应的历史分割结果。
65.其中,继续分割操作可以是目标用户通过执行预设眼部动作或者预设手势动作进行触发的。不同的分割操作对应不同的预设眼部动作或者预设手势动作,以便用户触发不同的分割操作。
66.具体地,在当前展示的历史分割结果仅是目标用户想要分割的目标物体的局部区域时,目标用户可以通过触发继续分割操作的方式,在上次分割的基础上继续分割。通过响应于目标用户触发的继续分割操作,允许获取缓存的目标对象对应的历史分割结果,以便后续在历史分割结果的基础上继续分割,从而用户可以主动触发继续分割操作,满足个性化需求。
67.作为另一种实现方式,s320可以包括:若检测到当前信息满足继续分割条件,则获取缓存的目标对象对应的历史分割结果。
68.其中,继续分割条件可以是预先基于业务需求和场景设置的,当前能够在历史分割结果基础上继续分割的条件。例如,继续分割条件可以包括但不限于以下至少一项:当前场景变化量小于或等于第一预设变化量;当前眼动变化量小于或等于第二预设变化量;当前头动变化量小于或等于第三预设变化量;以及,历史分割结果对应的分割质量分数大于或等于预设分割质量分数。其中,当前场景变化量可以是基于历史场景状态和当次场景状态进行确定。每次场景状态可以基于视频或者图像的哈希值进行表征。
69.具体地,在展示出历史分割结果之后,若目标用户未触发分割结束操作,则可以基于当次分割信息和历史分割信息检测当前是否满足继续分割条件,比如当前场景变化量是否小于或等于第一预设变化量、当前眼动变化量是否小于或等于第二预设变化量、当前头动变化量是否小于或等于第三预设变化量以及历史分割结果对应的分割质量分数是否大于或等于预设分割质量分数等。若检测到当前满足继续分割条件,则表明目标用户当前是想要继续分割的,并且也满足继续分割的要求,并不是误操作,从而可以自动获取缓存的目标对象对应的历史分割结果进行继续分割,无需用户主动触发继续分割操作,进一步简化用户操作。
70.s330、基于当前注视点位置信息、历史分割结果和视觉基础模型,对目标对象进行注视点位置处的目标分割和分割结果叠加处理,确定叠加后的当前分割结果。
71.其中,当前分割结果可以是指当前每次注视点分割的叠加结果。例如,当前分割结果可以包括当前注视点位置区域和历史分割结果。
72.具体地,作为一种实现方式,可以将目标对象和当前注视点位置信息输入至视觉基础模型中,对目标对象进行注视点位置处的目标分割,获得视觉基础模型输出的单次分割结果,并将单次分割结果与历史分割结果进行叠加处理,获得叠加后的当前分割结果。
73.作为另一种实现方式,视觉基础模型也可以允许分割结果的输入,从而可以将分割结果也作为提示信息进行注视点位置的分割,进一步提高分割的准确性,并且也可以在模型内部直接进行分割结果的叠加处理。例如,如图4所示,可以将目标对象(图4未示出)、t
时刻的当前注视点位置信息和t-1时刻的历史分割结果输入至视觉基础模型中进行注视点位置处的目标分割和分割结果叠加处理,并基于视觉基础模型的输出,获得叠加后的当前分割结果。视觉基础模型可以基于输入的当前注视点位置信息和历史分割结果,对目标对象中当前注视点位置处的目标进行分割,并将分割后的目标与历史分割结果进行叠加,输出叠加后的分割结果。或者,由于每次分割视觉基础模型均需要对目标对象进行图像编码,获得相应的图像向量信息,从而可以在第一次分割后,将该图像向量信息进行缓存,以便后续分割时可以仅将t时刻的当前注视点位置信息和t-1时刻的历史分割结果输入至视觉基础模型中,以使视觉基础模型更加快速地进行目标分割,进一步降低了分割耗时,提高了分割效率。
74.示例性地,s330可以包括:对历史分割结果进行时间对齐处理,获得当前时刻下对齐后的历史分割结果;将目标对象、当前注视点位置信息和对齐后的历史分割结果输入至视觉基础模型中进行注视点位置处的目标分割和分割结果叠加处理;基于视觉基础模型的输出,获得叠加后的当前分割结果。
75.具体地,若目标对象是动态变化的视频,则在当次分割之前,需要先对历史分割结果进行时间对齐处理,比如历史分割结果是在t-1时刻下的视频帧中位于左上角的小猫掩码图像,若t时刻分割时的当前视频帧中的该小猫是位于中间位置的,则对齐后的历史分割结果是t时刻下的视频帧中位于中间位置的小猫掩码图像,从而实现分割结果的时间对齐,进一步保证分割结果叠加的准确性。视觉基础模型可以基于输入的当前注视点位置信息和对齐后的历史分割结果,对目标对象中当前注视点位置处的目标进行分割,并将分割后的目标与历史分割结果进行叠加,输出叠加后的分割结果。
76.需要说明的是,若目标对象是固定不变图像,则无需可穿戴设备进行时间对齐,可以直接将目标对象、当前注视点位置信息和历史分割结果输入至视觉基础模型中进行注视点位置处的目标分割和分割结果叠加处理,并基于视觉基础模型的输出,获得叠加后的当前分割结果。
77.s340、展示当前分割结果。
78.具体地,可以在展示的目标对象中标记出当前分割结果,使得目标用户可以更加直观清楚地查看到分割区域。若当前分割结果还不是完整的分割结果,则可以通过返回执行s320-s340的方式,在当前分割结果的基础上进行继续分割,比如目标用户可以针对展示的当前分割结果触发继续分割操作的方式进行继续分割,从而实现目标的渐进式分割,达到“所看即所得”的技术效果。
79.例如,参见图5,若需要对目标对象中的车辆进行整体分割,则在首次分割t=0时,目标用户可以先注视车辆的左窗户位置,使得t=0时的注视点位置信息位于车辆的左窗户上(图5中的黑色圆点表示为注视点),从而利用视觉基础模型可以分割出左窗户区域(见图5中灰度表示的区域)。在第二次分割t=1时,目标用户可以注视车辆的左门位置,使得t=1时的注视点位置信息位于左门上,从而利用视觉基础模型可以分割出左门区域,并将左窗户区域和左门区域进行叠加,获得t=1时的分割结果(见图5中灰度表示的区域),依次类推进行分割,直到在t=n时分割出完整的车辆区域。通过逐个注视车辆中的所有位置,可以渐进式地分割出完整车辆。需要说明的是,每次分割时仅存在一个注视点位置信息,以便进行精准分割,获得最终用户想要的分割结果。
80.s350、响应于目标用户针对当前分割结果触发的分割结束操作,将当前分割结果作为目标对象对应的目标分割结果。
81.具体地,若目标用户对当次分割的分割结果满意,则可以通过触发分割结束操作的方式结束分割操作,将当前分割结果作为目标对象对应的目标分割结果,从而通过渐进式分割可以实现更加细致的分割,满足个性化的分割需求。
82.本公开实施例的技术方案,通过基于缓存的目标对象对应的历史分割结果、当前注视点位置信息和视觉基础模型,对目标对象进行注视点位置处的目标分割和分割结果叠加处理,从而可以在历史分割结果的基础上继续进行分割,实现目标的渐进式分割,满足个性化的分割需求。
83.在上述技术方案的基础上,在s350之前还可以包括:响应于目标用户针对当前分割结果触发的重新分割操作,将缓存的目标对象对应的历史分割结果进行清空处理,并基于重新获取的当前注视点位置信息进行目标重新分割。
84.具体地,在目标用户对渐进式分割的当前分割结果并不满意,可以通过触发重新分割操作的方式进行重新分割。响应于目标用户触发的重新分割操作,可以将缓存的目标对象对应的历史分割结果进行删除,以避免在历史分割结果基础上继续进行分割,并且重新获取目标用户的当前注视点位置信息,并基于重新获取的当前注视点位置信息从头开始进行重新分割,直到目标用户对当前分割结果满意时触发分割结束操作为止,从而实现实时快速的交互式分割,满足用户分割需求。
85.图6为本公开实施例所提供的一种目标分割装置的结构示意图,如图6所示,该装置具体包括:注视点信息确定模块410、目标分割模块420和分割结束模块430。
86.其中,注视点信息确定模块410,用于确定目标用户观看目标对象时的当前注视点位置信息;目标分割模块420,用于基于当前注视点位置信息和视觉基础模型,对所述目标对象进行注视点位置处的目标分割,确定当前分割结果,并展示当前分割结果;分割结束模块430,用于响应于所述目标用户针对当前分割结果触发的分割结束操作,将当前分割结果作为所述目标对象对应的目标分割结果。
87.本公开实施例所提供的技术方案,通过确定目标用户观看目标对象时的当前注视点位置信息,以便基于当前注视点位置信息获知目标用户当前想要分割的目标。基于视觉基础模型可以准确地进行注视点位置处的目标分割,并向目标用户展示当前分割结果。当目标用户对展示的当前分割结果满意时可以触发分割结束操作,通过响应于该分割结束操作,可以将当前分割结果作为目标对象最终的目标分割结果,从而实时分割出用户想要分割的任意目标,满足了用户分割需求,并且仅需用户观看目标对象,无需用户进行手动点击等操作,从而提高了目标分割的效率。
88.在上述技术方案的基础上,注视点信息确定模块410,具体用于:
89.获取目标用户通过可穿戴设备观看目标对象时的当前眼动信息或者当前头动信息;基于当前眼动信息或者当前头动信息,确定所述目标用户的当前注视点位置信息。
90.在上述各技术方案的基础上,目标分割模块420,具体用于:
91.在所述可穿戴设备所展示的目标对象中标记出当前分割结果。
92.在上述各技术方案的基础上,所述分割结束操作是所述目标用户通过执行预设眼部动作或者预设手势动作进行触发的。
93.在上述各技术方案的基础上,该装置还包括:
94.重新分割模块,用于在响应于所述目标用户针对当前分割结果触发的分割结束操作之前,响应于所述目标用户针对当前分割结果触发的重新分割操作,重新获取所述目标用户的当前注视点位置信息,并基于重新获取的当前注视点位置信息进行目标重新分割。
95.在上述各技术方案的基础上,目标分割模块420,包括:
96.历史分割结果获取单元,用于获取缓存的所述目标对象对应的历史分割结果;
97.目标分割单元,用于基于当前注视点位置信息、历史分割结果和视觉基础模型,对所述目标对象进行注视点位置处的目标分割和分割结果叠加处理,确定叠加后的当前分割结果。
98.在上述各技术方案的基础上,历史分割结果获取单元,具体用于:
99.响应于所述目标用户针对历史分割结果触发的继续分割操作,获取缓存的所述目标对象对应的历史分割结果;或者,
100.若检测到当前满足继续分割条件,则获取缓存的所述目标对象对应的历史分割结果。
101.在上述各技术方案的基础上,所述继续分割条件包括以下至少一项:
102.当前场景变化量小于或等于第一预设变化量;
103.当前眼动变化量小于或等于第二预设变化量;
104.当前头动变化量小于或等于第三预设变化量;
105.历史分割结果对应的分割质量分数大于或等于预设分割质量分数。
106.在上述各技术方案的基础上,目标分割单元,具体用于:
107.对历史分割结果进行时间对齐处理,获得当前时刻下对齐后的历史分割结果;将所述目标对象、当前注视点位置信息和对齐后的历史分割结果输入至视觉基础模型中进行注视点位置处的目标分割和分割结果叠加处理;基于所述视觉基础模型的输出,获得叠加后的当前分割结果。
108.本公开实施例所提供的目标分割装置可执行本公开任意实施例所提供的目标分割方法,具备执行目标分割方法相应的功能模块和有益效果。
109.值得注意的是,上述装置所包括的各个单元和模块只是按照功能逻辑进行划分的,但并不局限于上述的划分,只要能够实现相应的功能即可;另外,各功能单元的具体名称也只是为了便于相互区分,并不用于限制本公开实施例的保护范围。
110.图7为本公开实施例所提供的一种电子设备的结构示意图。下面参考图7,其示出了适于用来实现本公开实施例的电子设备(例如图7中的终端设备或服务器)500的结构示意图。本公开实施例中的终端设备可以包括但不限于诸如移动电话、笔记本电脑、数字广播接收器、pda(个人数字助理)、pad(平板电脑)、pmp(便携式多媒体播放器)、车载终端(例如车载导航终端)等等的移动终端以及诸如数字tv、台式计算机等等的固定终端。图7示出的电子设备仅仅是一个示例,不应对本公开实施例的功能和使用范围带来任何限制。
111.如图7所示,电子设备500可以包括处理装置(例如中央处理器、图形处理器等)501,其可以根据存储在只读存储器(rom)502中的程序或者从存储装置508加载到随机访问存储器(ram)503中的程序而执行各种适当的动作和处理。在ram 503中,还存储有电子设备500操作所需的各种程序和数据。处理装置501、rom 502以及ram 503通过总线504彼此相
连。编辑/输出(i/o)接口505也连接至总线504。
112.通常,以下装置可以连接至i/o接口505:包括例如触摸屏、触摸板、键盘、鼠标、摄像头、麦克风、加速度计、陀螺仪等的输入装置506;包括例如液晶显示器(lcd)、扬声器、振动器等的输出装置507;包括例如磁带、硬盘等的存储装置508;以及通信装置509。通信装置509可以允许电子设备500与其他设备进行无线或有线通信以交换数据。虽然图7示出了具有各种装置的电子设备500,但是应理解的是,并不要求实施或具备所有示出的装置。可以替代地实施或具备更多或更少的装置。
113.特别地,根据本公开的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本公开的实施例包括一种计算机程序产品,其包括承载在非暂态计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信装置509从网络上被下载和安装,或者从存储装置508被安装,或者从rom 502被安装。在该计算机程序被处理装置501执行时,执行本公开实施例的方法中限定的上述功能。
114.本公开实施方式中的多个装置之间所交互的消息或者信息的名称仅用于说明性的目的,而并不是用于对这些消息或信息的范围进行限制。
115.本公开实施例提供的电子设备与上述实施例提供的目标分割方法属于同一发明构思,未在本实施例中详尽描述的技术细节可参见上述实施例,并且本实施例与上述实施例具有相同的有益效果。
116.本公开实施例提供了一种计算机存储介质,其上存储有计算机程序,该程序被处理器执行时实现上述实施例所提供的目标分割方法。
117.需要说明的是,本公开上述的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(ram)、只读存储器(rom)、可擦式可编程只读存储器(eprom或闪存)、光纤、便携式紧凑磁盘只读存储器(cd-rom)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本公开中,计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读信号介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:电线、光缆、rf(射频)等等,或者上述的任意合适的组合。
118.在一些实施方式中,客户端、服务器可以利用诸如http(hypertext transfer protocol,超文本传输协议)之类的任何当前已知或未来研发的网络协议进行通信,并且可以与任意形式或介质的数字数据通信(例如,通信网络)互连。通信网络的示例包括局域网(“lan”),广域网(“wan”),网际网(例如,互联网)以及端对端网络(例如,ad hoc端对端网
络),以及任何当前已知或未来研发的网络。
119.上述计算机可读介质可以是上述电子设备中所包含的;也可以是单独存在,而未装配入该电子设备中。
120.上述计算机可读介质承载有一个或者多个程序,当上述一个或者多个程序被该电子设备执行时,使得该电子设备:确定目标用户观看目标对象时的当前注视点位置信息;基于当前注视点位置信息和视觉基础模型,对所述目标对象进行注视点位置处的目标分割,确定当前分割结果,并展示当前分割结果;响应于所述目标用户针对当前分割结果触发的分割结束操作,将当前分割结果作为所述目标对象对应的目标分割结果。
121.可以以一种或多种程序设计语言或其组合来编写用于执行本公开的操作的计算机程序代码,上述程序设计语言包括但不限于面向对象的程序设计语言—诸如java、smalltalk、c++,还包括常规的过程式程序设计语言—诸如“c”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括局域网(lan)或广域网(wan)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
122.附图中的流程图和框图,图示了按照本公开各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
123.描述于本公开实施例中所涉及到的单元可以通过软件的方式实现,也可以通过硬件的方式来实现。其中,单元的名称在某种情况下并不构成对该单元本身的限定,例如,第一获取单元还可以被描述为“获取至少两个网际协议地址的单元”。
124.本文中以上描述的功能可以至少部分地由一个或多个硬件逻辑部件来执行。例如,非限制性地,可以使用的示范类型的硬件逻辑部件包括:现场可编程门阵列(fpga)、专用集成电路(asic)、专用标准产品(assp)、片上系统(soc)、复杂可编程逻辑设备(cpld)等等。
125.在本公开的上下文中,机器可读介质可以是有形的介质,其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(ram)、只读存储器(rom)、可擦除可编程只读存储器(eprom或快闪存储器)、光纤、便捷式紧凑盘只读存储器(cd-rom)、光学储存设备、磁储存设备、或
上述内容的任何合适组合。
126.根据本公开的一个或多个实施例,【示例一】提供了一种目标分割方法,包括:
127.确定目标用户观看目标对象时的当前注视点位置信息;
128.基于当前注视点位置信息和视觉基础模型,对所述目标对象进行注视点位置处的目标分割,确定当前分割结果,并展示当前分割结果;
129.响应于所述目标用户针对当前分割结果触发的分割结束操作,将当前分割结果作为所述目标对象对应的目标分割结果。
130.根据本公开的一个或多个实施例,【示例二】提供了一种目标分割方法,还包括:
131.可选的,所述确定目标用户观看目标对象时的当前注视点位置信息,包括:
132.获取目标用户通过可穿戴设备观看目标对象时的当前眼动信息或者当前头动信息;
133.基于当前眼动信息或者当前头动信息,确定所述目标用户的当前注视点位置信息。
134.根据本公开的一个或多个实施例,【示例三】提供了一种目标分割方法,还包括:
135.可选的,所述展示当前分割结果,包括:
136.在所述可穿戴设备所展示的目标对象中标记出当前分割结果。
137.根据本公开的一个或多个实施例,【示例四】提供了一种目标分割方法,还包括:
138.可选的,所述分割结束操作是所述目标用户通过执行预设眼部动作或者预设手势动作进行触发的。
139.根据本公开的一个或多个实施例,【示例五】提供了一种目标分割方法,还包括:
140.可选的,在响应于所述目标用户针对当前分割结果触发的分割结束操作之前,还包括:
141.响应于所述目标用户针对当前分割结果触发的重新分割操作,重新获取所述目标用户的当前注视点位置信息,并基于重新获取的当前注视点位置信息进行目标重新分割。
142.根据本公开的一个或多个实施例,【示例六】提供了一种目标分割方法,还包括:
143.可选的,所述基于当前注视点位置信息和视觉基础模型,对所述目标对象进行注视点位置处的目标分割,确定当前分割结果,包括:
144.获取缓存的所述目标对象对应的历史分割结果;
145.基于当前注视点位置信息、历史分割结果和视觉基础模型,对所述目标对象进行注视点位置处的目标分割和分割结果叠加处理,确定叠加后的当前分割结果。
146.根据本公开的一个或多个实施例,【示例七】提供了一种目标分割方法,还包括:
147.可选的,所述获取缓存的所述目标对象对应的历史分割结果,包括:
148.响应于所述目标用户针对历史分割结果触发的继续分割操作,获取缓存的所述目标对象对应的历史分割结果;或者,
149.若检测到当前满足继续分割条件,则获取缓存的所述目标对象对应的历史分割结果。
150.根据本公开的一个或多个实施例,【示例八】提供了一种目标分割方法,还包括:
151.可选的,所述继续分割条件包括以下至少一项:
152.当前场景变化量小于或等于第一预设变化量;
153.当前眼动变化量小于或等于第二预设变化量;
154.当前头动变化量小于或等于第三预设变化量;
155.历史分割结果对应的分割质量分数大于或等于预设分割质量分数。
156.根据本公开的一个或多个实施例,【示例九】提供了一种目标分割方法,还包括:
157.可选的,所述基于当前注视点位置信息、历史分割结果和视觉基础模型,对所述目标对象进行注视点位置处的目标分割和分割结果叠加处理,确定叠加后的当前分割结果,包括:
158.对历史分割结果进行时间对齐处理,获得当前时刻下对齐后的历史分割结果;
159.将所述目标对象、当前注视点位置信息和对齐后的历史分割结果输入至视觉基础模型中进行注视点位置处的目标分割和分割结果叠加处理;
160.基于所述视觉基础模型的输出,获得叠加后的当前分割结果。
161.根据本公开的一个或多个实施例,【示例十】提供了一种目标分割装置,包括:
162.注视点信息确定模块,用于确定目标用户观看目标对象时的当前注视点位置信息;
163.目标分割模块,用于基于当前注视点位置信息和视觉基础模型,对所述目标对象进行注视点位置处的目标分割,确定当前分割结果,并展示当前分割结果;
164.分割结束模块,用于响应于所述目标用户针对当前分割结果触发的分割结束操作,将当前分割结果作为所述目标对象对应的目标分割结果。
165.以上描述仅为本公开的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解,本公开中所涉及的公开范围,并不限于上述技术特征的特定组合而成的技术方案,同时也应涵盖在不脱离上述公开构思的情况下,由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本公开中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。
166.此外,虽然采用特定次序描绘了各操作,但是这不应当理解为要求这些操作以所示出的特定次序或以顺序次序执行来执行。在一定环境下,多任务和并行处理可能是有利的。同样地,虽然在上面论述中包含了若干具体实现细节,但是这些不应当被解释为对本公开的范围的限制。在单独的实施例的上下文中描述的某些特征还可以组合地实现在单个实施例中。相反地,在单个实施例的上下文中描述的各种特征也可以单独地或以任何合适的子组合的方式实现在多个实施例中。
167.尽管已经采用特定于结构特征和/或方法逻辑动作的语言描述了本主题,但是应当理解所附权利要求书中所限定的主题未必局限于上面描述的特定特征或动作。相反,上面所描述的特定特征和动作仅仅是实现权利要求书的示例形式。

技术特征:
1.一种目标分割方法,其特征在于,包括:确定目标用户观看目标对象时的当前注视点位置信息;基于当前注视点位置信息和视觉基础模型,对所述目标对象进行注视点位置处的目标分割,确定当前分割结果,并展示当前分割结果;响应于所述目标用户针对当前分割结果触发的分割结束操作,将当前分割结果作为所述目标对象对应的目标分割结果。2.根据权利要求1所述的目标分割方法,其特征在于,所述确定目标用户观看目标对象时的当前注视点位置信息,包括:获取目标用户通过可穿戴设备观看目标对象时的当前眼动信息或者当前头动信息;基于当前眼动信息或者当前头动信息,确定所述目标用户的当前注视点位置信息。3.根据权利要求2所述的目标分割方法,其特征在于,所述展示当前分割结果,包括:在所述可穿戴设备所展示的目标对象中标记出当前分割结果。4.根据权利要求1所述的目标分割方法,其特征在于,所述分割结束操作是所述目标用户通过执行预设眼部动作或者预设手势动作进行触发的。5.根据权利要求1所述的目标分割方法,其特征在于,在响应于所述目标用户针对当前分割结果触发的分割结束操作之前,还包括:响应于所述目标用户针对当前分割结果触发的重新分割操作,重新获取所述目标用户的当前注视点位置信息,并基于重新获取的当前注视点位置信息进行目标重新分割。6.根据权利要求1-5任一项所述的目标分割方法,其特征在于,所述基于当前注视点位置信息和视觉基础模型,对所述目标对象进行注视点位置处的目标分割,确定当前分割结果,包括:获取缓存的所述目标对象对应的历史分割结果;基于当前注视点位置信息、历史分割结果和视觉基础模型,对所述目标对象进行注视点位置处的目标分割和分割结果叠加处理,确定叠加后的当前分割结果。7.根据权利要求6所述的目标分割方法,其特征在于,所述获取缓存的所述目标对象对应的历史分割结果,包括:响应于所述目标用户针对历史分割结果触发的继续分割操作,获取缓存的所述目标对象对应的历史分割结果;或者,若检测到当前满足继续分割条件,则获取缓存的所述目标对象对应的历史分割结果。8.根据权利要求7所述的目标分割方法,其特征在于,所述继续分割条件包括以下至少一项:当前场景变化量小于或等于第一预设变化量;当前眼动变化量小于或等于第二预设变化量;当前头动变化量小于或等于第三预设变化量;历史分割结果对应的分割质量分数大于或等于预设分割质量分数。9.根据权利要求6所述的目标分割方法,其特征在于,所述基于当前注视点位置信息、历史分割结果和视觉基础模型,对所述目标对象进行注视点位置处的目标分割和分割结果叠加处理,确定叠加后的当前分割结果,包括:对历史分割结果进行时间对齐处理,获得当前时刻下对齐后的历史分割结果;
将所述目标对象、当前注视点位置信息和对齐后的历史分割结果输入至视觉基础模型中进行注视点位置处的目标分割和分割结果叠加处理;基于所述视觉基础模型的输出,获得叠加后的当前分割结果。10.一种目标分割装置,其特征在于,包括:注视点信息确定模块,用于确定目标用户观看目标对象时的当前注视点位置信息;目标分割模块,用于基于当前注视点位置信息和视觉基础模型,对所述目标对象进行注视点位置处的目标分割,确定当前分割结果,并展示当前分割结果;分割结束模块,用于响应于所述目标用户针对当前分割结果触发的分割结束操作,将当前分割结果作为所述目标对象对应的目标分割结果。11.一种电子设备,其特征在于,所述电子设备包括:一个或多个处理器;存储装置,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-9中任一所述的目标分割方法。12.一种包含计算机可执行指令的存储介质,其特征在于,所述计算机可执行指令在由计算机处理器执行时用于执行如权利要求1-9中任一所述的目标分割方法。

技术总结
本公开实施例提供了一种目标分割方法、装置、设备和存储介质。该方法包括:确定目标用户观看目标对象时的当前注视点位置信息;基于当前注视点位置信息和视觉基础模型,对目标对象进行注视点位置处的目标分割,确定当前分割结果,并展示当前分割结果;响应于目标用户针对当前分割结果触发的分割结束操作,将当前分割结果作为目标对象对应的目标分割结果。通过本公开实施例的技术方案,可以实时分割出任意目标,满足用户分割需求,并且保证目标分割的准确性和效率。确性和效率。确性和效率。


技术研发人员:詹亘 张亚彬 廖懿婷 李军林
受保护的技术使用者:脸萌有限公司
技术研发日:2023.08.29
技术公布日:2023/10/19
版权声明

本文仅代表作者观点,不代表航家之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)

航空之家 https://www.aerohome.com.cn/

航空商城 https://mall.aerohome.com.cn/

航空资讯 https://news.aerohome.com.cn/

分享:

扫一扫在手机阅读、分享本文

评论

相关推荐