人脸五官的筛选方法、装置和人脸五官的筛选系统与流程
未命名
10-22
阅读:54
评论:0
1.本技术涉及图像处理技术领域,具体而言,涉及一种人脸五官的筛选方法、装置和人脸五官的筛选系统。
背景技术:
2.目前对于办事场景进行人物画像,大多是通过针对与事件相关人员的沟通,最常见的方法是专业的办事人员基于事件相关人员的描述,通过人工绘画的方式勾勒出目标人物的画像。并且目前通过五官拼凑的方式,由事件相关人员从很多五官图像库中寻找目标人物的相似五官,再进行拼凑,这样依赖于五官图像库里面图像的覆盖度,并且拼凑五官时,还需要办事人员合并五官的专业度,同时也需要事件相关人员耗费大量的精力才能从五官图像库里选出合适的五官图像,这样会导致挑选五官图像所耗费的时间成本和人力成本较高。
技术实现要素:
3.本技术的主要目的在于提供一种人脸五官的筛选方法、装置和人脸五官的筛选系统,以至少解决现有技术中挑选五官图像所耗费的时间成本和人力成本较高的问题。
4.为了实现上述目的,根据本技术的一个方面,提供了一种人脸五官的筛选方法,包括:获取多个对话问题,其中,所述对话问题为对话过程中提问的问题;获取回答多个所述对话问题的第一语音信息,并将所述第一语音信息转换为第一文本信息;至少基于所述第一文本信息从五官图像库中进行筛选,得到目标五官图像,其中,所述五官图像库中存储有多个五官图像。
5.可选地,获取多个对话问题,包括:获取历史对话记录信息,其中,所述历史对话记录信息包括历史五官特征信息、历史问题信息和历史流程信息,所述历史问题信息为历史对话过程中提问的历史问题的信息,所述历史流程信息为多个所述历史问题信息之间的顺序的信息;根据所述历史对话记录信息构建知识图谱,其中,所述历史五官特征信息对应所述知识图谱的实体,所述历史问题信息对应所述知识图谱的属性,所述历史流程信息对应所述知识图谱的关系;根据所述知识图谱依次生成问题,得到多个所述对话问题。
6.可选地,获取多个对话问题,包括:获取第二语音信息,并将所述第二语音信息转换为第二文本信息,其中,所述第二语音信息是提问问题的语音的信息;对所述第二文本信息进行语义识别,得到多个所述对话问题。
7.可选地,所述第一文本信息有多个,在将所述第一语音信息转换为第一文本信息之后,所述方法还包括:对所述第一文本信息进行语义识别,得到多个人脸描述信息,其中,所述人脸描述信息为目标人物的人脸特征和五官特征的信息;对所述人脸描述信息进行分类,并将属于同一类型的所述人脸描述信息进行聚类,得到多个类型的人脸五官描述结果。
8.可选地,在至少基于所述第一文本信息从五官图像库中进行筛选,得到目标五官图像之后,所述方法还包括:根据所述目标五官图像进行拼凑,生成基础人脸图像,其中,所
述基础人脸图像上包括所述目标五官图像,所述目标五官图像在所述基础人脸图像上的位置是根据所述人脸描述信息确定的。
9.可选地,在根据所述目标五官图像进行拼凑,生成基础人脸图像之后,所述方法还包括:将所述基础人脸图像显示在显示设备的显示界面上;控制音频播放设备再次播放所述对话问题,获取回答所述对话问题的第三语音信息,并将所述第三语音信息转换为第三文本信息,得到人脸调整信息,其中,所述人脸调整信息为对所述目标五官图像进行调整的信息;根据所述人脸调整信息对所述基础人脸图像进行调整,得到目标人脸图像。
10.可选地,在根据所述目标五官图像进行拼凑,生成基础人脸图像之后,所述方法还包括:获取人脸调整信息,其中,所述人脸调整信息是控制音频播放设备再次播放所述对话问题,将回答所述对话问题的第三语音信息转换为第三文本信息得到的;将所述人脸描述信息和所述人脸调整信息进行融合,得到目标人脸信息,其中,所述融合的方式包括以下至少之一:加权平均、模糊处理、基于阶段融合、基于语义融合;构建文本生成图像模型,其中,所述文本生成图像模型是使用多组训练数据训练得到的,所述多组训练数据中的每一组训练数据均包括历史时间段内获取的:历史基础人脸图像、历史目标人脸信息、所述历史目标人脸信息对应的历史目标人脸图像,所述历史基础人脸图像作为训练过程中的参考图像;将所述基础人脸图像和所述目标人脸信息输入至所述文本生成图像模型,得到目标人脸图像。
11.可选地,在至少基于所述第一文本信息从五官图像库中进行筛选,得到目标五官图像之后,所述方法还包括:获取第四语音信息,其中,所述第四语音信息为描述事件场景的语音的信息;将所述第四语音信息进行语音转文字处理,得到第四文本信息;提取所述第四文本信息中的关键词;采用文本续写算法或者模板填写算法,根据所述关键词生成第五文本信息,其中,所述第五文本信息为用于对事件场景进行标准化描述的信息;根据所述第五文本信息生成场景图像,其中,所述场景图像为所述事件场景的图像。
12.根据本技术的另一方面,提供了一种人脸五官的筛选装置,包括:第一获取单元,用于获取多个对话问题,其中,所述对话问题为对话过程中提问的问题;第二获取单元,用于获取回答多个所述对话问题的第一语音信息,并将所述第一语音信息转换为第一文本信息;第一处理单元,用于至少基于所述第一文本信息从五官图像库中进行筛选,得到目标五官图像,其中,所述五官图像库中存储有多个五官图像。
13.根据本技术的再一方面,提供了一种人脸五官的筛选系统,包括:一个或多个处理器,存储器,以及一个或多个程序,其中,所述一个或多个程序被存储在所述存储器中,并且被配置为由所述一个或多个处理器执行,所述一个或多个程序包括用于执行任意一种所述的人脸五官的筛选方法。
14.应用本技术的技术方案,可以在对话过程中,获取对话的问题以及回答对话问题的第一语音信息,再对第一语音信息进行语音转文本处理,得到第一文本信息,在五官图像库中通过第一文本信息进行自动化筛选,提取出符合第一文本信息描述的目标五官图像,通过自动化筛选的方式挑选五官图像,降低了时间成本和人力成本。
附图说明
15.构成本技术的一部分的说明书附图用来提供对本技术的进一步理解,本技术的示
意性实施例及其说明用于解释本技术,并不构成对本技术的不当限定。在附图中:
16.图1示出了根据本技术的实施例中提供的一种执行人脸五官的筛选方法的移动终端的硬件结构框图;
17.图2示出了根据本技术的实施例提供的一种人脸五官的筛选方法的流程示意图;
18.图3示出了根据本技术的实施例提供的另一种人脸五官的筛选方法的流程示意图;
19.图4示出了根据本技术的实施例提供的一种人脸五官的筛选装置的结构框图。
20.其中,上述附图包括以下附图标记:
21.102、处理器;104、存储器;106、传输设备;108、输入输出设备。
具体实施方式
22.需要说明的是,在不冲突的情况下,本技术中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本技术。
23.为了使本技术领域的人员更好地理解本技术方案,下面将结合本技术实施例中的附图,对本技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本技术一部分的实施例,而不是全部的实施例。基于本技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本技术保护的范围。
24.需要说明的是,本技术的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本技术的实施例。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
25.为了便于描述,以下对本技术实施例涉及的部分名词或术语进行说明:
26.文本生成图像:是指输入一段文字描述产生对应的图像的任务。
27.知识图谱(knowledge graph)是一种结构化的、语义化的、能够表达事物之间关联性的知识表示方式。它是一个由实体和概念节点以及它们之间关系组成的有向无环图,可以用于描述现实世界中各种事物及其属性、功能、行为等方面的信息,也可应用于人工智能领域,支持自然语言理解、问答系统等任务。目前已经被广泛应用于搜索引擎等技术场景。
28.正如背景技术中所介绍的,现有技术中挑选五官图像所耗费的时间成本和人力成本较高,为解决如上的问题,本技术的实施例提供了一种人脸五官的筛选方法、装置和人脸五官的筛选系统。
29.下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述。
30.本技术实施例中所提供的方法实施例可以在移动终端、计算机终端或者类似的运算装置中执行。以运行在移动终端上为例,图1是本发明实施例的一种人脸五官的筛选方法的移动终端的硬件结构框图。如图1所示,移动终端可以包括一个或多个(图1中仅示出一个)处理器102(处理器102可以包括但不限于微处理器mcu或可编程逻辑器件fpga等的处理
装置)和用于存储数据的存储器104,其中,上述移动终端还可以包括用于通信功能的传输设备106以及输入输出设备108。本领域普通技术人员可以理解,图1所示的结构仅为示意,其并不对上述移动终端的结构造成限定。例如,移动终端还可包括比图1中所示更多或者更少的组件,或者具有与图1所示不同的配置。
31.存储器104可用于存储计算机程序,例如,应用软件的软件程序以及模块,如本发明实施例中的设备信息的显示方法对应的计算机程序,处理器102通过运行存储在存储器104内的计算机程序,从而执行各种功能应用以及数据处理,即实现上述的方法。存储器104可包括高速随机存储器,还可包括非易失性存储器,如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中,存储器104可进一步包括相对于处理器102远程设置的存储器,这些远程存储器可以通过网络连接至移动终端。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。传输设备106用于经由一个网络接收或者发送数据。上述的网络具体实例可包括移动终端的通信供应商提供的无线网络。在一个实例中,传输设备106包括一个网络适配器(network interface controller,简称为nic),其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中,传输设备106可以为射频(radio frequency,简称为rf)模块,其用于通过无线方式与互联网进行通讯。
32.在本实施例中提供了一种运行于移动终端、计算机终端或者类似的运算装置的人脸五官的筛选方法,需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
33.图2是根据本技术实施例的一种人脸五官的筛选方法的流程示意图。如图2所示,该方法包括以下步骤:
34.步骤s201,获取多个对话问题,其中,上述对话问题为对话过程中提问的问题;
35.具体地,对于事件相关人员对话过程中,可以先获取提问的问题,当然,可以是机器人提问的,还可以是人工提问的。
36.步骤s202,获取回答多个上述对话问题的第一语音信息,并将上述第一语音信息转换为第一文本信息;
37.具体地,在事件相关人员回答了对话问题之后,获取事件相关人员回答对话问题的语音,并进行语音转文字处理,得到了第一文本信息。
38.步骤s203,至少基于上述第一文本信息从五官图像库中进行筛选,得到目标五官图像,其中,上述五官图像库中存储有多个五官图像。
39.具体地,本方案可以通过多轮对比的方式,从数据量较多的五官图像库中进行挑选,直到找到与第一文本信息对应的目标五官图像,自动化挑选的方式速度更快,且精度较高。
40.当然,还可以不限于只通过第一文本信息来进行五官挑选,还可以加入办事人员的总结的五官特征信息来一起挑选,具体可以将办事人员的总结的五官特征信息为主,第一文本信息为辅的方式进行挑选,这样可以保证挑选得到的五官图像的准确度更高。当然,还可以加入其他的信息一起挑选,例如采用一个参考五官图像在五官图像库中挑选与其相似度最高的五官图像作为目标五官图像。
41.通过本实施例,可以在对话过程中,获取对话的问题以及回答对话问题的第一语音信息,再对第一语音信息进行语音转文本处理,得到第一文本信息,在五官图像库中通过第一文本信息进行自动化筛选,提取出符合第一文本信息描述的目标五官图像,通过自动化筛选的方式挑选五官图像,降低了时间成本和人力成本。
42.目前事件相关人员并不能通过口述比较精确地描述出目标人物的五官特征,并且事件相关人员描述的内容也不专业,这样也会增加后续五官挑选的难度,具体实现过程中,获取多个对话问题,可以通过以下步骤实现:获取历史对话记录信息,其中,上述历史对话记录信息包括历史五官特征信息、历史问题信息和历史流程信息,上述历史问题信息为历史对话过程中提问的历史问题的信息,上述历史流程信息为多个上述历史问题信息之间的顺序的信息;根据上述历史对话记录信息构建知识图谱,其中,上述历史五官特征信息对应上述知识图谱的实体,上述历史问题信息对应上述知识图谱的属性,上述历史流程信息对应上述知识图谱的关系;根据上述知识图谱依次生成问题,得到多个上述对话问题。
43.该方案中,通过知识图谱的形式可以生成多个对话问题,这样可以将知识图谱与对话式ai结合起来,从而引导事件相关人员描述出更加详实的目标人物的特征,从而可以提升五官信息的准确度。
44.例如,知识图谱中存储的五官特征信息为有五个,分别是眉毛、眼睛、耳朵、鼻子、嘴巴,简称为眉眼耳鼻口,以眼睛进行距离,存储的眼睛问题有五个,分别是:
45.问题a:“他的眼睛是大眼睛还是小眼睛”;
46.问题b:“他的眼睛是单眼皮还是双眼皮”;
47.问题c:“他的眼皮是内双还是外双”;
48.问题d:“他的眼睛是很大的眼睛吗,已经占据了整张脸的块1/5了吗”;
49.问题e:“他的眼睛是很小的眼睛吗,是不是像一条缝”;
50.一种方案中,一开始的对话问题是a,如果事件相关人员回答是大眼睛,那么下一个问的问题就是d,事件相关人员回答后,再问问题b,如果事件相关人员回答是双眼皮,那么下一个问的问题就是c。另一种方案中,一开始的对话问题是a,如果事件相关人员回答是小眼睛,那么下一个问的问题就是e。
51.因此,多个对话问题之间实际上是有关系的,先问哪个问题后问哪个问题都是存储在知识图谱里面的,通过对话式ai来与事件相关人员对话。对话式ai可以是对话模型,对话模型是使用多组训练数据训练得到的,多组训练数据中的每一组训练数据均包括历史时间段内获取的历史问题、历史问题对应的历史答案。
52.在对话过程中,还可以是办事人员对事件相关人员进行提问来得到对话问题,具体实现过程中,获取多个对话问题,可以通过以下步骤实现:获取第二语音信息,并将上述第二语音信息转换为第二文本信息,其中,上述第二语音信息是提问问题的语音的信息;对上述第二文本信息进行语义识别,得到多个上述对话问题。
53.该方案中,还可以是由办事人员自己对事件相关人员进行提问,将办事人员提问的语音进行语音转文本处理,再进行语义识别,得到了对话问题,这样可以直接从多个用户对话过程中获取对话问题,提升了办事人员与事件相关人员的沟通效率。
54.具体地,还可以是通过知识图谱+对话式ai与办事人员共同配合,从而引导事件相关人员描述出更加详实的目标人物的特征,从而在提升信息准确度的同时,也提升了办事
人员与事件相关人员的沟通效率。
55.相较于目前的人脸合成需要相关人从大量的人脸五官库中进行检索、对比,最终选择出大致相似的五官进行合成,通过基于办事场景的话术与事件数据构建的知识图谱以及与基于此所形成的对话式ai辅助办事人与事件相关人进行沟通,可以引导相关人更加精准、快速的形容出目标人物的人脸特征信息,从而进一步应用于后半部分的人脸五官库检索与文本生成图像模型的文本输入。
56.现有方式如果由被讯问人员(事件相关人员)自己描述目标人物人五官特征,会由于被讯问人员的自身条件所限制无法描述准确出的特征,例如被讯问人员只能说出来是单眼皮还是双眼皮,无法说出来眼睛的形状是柳叶还是杏眼,这样办事人员合并五官时的准确率较低,并且办事人员还需要自己去五官库里面查询五官,而本方案中,预先构建了知识图谱,通过知识图谱来以ai的形式与被讯问人员沟通,引导被讯问人员说出来目标人物的特征,这样可以快速地且准确地让被讯问人员描述出目标人物的特征,同时也不需要人工来画出来人脸的素描了,而是在五官图像库里面找到符合条件的五官,这样通过自动化的形式找到五官特征,降低了时间成本和人力成本。
57.为了得到较为精确的人脸五官的描述,上述第一文本信息有多个,在将上述第一语音信息转换为第一文本信息之后,上述方法还包括以下步骤:对上述第一文本信息进行语义识别,得到多个人脸描述信息,其中,上述人脸描述信息为目标人物的人脸特征和五官特征的信息;对上述人脸描述信息进行分类,并将属于同一类型的上述人脸描述信息进行聚类,得到多个类型的人脸五官描述结果。
58.该方案中,可以对事件相关人员口述得到的第一文本信息进行文本分析处理和文本分类处理,即对多个第一文本信息中属于同一类型的进行聚类,得到多个类型的人脸五官描述结果,这样对于某一个五官来说,可以有一个精确的描述,进而保证了后续可以较为精确地筛选目标五官图像。
59.具体地,由于事件相关人员并不是专业的,因此可能前后说的话的都是不同的五官描述,例如,事件相关人员说了以下几句话:
60.内容a:“他的眼睛是杏眼”;
61.内容b:“他的鼻子很塌”;
62.内容c:“他的眼睛是双眼皮”;
63.内容d:“他的嘴巴是微笑唇”;
64.内容e:“他的嘴唇特别厚”;
65.内容f:“他的鼻子是蒜头鼻”;
66.内容g:“他的耳朵的耳垂非常大”;
67.对以上内容进行分类后,发现内容a和内容c都是对于眼睛的描述,内容b和内容f都是对于鼻子的描述,内容d和内容e都是对于嘴巴的描述,内容g是对于耳朵的描述,因此,将内容a和内容c聚类为眼睛描述,得到的是眼睛的描述结果“眼睛是杏眼,双眼皮”,将内容b和内容f聚类为鼻子描述,得到的是鼻子的描述结果“鼻子塌,蒜头鼻”,将内容d和内容e聚类为嘴巴描述,得到的是嘴巴的描述结果“微笑唇,嘴唇厚”,将内容g聚类为耳朵描述,得到的是耳朵的描述结果“耳朵的耳垂大”。
68.目前专业的办事人员进行画像主要是素描图像,与真实人的人脸照片仍是有一定
差距的,因此需要更加写实的、接近照片质量的图像作为输出来让事件相关人员辨认,这样可以提高目标人物判断的准确率,因此,为了提高目标人物判断的准确率,在至少基于上述第一文本信息从五官图像库中进行筛选,得到目标五官图像之后,上述方法还包括以下步骤:根据上述目标五官图像进行拼凑,生成基础人脸图像,其中,上述基础人脸图像上包括上述目标五官图像,上述目标五官图像在上述基础人脸图像上的位置是根据上述人脸描述信息确定的。
69.该方案中,在得到了人脸描述信息的情况下,从目标五官图像中快速检索出目标五官图像,进而对目标五官图像合并,得到了较为精准的基础人脸图像,基础人脸图像接近于照片,方便事件相关人员辨认,这样可以提高目标人物判断的准确率。
70.但对于人工智能生成图像,可以有以下三种方式:第一种是基于人员描述,通过合成人脸的方式,实现对人物图像的构建;第二种是基于人员描述,通过生成对抗网络的方式从文本生成人脸;第三种是基于人员沟通记录与事件信息记录等文本数据,通过文本分析、文本分类等技术,实现从文本层面的相关“人物画像”。
71.目前基于文本生成人脸图像的技术,对文本描述的专业度有较高的要求,才能生成与用户心中所想的人脸最接近的图像,这对于办事场景所接触的事件相关人员来说,是一个比较高的门槛,同时,在没有参考图的情况下,所输出的最终人脸图像可能会存在众多不可控的细节问题。
72.为保证生成的人脸图像的精确度更高,可以对人脸图像进行调整,在一些实施例上,在根据上述目标五官图像进行拼凑,生成基础人脸图像之后,上述方法还包括以下步骤:将上述基础人脸图像显示在显示设备的显示界面上;控制音频播放设备再次播放上述对话问题,获取回答上述对话问题的第三语音信息,并将上述第三语音信息转换为第三文本信息,得到人脸调整信息,其中,上述人脸调整信息为对上述目标五官图像进行调整的信息;根据上述人脸调整信息对上述基础人脸图像进行调整,得到目标人脸图像。
73.该方案中,直接使用人脸调整信息来对基础人脸图像进行调整,最终生成具有照片质量的目标人物的目标人脸图像,从而保证目标人脸图像的质量较高,并且目标人脸图像与真实的目标人物的匹配度较高。
74.目前文本生成图像技术已经愈发完善,无论是场景图像的生成还是人物图像的生成,在详细的描述文本及参数的基础上,可以生成出更加符合用户需求的图像内容,但专用领域的文本图像生成,尚需从模型训练层面,输入参数层面进行调优才能有效适配,在一些实施例上,在根据上述目标五官图像进行拼凑,生成基础人脸图像之后,上述方法还包括以下步骤:获取人脸调整信息,其中,上述人脸调整信息是控制音频播放设备再次播放上述对话问题,将回答上述对话问题的第三语音信息转换为第三文本信息得到的;将上述人脸描述信息和上述人脸调整信息进行融合,得到目标人脸信息,其中,上述融合的方式包括以下至少之一:加权平均、模糊处理、基于阶段融合、基于语义融合;构建文本生成图像模型,其中,上述文本生成图像模型是使用多组训练数据训练得到的,上述多组训练数据中的每一组训练数据均包括历史时间段内获取的:历史基础人脸图像、历史目标人脸信息、上述历史目标人脸信息对应的历史目标人脸图像,上述历史基础人脸图像作为训练过程中的参考图像;将上述基础人脸图像和上述目标人脸信息输入至上述文本生成图像模型,得到目标人脸图像。
75.该方案中,可以将人脸描述信息和人脸调整信息进行结合,得到目标人脸信息,将目标人脸信息输入至文本生成图像模型中,再将基础人脸图像作为参考的图像也输入至文本生成图像模型中输入至文本生成图像模型中,对基础人脸图像进行调整,得到了目标人脸图像,从而保证目标人脸图像的质量较高,并且目标人脸图像与真实的目标人物的匹配度较高。
76.具体地,人脸调整信息可以是“眼睛再大一些”,还可以是“鼻子再小一些”,还可以是“嘴唇再厚一些”。
77.具体地,对于人脸描述信息和人脸调整信息进行融合的方式可以有多种,例如,基于加权平均进行融合指的是将人脸描述信息对应的权重与人脸描述信息进行相乘,将人脸调整信息对应的权重与人脸调整信息进行相乘,进而将两个乘积相加,得到了目标人脸信息。基于模糊处理进行融合模糊积分融合方法,将模糊积分融合方法与多个五官指标(例如眼睛的宽度范围,鼻子的长度范围等等)进行融合,从而提高目标人脸信息的准确性。基于阶段进行融合指的是眼睛的描述信息对应眼睛的调整信息,鼻子的描述信息对应鼻子的调整信息,采用人脸调整信息覆盖掉之前的人脸描述信息。基于语义进行融合指的是分别对人脸描述信息和人脸调整信息进行语义分析处理,根据语义分析的结果进行融合,例如,人脸描述信息描述的是“眼睛很大”,人脸调整信息描述的是“眼睛特别大”,那么如果原来得到的眼睛的长度有23mm,那么可以将眼睛的长度调整为24mm。
78.相较于通用场景的基于文本的人脸图像生成,其输出结果由于没有参考图,可能存在不太受控的情况,造成不容易匹配相关人记忆中人脸的情况,本方案可以在专业的五官图像库中基于相关人的描述进行分析并基于分析结果快速检索并拼合出目标人物的基础人脸图像作为参照图输入,从而保障了最终输出目标人脸图像与真实的目标人物的匹配度较高。
79.对于大部分事件相关人员来说,实际上是较难准确地描述出标准化的场景的,在一些实施例上,在至少基于上述第一文本信息从五官图像库中进行筛选,得到目标五官图像之后,上述方法还包括以下步骤:获取第四语音信息,其中,上述第四语音信息为描述事件场景的语音的信息;将上述第四语音信息进行语音转文字处理,得到第四文本信息;提取上述第四文本信息中的关键词;采用文本续写算法或者模板填写算法,根据上述关键词生成第五文本信息,其中,上述第五文本信息为用于对事件场景进行标准化描述的信息;根据上述第五文本信息生成场景图像,其中,上述场景图像为上述事件场景的图像。
80.该方案中,通过对事件相关人员回答的内容提取关键词,再通过文本续写算法或者模板填写算法进行处理,可以对事件相关人员回答的内容进行进一步完善,进而保证了第五文本信息的准确性较高,从而生成的场景图像与真实的场景的还原度较高。
81.具体地,对于描述图像中的专业词语,附加参数值、高度渲染、分辨率、远景等等都是较为专业的,大部分回答者是较难直接描述出来的,这样可以通过补全以及结构化表达完善描述。还可以在描述的不完整的情况下,对事件相关人员进行引导,通过对话模板文本对事件相关人员进行引导,这样可以引导事件相关人员更为完整地描述内容。通过自然语言处理与文本续写技术,实现将事件相关人员的语言描述与情绪类别描述进行标准化处理,补全一些关于文本生成图像模型所需要的专业化描述,从而增强所输出图像的精确度与完整度。
82.更为具体地,可以将确定的情绪类别、关键词、关键语句、事件相关人员的场景描述等文本内容进行结合,基于自然语言和文本续写技术,将输入的语句构造为文本描述生成场景图像所需要的标准化描述语音,并自动补齐相关描述作为输出。
83.以下对于文本续写算法进行介绍:
84.基于情绪类别、关键词、关键语句、事件相关人员的场景描述,自动续写文本,生成一篇完整的文本(第五文本信息),例如关键词包括“我”、“仓库”、“河流”、“仓库旁边有河”、“屋顶坏”、“看”,可以自动续写生成的文本为“我看到仓库旁边有一条河流,仓库的屋顶是坏的”;
85.以下对于模板填写算法进行介绍:
86.直接预先配置一个模板,事件相关人员回复模板中空白的区域,然后根据模板和、事件相关人员的回复来生成文本(第五文本信息),例如目标是“你在__看到了__,旁边还有__,这个物体其他的特征是__”,事件相关人员回复第一个空白是“仓库旁”,事件相关人员回复第二个空白是“仓库”,事件相关人员回复第三个空白是“一条河”,事件相关人员回复第四个空白是“屋顶坏了”,生成的第五文本信息为“我看到仓库旁边有一条河流,仓库的屋顶是坏的”。
87.进而构建一个场景,来还原出事件相关人员描述的内容。
88.综上,本方案可以基于知识图谱、对话式ai、文本分析、文本分类与文本生成图像技术相结合,通过针对办事场景进行文本生成图像的模型训练,达到更加精准的通过ai绘画出办事场景与事件相关的图像的目的。
89.本方案提出的主要是三个维度的优化,其一,结合知识图谱与对话式ai引导相关人对人物特征进行专业性描述;其二,通过文本分析、文本分类的方式将相关人的描述形成分类结果,从而基于该结果从人脸五官库中快速检索出对应的五官,并拼凑成为完整的基础人脸图像;其三,将基础人脸图像提供给相关人查看,并继续通过对话式ai引导相关人通过口述对五官进行调整,语音识别相关人的口述信息并转写为文本,转写后的调整文本结合原始描述文本,以基础人脸图像为参考图,共同输入文本生成图像模型,最终生成目标人脸图像。
90.为了使得本领域技术人员能够更加清楚地了解本技术的技术方案,以下将结合具体的实施例对本技术的人脸五官的筛选方法的实现过程进行详细说明。
91.本实施例涉及一种具体的人脸五官的筛选方法,主要包括五个模块:专业领域知识图谱、对话式ai模块、文本分析与文本分类模块、办事人脸五官图像库、文本生成图像模块,如图3所示,包括如下步骤:
92.第一步,基于办事沟通场景对话记录数据及存量办事数据构建专业领域知识图谱,并基于该知识图谱构建对话式ai模块,对话式ai模块包含语音识别、语音合成、语义理解,同时支持调用专业领域知识图谱进行场景对话;
93.第二步,通过办事人员配合对话式ai模块与事件相关人进行对话,引导相关人以较为规范、标准的方式口述出目标人物的人脸特征信息,并由对话式ai总结输出为目标人物人脸描述信息a;
94.第三步,将对话式ai中的语音识别结果送入文本分析与文本分类模块,针对人脸五官的相关描述进行文本分析与文本分类,从而形成结构化的人脸五官描述结论;
95.第四步,基于第三步结论信息,送入办事人脸五官图像库进行对应五官图像的检索,并最终输出基于检索的五官结果拼凑出的人脸图像作为基础人脸图像;
96.第五步,将基础人脸图像呈递给相关人查看,并继续由办事人配合对话式ai引导相关人补充针对目标人物人脸五官等细节信息需要完善与调整的描述,并由对话式ai总结输出为目标人物人脸调整信息b;
97.第六步,由对话式ai融合目标人物人脸描述信息a与目标人物人脸调整信息b,最终输出目标人物人脸信息c,作为文本生成图像模块的输入1;
98.第七步,将办事人脸五官图像库拼凑出的基础人脸图像以参考图的形式作为文本生成图像模块的输入2,与输入1一起输入文本生成图像模块,最终输出较高精度、较高质量的照片级目标人物人脸图像。
99.本技术实施例还提供了一种人脸五官的筛选装置,需要说明的是,本技术实施例的人脸五官的筛选装置可以用于执行本技术实施例所提供的用于人脸五官的筛选方法。该装置用于实现上述实施例及优选实施方式,已经进行过说明的不再赘述。如以下所使用的,术语“模块”可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的装置较佳地以软件来实现,但是硬件,或者软件和硬件的组合的实现也是可能并被构想的。
100.以下对本技术实施例提供的人脸五官的筛选装置进行介绍。
101.图4是根据本技术实施例的一种人脸五官的筛选装置的结构框图。如图4所示,该装置包括:
102.第一获取单元10,用于获取多个对话问题,其中,上述对话问题为对话过程中提问的问题;
103.具体地,对于事件相关人员对话过程中,可以先获取提问的问题,当然,可以是机器人提问的,还可以是人工提问的。
104.第二获取单元20,用于获取回答多个上述对话问题的第一语音信息,并将上述第一语音信息转换为第一文本信息;
105.具体地,在事件相关人员回答了对话问题之后,获取事件相关人员回答对话问题的语音,并进行语音转文字处理,得到了第一文本信息。
106.第一处理单元30,用于至少基于上述第一文本信息从五官图像库中进行筛选,得到目标五官图像,其中,上述五官图像库中存储有多个五官图像。
107.具体地,本方案可以通过多轮对比的方式,从数据量较多的五官图像库中进行挑选,直到找到与第一文本信息对应的目标五官图像,自动化挑选的方式速度更快,且精度较高。
108.当然,还可以不限于只通过第一文本信息来进行五官挑选,还可以加入办事人员的总结的五官特征信息来一起挑选,具体可以将办事人员的总结的五官特征信息为主,第一文本信息为辅的方式进行挑选,这样可以保证挑选得到的五官图像的准确度更高。当然,还可以加入其他的信息一起挑选,例如采用一个参考五官图像在五官图像库中挑选与其相似度最高的五官图像作为目标五官图像。
109.通过本实施例,可以在对话过程中,获取对话的问题以及回答对话问题的第一语音信息,再对第一语音信息进行语音转文本处理,得到第一文本信息,在五官图像库中通过第一文本信息进行自动化筛选,提取出符合第一文本信息描述的目标五官图像,通过自动
化筛选的方式挑选五官图像,降低了时间成本和人力成本。
110.目前事件相关人员并不能通过口述比较精确地描述出目标人物的五官特征,并且事件相关人员描述的内容也不专业,这样也会增加后续五官挑选的难度,具体实现过程中,第一获取单元包括第一获取模块、构建模块和第一处理模块,第一获取模块用于获取历史对话记录信息,其中,上述历史对话记录信息包括历史五官特征信息、历史问题信息和历史流程信息,上述历史问题信息为历史对话过程中提问的历史问题的信息,上述历史流程信息为多个上述历史问题信息之间的顺序的信息;构建模块用于根据上述历史对话记录信息构建知识图谱,其中,上述历史五官特征信息对应上述知识图谱的实体,上述历史问题信息对应上述知识图谱的属性,上述历史流程信息对应上述知识图谱的关系;第一处理模块用于根据上述知识图谱依次生成问题,得到多个上述对话问题。
111.该方案中,通过知识图谱的形式可以生成多个对话问题,这样可以将知识图谱与对话式ai结合起来,从而引导事件相关人员描述出更加详实的目标人物的特征,从而可以提升五官信息的准确度。
112.例如,知识图谱中存储的五官特征信息为有五个,分别是眉毛、眼睛、耳朵、鼻子、嘴巴,简称为眉眼耳鼻口,以眼睛进行距离,存储的眼睛问题有五个,分别是:
113.问题a:“他的眼睛是大眼睛还是小眼睛”;
114.问题b:“他的眼睛是单眼皮还是双眼皮”;
115.问题c:“他的眼皮是内双还是外双”;
116.问题d:“他的眼睛是很大的眼睛吗,已经占据了整张脸的块1/5了吗”;
117.问题e:“他的眼睛是很小的眼睛吗,是不是像一条缝”;
118.一种方案中,一开始的对话问题是a,如果事件相关人员回答是大眼睛,那么下一个问的问题就是d,事件相关人员回答后,再问问题b,如果事件相关人员回答是双眼皮,那么下一个问的问题就是c。另一种方案中,一开始的对话问题是a,如果事件相关人员回答是小眼睛,那么下一个问的问题就是e。
119.因此,多个对话问题之间实际上是有关系的,先问哪个问题后问哪个问题都是存储在知识图谱里面的,通过对话式ai来与事件相关人员对话。对话式ai可以是对话模型,对话模型是使用多组训练数据训练得到的,多组训练数据中的每一组训练数据均包括历史时间段内获取的历史问题、历史问题对应的历史答案。
120.在对话过程中,还可以是办事人员对事件相关人员进行提问来得到对话问题,具体实现过程中,第一获取单元包括第二获取模块和第二处理模块,第二获取模块用于获取第二语音信息,并将上述第二语音信息转换为第二文本信息,其中,上述第二语音信息是提问问题的语音的信息;第二处理模块用于对上述第二文本信息进行语义识别,得到多个上述对话问题。
121.该方案中,还可以是由办事人员自己对事件相关人员进行提问,将办事人员提问的语音进行语音转文本处理,再进行语义识别,得到了对话问题,这样可以直接从多个用户对话过程中获取对话问题,提升了办事人员与事件相关人员的沟通效率。
122.具体地,还可以是通过知识图谱+对话式ai与办事人员共同配合,从而引导事件相关人员描述出更加详实的目标人物的特征,从而在提升信息准确度的同时,也提升了办事人员与事件相关人员的沟通效率。
123.相较于目前的人脸合成需要相关人从大量的人脸五官库中进行检索、对比,最终选择出大致相似的五官进行合成,通过基于办事场景的话术与事件数据构建的知识图谱以及与基于此所形成的对话式ai辅助办事人与事件相关人进行沟通,可以引导相关人更加精准、快速的形容出目标人物的人脸特征信息,从而进一步应用于后半部分的人脸五官库检索与文本生成图像模型的文本输入。
124.现有方式如果由被讯问人员(事件相关人员)自己描述目标人物人五官特征,会由于被讯问人员的自身条件所限制无法描述准确出的特征,例如被讯问人员只能说出来是单眼皮还是双眼皮,无法说出来眼睛的形状是柳叶还是杏眼,这样办事人员合并五官时的准确率较低,并且办事人员还需要自己去五官库里面查询五官,而本方案中,预先构建了知识图谱,通过知识图谱来以ai的形式与被讯问人员沟通,引导被讯问人员说出来目标人物的特征,这样可以快速地且准确地让被讯问人员描述出目标人物的特征,同时也不需要人工来画出来人脸的素描了,而是在五官图像库里面找到符合条件的五官,这样通过自动化的形式找到五官特征,降低了时间成本和人力成本。
125.为了得到较为精确的人脸五官的描述,上述第一文本信息有多个,上述装置还包括第二处理单元和第三处理单元,第二处理单元用于在将上述第一语音信息转换为第一文本信息之后,对上述第一文本信息进行语义识别,得到多个人脸描述信息,其中,上述人脸描述信息为目标人物的人脸特征和五官特征的信息;第三处理单元用于对上述人脸描述信息进行分类,并将属于同一类型的上述人脸描述信息进行聚类,得到多个类型的人脸五官描述结果。
126.该方案中,可以对事件相关人员口述得到的第一文本信息进行文本分析处理和文本分类处理,即对多个第一文本信息中属于同一类型的进行聚类,得到多个类型的人脸五官描述结果,这样对于某一个五官来说,可以有一个精确的描述,进而保证了后续可以较为精确地筛选目标五官图像。
127.具体地,由于事件相关人员并不是专业的,因此可能前后说的话的都是不同的五官描述,例如,事件相关人员说了以下几句话:
128.内容a:“他的眼睛是杏眼”;
129.内容b:“他的鼻子很塌”;
130.内容c:“他的眼睛是双眼皮”;
131.内容d:“他的嘴巴是微笑唇”;
132.内容e:“他的嘴唇特别厚”;
133.内容f:“他的鼻子是蒜头鼻”;
134.内容g:“他的耳朵的耳垂非常大”;
135.对以上内容进行分类后,发现内容a和内容c都是对于眼睛的描述,内容b和内容f都是对于鼻子的描述,内容d和内容e都是对于嘴巴的描述,内容g是对于耳朵的描述,因此,将内容a和内容c聚类为眼睛描述,得到的是眼睛的描述结果“眼睛是杏眼,双眼皮”,将内容b和内容f聚类为鼻子描述,得到的是鼻子的描述结果“鼻子塌,蒜头鼻”,将内容d和内容e聚类为嘴巴描述,得到的是嘴巴的描述结果“微笑唇,嘴唇厚”,将内容g聚类为耳朵描述,得到的是耳朵的描述结果“耳朵的耳垂大”。
136.目前专业的办事人员进行画像主要是素描图像,与真实人的人脸照片仍是有一定
差距的,因此需要更加写实的、接近照片质量的图像作为输出来让事件相关人员辨认,这样可以提高目标人物判断的准确率,因此,为了提高目标人物判断的准确率,上述装置还包括第四处理单元,第四处理单元用于在至少基于上述第一文本信息从五官图像库中进行筛选,得到目标五官图像之后,根据上述目标五官图像进行拼凑,生成基础人脸图像,其中,上述基础人脸图像上包括上述目标五官图像,上述目标五官图像在上述基础人脸图像上的位置是根据上述人脸描述信息确定的。
137.该方案中,在得到了人脸描述信息的情况下,从目标五官图像中快速检索出目标五官图像,进而对目标五官图像合并,得到了较为精准的基础人脸图像,基础人脸图像接近于照片,方便事件相关人员辨认,这样可以提高目标人物判断的准确率。
138.但对于人工智能生成图像,可以有以下三种方式:第一种是基于人员描述,通过合成人脸的方式,实现对人物图像的构建;第二种是基于人员描述,通过生成对抗网络的方式从文本生成人脸;第三种是基于人员沟通记录与事件信息记录等文本数据,通过文本分析、文本分类等技术,实现从文本层面的相关“人物画像”。
139.目前基于文本生成人脸图像的技术,对文本描述的专业度有较高的要求,才能生成与用户心中所想的人脸最接近的图像,这对于办事场景所接触的事件相关人员来说,是一个比较高的门槛,同时,在没有参考图的情况下,所输出的最终人脸图像可能会存在众多不可控的细节问题。
140.为保证生成的人脸图像的精确度更高,可以对人脸图像进行调整,在一些实施例上,上述装置还包括显示单元、第五处理单元和第六处理单元,显示单元用于在根据上述目标五官图像进行拼凑,生成基础人脸图像之后,将上述基础人脸图像显示在显示设备的显示界面上;第五处理单元用于控制音频播放设备再次播放上述对话问题,获取回答上述对话问题的第三语音信息,并将上述第三语音信息转换为第三文本信息,得到人脸调整信息,其中,上述人脸调整信息为对上述目标五官图像进行调整的信息;第六处理单元用于根据上述人脸调整信息对上述基础人脸图像进行调整,得到目标人脸图像。
141.该方案中,直接使用人脸调整信息来对基础人脸图像进行调整,最终生成具有照片质量的目标人物的目标人脸图像,从而保证目标人脸图像的质量较高,并且目标人脸图像与真实的目标人物的匹配度较高。
142.目前文本生成图像技术已经愈发完善,无论是场景图像的生成还是人物图像的生成,在详细的描述文本及参数的基础上,可以生成出更加符合用户需求的图像内容,但专用领域的文本图像生成,尚需从模型训练层面,输入参数层面进行调优才能有效适配,在一些实施例上,上述装置还包括第三获取单元、融合单元、构建单元和第七处理单元,第三获取单元用于在根据上述目标五官图像进行拼凑,生成基础人脸图像之后,获取人脸调整信息,其中,上述人脸调整信息是控制音频播放设备再次播放上述对话问题,将回答上述对话问题的第三语音信息转换为第三文本信息得到的;融合单元用于将上述人脸描述信息和上述人脸调整信息进行融合,得到目标人脸信息,其中,上述融合的方式包括以下至少之一:加权平均、模糊处理、基于阶段融合、基于语义融合;构建单元用于构建文本生成图像模型,其中,上述文本生成图像模型是使用多组训练数据训练得到的,上述多组训练数据中的每一组训练数据均包括历史时间段内获取的:历史基础人脸图像、历史目标人脸信息、上述历史目标人脸信息对应的历史目标人脸图像,上述历史基础人脸图像作为训练过程中的参考图
像;第七处理单元用于将上述基础人脸图像和上述目标人脸信息输入至上述文本生成图像模型,得到目标人脸图像。
143.该方案中,可以将人脸描述信息和人脸调整信息进行结合,得到目标人脸信息,将目标人脸信息输入至文本生成图像模型中,再将基础人脸图像作为参考的图像也输入至文本生成图像模型中输入至文本生成图像模型中,对基础人脸图像进行调整,得到了目标人脸图像,从而保证目标人脸图像的质量较高,并且目标人脸图像与真实的目标人物的匹配度较高。
144.具体地,人脸调整信息可以是“眼睛再大一些”,还可以是“鼻子再小一些”,还可以是“嘴唇再厚一些”。
145.具体地,对于人脸描述信息和人脸调整信息进行融合的方式可以有多种,例如,基于加权平均进行融合指的是将人脸描述信息对应的权重与人脸描述信息进行相乘,将人脸调整信息对应的权重与人脸调整信息进行相乘,进而将两个乘积相加,得到了目标人脸信息。基于模糊处理进行融合模糊积分融合方法,将模糊积分融合方法与多个五官指标(例如眼睛的宽度范围,鼻子的长度范围等等)进行融合,从而提高目标人脸信息的准确性。基于阶段进行融合指的是眼睛的描述信息对应眼睛的调整信息,鼻子的描述信息对应鼻子的调整信息,采用人脸调整信息覆盖掉之前的人脸描述信息。基于语义进行融合指的是分别对人脸描述信息和人脸调整信息进行语义分析处理,根据语义分析的结果进行融合,例如,人脸描述信息描述的是“眼睛很大”,人脸调整信息描述的是“眼睛特别大”,那么如果原来得到的眼睛的长度有23mm,那么可以将眼睛的长度调整为24mm。
146.相较于通用场景的基于文本的人脸图像生成,其输出结果由于没有参考图,可能存在不太受控的情况,造成不容易匹配相关人记忆中人脸的情况,本方案可以在专业的五官图像库中基于相关人的描述进行分析并基于分析结果快速检索并拼合出目标人物的基础人脸图像作为参照图输入,从而保障了最终输出目标人脸图像与真实的目标人物的匹配度较高。
147.对于大部分事件相关人员来说,实际上是较难准确地描述出标准化的场景的,在一些实施例上,上述装置还包括第四获取单元、转换单元、提取单元、第八处理单元和生成单元,第四获取单元用于在至少基于上述第一文本信息从五官图像库中进行筛选,得到目标五官图像之后,获取第四语音信息,其中,上述第四语音信息为描述事件场景的语音的信息;转换单元用于将上述第四语音信息进行语音转文字处理,得到第四文本信息;提取单元用于提取上述第四文本信息中的关键词;第八处理单元用于采用文本续写算法或者模板填写算法,根据上述关键词生成第五文本信息,其中,上述第五文本信息为用于对事件场景进行标准化描述的信息;生成单元用于根据上述第五文本信息生成场景图像,其中,上述场景图像为上述事件场景的图像。
148.该方案中,通过对事件相关人员回答的内容提取关键词,再通过文本续写算法或者模板填写算法进行处理,可以对事件相关人员回答的内容进行进一步完善,进而保证了第五文本信息的准确性较高,从而生成的场景图像与真实的场景的还原度较高。
149.具体地,对于描述图像中的专业词语,附加参数值、高度渲染、分辨率、远景等等都是较为专业的,大部分回答者是较难直接描述出来的,这样可以通过补全以及结构化表达完善描述。还可以在描述的不完整的情况下,对事件相关人员进行引导,通过对话模板文本
对事件相关人员进行引导,这样可以引导事件相关人员更为完整地描述内容。通过自然语言处理与文本续写技术,实现将事件相关人员的语言描述与情绪类别描述进行标准化处理,补全一些关于文本生成图像模型所需要的专业化描述,从而增强所输出图像的精确度与完整度。
150.更为具体地,可以将确定的情绪类别、关键词、关键语句、事件相关人员的场景描述等文本内容进行结合,基于自然语言和文本续写技术,将输入的语句构造为文本描述生成场景图像所需要的标准化描述语音,并自动补齐相关描述作为输出。
151.以下对于文本续写算法进行介绍:
152.基于情绪类别、关键词、关键语句、事件相关人员的场景描述,自动续写文本,生成一篇完整的文本(第五文本信息),例如关键词包括“我”、“仓库”、“河流”、“仓库旁边有河”、“屋顶坏”、“看”,可以自动续写生成的文本为“我看到仓库旁边有一条河流,仓库的屋顶是坏的”;
153.以下对于模板填写算法进行介绍:
154.直接预先配置一个模板,事件相关人员回复模板中空白的区域,然后根据模板和、事件相关人员的回复来生成文本(第五文本信息),例如目标是“你在__看到了__,旁边还有__,这个物体其他的特征是__”,事件相关人员回复第一个空白是“仓库旁”,事件相关人员回复第二个空白是“仓库”,事件相关人员回复第三个空白是“一条河”,事件相关人员回复第四个空白是“屋顶坏了”,生成的第五文本信息为“我看到仓库旁边有一条河流,仓库的屋顶是坏的”。
155.进而构建一个场景,来还原出事件相关人员描述的内容。
156.综上,本方案可以基于知识图谱、对话式ai、文本分析、文本分类与文本生成图像技术相结合,通过针对办事场景进行文本生成图像的模型训练,达到更加精准的通过ai绘画出办事场景与事件相关的图像的目的。
157.本方案提出的主要是三个维度的优化,其一,结合知识图谱与对话式ai引导相关人对人物特征进行专业性描述;其二,通过文本分析、文本分类的方式将相关人的描述形成分类结果,从而基于该结果从人脸五官库中快速检索出对应的五官,并拼凑成为完整的基础人脸图像;其三,将基础人脸图像提供给相关人查看,并继续通过对话式ai引导相关人通过口述对五官进行调整,语音识别相关人的口述信息并转写为文本,转写后的调整文本结合原始描述文本,以基础人脸图像为参考图,共同输入文本生成图像模型,最终生成目标人脸图像。
158.上述人脸五官的筛选装置包括处理器和存储器,上述第一获取单元、第二获取单元和第一处理单元等均作为程序单元存储在存储器中,由处理器执行存储在存储器中的上述程序单元来实现相应的功能。上述模块均位于同一处理器中;或者,上述各个模块以任意组合的形式分别位于不同的处理器中。
159.处理器中包含内核,由内核去存储器中调取相应的程序单元。内核可以设置一个或以上,通过调整内核参数来解决现有技术中挑选五官图像所耗费的时间成本和人力成本较高的问题。
160.存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(ram)和/或非易失性内存等形式,如只读存储器(rom)或闪存(flash ram),存储器包括至少一个存
储芯片。
161.本发明实施例提供了一种计算机可读存储介质,上述计算机可读存储介质包括存储的程序,其中,在上述程序运行时控制上述计算机可读存储介质所在设备执行上述人脸五官的筛选方法。
162.本发明实施例提供了一种处理器,上述处理器用于运行程序,其中,上述程序运行时执行上述人脸五官的筛选方法。
163.本技术还提供了一种人脸五官的筛选系统,包括一个或多个处理器,存储器,以及一个或多个程序,其中,上述一个或多个程序被存储在上述存储器中,并且被配置为由上述一个或多个处理器执行,上述一个或多个程序包括用于执行任意一种上述的人脸五官的筛选方法。
164.本发明实施例提供了一种设备,设备包括处理器、存储器及存储在存储器上并可在处理器上运行的程序,处理器执行程序时实现至少以下步骤:
165.步骤s201,获取多个对话问题,其中,上述对话问题为对话过程中提问的问题;
166.步骤s202,获取回答多个上述对话问题的第一语音信息,并将上述第一语音信息转换为第一文本信息;
167.步骤s203,至少基于上述第一文本信息从五官图像库中进行筛选,得到目标五官图像,其中,上述五官图像库中存储有多个五官图像。
168.本文中的设备可以是服务器、pc、pad、手机等。
169.本技术还提供了一种计算机程序产品,当在数据处理设备上执行时,适于执行初始化有至少如下方法步骤的程序:
170.步骤s201,获取多个对话问题,其中,上述对话问题为对话过程中提问的问题;
171.步骤s202,获取回答多个上述对话问题的第一语音信息,并将上述第一语音信息转换为第一文本信息;
172.步骤s203,至少基于上述第一文本信息从五官图像库中进行筛选,得到目标五官图像,其中,上述五官图像库中存储有多个五官图像。
173.显然,本领域的技术人员应该明白,上述的本发明的各模块或各步骤可以用通用的计算装置来实现,它们可以集中在单个的计算装置上,或者分布在多个计算装置所组成的网络上,它们可以用计算装置可执行的程序代码来实现,从而,可以将它们存储在存储装置中由计算装置来执行,并且在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本发明不限制于任何特定的硬件和软件结合。
174.本领域内的技术人员应明白,本技术的实施例可提供为方法、系统、或计算机程序产品。因此,本技术可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本技术可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、cd-rom、光学存储器等)上实施的计算机程序产品的形式。
175.本技术是参照根据本技术实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序
指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
176.这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
177.这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
178.在一个典型的配置中,计算设备包括一个或多个处理器(cpu)、输入/输出接口、网络接口和内存。
179.存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(ram)和/或非易失性内存等形式,如只读存储器(rom)或闪存(flash ram)。存储器是计算机可读介质的示例。
180.计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(pram)、静态随机存取存储器(sram)、动态随机存取存储器(dram)、其他类型的随机存取存储器(ram)、只读存储器(rom)、电可擦除可编程只读存储器(eeprom)、快闪记忆体或其他内存技术、只读光盘只读存储器(cd-rom)、数字多功能光盘(dvd)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
181.还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个
……”
限定的要素,并不排除在包括要素的过程、方法、商品或者设备中还存在另外的相同要素。
182.从以上的描述中,可以看出,本技术上述的实施例实现了如下技术效果:
183.1)、本技术的人脸五官的筛选方法,可以在对话过程中,获取对话的问题以及回答对话问题的第一语音信息,再对第一语音信息进行语音转文本处理,得到第一文本信息,在五官图像库中通过第一文本信息进行自动化筛选,提取出符合第一文本信息描述的目标五官图像,通过自动化筛选的方式挑选五官图像,降低了时间成本和人力成本。
184.2)、本技术的人脸五官的筛选装置,可以在对话过程中,获取对话的问题以及回答对话问题的第一语音信息,再对第一语音信息进行语音转文本处理,得到第一文本信息,在五官图像库中通过第一文本信息进行自动化筛选,提取出符合第一文本信息描述的目标五官图像,通过自动化筛选的方式挑选五官图像,降低了时间成本和人力成本。
185.以上所述仅为本技术的优选实施例而已,并不用于限制本技术,对于本领域的技
术人员来说,本技术可以有各种更改和变化。凡在本技术的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本技术的保护范围之内。
技术特征:
1.一种人脸五官的筛选方法,其特征在于,包括:获取多个对话问题,其中,所述对话问题为对话过程中提问的问题;获取回答多个所述对话问题的第一语音信息,并将所述第一语音信息转换为第一文本信息;至少基于所述第一文本信息从五官图像库中进行筛选,得到目标五官图像,其中,所述五官图像库中存储有多个五官图像。2.根据权利要求1所述的方法,其特征在于,获取多个对话问题,包括:获取历史对话记录信息,其中,所述历史对话记录信息包括历史五官特征信息、历史问题信息和历史流程信息,所述历史问题信息为历史对话过程中提问的历史问题的信息,所述历史流程信息为多个所述历史问题信息之间的顺序的信息;根据所述历史对话记录信息构建知识图谱,其中,所述历史五官特征信息对应所述知识图谱的实体,所述历史问题信息对应所述知识图谱的属性,所述历史流程信息对应所述知识图谱的关系;根据所述知识图谱依次生成问题,得到多个所述对话问题。3.根据权利要求1所述的方法,其特征在于,获取多个对话问题,包括:获取第二语音信息,并将所述第二语音信息转换为第二文本信息,其中,所述第二语音信息是提问问题的语音的信息;对所述第二文本信息进行语义识别,得到多个所述对话问题。4.根据权利要求1所述的方法,其特征在于,所述第一文本信息有多个,在将所述第一语音信息转换为第一文本信息之后,所述方法还包括:对所述第一文本信息进行语义识别,得到多个人脸描述信息,其中,所述人脸描述信息为目标人物的人脸特征和五官特征的信息;对所述人脸描述信息进行分类,并将属于同一类型的所述人脸描述信息进行聚类,得到多个类型的人脸五官描述结果。5.根据权利要求4所述的方法,其特征在于,在至少基于所述第一文本信息从五官图像库中进行筛选,得到目标五官图像之后,所述方法还包括:根据所述目标五官图像进行拼凑,生成基础人脸图像,其中,所述基础人脸图像上包括所述目标五官图像,所述目标五官图像在所述基础人脸图像上的位置是根据所述人脸描述信息确定的。6.根据权利要求5所述的方法,其特征在于,在根据所述目标五官图像进行拼凑,生成基础人脸图像之后,所述方法还包括:将所述基础人脸图像显示在显示设备的显示界面上;控制音频播放设备再次播放所述对话问题,获取回答所述对话问题的第三语音信息,并将所述第三语音信息转换为第三文本信息,得到人脸调整信息,其中,所述人脸调整信息为对所述目标五官图像进行调整的信息;根据所述人脸调整信息对所述基础人脸图像进行调整,得到目标人脸图像。7.根据权利要求5所述的方法,其特征在于,在根据所述目标五官图像进行拼凑,生成基础人脸图像之后,所述方法还包括:获取人脸调整信息,其中,所述人脸调整信息是控制音频播放设备再次播放所述对话
问题,将回答所述对话问题的第三语音信息转换为第三文本信息得到的;将所述人脸描述信息和所述人脸调整信息进行融合,得到目标人脸信息,其中,所述融合的方式包括以下至少之一:加权平均、模糊处理、基于阶段融合、基于语义融合;构建文本生成图像模型,其中,所述文本生成图像模型是使用多组训练数据训练得到的,所述多组训练数据中的每一组训练数据均包括历史时间段内获取的:历史基础人脸图像、历史目标人脸信息、所述历史目标人脸信息对应的历史目标人脸图像,所述历史基础人脸图像作为训练过程中的参考图像;将所述基础人脸图像和所述目标人脸信息输入至所述文本生成图像模型,得到目标人脸图像。8.根据权利要求1所述的方法,其特征在于,在至少基于所述第一文本信息从五官图像库中进行筛选,得到目标五官图像之后,所述方法还包括:获取第四语音信息,其中,所述第四语音信息为描述事件场景的语音的信息;将所述第四语音信息进行语音转文字处理,得到第四文本信息;提取所述第四文本信息中的关键词;采用文本续写算法或者模板填写算法,根据所述关键词生成第五文本信息,其中,所述第五文本信息为用于对事件场景进行标准化描述的信息;根据所述第五文本信息生成场景图像,其中,所述场景图像为所述事件场景的图像。9.一种人脸五官的筛选装置,其特征在于,包括:第一获取单元,用于获取多个对话问题,其中,所述对话问题为对话过程中提问的问题;第二获取单元,用于获取回答多个所述对话问题的第一语音信息,并将所述第一语音信息转换为第一文本信息;第一处理单元,用于至少基于所述第一文本信息从五官图像库中进行筛选,得到目标五官图像,其中,所述五官图像库中存储有多个五官图像。10.一种人脸五官的筛选系统,其特征在于,包括:一个或多个处理器,存储器,以及一个或多个程序,其中,所述一个或多个程序被存储在所述存储器中,并且被配置为由所述一个或多个处理器执行,所述一个或多个程序包括用于执行权利要求1至8中任意一项所述的人脸五官的筛选方法。
技术总结
本申请提供了一种人脸五官的筛选方法、装置和人脸五官的筛选系统。该方法包括:获取多个对话问题,其中,对话问题为对话过程中提问的问题;获取回答多个对话问题的第一语音信息,并将第一语音信息转换为第一文本信息;至少基于第一文本信息从五官图像库中进行筛选,得到目标五官图像,其中,五官图像库中存储有多个五官图像。该方案中,可以在对话过程中,获取对话的问题以及回答对话问题的第一语音信息,再对第一语音信息进行语音转文本处理,得到第一文本信息,在五官图像库中通过第一文本信息进行自动化筛选,提取出符合第一文本信息描述的目标五官图像,通过自动化筛选的方式挑选五官图像,降低了时间成本和人力成本。降低了时间成本和人力成本。降低了时间成本和人力成本。
技术研发人员:周科霖 李健 陈明 武卫东
受保护的技术使用者:北京捷通华声科技股份有限公司
技术研发日:2023.05.18
技术公布日:2023/10/19
版权声明
本文仅代表作者观点,不代表航家之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)
航空之家 https://www.aerohome.com.cn/
航空商城 https://mall.aerohome.com.cn/
航空资讯 https://news.aerohome.com.cn/