一种数据检测方法、装置、计算机设备及存储介质与流程

未命名 09-22 阅读:152 评论:0


1.本公开涉及计算机视觉技术领域,具体而言,涉及一种数据检测方法、装置、计算机设备及存储介质。


背景技术:

2.随着计算机视觉技术的快速发展,大型的基础模型如对比语言图像预训练(contrastive language-image pre-training,clip)模型的应用越来越广泛;通常,通过对基础模型进行微调,使微调后的基础模型可以更好地适配下游任务,但由于该类基础模型包含大量的网络参数,直接对基础模型进行微调,会导致基础模型出现灾难性遗忘的情况,降低基础模型的泛化能力。


技术实现要素:

3.有鉴于此,本公开至少提供一种数据检测方法、装置、计算机设备及存储介质。
4.第一方面,本公开提供了一种数据检测方法,包括:
5.获取待检测数据,所述待检测数据包括待检测文本数据和待检测图像数据;
6.利用目标神经网络中提示生成模块,对初始文本提示信息和初始图像提示信息进行处理,生成目标神经网络中不同级的编码层分别对应的目标文本提示信息和目标图像提示信息;其中所述初始文本提示信息为基于待检测数据的检测任务指示的类别信息确定的;
7.基于各级所述编码层分别对应的所述目标文本提示信息和所述目标图像提示信息,利用各级所述编码层对所述待检测文本数据和所述待检测图像数据进行检测,生成用于指示所述待检测文本数据与所述待检测图像数据是否匹配的检测结果。
8.上述方法中,利用目标神经网络中提示生成模块,对初始文本提示信息和初始图像提示信息进行处理,可以生成目标神经网络中不同级的编码层分别对应的目标文本提示信息和目标图像提示信息,即通过利用前一级的编码层的目标文本提示信息和目标图像提示信息,可以生成后一级的编码层的目标文本提示信息和目标图像提示信息,增强了不同级的编码层的目标文本提示信息和目标图像提示信息之间的关联性;且初始文本提示信息为基于待检测数据的检测任务指示的类别信息确定的,故可以加强不同级的编码层分别对应的目标文本提示信息和目标图像提示信息与待检测数据的检测任务的关联性,使得目标神经网络能够较好的适配于待检测数据的检测任务。同时,后续可以使得基于各级编码层分别对应的目标文本提示信息和目标图像提示信息,利用各级编码层对待检测文本数据和待检测图像数据进行检测,生成的检测结果较精准,提高了目标神经网络的性能。
9.一种可能的实施方式中,所述目标神经网络包含n级编码层,n为大于1的正整数,每级编码层包括文本编码层和图像编码层;所述利用目标神经网络中提示生成模块,对初始文本提示信息和初始图像提示信息进行处理,生成目标神经网络中不同级的编码层分别对应的目标文本提示信息和目标图像提示信息,包括:
10.将所述初始文本提示信息,确定为第1级文本编码层的目标文本提示信息,以及将所述初始图像提示信息,确定为第1级图像编码层的目标图像提示信息;
11.对第i级文本编码层对应的所述目标文本提示信息进行特征提取,生成第i级文本编码层对应的提取后文本提示信息;以及对第i级图像编码层对应的所述目标图像提示信息进行特征提取,生成第i级图像编码层对应的提取后图像提示信息;
12.对第i级文本编码层对应的所述提取后文本提示信息、和第i级图像编码层对应的所述提取后图像提示信息进行融合处理,生成第i+1级文本编码层的目标文本提示信息和第i+1级图像编码层的目标图像提示信息,其中i为大于或等于1、且小于n的正整数。
13.这里,通过对前一级文本编码层对应的目标文本提示信息、和前一级图像编码层对应的目标图像提示信息分别进行特征提取,生成前一级文本编码层对应的提取后文本提示信息、和前一级图像编码层对应的提取后图像提示信息;并对前一级文本编码层对应的提取后文本提示信息、和前一级图像编码层对应的提取后图像提示信息进行融合处理,使得生成的后一级文本编码层的目标文本提示信息和后一级图像编码层的目标图像提示信息,能够包括前一级编码层的多个模态的提示信息的特征,实现了目标文本提示信息和目标图像提示信息的特征融合,增强了目标文本提示信息和目标图像提示信息之间的信息交互。
14.一种可能的实施方式中,所述对第i级文本编码层对应的所述提取后文本提示信息、和第i级图像编码层对应的所述提取后图像提示信息进行融合处理,生成第i+1级文本编码层的目标文本提示信息和第i+1级图像编码层的目标图像提示信息,包括:
15.对第i级文本编码层对应的所述提取后文本提示信息、和第i级图像编码层对应的所述提取后图像提示信息进行转换操作,生成第i级文本编码层的文本提示权重和第i级图像编码层的图像提示权重;
16.基于所述第i级文本编码层对应的所述提取后文本提示信息和所述文本提示权重,生成第i+1级文本编码层的目标文本提示信息;以及
17.基于所述第i级图像编码层对应的所述提取后图像提示信息和所述图像提示权重,生成第i+1级图像编码层的目标图像提示信息。
18.这里,对前一级文本编码层对应的提取后文本提示信息、和前一级图像编码层对应的提取后图像提示信息进行转换操作,生成前一级文本编码层的文本提示权重和前一级图像编码层的图像提示权重,可以实现前一级编码层分别对应提取后文本提示信息和提取后图像提示信息的特征交互,以便后续可以较准确的生成后一级图像编码层的目标图像提示信息、和后一级文本编码层的目标文本提示信息。
19.一种可能的实施方式中,对第i级文本编码层对应的所述提取后文本提示信息、和第i级图像编码层对应的所述提取后图像提示信息进行转换操作,生成第i级文本编码层的文本提示权重,包括:
20.对第i级文本编码层对应的所述提取后文本提示信息进行转置操作,生成所述第i级文本编码层对应的转置后文本提示信息;
21.基于所述第i级文本编码层的所述转置后文本提示信息、和所述第i级图像编码层的所述提取后图像提示信息,生成第i级文本编码层对应的文本提示权重。
22.这里,对第i级文本编码层对应的提取后文本提示信息进行转置操作,生成第i级
文本编码层对应的转置后文本提示信息,并基于第i级文本编码层的转置后文本提示信息、和第i级图像编码层的提取后图像提示信息,生成第i级文本编码层对应的文本提示权重,可以实现提取后文本提示信息和提取后图像提示信息的信息交互,并可以为后续生成第i+1级文本编码层的目标文本提示信息提供数据支持。
23.一种可能的实施方式中,对第i级文本编码层对应的所述提取后文本提示信息、和第i级图像编码层对应的所述提取后图像提示信息进行转换操作,生成第i级图像编码层的图像提示权重,包括:
24.对第i级图像编码层对应的所述提取后图像提示信息进行转置操作,生成所述第i级图像编码层对应的转置后图像提示信息;
25.基于所述第i级图像编码层的所述转置后图像提示信息、和所述第i级文本编码层的所述提取后文本提示信息,生成第i级图像编码层对应的图像提示权重。
26.这里,对第i级图像编码层对应的提取后图像提示信息进行转置操作,生成第i级图像编码层对应的转置后图像提示信息,并基于第i级图像编码层的转置后图像提示信息、和第i级文本编码层的提取后文本提示信息,生成第i+1级图像编码层对应的图像提示权重,可以实现提取后文本提示信息和提取后图像提示信息的信息交互,并可以为后续生成第i+1级图像编码层的目标图像提示信息提供数据支持。
27.一种可能的实施方式中,所述基于各级所述编码层分别对应的所述目标文本提示信息和所述目标图像提示信息,利用各级所述编码层对所述待检测文本数据和所述待检测图像数据进行检测,生成用于指示所述待检测文本数据与所述待检测图像数据是否匹配的检测结果,包括:
28.利用每级文本编码层,对该级文本编码层对应的所述目标文本提示信息以及第一特征数据进行检测,得到该级文本编码层输出的文本特征数据,其中第1级文本编码层对应的第一特征数据为待检测文本数据,除第1级之外的其他文本编码层对应的第一特征数据为前一级文本编码层输出的文本特征数据;以及
29.利用每级图像编码层,对该级图像编码层对应的所述目标图像提示信息以及第二特征数据进行检测,得到该级图像编码层输出的图像特征数据,其中第1级图像编码层对应的第二特征数据为待检测图像数据,除第1级之外的其他图像编码层对应的第二特征数据为前一级图像编码层输出的图像特征数据;
30.基于最后一级所述编码层输出的所述文本特征数据和所述图像特征数据,确定所述待检测文本数据与所述待检测图像数据之间的数据相似度;
31.基于所述数据相似度,生成用于指示所述待检测文本数据与所述待检测图像数据是否匹配的检测结果。
32.这里,由于每级编码层对应的目标文本提示信息和目标图像提示信息,为对该级编码层的前一级编码层对应的两个模态的提示信息进行特征融合得到的,故利用各级文本编码层,对各级文本编码层分别对应的目标文本提示信息以及待检测文本数据进行检测,得到每级文本编码层输出的文本特征数据的精度较高;以及利用各级图像编码层,对各级图像编码层分别对应的目标图像提示信息以及待检测图像数据进行检测,得到每级图像编码层输出的图像特征数据的精度较高。进而,基于最后一级编码层输出的文本特征数据和图像特征数据,确定的待检测文本数据与待检测图像数据之间的数据相似度的精度较高,
基于数据相似度,生成的用于指示待检测文本数据与待检测图像数据是否匹配的检测结果较精确。
33.一种可能的实施方式中,所述目标神经网络包含n级编码层,n为大于1的正整数,第i+1级文本编码层对应的第一特征数据包含有文本检测信息和候选文本提示信息;
34.所述利用每级文本编码层,对该级文本编码层对应的所述目标文本提示信息以及第一特征数据进行检测,得到该级文本编码层输出的文本特征数据,包括:
35.将第i+1级文本编码层对应的第一特征数据包含的所述候选文本提示信息、和所述第i+1级文本编码层的目标文本提示信息进行融合,生成第i+1级文本编码层对应的更新后的第一特征数据;或者,将第i+1级文本编码层对应的第一特征数据包含的所述候选文本提示信息,替换为所述第i+1级文本编码层的目标文本提示信息,生成第i+1级文本编码层对应的更新后的第一特征数据;
36.利用所述第i+1级文本编码层,对所述第i+1级文本编码层对应的更新后的第一特征数据进行检测,得到所述第i+1级文本编码层输出的文本特征数据,其中i为大于或等于1、且小于n的正整数。
37.这里,在除第1级文本编码层之外的其他文本编码层对应的第一特征数据包含有文本检测信息和候选文本提示信息时,可以将第i+1级文本编码层对应的第一特征数据包含的候选文本提示信息、和第i+1级文本编码层的目标文本提示信息进行融合,生成第i+1级文本编码层对应的更新后的第一特征数据,使得得到的第i+1级文本编码层输出的文本特征数据的精度较高;或者可以将第i+1级文本编码层对应的第一特征数据包含的候选文本提示信息,替换为第i+1级文本编码层的目标文本提示信息,较快速的生成第i+1级文本编码层对应的更新后的第一特征数据,以便可以较快速的得到第i+1级文本编码层输出的文本特征数据。
38.同时,本公开实施例提供多种得到第i+1级文本编码层对应的更新后的第一特征数据的方式,可以提高得到第i+1级文本编码层对应的更新后的第一特征数据的灵活性。
39.一种可能的实施方式中,第i+1级图像编码层对应的第二特征数据包含有图像检测信息和候选图像提示信息;
40.所述利用每级图像编码层,对该级图像编码层对应的所述目标图像提示信息以及第二特征数据进行检测,得到该级图像编码层输出的图像特征数据,包括:
41.将第i+1级图像编码层对应的第二特征数据包含的所述候选图像提示信息、和所述第i+1级图像编码层的目标图像提示信息进行融合,生成第i+1级图像编码层对应的更新后的第二特征数据;或者,将第i+1级图像编码层对应的第二特征数据包含的所述候选图像提示信息,替换为所述第i+1级图像编码层的目标图像提示信息,生成第i+1级图像编码层对应的更新后的第二特征数据;
42.利用所述第i+1级图像编码层,对所述第i+1级图像编码层对应的更新后的第二特征数据进行检测,得到所述第i+1级图像编码层输出的图像特征数据。
43.这里,在除第1级图像编码层之外的其他图像编码层对应的第二特征数据包含有图像检测信息和候选图像提示信息时,可以将第i+1图像编码层对应的第二特征数据包含的候选图像提示信息、和第i+1图像提示信息进行融合,生成第i+1级图像编码层对应的更新后的第二特征数据,使得得到的第i+1图像特征数据的精度较高;或者可以将第i+1图像
提示信息,替换为第i+1级图像编码层的目标图像提示信息,较快速的生成第i+1级图像编码层对应的更新后的第二特征数据,以便可以较快速的得到第i+1图像编码层输出的图像特征数据。
44.同时,本公开实施例提供多种得到第i+1图像编码层对应的更新后的第二特征数据的方式,可以提高得到第i+1级图像编码层对应的更新后的第二特征数据的灵活性。
45.一种可能的实施方式中,中间神经网络包括已训练得到的各级编码层和待训练的提示生成模块,生成所述目标神经网络的步骤包括:
46.获取文本样本数据、图像样本数据、待调整文本提示信息和待调整图像提示信息;所述待调整文本提示信息包含所述检测任务指示的类别信息;
47.利用所述中间神经网络,基于所述待调整文本提示信息和所述待调整图像提示信息,对所述文本样本数据和图像样本数据进行检测,生成预测结果;
48.基于所述预测结果,对所述中间神经网络中所述待训练的提示生成模块的网络参数、所述待调整文本提示信息和所述待调整图像提示信息进行调整,生成训练完成的提示生成模块、调整后文本提示信息、和调整后图像提示信息;
49.基于所述已训练得到的各级编码层、和训练完成的提示生成模块,生成目标神经网络,并将所述调整后文本提示信息确定为所述目标神经网络的初始文本提示信息,将所述调整后图像提示信息确定为所述目标神经网络的初始图像提示信息。
50.本公开实施例中,通过学习的方式能够得到较准确的初始文本提示信息和初始图像提示信息,且由于待调整文本提示信息包含检测任务指示的类别信息,能够使得初始文本提示信息和初始图像提示信息可以较好的适配检测任务;进一步,通过训练得到提示生成模块,提高了目标神经网络与检测任务的适配性,提升了目标神经网络的网络性能。
51.以下装置、计算机设备等的效果描述参见上述方法的说明,这里不再赘述。
52.第二方面,本公开提供了一种数据检测装置,包括:
53.获取模块,用于获取待检测数据,所述待检测数据包括待检测文本数据和待检测图像数据;
54.第一生成模块,用于利用目标神经网络中提示生成模块,对初始文本提示信息和初始图像提示信息进行处理,生成目标神经网络中不同级的编码层分别对应的目标文本提示信息和目标图像提示信息;其中所述初始文本提示信息为基于待检测数据的检测任务指示的类别信息确定的;
55.检测模块,用于基于各级所述编码层分别对应的所述目标文本提示信息和所述目标图像提示信息,利用各级所述编码层对所述待检测文本数据和所述待检测图像数据进行检测,生成用于指示所述待检测文本数据与所述待检测图像数据是否匹配的检测结果。
56.第三方面,本公开提供一种计算机设备,包括:处理器、存储器和总线,所述存储器存储有所述处理器可执行的机器可读指令,当计算机设备运行时,所述处理器与所述存储器之间通过总线通信,所述机器可读指令被所述处理器执行时执行如上述第一方面或任一实施方式所述的数据检测方法的步骤。
57.第四方面,本公开提供一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行如上述第一方面或任一实施方式所述的数据检测方法的步骤。
58.为使本公开的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。
附图说明
59.为了更清楚地说明本公开实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,此处的附图被并入说明书中并构成本说明书中的一部分,这些附图示出了符合本公开的实施例,并与说明书一起用于说明本公开的技术方案。应当理解,以下附图仅示出了本公开的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
60.图1示出了本公开实施例所提供的一种数据检测方法的流程示意图;
61.图2示出了本公开实施例所提供的一种数据检测方法中,目标神经网络中提示生成模块的网络结构的示意图;
62.图3示出了本公开实施例所提供的一种数据检测方法中,目标神经网络架构的示意图;
63.图4示出了本公开实施例所提供的一种数据检测装置的架构示意图;
64.图5示出了本公开实施例所提供的一种计算机设备的结构示意图。
具体实施方式
65.为使本公开实施例的目的、技术方案和优点更加清楚,下面将结合本公开实施例中的附图,对本公开实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本公开一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本公开实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本公开的实施例的详细描述并非旨在限制要求保护的本公开的范围,而是仅仅表示本公开的选定实施例。基于本公开的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本公开保护的范围。
66.随着计算机视觉技术的快速发展,大型的基础模型的应用越来越广泛;通常,通过对基础模型进行微调,使微调后的基础模型可以更好地适配下游任务,但由于该类基础模型包含大量的网络参数,直接对基础模型进行微调,会导致基础模型出现灾难性遗忘的情况,降低基础模型的泛化能力。
67.一般的,还可以添加提示信息,使得基础模型可以更好地适配下游任务,该种方式不会改变基础模型的网络参数,缓解了基础模型出现灾难性遗忘的情况。然而,针对多模态基础模型如对比语言图像预训练(contrastive language-image pre-training,clip)模型,通常只关注语言分支,即只添加文本提示信息,导致语言分支和视觉分支的信息交互较少;或者,在将提示信息输入至基础模型的不同网络层之前已生成提示信息,导致不同网络层的提示信息之间的耦合度较低,使得基础模型的性能较差。
68.为了缓解上述问题,本公开实施例提出一种数据检测方法、装置、计算机设备和存储介质。
69.应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。
70.为便于对本公开实施例进行理解,首先对本公开实施例所公开的一种数据检测方法进行详细介绍。本公开实施例所提供的数据检测方法的执行主体一般为具有一定计算能力的计算机设备,该计算机设备例如包括:终端设备或服务器等。在一些可能的实现方式中,该数据检测方法可以通过处理器调用存储器中存储的计算机可读指令的方式来实现。
71.参见图1所示,为本公开实施例所提供的数据检测方法的流程示意图,该方法包括:s101-s103,具体的:
72.s101、获取待检测数据,待检测数据包括待检测文本数据和待检测图像数据。
73.s102、利用目标神经网络中提示生成模块,对初始文本提示信息和初始图像提示信息进行处理,生成目标神经网络中不同级的编码层分别对应的目标文本提示信息和目标图像提示信息;其中初始文本提示信息为基于待检测数据的检测任务指示的类别信息确定的。
74.s103、基于各级编码层分别对应的目标文本提示信息和目标图像提示信息,利用各级编码层对待检测文本数据和待检测图像数据进行检测,生成用于指示待检测文本数据与待检测图像数据是否匹配的检测结果。
75.上述方法中,利用目标神经网络中提示生成模块,对初始文本提示信息和初始图像提示信息进行处理,可以生成目标神经网络中不同级的编码层分别对应的目标文本提示信息和目标图像提示信息,即通过利用前一级的编码层的目标文本提示信息和目标图像提示信息,可以生成后一级的编码层的目标文本提示信息和目标图像提示信息,增强了不同级的编码层的目标文本提示信息和目标图像提示信息之间的关联性;且初始文本提示信息为基于待检测数据的检测任务指示的类别信息确定的,故可以加强不同级的编码层分别对应的目标文本提示信息和目标图像提示信息与待检测数据的检测任务的关联性,使得目标神经网络能够较好的适配于待检测数据的检测任务。同时,后续可以使得基于各级编码层分别对应的目标文本提示信息和目标图像提示信息,利用各级编码层对待检测文本数据和待检测图像数据进行检测,生成的检测结果较精准,提高了目标神经网络的性能。
76.下述对s101至s103进行相对具体的说明。
77.针对s101和s102:
78.该目标神经网络可以为基于双分支的对比语言图像预训练(contrastive language-image pre-training,clip)模型生成的,即该目标神经网络可以包括语言分支和视觉分支,语言分支可以包括多级文本编码层,视觉分支可以包括多级图像编码层,其中文本编码层的级数和图像编码层的级数相同;可以将获取的待检测数据输入至目标神经网络,具体的,可以将获取的待检测数据中的待检测文本数据输入至语言分支,待检测图像数据输入至视觉分支。
79.同时,还可以先基于待检测数据的检测任务指示的类别信息确定初始文本提示信息,比如,待检测数据的检测任务指示的类别信息包括自行车、汽车、轮船、飞机等,初始文本提示信息的类别信息可以包括自行车、汽车、轮船、飞机等。可以将确定的初始文本提示信息和初始图像提示信息输入至该目标神经网络,利用目标神经网络包含的提示生成模块,对初始文本提示信息和初始图像提示信息进行处理,生成目标神经网络中不同级的编码层分别对应的目标文本提示信息和目标图像提示信息;即可以利用目标神经网络包含的提示生成模块,基于目标神经网络中前一级编码层的目标文本提示信息和目标图像提示信
息,生成后一级编码层的目标文本提示信息和目标图像提示信息,比如,可以根据第1级编码层分别对应的目标文本提示信息(即初始文本提示信息)和目标图像提示信息(即初始图像提示信息),生成第2级编码层分别对应的目标文本提示信息和目标图像提示信息。
80.一种可能的实施方式中,目标神经网络包含n级编码层,n为大于1的正整数,每级编码层可以包括文本编码层和图像编码层;利用目标神经网络中提示生成模块,对初始文本提示信息和初始图像提示信息进行处理,生成目标神经网络中不同级的编码层分别对应的目标文本提示信息和目标图像提示信息,可以包括:
81.步骤a1,将初始文本提示信息,确定为第1级文本编码层的目标文本提示信息,以及将初始图像提示信息,确定为第1级图像编码层的目标图像提示信息。
82.步骤a2,对第i级文本编码层对应的目标文本提示信息进行特征提取,生成第i级文本编码层对应的提取后文本提示信息;以及对第i级图像编码层对应的目标图像提示信息进行特征提取,生成第i级图像编码层对应的提取后图像提示信息。
83.步骤a3,对第i级文本编码层对应的提取后文本提示信息、和第i级图像编码层对应的提取后图像提示信息进行融合处理,生成第i+1级文本编码层的目标文本提示信息和第i+1级图像编码层的目标图像提示信息,其中i为大于或等于1、且小于n的正整数。
84.该目标神经网络可以包含n级编码层,其中n为大于1的正整数,即目标神经网络可以包含第1级编码层至第n级编码层,每级编码层可以包括文本编码层和图像编码层。实施时,可以先将初始文本提示信息,确定为第1级文本编码层的目标文本提示信息,以及可以将初始图像提示信息,确定为第1级图像编码层的目标图像提示信息。
85.进而,可以对第i级文本编码层对应的目标文本提示信息进行特征提取,生成第i级文本编码层对应的提取后文本提示信息;以及对第i级图像编码层对应的目标图像提示信息进行特征提取,生成第i级图像编码层对应的提取后图像提示信息;比如,可以利用线性层对目标文本提示信息进行特征提取,生成提取后文本提示信息;以及可以利用线性层对目标图像提示信息进行特征提取,生成提取后图像提示信息。再可以对第i级文本编码层对应的提取后文本提示信息、和第i级图像编码层对应的提取后图像提示信息进行融合处理,比如可以对第i级文本编码层对应的提取后文本提示信息、和第i级图像编码层对应的提取后图像提示信息进行不同方式的点积,生成第i+1级文本编码层的目标文本提示信息和第i+1级图像编码层的目标图像提示信息。
86.或者,可以先确定第i级文本编码层对应的提取后文本提示信息、和第i级图像编码层对应的提取后图像提示信息之间的相似度,再可以基于相似度和第i级文本编码层对应的提取后文本提示信息,生成第i+1级文本编码层的目标文本提示信息;以及可以基于相似度和第i级图像编码层对应的提取后图像提示信息,生成第i+1级图像编码层的目标图像提示信息。其中i为大于或等于1、且小于n的正整数。
87.这里,通过对前一级文本编码层对应的目标文本提示信息、和前一级图像编码层对应的目标图像提示信息分别进行特征提取,生成前一级文本编码层对应的提取后文本提示信息、和前一级图像编码层对应的提取后图像提示信息;并对前一级文本编码层对应的提取后文本提示信息、和前一级图像编码层对应的提取后图像提示信息进行融合处理,使得生成的后一级文本编码层的目标文本提示信息和后一级图像编码层的目标图像提示信息,能够包括前一级编码层的多个模态的提示信息的特征,实现了目标文本提示信息和目
标图像提示信息的特征融合,增强了目标文本提示信息和目标图像提示信息之间的信息交互。
88.一种可能的实施方式中,步骤a3,对第i级文本编码层对应的提取后文本提示信息、和第i级图像编码层对应的提取后图像提示信息进行融合处理,生成第i+1级文本编码层的目标文本提示信息和第i+1级图像编码层的目标图像提示信息,可以包括:
89.步骤a31,对第i级文本编码层对应的提取后文本提示信息、和第i级图像编码层对应的提取后图像提示信息进行转换操作,生成第i级文本编码层的文本提示权重和第i级图像编码层的图像提示权重。
90.步骤a32,基于第i级文本编码层对应的提取后文本提示信息和文本提示权重,生成第i+1级文本编码层的目标文本提示信息;以及基于第i级图像编码层对应的提取后图像提示信息和图像提示权重,生成第i+1级图像编码层的目标图像提示信息。
91.实施时,在对第i级文本编码层对应的提取后文本提示信息、和第i级图像编码层对应的提取后图像提示信息进行融合处理时,可以先生成第i级文本编码层的文本提示权重和第i级图像编码层的图像提示权重,具体的,可以对第i级文本编码层对应的提取后文本提示信息、和第i级图像编码层对应的提取后图像提示信息进行转换操作,生成第i级文本编码层的文本提示权重和第i级图像编码层的图像提示权重。
92.进而,可以基于第i级文本编码层对应的提取后文本提示信息和文本提示权重,比如,可以将第i级文本编码层对应的提取后文本提示信息和文本提示权重进行点积操作,得到第一操作后提示信息,并可以将该第一操作后提示信息,确定为第i+1级文本编码层的目标文本提示信息,如下述公式(1)所示。以及可以基于第i级图像编码层对应的提取后图像提示信息和图像提示权重,比如,可以将第i级图像编码层对应的提取后图像提示信息和图像提示权重进行点积操作,得到第二操作后提示信息,并可以将该第二操作后提示信息,确定为第i+1级图像编码层的目标图像提示信息,如下述公式(2)所示。
[0093][0094][0095]
其中,表示第i级文本编码层的提取后文本提示信息,表示第i级文本编码层的文本提示权重,表示第i+1级文本编码层的目标文本提示信息;表示第i级图像编码层的提取后图像提示信息,表示第i级图像编码层的图像提示权重,表示第i+1级图像编码层的目标图像提示信息;n表示目标神经网络包含的编码层的级数。
[0096]
这里,对前一级文本编码层对应的提取后文本提示信息、和前一级图像编码层对应的提取后图像提示信息进行转换操作,生成前一级文本编码层的文本提示权重和前一级图像编码层的图像提示权重,可以实现前一级编码层分别对应提取后文本提示信息和提取后图像提示信息的特征交互,以便后续可以较准确的生成后一级图像编码层的目标图像提示信息、和后一级文本编码层的目标文本提示信息。
[0097]
一种可能的实施方式中,步骤a31,对第i级文本编码层对应的提取后文本提示信息、和第i级图像编码层对应的提取后图像提示信息进行转换操作,生成第i级文本编码层的文本提示权重,可以包括:
[0098]
步骤b1,对第i级文本编码层对应的提取后文本提示信息进行转置操作,生成第i级文本编码层对应的转置后文本提示信息。
[0099]
步骤b2,基于第i级文本编码层的转置后文本提示信息、和第i级图像编码层的提取后图像提示信息,生成第i级文本编码层对应的文本提示权重。
[0100]
实施时,可以对第i级文本编码层对应的提取后文本提示信息进行转置操作,生成第i级文本编码层对应的转置后文本提示信息;并可以基于第i级文本编码层的转置后文本提示信息、和第i级图像编码层的提取后图像提示信息,比如可以对第i级文本编码层的转置后文本提示信息、和第i级图像编码层的提取后图像提示信息进行点积操作,生成第i级文本编码层对应的文本提示权重。
[0101]
具体实施时,还可以对第i级文本编码层的转置后文本提示信息、和第i级图像编码层的提取后图像提示信息进行点积操作,得到第一中间数据;再可以利用归一化函数,对第一中间数据进行归一化处理,得到归一化数据,并可以将该归一化数据,确定为第i级文本编码层对应的文本提示权重,如可以利用下述公式(3)确定得到第i级文本编码层的文本提示权重:
[0102][0103]
其中,表示第i级文本编码层对应的文本提示权重,表示第i级图像编码层的提取后图像提示信息,表示第i级文本编码层的转置后文本提示信息,表示第i级文本编码层对应的提取后文本提示信息的维度,softmax(
·
)为归一化函数。
[0104]
这里,对第i级文本编码层对应的提取后文本提示信息进行转置操作,生成第i级文本编码层对应的转置后文本提示信息,并基于第i级文本编码层的转置后文本提示信息、和第i级图像编码层的提取后图像提示信息,生成第i级文本编码层对应的文本提示权重,可以实现提取后文本提示信息和提取后图像提示信息的信息交互,并可以为后续生成第i+1级文本编码层的目标文本提示信息提供数据支持。
[0105]
一种可能的实施方式中,步骤a31,对第i级文本编码层对应的提取后文本提示信息、和第i级图像编码层对应的提取后图像提示信息进行转换操作,生成第i级图像编码层的图像提示权重,可以包括:
[0106]
步骤c1,对第i级图像编码层对应的提取后图像提示信息进行转置操作,生成第i级图像编码层对应的转置后图像提示信息。
[0107]
步骤c2,基于第i级图像编码层的转置后图像提示信息、和第i级文本编码层的提取后文本提示信息,生成第i级图像编码层对应的图像提示权重。
[0108]
实施时,可以对第i级图像编码层对应的提取后图像提示信息进行转置操作,生成第i级图像编码层对应的转置后图像提示信息;并可以基于第i级图像编码层的转置后图像提示信息、和第i级文本编码层的提取后文本提示信息,比如可以对第i级图像编码层的转置后图像提示信息、和第i级文本编码层的提取后文本提示信息进行点积操作,生成第i级图像编码层对应的图像提示权重。
[0109]
具体实施时,可以对第i级图像编码层的转置后图像提示信息、和第i级文本编码
层的提取后文本提示信息进行点积操作,得到第二中间数据;再可以利用归一化函数,对第二中间数据进行归一化处理,得到归一化数据,并将该归一化数据确定为第i级图像编码层对应的图像提示权重,如利用下述公式(4)确定得到第i级图像编码层的图像提示权重:
[0110][0111]
其中,表示第i级图像编码层对应的图像提示权重,表示第i级文本编码层的提取后文本提示信息,表示第i级图像编码层的转置后图像提示信息,表示第i级图像编码层对应的提取后图像提示信息的维度。
[0112]
这里,对第i级图像编码层对应的提取后图像提示信息进行转置操作,生成第i级图像编码层对应的转置后图像提示信息,并基于第i级图像编码层的转置后图像提示信息、和第i级图像编码层的提取后文本提示信息,生成第i级图像编码层对应的图像提示权重,可以实现提取后文本提示信息和提取后图像提示信息的信息交互,并可以为后续生成第i+1级图像编码层的目标图像提示信息提供数据支持。
[0113]
参见图2所示的提示生成模块的网络结构的示意图,具体实施时,可以将第i级编码层对应的目标文本提示信息和目标图像提示信息输入至提示生成模块,生成第i+1级编码层对应的目标文本提示信息和目标图像提示信息。
[0114]
其中,生成第i+1级编码层对应的目标文本提示信息的过程如下述说明。图2所示的x为目标图像提示信息,y为目标文本提示信息,利用线性层对目标图像提示信息x进行特征提取,可以得到第i级编码层对应的提取后图像提示信息q;以及利用线性层对目标文本提示信息y进行特征提取,可以得到第i级编码层对应的提取后文本提示信息k和v。
[0115]
再可以对第i级编码层对应的提取后文本提示信息k进行转置操作,生成第i级编码层对应的转置后文本提示信息k
t
,并可以基于第i级编码层的转置后文本提示信息k
t
、和第i级编码层的提取后图像提示信息q,生成第i级编码层对应的文本提示权重;比如可以对第i级编码层的转置后文本提示信息k
t
、和第i级编码层的提取后图像提示信息q进行点积操作,得到第一中间数据,再可以利用归一化层对第一中间数据进行归一化操作,得到第i级编码层对应的文本提示权重。
[0116]
进一步的,可以基于第i级编码层对应的提取后文本提示信息v和文本提示权重,生成第i+1级编码层的目标文本提示信息,比如,可以将第i级编码层对应的提取后文本提示信息v和文本提示权重进行点积操作,得到第i+1级编码层的目标文本提示信息。
[0117]
生成第i+1级编码层对应的目标图像提示信息的过程如下述说明。图2所示的x为目标文本提示信息,y为目标图像提示信息,利用线性层对目标文本提示信息x进行特征提取,可以得到第i级编码层对应的提取后文本提示信息q;以及利用线性层对目标图像提示信息y进行特征提取,可以得到第i级编码层对应的提取后图像提示信息k和v。
[0118]
再可以对第i级编码层对应的提取后图像提示信息k进行转置操作,生成第i级编码层对应的转置后图像提示信息k
t
,并可以基于第i级编码层的转置后图像提示信息k
t
、和第i级编码层的提取后文本提示信息q,生成第i级编码层对应的图像提示权重;比如可以对第i级编码层的转置后图像提示信息k
t
、和第i级编码层的提取后文本提示信息q进行点积
操作,得到第二中间数据,再可以利用归一化层对第二中间数据进行归一化操作,得到第i级编码层对应的图像提示权重。
[0119]
进一步的,可以基于第i级编码层对应的提取后图像提示信息v和图像提示权重,生成第i+1级编码层的目标图像提示信息,比如,可以将第i级编码层对应的提取后图像提示信息v和图像提示权重进行点积操作,得到第i+1级编码层的目标图像提示信息。
[0120]
针对s103:
[0121]
实施时,可以将待检测文本数据和待检测图像数据输入至目标神经网络中,进而,可以基于各级编码层分别对应的目标文本提示信息和目标图像提示信息,利用各级编码层对待检测文本数据和待检测图像数据进行检测;比如,可以利用目标神经网络中语言分支包含的各级文本编码层,对待检测文本数据和各级编码层分别对应的目标文本提示信息进行检测,生成文本特征数据,以及可以利用目标神经网络中视觉分支包含的各级图像编码层,对待检测图像数据和各级编码层分别对应的目标图像提示信息进行检测,生成图像特征数据;进一步的,可以基于文本特征数据和图像特征数据,生成用于指示待检测文本数据与待检测图像数据是否匹配的检测结果。
[0122]
一种可能的实施方式中,基于各级编码层分别对应的目标文本提示信息和目标图像提示信息,利用各级编码层对待检测文本数据和待检测图像数据进行检测,生成用于指示待检测文本数据与待检测图像数据是否匹配的检测结果,可以包括:
[0123]
步骤d1,利用所述目标神经网络中的每级文本编码层,对该级文本编码层对应的所述目标文本提示信息以及第一特征数据进行检测,得到该级文本编码层输出的文本特征数据,其中第1级文本编码层对应的第一特征数据为待检测文本数据,除第1级之外的其他文本编码层对应的第一特征数据为前一级文本编码层输出的文本特征数据;以及利用所述目标神经网络中的每级图像编码层,对该级图像编码层对应的所述目标图像提示信息以及第二特征数据进行检测,得到该级图像编码层输出的图像特征数据,其中第1级图像编码层对应的第二特征数据为待检测图像数据,除第1级之外的其他图像编码层对应的第二特征数据为前一级图像编码层输出的图像特征数据。
[0124]
步骤d2,基于最后一级编码层输出的文本特征数据和图像特征数据,确定待检测文本数据与待检测图像数据之间的数据相似度。
[0125]
步骤d3,基于数据相似度,生成用于指示待检测文本数据与待检测图像数据是否匹配的检测结果。
[0126]
目标神经网络可以包括n级编码层,每级编码层可以包括文本编码层和图像编码层,即目标神经网络可以包括第1级文本编码层至第n级文本编码层,以及第1级图像编码层至第n级图像编码层。可以利用目标神经网络中的每级文本编码层,对该级文本编码层对应的目标文本提示信息以及第一特征数据进行检测,得到该级文本编码层输出的文本特征数据,其中第1级文本编码层对应的第一特征数据为待检测文本数据,除第1级之外的其他文本编码层对应的第一特征数据为前一级文本编码层输出的文本特征数据,该文本特征数据可以包含前一级文本编码层输出的文本检测信息和候选文本提示信息;示例性的,若目标神经网络包括3级编码层,可以将待检测文本数据输入至第1级文本编码层,并可以利用第1级文本编码层,对待检测文本数据和第1级文本编码层对应的目标文本提示信息(即初始文本提示信息)进行检测,得到第1级文本编码层输出的文本特征数据,也即得到第1级文本编
码层输出的文本检测信息和候选文本提示信息;再可以利用第2级文本编码层,对第1级文本编码层输出的文本特征数据、和第2级文本编码层对应的目标文本提示信息进行检测,得到第2级文本编码层输出的文本特征数据,也即得到第2级文本编码层输出的文本检测信息和候选文本提示信息;最后,可以利用第3级文本编码层,对第2级文本编码层输出的文本特征数据、和第3级文本编码层对应的目标文本提示信息进行检测,得到第3级文本编码层输出的文本特征数据,也即得到第3级文本编码层输出的文本检测信息和候选文本提示信息;这样,可以得到每级文本编码层输出的文本特征数据。
[0127]
以及,可以利用目标神经网络中的每级图像编码层,对该级图像编码层对应的目标图像提示信息以及第二特征数据进行检测,得到该级图像编码层输出的图像特征数据,也即得到每级图像编码层输出的图像检测信息和候选图像提示信息;其中第1级图像编码层对应的第二特征数据为待检测图像数据,除第1级之外的其他图像编码层对应的第二特征数据为前一级图像编码层输出的图像特征数据;其中,得到每级图像编码层输出的图像特征数据的过程,可以参见上述得到每级文本编码层输出的文本特征数据的过程,这里不再进行示例性说明。
[0128]
进一步的,可以基于最后一级编码层输出的文本特征数据和图像特征数据,确定待检测文本数据与待检测图像数据之间的数据相似度;承接上述示例继续进行说明,可以利用余弦相似度算法,计算第3级文本编码层输出的文本特征数据、和第3级图像编码层输出的图像特征数据之间的余弦相似度,并可以将余弦相似度确定为待检测文本数据与待检测图像数据之间的数据相似度;或者,可以计算第3级文本编码层输出的文本特征数据、和第3级图像编码层输出的图像特征数据之间的欧氏距离,并可以将欧式距离确定为待检测文本数据与待检测图像数据之间的数据相似度。
[0129]
进而,可以基于数据相似度,生成用于指示待检测文本数据与待检测图像数据是否匹配的检测结果;示例性的,可以将数据相似度确定为检测结果,其中,在将余弦相似度确定为待检测文本数据与待检测图像数据之间的数据相似度的情况下,数据相似度大于或等于相似度阈值时,确定待检测文本数据与待检测图像数据匹配;数据相似度小于相似度阈值时,确定待检测文本数据与待检测图像数据不匹配。在将欧氏距离确定为待检测文本数据与待检测图像数据之间的数据相似度的情况下,数据相似度小于或等于相似度阈值时,确定待检测文本数据与待检测图像数据匹配;数据相似度大于相似度阈值时,确定待检测文本数据与待检测图像数据不匹配。
[0130]
这里,由于每级编码层对应的目标文本提示信息和目标图像提示信息,为对该级编码层的前一级编码层对应的两个模态的提示信息进行特征融合得到的,故利用各级文本编码层,对各级文本编码层分别对应的目标文本提示信息以及待检测文本数据进行检测,得到每级文本编码层输出的文本特征数据的精度较高;以及利用各级图像编码层,对各级图像编码层分别对应的目标图像提示信息以及待检测图像数据进行检测,得到每级图像编码层输出的图像特征数据的精度较高。进而,基于最后一级编码层输出的文本特征数据和图像特征数据,确定的待检测文本数据与待检测图像数据之间的数据相似度的精度较高,基于数据相似度,生成的用于指示待检测文本数据与待检测图像数据是否匹配的检测结果较精确。
[0131]
一种可能的实施方式中,目标神经网络包含n级编码层,n为大于1的正整数,第i+1
级文本编码层对应的第一特征数据包含有文本检测信息和候选文本提示信息。
[0132]
步骤d1中,利用所述目标神经网络中的每级文本编码层,对该级文本编码层对应的所述目标文本提示信息以及第一特征数据进行检测,得到该级文本编码层输出的文本特征数据,可以包括:
[0133]
步骤e1,将第i+1级文本编码层对应的第一特征数据包含的所述候选文本提示信息、和所述第i+1级文本编码层的目标文本提示信息进行融合,生成第i+1级文本编码层对应的更新后的第一特征数据;或者,将第i+1级文本编码层对应的第一特征数据包含的所述候选文本提示信息,替换为所述第i+1级文本编码层的目标文本提示信息,生成第i+1级文本编码层对应的更新后的第一特征数据。
[0134]
步骤e2,利用所述目标神经网络中的第i+1级文本编码层,对所述第i+1级文本编码层对应的更新后的第一特征数据进行检测,得到所述第i+1级文本编码层输出的文本特征数据,其中i为大于或等于1、且小于n的正整数。
[0135]
实施时,目标神经网络可以包含n级编码层,且第i+1级文本编码层对应的第一特征数据可以包含有文本检测信息和候选文本提示信息,其中n为大于1的正整数,i为大于或等于1、且小于n的正整数。这里,第i+1级文本编码层对应的第一特征数据包含第i级文本编码层输出的文本检测信息和候选文本提示信息。
[0136]
在利用目标神经网络中的各级文本编码层,对各级文本编码层分别对应的目标文本提示信息以及第一特征数据进行检测,得到每级文本编码层输出的文本特征数据时,具体的,可以将第i+1级文本编码层对应的第一特征数据包含的候选文本提示信息、和第i+1级文本编码层的目标文本提示信息进行融合,生成第i+1级文本编码层对应的更新后的第一特征数据,即第i+1级文本编码层对应的更新后的第一特征数据可以包含融合后文本提示信息、和第i级文本编码层输出的文本检测信息;示例性的,可以将第i级文本编码层输出的候选文本提示信息、和第i+1级文本编码层的目标文本提示信息进行相加,或者可以进行加权求和,生成第i+1级文本编码层对应的更新后的第一特征数据包含的融合后文本提示信息,即可以得到第i+1级文本编码层对应的更新后的第一特征数据。
[0137]
或者,可以将第i+1级文本编码层对应的第一特征数据包含的候选文本提示信息,替换为第i+1级文本编码层的目标文本提示信息,生成第i+1级文本编码层对应的更新后的第一特征数据。即第i+1级文本编码层对应的第一特征数据包含第i级文本编码层输出的文本检测信息和候选文本提示信息,可以将第i+1级文本编码层对应的第一特征数据中的第i级文本编码层输出的候选文本提示信息,替换为第i+1级文本编码层的目标文本提示信息,生成的第i+1级文本编码层对应的更新后的第一特征数据可以包含第i+1级文本编码层的目标文本提示信息、和第i级文本编码层输出的文本检测信息。
[0138]
进一步的,可以利用第i+1级文本编码层对第i+1级文本编码层对应的更新后的第一特征数据进行检测,得到第i+1级文本编码层输出的文本特征数据。
[0139]
这里,在除第1级文本编码层之外的其他文本编码层对应的第一特征数据包含有文本检测信息和候选文本提示信息时,可以将第i+1级文本编码层对应的第一特征数据包含的候选文本提示信息、和第i+1级文本编码层的目标文本提示信息进行融合,生成第i+1级文本编码层对应的更新后的第一特征数据,使得得到的第i+1级文本编码层输出的文本特征数据的精度较高;或者可以将第i+1级文本编码层对应的第一特征数据包含的候选文
本提示信息,替换为第i+1级文本编码层的目标文本提示信息,较快速的生成第i+1级文本编码层对应的更新后的第一特征数据,以便可以较快速的得到第i+1级文本编码层输出的文本特征数据。
[0140]
同时,本公开实施例提供多种得到第i+1级文本编码层对应的更新后的第一特征数据的方式,可以提高得到第i+1级文本编码层对应的更新后的第一特征数据的灵活性。
[0141]
一种可能的实施方式中,第i+1级图像编码层对应的第二特征数据包含有图像检测信息和候选图像提示信息。
[0142]
步骤d1中,利用所述目标神经网络中的每级图像编码层,对该级图像编码层对应的所述目标图像提示信息以及第二特征数据进行检测,得到该级图像编码层输出的图像特征数据,可以包括:
[0143]
步骤f1,将第i+1级图像编码层对应的第二特征数据包含的所述候选图像提示信息、和所述第i+1级图像编码层的目标图像提示信息进行融合,生成第i+1级图像编码层对应的更新后的第二特征数据;或者,将第i+1级图像编码层对应的第二特征数据包含的所述候选图像提示信息,替换为所述第i+1级图像编码层的目标图像提示信息,生成第i+1级图像编码层对应的更新后的第二特征数据。
[0144]
步骤f2,利用所述目标神经网络中的第i+1级图像编码层,对所述第i+1级图像编码层对应的更新后的第二特征数据进行检测,得到所述第i+1级图像编码层输出的图像特征数据。
[0145]
实施时,目标神经网络可以包含n级编码层,且第i+1级图像编码层对应的第二特征数据可以包含有图像检测信息和候选图像提示信息,其中n为大于1的正整数,i为大于或等于1、且小于n的正整数。这里,第i+1级图像编码层对应的第二特征数据包含第i级图像编码层输出的图像检测信息和候选图像提示信息。
[0146]
在利用目标神经网络中的各级图像编码层,对各级图像编码层分别对应的目标图像提示信息以及第二特征数据进行检测,得到每级图像编码层输出的图像特征数据时,具体的,可以将第i+1级图像编码层对应的第二特征数据包含的候选图像提示信息、和第i+1级图像编码层的目标图像提示信息进行融合,生成第i+1级图像编码层对应的更新后的第二特征数据,即第i+1级图像编码层对应的更新后的第二特征数据可以包含融合后图像提示信息、和第i级文本编码层输出的图像检测信息;示例性的,可以将第i级图像编码层输出的候选图像提示信息、和第i+1级图像编码层的目标图像提示信息进行相加,或者可以进行加权求和,生成第i+1级图像编码层对应的更新后的第二特征数据包含的融合后图像提示信息,继而,可以得到第i+1级图像编码层对应的更新后的第二特征数据。
[0147]
或者,可以将第i+1级图像编码层对应的第二特征数据包含的候选图像提示信息,替换为第i+1级图像编码层的目标图像提示信息,生成第i+1级图像编码层对应的更新后的第二特征数据。即第i+1级图像编码层对应的第二特征数据包含第i级图像编码层输出的图像检测信息和候选图像提示信息,可以将其中的第i级图像编码层输出的候选图像提示信息,替换为第i+1级图像编码层的目标图像提示信息,生成的第i+1级图像编码层对应的更新后的第二特征数据可以包含第i+1级图像编码层的目标图像提示信息、和第i级图像编码层输出的图像检测信息。
[0148]
进一步的,可以利用第i+1级图像编码层对第i+1级图像编码层对应的更新后的第
二特征数据进行检测,得到第i+1级图像编码层输出的图像特征数据。
[0149]
这里,在除第1级图像编码层之外的其他图像编码层对应的第二特征数据包含有图像检测信息和候选图像提示信息时,可以将第i+1图像编码层对应的第二特征数据包含的候选图像提示信息、和第i+1图像提示信息进行融合,生成第i+1级图像编码层对应的更新后的第二特征数据,使得得到的第i+1图像特征数据的精度较高;或者可以将第i+1图像提示信息,替换为第i+1级图像编码层的目标图像提示信息,较快速的生成第i+1级图像编码层对应的更新后的第二特征数据,以便可以较快速的得到第i+1图像编码层输出的图像特征数据。
[0150]
同时,本公开实施例提供多种得到第i+1图像编码层对应的更新后的第二特征数据的方式,可以提高得到第i+1级图像编码层对应的更新后的第二特征数据的灵活性。
[0151]
本公开实施例可以在已训练完成的基础神经网络上,添加待训练的提示生成模块,得到中间神经网络;基础神经网络可以包括多级编码层,比如clip神经网络,因此,中间神经网络可以包括已训练得到的各级编码层和待训练的提示生成模块。实施时,在对中间神经网络进行训练时,各级编码层包含的网络参数不会改变。
[0152]
具体实施方式,中间神经网络包括已训练得到的各级编码层和待训练的提示生成模块,生成目标神经网络的步骤可以包括:
[0153]
步骤g1,获取文本样本数据、图像样本数据、待调整文本提示信息和待调整图像提示信息;待调整文本提示信息包含检测任务指示的类别信息。
[0154]
步骤g2,利用中间神经网络,基于待调整文本提示信息和待调整图像提示信息,对文本样本数据和图像样本数据进行检测,生成预测结果。
[0155]
步骤g3,基于预测结果,对中间神经网络中待训练的提示生成模块的网络参数、待调整文本提示信息和待调整图像提示信息进行调整,生成训练完成的提示生成模块、调整后文本提示信息、和调整后图像提示信息。
[0156]
步骤g4,基于所述已训练得到的各级编码层、和训练完成的提示生成模块,生成目标神经网络,并将调整后文本提示信息确定为目标神经网络的初始文本提示信息,将调整后图像提示信息确定为目标神经网络的初始图像提示信息。
[0157]
实施时,获取文本样本数据、图像样本数据、待调整文本提示信息和待调整图像提示信息,其中,待调整文本提示信息可以包含检测任务指示的类别信息;具体的,可以对预设的文本提示信息“a photo of a{class}”进行词向量转换处理,得到待调整文本提示信息,其中{class}表示类别信息,可以包含检测任务指示的类别信息;待调整图像提示信息可以为从均匀分布的多个图像提示信息中随机选取的。待调整文本提示信息和待调整图像提示信息的信息长度可以根据实际需求进行设置,比如,可以为8、16等。
[0158]
再可以利用中间神经网络,基于待调整文本提示信息和待调整图像提示信息,对文本样本数据和图像样本数据进行检测,生成预测结果;其中生成预测结果的过程可以参见s103的具体说明,这里不再进行赘述。
[0159]
进一步,可以利用预测结果,对中间神经网络中待训练的提示生成模块的网络参数、待调整文本提示信息和待调整图像提示信息进行调整,生成训练完成的提示生成模块、调整后文本提示信息、和调整后图像提示信息;具体的,可以基于损失函数和预测结果,生成中间神经网络对应的损失值;并可以基于损失值,对中间神经网络中待训练的提示生成
模块的网络参数、待调整文本提示信息和待调整图像提示信息进行调整,直至满足训练截止条件,生成训练完成的提示生成模块、调整后文本提示信息、和调整后图像提示信息;比如训练截止条件包括但不限于:训练次数大于或等于阈值,损失函数收敛等等,其中损失函数可以包括交叉熵损失函数、均方差损失函数等等。
[0160]
并可以基于已训练得到的各级编码层、和训练完成的提示生成模块,生成目标神经网络,比如目标神经网络可以包括已训练得到的各级编码层和至少一级训练完成的提示生成模块,其中训练完成的提示生成模块的级数可以小于或等于已训练得到的各级编码层的级数。再可以将调整后文本提示信息确定为目标神经网络的初始文本提示信息,以及可以将调整后图像提示信息确定为目标神经网络的初始图像提示信息。
[0161]
本公开实施例中,通过学习的方式能够得到较准确的初始文本提示信息和初始图像提示信息,且由于待调整文本提示信息包含检测任务指示的类别信息,能够使得初始文本提示信息和初始图像提示信息可以较好的适配检测任务;进一步,通过训练得到提示生成模块,提高了目标神经网络与检测任务的适配性,提升了目标神经网络的网络性能。
[0162]
参见图3所示的目标神经网络的结构示意图,下述结合图3对数据检测方法的流程进行相对具体的说明。
[0163]
如图3所示,目标神经网络包括第1级文本编码层至第n级文本编码层、第1级图像编码层至第n级图像编码层、以及第1级提示生成模块至第n级提示生成模块。实施时,可以将初始文本提示信息和获取的待检测文本数据输入至第1级文本编码层,利用第1级文本编码层,对初始文本提示信息和待检测文本数据进行检测,得到第1级文本编码层输出的文本特征数据,即第1级文本编码层输出的文本检测信息和候选文本提示信息;以及可以将初始图像提示信息和获取的待检测图像数据输入至第1级图像编码层,利用第1级图像编码层,对初始图像提示信息和待检测图像数据进行检测,得到第1级图像编码层输出的图像特征数据,即第1级图像编码层输出的图像检测信息和候选图图像提示信息。
[0164]
同时,可以将初始文本提示信息和初始图像提示信息输入至第1级提示生成模块,利用第1级提示生成模块,对初始文本提示信息和初始图像提示信息进行处理,生成第2级文本编码层的目标文本提示信息、和第2级图像编码层的目标图像提示信息。进而,可以将第1级文本编码层输出的文本特征数据,作为第2级文本编码层对应的第一特征数据;并可以将第2级文本编码层对应的第一特征数据中的候选文本提示信息、和第2级文本编码层的目标文本提示信息进行融合,生成第2级文本编码层对应的更新后的第一特征数据;该第2级文本编码层对应的更新后的第一特征数据包含融合后文本提示信息、和第1级文本编码层输出的文本检测信息。
[0165]
或者,可以将第2级文本编码层对应的第一特征数据中的候选文本提示信息,替换为第2级文本编码层的目标文本提示信息,生成第2级文本编码层的更新后的第一特征数据;该第2级文本编码层对应的更新后的第一特征数据包含第2级文本编码层的目标文本提示信息、和第1级文本编码层输出的文本检测信息。
[0166]
以及可以将第1级图像编码层输出的图像特征数据,作为第2级图像编码层对应的第二特征数据;并可以将第2级图像编码层对应的第二特征数据中的候选图像提示信息、和第2级图像编码层的目标图像提示信息进行融合,生成第2级图像编码层的更新后的第二特征数据;该第2级图像编码层对应的更新后的第二特征数据包含融合后图像提示信息、和第
1级图像编码层输出的图像检测信息。或者,可以将第2级图像编码层对应的第二特征数据中的候选图像提示信息,替换为第2级图像编码层的目标图像提示信息,生成第2级图像编码层的更新后的第二特征数据;该第2级图像编码层对应的更新后的第二特征数据包含第2级图像编码层的目标图像提示信息、和第1级图像编码层输出的图像检测信息。
[0167]
进一步的,可以利用第2级文本编码层,对第2级文本编码层对应的更新后的第一特征数据进行检测,得到第2级文本编码层输出的文本特征数据;以及可以利用第2级图像编码层,对第2级图像编码层对应的更新后的第二特征数据进行检测,得到第2级图像编码层输出的图像特征数据。
[0168]
进而参考上述过程,可以得到第3级文本编码层至第n级文本编码层中,各级文本编码层所使用的目标文本提示信息、和各级文本编码层输出的文本特征数据,以及各级图像编码层所使用的目标图像提示信息、和各级图像编码层输出的图像特征数据,这里不再进行赘述。
[0169]
最后,可以基于第n级编码层生成的文本特征数据和图像特征数据,确定待检测文本数据与待检测图像数据之间的数据相似度,并可以基于数据相似度,生成用于指示待检测文本数据与待检测图像数据是否匹配的检测结果。
[0170]
本领域技术人员可以理解,在具体实施方式的上述方法中,各步骤的撰写顺序并不意味着严格的执行顺序而对实施过程构成任何限定,各步骤的具体执行顺序应当以其功能和可能的内在逻辑确定。
[0171]
基于相同的构思,本公开实施例还提供了一种数据检测装置,参见图4所示,为本公开实施例提供的数据检测装置的架构示意图,包括获取模块401、第一生成模块402、检测模块403,具体的:
[0172]
获取模块401,用于获取待检测数据,所述待检测数据包括待检测文本数据和待检测图像数据;
[0173]
第一生成模块402,用于利用目标神经网络中提示生成模块,对初始文本提示信息和初始图像提示信息进行处理,生成目标神经网络中不同级的编码层分别对应的目标文本提示信息和目标图像提示信息;其中所述初始文本提示信息为基于待检测数据的检测任务指示的类别信息确定的;
[0174]
检测模块403,用于基于各级所述编码层分别对应的所述目标文本提示信息和所述目标图像提示信息,利用各级所述编码层对所述待检测文本数据和所述待检测图像数据进行检测,生成用于指示所述待检测文本数据与所述待检测图像数据是否匹配的检测结果。
[0175]
一种可能的实施方式中,所述目标神经网络包含n级编码层,n为大于1的正整数,每级编码层包括文本编码层和图像编码层;所述第一生成模块402,在利用目标神经网络中提示生成模块,对初始文本提示信息和初始图像提示信息进行处理,生成目标神经网络中不同级的编码层分别对应的目标文本提示信息和目标图像提示信息时,用于:
[0176]
将所述初始文本提示信息,确定为第1级文本编码层的目标文本提示信息,以及将所述初始图像提示信息,确定为第1级图像编码层的目标图像提示信息;
[0177]
对第i级文本编码层对应的所述目标文本提示信息进行特征提取,生成第i级文本编码层对应的提取后文本提示信息;以及对第i级图像编码层对应的所述目标图像提示信
息进行特征提取,生成第i级图像编码层对应的提取后图像提示信息;
[0178]
对第i级文本编码层对应的所述提取后文本提示信息、和第i级图像编码层对应的所述提取后图像提示信息进行融合处理,生成第i+1级文本编码层的目标文本提示信息和第i+1级图像编码层的目标图像提示信息,其中i为大于或等于1、且小于n的正整数。
[0179]
一种可能的实施方式中,所述第一生成模块402,在对第i级文本编码层对应的所述提取后文本提示信息、和第i级图像编码层对应的所述提取后图像提示信息进行融合处理,生成第i+1级文本编码层的目标文本提示信息和第i+1级图像编码层的目标图像提示信息时,用于:
[0180]
对第i级文本编码层对应的所述提取后文本提示信息、和第i级图像编码层对应的所述提取后图像提示信息进行转换操作,生成第i级文本编码层的文本提示权重和第i级图像编码层的图像提示权重;
[0181]
基于所述第i级文本编码层对应的所述提取后文本提示信息和所述文本提示权重,生成第i+1级文本编码层的目标文本提示信息;以及
[0182]
基于所述第i级图像编码层对应的所述提取后图像提示信息和所述图像提示权重,生成第i+1级图像编码层的目标图像提示信息。
[0183]
一种可能的实施方式中,所述第一生成模块402,在对第i级文本编码层对应的所述提取后文本提示信息、和第i级图像编码层对应的所述提取后图像提示信息进行转换操作,生成第i级文本编码层的文本提示权重时,用于:
[0184]
对第i级文本编码层对应的所述提取后文本提示信息进行转置操作,生成所述第i级文本编码层对应的转置后文本提示信息;
[0185]
基于所述第i级文本编码层的所述转置后文本提示信息、和所述第i级图像编码层的所述提取后图像提示信息,生成第i级编码层对应的文本提示权重。
[0186]
一种可能的实施方式中,所述第一生成模块402,在对第i级文本编码层对应的所述提取后文本提示信息、和第i级图像编码层对应的所述提取后图像提示信息进行转换操作,生成第i级图像编码层的图像提示权重时,用于:
[0187]
对第i级图像编码层对应的所述提取后图像提示信息进行转置操作,生成所述第i级图像编码层对应的转置后图像提示信息;
[0188]
基于所述第i级图像编码层的所述转置后图像提示信息、和所述第i级文本编码层的所述提取后文本提示信息,生成第i级编码层对应的图像提示权重。
[0189]
一种可能的实施方式中,所述检测模块403,在基于各级所述编码层分别对应的所述目标文本提示信息和所述目标图像提示信息,利用各级所述编码层对所述待检测文本数据和所述待检测图像数据进行检测,生成用于指示所述待检测文本数据与所述待检测图像数据是否匹配的检测结果时,用于:
[0190]
利用每级文本编码层,对该级文本编码层对应的所述目标文本提示信息以及第一特征数据进行检测,得到该级文本编码层输出的文本特征数据,其中第1级文本编码层对应的第一特征数据为待检测文本数据,除第1级之外的其他文本编码层对应的第一特征数据为前一级文本编码层生成的文本特征数据;以及
[0191]
利用每级图像编码层,对该级图像编码层对应的所述目标图像提示信息以及第二特征数据进行检测,得到该级图像编码层输出的图像特征数据,其中第1级图像编码层对应
的第二特征数据为待检测图像数据,除第1级之外的其他图像编码层对应的第二特征数据为前一级图像编码层生成的图像特征数据;
[0192]
基于最后一级所述编码层输出的所述文本特征数据和所述图像特征数据,确定所述待检测文本数据与所述待检测图像数据之间的数据相似度;
[0193]
基于所述数据相似度,生成用于指示所述待检测文本数据与所述待检测图像数据是否匹配的检测结果。
[0194]
一种可能的实施方式中,所述目标神经网络包含n级编码层,n为大于1的正整数,第i+1级文本编码层对应的第一特征数据包含有文本检测信息和候选文本提示信息;
[0195]
所述检测模块403,在利用每级文本编码层,对该级文本编码层对应的所述目标文本提示信息以及第一特征数据进行检测,得到该级文本编码层输出的文本特征数据时,用于:
[0196]
将第i+1级文本编码层对应的第一特征数据包含的所述候选文本提示信息、和所述第i+1级文本编码层的目标文本提示信息进行融合,生成第i+1级文本编码层对应的更新后的第一特征数据;或者,将第i+1级文本编码层对应的第一特征数据包含的所述候选文本提示信息,替换为所述第i+1级文本编码层的目标文本提示信息,生成第i+1级文本编码层对应的更新后的第一特征数据;
[0197]
利用所述第i+1级文本编码层,对所述第i+1级文本编码层对应的更新后的第一特征数据进行检测,得到所述第i+1级文本编码层输出的文本特征数据,其中i为大于或等于1、且小于n的正整数。
[0198]
一种可能的实施方式中,第i+1级图像编码层对应的第二特征数据包含有图像检测信息和候选图像提示信息;
[0199]
所述检测模块403,在利用每级图像编码层,对该级图像编码层对应的所述目标图像提示信息以及第二特征数据进行检测,得到该级图像编码层输出的图像特征数据时,用于:
[0200]
将第i+1级图像编码层对应的第二特征数据包含的所述候选图像提示信息、和所述第i+1级图像编码层的目标图像提示信息进行融合,生成第i+1级图像编码层对应的更新后的第二特征数据;或者,将第i+1级图像编码层对应的第二特征数据包含的所述候选图像提示信息,替换为所述第i+1级图像编码层的目标图像提示信息,生成第i+1级图像编码层对应的更新后的第二特征数据;
[0201]
利用所述第i+1级图像编码层,对所述第i+1级图像编码层对应的更新后的第二特征数据进行检测,得到所述第i+1级图像编码层输出的图像特征数据。
[0202]
一种可能的实施方式中,所述装置还包括第二生成模块404,中间神经网络包括已训练得到的各级编码层和待训练的提示生成模块,所述第二生成模块404用于生成所述目标神经网络:
[0203]
获取文本样本数据、图像样本数据、待调整文本提示信息和待调整图像提示信息;所述待调整文本提示信息包含所述检测任务指示的类别信息;
[0204]
利用所述中间神经网络,基于所述待调整文本提示信息和所述待调整图像提示信息,对所述文本样本数据和图像样本数据进行检测,生成预测结果;
[0205]
基于所述预测结果,对所述中间神经网络中所述待训练的提示生成模块的网络参
数、所述待调整文本提示信息和所述待调整图像提示信息进行调整,生成训练完成的提示生成模块、调整后文本提示信息、和调整后图像提示信息;
[0206]
基于所述已训练得到的各级编码层、和训练完成的提示生成模块,生成目标神经网络,并将所述调整后文本提示信息确定为所述目标神经网络的初始文本提示信息,将所述调整后图像提示信息确定为所述目标神经网络的初始图像提示信息。
[0207]
在一些实施例中,本公开实施例提供的装置具有的功能或包含的模板可以用于执行上文方法实施例描述的方法,其具体实现可以参照上文方法实施例的描述,为了简洁,这里不再赘述。
[0208]
基于同一技术构思,本公开实施例还提供了一种计算机设备。参照图5所示,为本公开实施例提供的计算机设备的结构示意图,包括处理器501、存储器502、和总线503。其中,存储器502用于存储执行指令,包括内存5021和外部存储器5022;这里的内存5021也称内存储器,用于暂时存放处理器501中的运算数据,以及与硬盘等外部存储器5022交换的数据,处理器501通过内存5021与外部存储器5022进行数据交换,当计算机设备500运行时,处理器501与存储器502之间通过总线503通信,使得处理器501在执行以下指令:
[0209]
获取待检测数据,所述待检测数据包括待检测文本数据和待检测图像数据;
[0210]
利用目标神经网络中提示生成模块,对初始文本提示信息和初始图像提示信息进行处理,生成目标神经网络中不同级的编码层分别对应的目标文本提示信息和目标图像提示信息;其中所述初始文本提示信息为基于待检测数据的检测任务指示的类别信息确定的;
[0211]
基于各级所述编码层分别对应的所述目标文本提示信息和所述目标图像提示信息,利用各级所述编码层对所述待检测文本数据和所述待检测图像数据进行检测,生成用于指示所述待检测文本数据与所述待检测图像数据是否匹配的检测结果。
[0212]
其中,处理器501的具体处理流程可以参照上述方法实施例的记载,这里不再赘述。
[0213]
此外,本公开实施例还提供一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行上述方法实施例中所述的数据检测方法的步骤。其中,该存储介质可以是易失性或非易失的计算机可读取存储介质。
[0214]
本公开实施例还提供一种计算机程序产品,该计算机程序产品承载有程序代码,所述程序代码包括的指令可用于执行上述方法实施例中所述的数据检测方法的步骤,具体可参见上述方法实施例,在此不再赘述。
[0215]
其中,上述计算机程序产品可以具体通过硬件、软件或其结合的方式实现。在一个可选实施例中,所述计算机程序产品具体体现为计算机存储介质,在另一个可选实施例中,计算机程序产品具体体现为软件产品,例如软件开发包(software development kit,sdk)等等。
[0216]
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统和装置的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。在本公开所提供的几个实施例中,应该理解到,所揭露的系统、装置和方法,可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,又例如,多个单元或组件可以结合或者可以集
成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
[0217]
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
[0218]
另外,在本公开各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
[0219]
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个处理器可执行的非易失的计算机可读取存储介质中。基于这样的理解,本公开的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本公开各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:u盘、移动硬盘、只读存储器(read-only memory,rom)、随机存取存储器(random access memory,ram)、磁碟或者光盘等各种可以存储程序代码的介质。
[0220]
以上仅为本公开的具体实施方式,但本公开的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本公开揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本公开的保护范围之内。因此,本公开的保护范围应以权利要求的保护范围为准。

技术特征:
1.一种数据检测方法,其特征在于,所述方法包括:获取待检测数据,所述待检测数据包括待检测文本数据和待检测图像数据;利用目标神经网络中提示生成模块,对初始文本提示信息和初始图像提示信息进行处理,生成目标神经网络中不同级的编码层分别对应的目标文本提示信息和目标图像提示信息;其中所述初始文本提示信息为基于待检测数据的检测任务指示的类别信息确定的;基于各级所述编码层分别对应的所述目标文本提示信息和所述目标图像提示信息,利用各级所述编码层对所述待检测文本数据和所述待检测图像数据进行检测,生成用于指示所述待检测文本数据与所述待检测图像数据是否匹配的检测结果。2.根据权利要求1所述的方法,其特征在于,所述目标神经网络包含n级编码层,n为大于1的正整数,每级编码层包括文本编码层和图像编码层;所述利用目标神经网络中提示生成模块,对初始文本提示信息和初始图像提示信息进行处理,生成目标神经网络中不同级的编码层分别对应的目标文本提示信息和目标图像提示信息,包括:将所述初始文本提示信息,确定为第1级文本编码层的目标文本提示信息,以及将所述初始图像提示信息,确定为第1级图像编码层的目标图像提示信息;对第i级文本编码层对应的所述目标文本提示信息进行特征提取,生成第i级文本编码层对应的提取后文本提示信息;以及对第i级图像编码层对应的所述目标图像提示信息进行特征提取,生成第i级图像编码层对应的提取后图像提示信息;对第i级文本编码层对应的所述提取后文本提示信息、和第i级图像编码层对应的所述提取后图像提示信息进行融合处理,生成第i+1级文本编码层的目标文本提示信息和第i+1级图像编码层的目标图像提示信息,其中i为大于或等于1、且小于n的正整数。3.根据权利要求2所述的方法,其特征在于,所述对第i级文本编码层对应的所述提取后文本提示信息、和第i级图像编码层对应的所述提取后图像提示信息进行融合处理,生成第i+1级文本编码层的目标文本提示信息和第i+1级图像编码层的目标图像提示信息,包括:对第i级文本编码层对应的所述提取后文本提示信息、和第i级图像编码层对应的所述提取后图像提示信息进行转换操作,生成第i级文本编码层的文本提示权重和第i级图像编码层的图像提示权重;基于所述第i级文本编码层对应的所述提取后文本提示信息和所述文本提示权重,生成第i+1级文本编码层的目标文本提示信息;以及基于所述第i级图像编码层对应的所述提取后图像提示信息和所述图像提示权重,生成第i+1级图像编码层的目标图像提示信息。4.根据权利要求3所述的方法,其特征在于,对第i级文本编码层对应的所述提取后文本提示信息、和第i级图像编码层对应的所述提取后图像提示信息进行转换操作,生成第i级文本编码层的文本提示权重,包括:对第i级文本编码层对应的所述提取后文本提示信息进行转置操作,生成所述第i级文本编码层对应的转置后文本提示信息;基于所述第i级文本编码层的所述转置后文本提示信息、和所述第i级图像编码层的所述提取后图像提示信息,生成第i级文本编码层对应的文本提示权重。5.根据权利要求3所述的方法,其特征在于,对第i级文本编码层对应的所述提取后文
本提示信息、和第i级图像编码层对应的所述提取后图像提示信息进行转换操作,生成第i级图像编码层的图像提示权重,包括:对第i级图像编码层对应的所述提取后图像提示信息进行转置操作,生成所述第i级图像编码层对应的转置后图像提示信息;基于所述第i级图像编码层的所述转置后图像提示信息、和所述第i级文本编码层的所述提取后文本提示信息,生成第i级图像编码层对应的图像提示权重。6.根据权利要求1-5任一所述的方法,其特征在于,所述基于各级所述编码层分别对应的所述目标文本提示信息和所述目标图像提示信息,利用各级所述编码层对所述待检测文本数据和所述待检测图像数据进行检测,生成用于指示所述待检测文本数据与所述待检测图像数据是否匹配的检测结果,包括:利用每级文本编码层,对该级文本编码层对应的所述目标文本提示信息以及第一特征数据进行检测,得到该级文本编码层输出的文本特征数据,其中第1级文本编码层对应的第一特征数据为待检测文本数据,除第1级之外的其他文本编码层对应的第一特征数据为前一级文本编码层输出的文本特征数据;以及利用每级图像编码层,对该级图像编码层对应的所述目标图像提示信息以及第二特征数据进行检测,得到该级图像编码层输出的图像特征数据,其中第1级图像编码层对应的第二特征数据为待检测图像数据,除第1级之外的其他图像编码层对应的第二特征数据为前一级图像编码层输出的图像特征数据;基于最后一级所述编码层输出的所述文本特征数据和所述图像特征数据,确定所述待检测文本数据与所述待检测图像数据之间的数据相似度;基于所述数据相似度,生成用于指示所述待检测文本数据与所述待检测图像数据是否匹配的检测结果。7.根据权利要求6所述的方法,其特征在于,所述目标神经网络包含n级编码层,n为大于1的正整数,第i+1级文本编码层对应的第一特征数据包含有文本检测信息和候选文本提示信息;所述利用每级文本编码层,对该级文本编码层对应的所述目标文本提示信息以及第一特征数据进行检测,得到该级文本编码层输出的文本特征数据,包括:将第i+1级文本编码层对应的第一特征数据包含的所述候选文本提示信息、和所述第i+1级文本编码层的目标文本提示信息进行融合,生成第i+1级文本编码层对应的更新后的第一特征数据;或者,将第i+1级文本编码层对应的第一特征数据包含的所述候选文本提示信息,替换为所述第i+1级文本编码层的目标文本提示信息,生成第i+1级文本编码层对应的更新后的第一特征数据;利用所述第i+1级文本编码层,对所述第i+1级文本编码层对应的更新后的第一特征数据进行检测,得到所述第i+1级文本编码层输出的文本特征数据,其中i为大于或等于1、且小于n的正整数。8.根据权利要求7所述的方法,其特征在于,第i+1级图像编码层对应的第二特征数据包含有图像检测信息和候选图像提示信息;所述利用每级图像编码层,对该级图像编码层对应的所述目标图像提示信息以及第二特征数据进行检测,得到该级图像编码层输出的图像特征数据,包括:
将第i+1级图像编码层对应的第二特征数据包含的所述候选图像提示信息、和所述第i+1级图像编码层的目标图像提示信息进行融合,生成第i+1级图像编码层对应的更新后的第二特征数据;或者,将第i+1级图像编码层对应的第二特征数据包含的所述候选图像提示信息,替换为所述第i+1级图像编码层的目标图像提示信息,生成第i+1级图像编码层对应的更新后的第二特征数据;利用所述第i+1级图像编码层,对所述第i+1级图像编码层对应的更新后的第二特征数据进行检测,得到所述第i+1级图像编码层输出的图像特征数据。9.根据权利要求1-8任一所述的方法,其特征在于,中间神经网络包括已训练得到的各级编码层和待训练的提示生成模块,生成所述目标神经网络的步骤包括:获取文本样本数据、图像样本数据、待调整文本提示信息和待调整图像提示信息;所述待调整文本提示信息包含所述检测任务指示的类别信息;利用所述中间神经网络,基于所述待调整文本提示信息和所述待调整图像提示信息,对所述文本样本数据和图像样本数据进行检测,生成预测结果;基于所述预测结果,对所述中间神经网络中所述待训练的提示生成模块的网络参数、所述待调整文本提示信息和所述待调整图像提示信息进行调整,生成训练完成的提示生成模块、调整后文本提示信息、和调整后图像提示信息;基于所述已训练得到的各级编码层、和训练完成的提示生成模块,生成目标神经网络,并将所述调整后文本提示信息确定为所述目标神经网络的初始文本提示信息,将所述调整后图像提示信息确定为所述目标神经网络的初始图像提示信息。10.一种数据检测装置,其特征在于,包括:获取模块,用于获取待检测数据,所述待检测数据包括待检测文本数据和待检测图像数据;第一生成模块,用于利用目标神经网络中提示生成模块,对初始文本提示信息和初始图像提示信息进行处理,生成目标神经网络中不同级的编码层分别对应的目标文本提示信息和目标图像提示信息;其中所述初始文本提示信息为基于待检测数据的检测任务指示的类别信息确定的;检测模块,用于基于各级所述编码层分别对应的所述目标文本提示信息和所述目标图像提示信息,利用各级所述编码层对所述待检测文本数据和所述待检测图像数据进行检测,生成用于指示所述待检测文本数据与所述待检测图像数据是否匹配的检测结果。11.一种计算机设备,其特征在于,包括:处理器、存储器和总线,所述存储器存储有所述处理器可执行的机器可读指令,当计算机设备运行时,所述处理器与所述存储器之间通过总线通信,所述机器可读指令被所述处理器执行时执行如权利要求1至9任一所述的数据检测方法的步骤。12.一种计算机可读存储介质,其特征在于,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行如权利要求1至9任一所述的数据检测方法的步骤。

技术总结
本公开提供了一种数据检测方法、装置、计算机设备及存储介质,该方法包括:获取待检测数据,所述待检测数据包括待检测文本数据和待检测图像数据;利用目标神经网络中提示生成模块,对初始文本提示信息和初始图像提示信息进行处理,生成目标神经网络中不同级的编码层分别对应的目标文本提示信息和目标图像提示信息;其中所述初始文本提示信息为基于待检测数据的检测任务指示的类别信息确定的;基于各级所述编码层分别对应的所述目标文本提示信息和所述目标图像提示信息,利用各级所述编码层对所述待检测文本数据和所述待检测图像数据进行检测,生成用于指示所述待检测文本数据与所述待检测图像数据是否匹配的检测结果。所述待检测图像数据是否匹配的检测结果。所述待检测图像数据是否匹配的检测结果。


技术研发人员:刘雪静 谈飞 卢竞辉 赵瑞
受保护的技术使用者:商汤人工智能研究中心(深圳)有限公司
技术研发日:2023.06.16
技术公布日:2023/9/20
版权声明

本文仅代表作者观点,不代表航家之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)

航空之家 https://www.aerohome.com.cn/

飞机超市 https://mall.aerohome.com.cn/

航空资讯 https://news.aerohome.com.cn/

分享:

扫一扫在手机阅读、分享本文

相关推荐