多任务图像处理方法、系统、存储介质及电子设备与流程

未命名 10-26 阅读:100 评论:0


1.本发明属于图像处理的技术领域,特别是涉及一种多任务图像处理方法、系统、存储介质及电子设备。


背景技术:

2.图像生成任务一般包括:文生图、图生图和重绘。现有技术中,针对每一种具体任务,都需要单独设计一个模型。然而,上述方法具有以下不足。
3.(1)不同的模型需要单独设计,会占用不同的硬件资源。
4.(2)各个任务需要分别处理,无法同时处理,导致效率低下。


技术实现要素:

5.鉴于以上所述现有技术的缺点,本发明的目的在于提供一种多任务图像处理方法、系统、存储介质及电子设备,能够同时完成文生图、图生图和重绘等多个图像生成任务,有效地减少了硬件资源和处理耗时。
6.第一方面,本发明提供一种多任务图像处理方法,所述方法包括以下步骤:获取图像处理任务对应的描述文本、风格图像和原始图像;提取所述描述文本的文本特征;提取所述风格图像的风格图像特征;基于所述原始图像提取重绘图像特征;基于所述文本特征、所述风格图像特征和所述重绘图像特征生成综合特征;对所述综合特征进行去噪处理,获取去噪后的综合特征;基于所述风格图像特征和所述去噪后的综合特征进行交叉注意力操作,获取图生图特征;对所述图生图特征进行解码,获取所述风格图像对应的生成图像;基于所述重绘图像特征和所述去噪后的综合特征进行交叉注意力操作,获取重绘特征;对所述重绘特征进行解码,获取所述原始图像对应的重绘图像;基于所述文本特征和所述去噪后的综合特征进行交叉注意力操作,获取文生图特征;对所述文生图特征进行解码,获取所述描述文本对应的生成图像。
7.在第一方面的一种实现方式中,提取所述描述文本的文本特征包括:基于clip模型的文本编码器提取所述描述文本的文本特征。
8.在第一方面的一种实现方式中,提取所述风格图像的风格图像特征包括以下步骤:基于vit模型提取所述风格图像的初始风格图像特征;对所述初始风格图像进行预设次数的高斯噪声叠加,获取所述风格图像特征。
9.在第一方面的一种实现方式中,基于所述原始图像提取重绘图像特征包括以下步骤:基于clip模型的图像编码器提取所述原始图像的图像特征;对所述原始图像的图像特征进行预设次数的高斯噪声叠加,获取叠加图像特征;获取掩码图像,所述掩码图像用于确定重绘图像区域;对所述掩码图像进行下采样,以与所述叠加图像特征相同尺寸;
基于下采样后的掩码图像对所述叠加图像特征进行掩码处理,获取所述重绘图像特征。
10.在第一方面的一种实现方式中,对所述综合特征进行去噪处理,获取去噪后的综合特征包括以下步骤:基于噪声预测模型预测所述综合特征的噪声特征,将所述综合特征减去所述噪声特征以获取去噪后的综合特征;基于所述去噪后的综合特征迭代进行预设次数的噪声特征预测和噪声特征去除,以获取最终的去噪后的综合特征。
11.在第一方面的一种实现方式中,所述噪声预测模型包括编码器和解码器;所述编码器包含第一预设数量层,每层包括依次相连的多头自注意力机制、relu函数、instancenorm层、多层感知机和二维卷积;所述解码器包含第二预设数量层,每层包括依次相连的多头自注意力机制、relu函数、instancenorm层、多层感知机和二维转置卷积。
12.在第一方面的一种实现方式中,所述解码均采用解码模块,所述解码模块包括预设数量个解码层,所述解码层包括5个连续的自注意力机制和多层感知机组合模块、3个连续的2维转置卷积。
13.第二方面,本发明提供一种多任务图像处理系统,所述系统包括获取模块、第一提取模块、第二提取模块、第三提取模块、生成模块、去噪模块、第一生成模块、第二生成模块和第三生成模块;所述获取模块用于获取图像处理任务对应的描述文本、风格图像和原始图像;所述第一提取模块用于提取所述描述文本的文本特征;所述第二提取模块用于提取所述风格图像的风格图像特征;所述第三提取模块用于基于所述原始图像提取重绘图像特征;所述生成模块用于基于所述文本特征、所述风格图像特征和所述重绘图像特征生成综合特征;所述去噪模块用于对所述综合特征进行去噪处理,获取去噪后的综合特征;所述第一生成模块用于基于所述风格图像特征和所述去噪后的综合特征进行交叉注意力操作,获取图生图特征;对所述图生图特征进行解码,获取所述风格图像对应的生成图像;所述第二生成模块用于基于所述重绘图像特征和所述去噪后的综合特征进行交叉注意力操作,获取重绘特征;对所述重绘特征进行解码,获取所述原始图像对应的重绘图像;所述第三生成模块用于基于所述文本特征和所述去噪后的综合特征进行交叉注意力操作,获取文生图特征;对所述文生图特征进行解码,获取所述描述文本对应的生成图像。
14.第三方面,本发明提供一种电子设备,所述电子设备包括:处理器和存储器;所述存储器用于存储计算机程序;所述处理器用于执行所述存储器存储的计算机程序,以使所述电子设备执行上述的多任务图像处理方法。
15.第四方面,本发明提供一种计算机可读存储介质,其上存储有计算机程序,其特征
在于,该程序被电子设备执行时实现上述的多任务图像处理方法。
16.如上所述,本发明所述的多任务图像处理方法、系统、存储介质及电子设备,具有以下有益效果。
17.(1)能够基于统一的方法,兼容完成多个图像处理任务。
18.(2)无需针对不同的图像处理任务设置不同的网络结构,有效地减少了硬件资源和处理耗时。
19.(3)智能化程度高,极具实用性。
附图说明
20.图1为本发明的电子设备于一实施例中的场景示意图。
21.图2为本发明的多任务图像处理方法于一实施例中的流程图。
22.图3为本发明的解码模块于一实施例中的结构示意图。
23.图4为本发明的多任务图像处理系统于一实施例中的结构示意图。
24.图5为本发明的电子设备于一实施例中的结构示意图。
具体实施方式
25.以下通过特定的具体实例说明本发明的实施方式,本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用,本说明书中的各项细节也可以基于不同观点与应用,在没有背离本发明的精神下进行各种修饰或改变。需说明的是,在不冲突的情况下,以下实施例及实施例中的特征可以相互组合。
26.需要说明的是,以下实施例中所提供的图示仅以示意方式说明本发明的基本构想,遂图式中仅显示与本发明中有关的组件而非按照实际实施时的组件数目、形状及尺寸绘制,其实际实施时各组件的型态、数量及比例可为一种随意的改变,且其组件布局型态也可能更为复杂。
27.本发明以下实施例提供了多任务图像处理方法,其可应用于如图1所示的电子设备。本发明中所述电子设备可以包括具备无线充电功能的手机11、平板电脑12、笔记本电脑13、可穿戴设备、车载设备、增强现实(augmented reality,ar)/虚拟现实(virtual reality,vr)设备、超级移动个人计算机(ultra-mobile personal computer,umpc)、上网本、个人数字助理(personal digital assistant,pda)等,本发明实施例对电子设备的具体类型不作任何限制。
28.例如,所述电子设备可以是具备无线充电功能的 wlan 中的站点(staion,st),可以是具备无线充电功能的蜂窝电话、无绳电话、会话启动协议(session initiationprotocol,sip)电话、无线本地环路(wirelesslocal loop,wll)站、个人数字处理(personal digital assistant,pda)设备、具备无线充电功能的手持设备、计算设备或其它处理设备、电脑、膝上型计算机、手持式通信设备、手持式计算设备、和/或用于在无线系统上进行通信的其它设备以及下一代通信系统,例如,5g 网络中的移动终端、未来演进的公共陆地移动网络(publicland mobile network,plmn)中的移动终端或者未来演进的非地面网络(non-terrestrial network,ntn)中的移动终端等。
29.例如,所述电子设备可以通过无线通信与网络和其他设备通信。上述无线通信可以使用任一通信标准或协议,包括但不限于全球移动通讯系统(globalsystem of mobile communication,gsm)、通用分组无线服务(general packet radioservice,gprs)、码分多址(code division multiple access,cdma)、宽带码分多址(wideband code division multiple access,wcdma)、长期演进(long term evolution,lte))、电子邮件、短消息服务(short messaging service,sms)、bt,gnss,wlan,nfc,fm,和/或 ir 技术等。所述 gnss 可以包括全球卫星定位系统 (global positioning system,gps),全球导航卫星系统(global navigation satellite system,glonass),北斗卫星导航系统(beidou navigation satellite system,bds),准天顶卫星系统(quasi-zenith satellite system,qzss)和/或星基增强系统(satellite based augmentation systems,sbas)。
30.下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行详细描述。
31.如图2所示,于一实施例中,本发明的多任务图像处理方法包括步骤s1-步骤s9。
32.步骤s1、获取图像处理任务对应的描述文本、风格图像和原始图像。
33.具体地,当需要同时实现文生图、图生图和重绘等多个图像生成任务时,首先获取对应的描述文本、风格图像和原始图像。其中,所述描述文本用于描述图像信息,基于所述描述文本实现文生图的图像生成任务。所述风格图像是指某一风格类型的图像。基于所述风格图像生成对应风格的图像,以完成图生图的图像生成任务。所述原始图像是指提供的源图像。基于所述原始图像进行图像的重绘,生成目标图像,以完成重绘的图像生成任务。
34.步骤s2、提取所述描述文本的文本特征。
35.具体地,基于clip(contrastive language image pre-training)模型的文本编码器text encoder提取所述描述文本的文本特征。clip是一种基于对比学习的多模态模型,与cv中的一些对比学习方法如moco和simclr不同的是,clip的训练数据是文本-图像对:一张图像和它对应的文本描述,通过对比学习,模型能够学习到文本-图像对的匹配关系。clip包括两个模型:text encoder(文本编码器)和image encoder(图像编码器),其中text encoder用来提取文本的特征,可以采用nlp中常用的text transformer模型;而image encoder用来提取图像的特征,可以采用常用cnn模型或者vision transformer。
36.步骤s3、提取所述风格图像的风格图像特征。
37.具体地,首先,基于vit(vision transformer)模型提取所述风格图像的初始风格图像特征;再对所述初始风格图像进行预设次数的高斯噪声叠加,获取所述风格图像特征。优选地,所述预设次数为50,即对所述初始风格图像特征进行50次迭代的高斯噪声叠加。
38.步骤s4、基于所述原始图像提取重绘图像特征。
39.具体地,于一实施例中,基于所述原始图像提取重绘图像特征包括以下步骤。
40.41)基于clip模型的图像编码器提取所述原始图像的图像特征。
41.42)对所述原始图像的图像特征进行预设次数的高斯噪声叠加,获取叠加图像特征。
42.优选地,所述预设次数为50。
43.43)获取掩码图像,所述掩码图像用于确定重绘图像区域。
44.其中,所述掩码图像采用单通道的灰度图像,像素取值为0或者1,像素值为1的位
置表示该区域需要重绘。
45.44)对所述掩码图像进行下采样,以与所述叠加图像特征相同尺寸。
46.45)基于下采样后的掩码图像对所述叠加图像特征进行掩码处理,获取所述重绘图像特征。
47.其中,按照公式mask * feature_image进行对应位置相乘,从而保留所述原始图像中需要重绘的区域,其余区域不关注。mask表示掩码图像,feature_image表示叠加图像特征。
48.步骤s5、基于所述文本特征、所述风格图像特征和所述重绘图像特征生成综合特征。
49.于一实施例中,所述综合特征为所述文本特征、所述风格图像特征和所述重绘图像特征中的一个或多个之和。
50.于另一实施例中,在高斯分布中采样出一个均值为0,方差为1的特征作为所述综合特征。
51.步骤s6、对所述综合特征进行去噪处理,获取去噪后的综合特征。
52.具体地,对所述综合特征进行去噪处理,获取去噪后的综合特征包括以下步骤。
53.61)基于噪声预测模型预测所述综合特征的噪声特征,将所述综合特征减去所述噪声特征以获取去噪后的综合特征。
54.其中,所述噪声预测模型包括编码器和解码器;所述编码器包含第一预设数量层,如50层。每层包括依次相连的多头自注意力机制(multihead-self-attention)、relu函数、instancenorm层、多层感知机(multilayer perceptron ,mlp)和二维卷积(2d-convolution)。所述解码器包含第二预设数量层,如50层。每层包括依次相连的多头自注意力机制(multihead-self-attention)、relu函数、instancenorm层、多层感知机mlp和二维转置卷积(2d
‑ꢀ
convolution
ꢀ‑
transposed)。
55.62)基于所述去噪后的综合特征迭代进行预设次数的噪声特征预测和噪声特征去除,以获取最终的去噪后的综合特征。
56.具体地,对所述去噪后的综合特征继续进行噪声特征预测,并减去噪声特征,获取更新后的去噪后的综合特征。如此迭代预设次数,来获取最终的去噪后的综合特征。优选地,所述预设次数为50。
57.步骤s7、基于所述风格图像特征和所述去噪后的综合特征进行交叉注意力操作,获取图生图特征;对所述图生图特征进行解码,获取所述风格图像对应的生成图像。
58.具体地,将所述综合特征作为q和k,将所述风格图像特征作为v,进行交叉注意力操作,即可得到所述图生图特征。所述图生图特征再进行解码,即可获取所述风格图像对应的生成图像步骤s8、基于所述重绘图像特征和所述去噪后的综合特征进行交叉注意力操作,获取重绘特征;对所述重绘特征进行解码,获取所述原始图像对应的重绘图像。
59.具体地,将所述综合特征作为q和k,将所述风格图像特征作为v,进行交叉注意力操作,即可得到所述重绘特征。所述重绘特征再进行解码,即可获取所述原始图像对应的重绘图像。
60.步骤s9、基于所述文本特征和所述去噪后的综合特征进行交叉注意力操作,获取
文生图特征;对所述文生图特征进行解码,获取所述描述文本对应的生成图像。
61.具体地, 将所述综合特征作为q和k,将所述风格图像特征作为v,进行交叉注意力操作,即可得到所述文生图特征。所述文生图特征再进行解码,即可获取所述描述文本对应的生成图像。
62.需要说明的是,步骤s7-步骤s9中的解码均采用相同的解码模块。如图3所示,所述解码模块包括预设数量个,如20个解码层。每个解码层包括5个连续的自注意力机制和多层感知机组合模块、3个连续的2维转置卷积。
63.本发明实施例所述的多任务图像处理方法的保护范围不限于本实施例列举的步骤执行顺序,凡是根据本发明的原理所做的现有技术的步骤增减、步骤替换所实现的方案都包括在本发明的保护范围内。
64.本发明实施例还提供一种多任务图像处理系统,所述多任务图像处理系统可以实现本发明所述的多任务图像处理方法,但本发明所述的多任务图像处理系统的实现装置包括但不限于本实施例列举的多任务图像处理系统的结构,凡是根据本发明的原理所做的现有技术的结构变形和替换,都包括在本发明的保护范围内。
65.如图4所示,于一实施例中,本发明的多任务图像处理系统包括获取模块41、第一提取模块42、第二提取模块43、第三提取模块44、生成模块45、去噪模块46、第一生成模块47、第二生成模块48和第三生成模块49。
66.所述获取模块41用于获取图像处理任务对应的描述文本、风格图像和原始图像。
67.所述第一提取模块42与所述获取模块41相连,用于提取所述描述文本的文本特征。
68.所述第二提取模块43与所述获取模块41相连,用于提取所述风格图像的风格图像特征。
69.所述第三提取模块44与所述获取模块41相连,用于基于所述原始图像提取重绘图像特征。
70.所述生成模块45与所述第一提取模块42、所述第二提取模块43和所述第三提取模块44相连,用于基于所述文本特征、所述风格图像特征和所述重绘图像特征生成综合特征。
71.所述去噪模块46与所述生成模块45相连,用于对所述综合特征进行去噪处理,获取去噪后的综合特征。
72.所述第一生成模块47与所述第二提取模块43和所述去噪模块46相连,用于基于所述风格图像特征和所述去噪后的综合特征进行交叉注意力操作,获取图生图特征;对所述图生图特征进行解码,获取所述风格图像对应的生成图像。
73.所述第二生成模块48与所述第三提取模块44和所述去噪模块46相连,用于基于所述重绘图像特征和所述去噪后的综合特征进行交叉注意力操作,获取重绘特征;对所述重绘特征进行解码,获取所述原始图像对应的重绘图像。
74.所述第三生成模块49与所述第一提取模块42和所述去噪模块46相连,用于基于所述文本特征和所述去噪后的综合特征进行交叉注意力操作,获取文生图特征;对所述文生图特征进行解码,获取所述描述文本对应的生成图像。
75.其中,获取模块41、第一提取模块42、第二提取模块43、第三提取模块44、生成模块45、去噪模块46、第一生成模块47、第二生成模块48和第三生成模块49的结构和原理与上述
多任务图像处理方法中的步骤一一对应,故在此不再赘述。
76.在本发明所提供的几个实施例中,应该理解到,所揭露的系统、装置或方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅是示意性的,例如,模块/单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个模块或单元可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或模块或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
77.作为分离部件说明的模块/单元可以是或者也可以不是物理上分开的,作为模块/单元显示的部件可以是或者也可以不是物理模块,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块/单元来实现本发明实施例的目的。例如,在本发明各个实施例中的各功能模块/单元可以集成在一个处理模块中,也可以是各个模块/单元单独物理存在,也可以两个或两个以上模块/单元集成在一个模块/单元中。
78.本领域普通技术人员应该还可以进一步意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
79.本发明实施例还提供了一种计算机可读存储介质。本领域普通技术人员可以理解实现上述实施例的方法中的全部或部分步骤是可以通过程序来指令处理器完成,所述的程序可以存储于计算机可读存储介质中,所述存储介质是非短暂性(non-transitory)介质,例如随机存取存储器,只读存储器,快闪存储器,硬盘,固态硬盘,磁带(magnetictape),软盘(floppy disk),光盘(optical disc)及其任意组合。上述存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。该可用介质可以是磁性介质(例如,软盘、硬盘、磁带)、光介质(例如数字视频光盘(digital video disc,dvd))、或者半导体介质(例如固态硬盘(solid state disk,ssd))等。
80.本发明实施例还提供了一种电子设备。所述电子设备包括处理器和存储器。
81.所述存储器用于存储计算机程序。
82.所述存储器包括:rom、ram、磁碟、u盘、存储卡或者光盘等各种可以存储程序代码的介质。
83.所述处理器与所述存储器相连,用于执行所述存储器存储的计算机程序,以使所述电子设备执行上述的多任务图像处理方法。
84.优选地,所述处理器可以是通用处理器,包括中央处理器(central processing unit,简称cpu)、网络处理器(network processor,简称np)等;还可以是数字信号处理器(digital signal processor,简称dsp)、专用集成电路(application specific integrated circuit,简称asic)、现场可编程门阵列(field programmable gate array,简称fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
85.如图5所示,本发明的电子设备以通用计算设备的形式表现。电子设备的组件可以包括但不限于:一个或者多个处理器或者处理单元51,存储器52,连接不同系统组件(包括存储器52和处理单元51)的总线53。
86.总线53表示几类总线结构中的一种或多种,包括存储器总线或者存储器控制器,外围总线,图形加速端口,处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说,这些体系结构包括但不限于工业标准体系结构(isa)总线,微通道体系结构(mac)总线,增强型isa总线、视频电子标准协会(vesa)局域总线以及外围组件互连(pci)总线。
87.电子设备典型地包括多种计算机系统可读介质。这些介质可以是任何能够被电子设备访问的可用介质,包括易失性和非易失性介质,可移动的和不可移动的介质。
88.存储器52可以包括易失性存储器形式的计算机系统可读介质,例如随机存取存储器(ram)521和/或高速缓存存储器522。电子设备可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机系统存储介质。仅作为举例,存储系统523可以用于读写不可移动的、非易失性磁介质(图5未显示,通常称为“硬盘驱动器”)。尽管图5中未示出,可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器,以及对可移动非易失性光盘(例如cd-rom ,dvd-rom或者其它光介质)读写的光盘驱动器。在这些情况下,每个驱动器可以通过一个或者多个数据介质接口与总线53相连。存储器52可以包括至少一个程序产品,该程序产品具有一组(例如至少一个)程序模块,这些程序模块被配置以执行本发明各实施例的功能。
89.具有一组(至少一个)程序模块5241的程序/实用工具524,可以存储在例如存储器52中,这样的程序模块5241包括但不限于操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块5241通常执行本发明所描述的实施例中的功能和/或方法。
90.电子设备也可以与一个或多个外部设备(例如键盘、指向设备、显示器等)通信,还可与一个或者多个使得用户能与该电子设备交互的设备通信,和/或与使得该电子设备能与一个或多个其它计算设备进行通信的任何设备(例如网卡,调制解调器等等)通信。这种通信可以通过输入/输出(i/o)接口54进行。并且,电子设备还可以通过网络适配器55与一个或者多个网络(例如局域网(lan),广域网(wan)和/或公共网络,例如因特网)通信。如图5所示,网络适配器55通过总线53与电子设备的其它模块通信。应当明白,尽管图中未示出,可以结合电子设备使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、raid系统、磁带驱动器以及数据备份存储系统等。
91.上述实施例仅例示性说明本发明的原理及其功效,而非用于限制本发明。任何熟悉此技术的人士皆可在不违背本发明的精神及范畴下,对上述实施例进行修饰或改变。因此,举凡所属技术领域中具有通常知识者在未脱离本发明所揭示的精神与技术思想下所完成的一切等效修饰或改变,仍应由本发明的权利要求所涵盖。

技术特征:
1.一种多任务图像处理方法,其特征在于,所述方法包括以下步骤:获取图像处理任务对应的描述文本、风格图像和原始图像;提取所述描述文本的文本特征;提取所述风格图像的风格图像特征;基于所述原始图像提取重绘图像特征;基于所述文本特征、所述风格图像特征和所述重绘图像特征生成综合特征;对所述综合特征进行去噪处理,获取去噪后的综合特征;基于所述风格图像特征和所述去噪后的综合特征进行交叉注意力操作,获取图生图特征;对所述图生图特征进行解码,获取所述风格图像对应的生成图像;基于所述重绘图像特征和所述去噪后的综合特征进行交叉注意力操作,获取重绘特征;对所述重绘特征进行解码,获取所述原始图像对应的重绘图像;基于所述文本特征和所述去噪后的综合特征进行交叉注意力操作,获取文生图特征;对所述文生图特征进行解码,获取所述描述文本对应的生成图像。2.根据权利要求1所述的多任务图像处理方法,其特征在于:提取所述描述文本的文本特征包括:基于clip模型的文本编码器提取所述描述文本的文本特征。3.根据权利要求1所述的多任务图像处理方法,其特征在于:提取所述风格图像的风格图像特征包括以下步骤:基于vit模型提取所述风格图像的初始风格图像特征;对所述初始风格图像进行预设次数的高斯噪声叠加,获取所述风格图像特征。4.根据权利要求1所述的多任务图像处理方法,其特征在于:基于所述原始图像提取重绘图像特征包括以下步骤:基于clip模型的图像编码器提取所述原始图像的图像特征;对所述原始图像的图像特征进行预设次数的高斯噪声叠加,获取叠加图像特征;获取掩码图像,所述掩码图像用于确定重绘图像区域;对所述掩码图像进行下采样,以与所述叠加图像特征相同尺寸;基于下采样后的掩码图像对所述叠加图像特征进行掩码处理,获取所述重绘图像特征。5.根据权利要求1所述的多任务图像处理方法,其特征在于:对所述综合特征进行去噪处理,获取去噪后的综合特征包括以下步骤:基于噪声预测模型预测所述综合特征的噪声特征,将所述综合特征减去所述噪声特征以获取去噪后的综合特征;基于所述去噪后的综合特征迭代进行预设次数的噪声特征预测和噪声特征去除,以获取最终的去噪后的综合特征。6.根据权利要求5所述的多任务图像处理方法,其特征在于:所述噪声预测模型包括编码器和解码器;所述编码器包含第一预设数量层,每层包括依次相连的多头自注意力机制、relu函数、instancenorm层、多层感知机和二维卷积;所述解码器包含第二预设数量层,每层包括依次相连的多头自注意力机制、relu函数、instancenorm层、多层感知机和二维转置卷积。
7.根据权利要求1所述的多任务图像处理方法,其特征在于:所述解码均采用解码模块,所述解码模块包括预设数量个解码层,所述解码层包括5个连续的自注意力机制和多层感知机组合模块、3个连续的2维转置卷积。8.一种多任务图像处理系统,其特征在于,所述系统包括获取模块、第一提取模块、第二提取模块、第三提取模块、生成模块、去噪模块、第一生成模块、第二生成模块和第三生成模块;所述获取模块用于获取图像处理任务对应的描述文本、风格图像和原始图像;所述第一提取模块用于提取所述描述文本的文本特征;所述第二提取模块用于提取所述风格图像的风格图像特征;所述第三提取模块用于基于所述原始图像提取重绘图像特征;所述生成模块用于基于所述文本特征、所述风格图像特征和所述重绘图像特征生成综合特征;所述去噪模块用于对所述综合特征进行去噪处理,获取去噪后的综合特征;所述第一生成模块用于基于所述风格图像特征和所述去噪后的综合特征进行交叉注意力操作,获取图生图特征;对所述图生图特征进行解码,获取所述风格图像对应的生成图像;所述第二生成模块用于基于所述重绘图像特征和所述去噪后的综合特征进行交叉注意力操作,获取重绘特征;对所述重绘特征进行解码,获取所述原始图像对应的重绘图像;所述第三生成模块用于基于所述文本特征和所述去噪后的综合特征进行交叉注意力操作,获取文生图特征;对所述文生图特征进行解码,获取所述描述文本对应的生成图像。9.一种电子设备,其特征在于,所述电子设备包括:处理器和存储器;所述存储器用于存储计算机程序;所述处理器用于执行所述存储器存储的计算机程序,以使所述电子设备执行权利要求1至7中任一项所述的多任务图像处理方法。10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被电子设备执行时实现权利要求1至7中任一项所述的多任务图像处理方法。

技术总结
本发明提供一种多任务图像处理方法、系统、存储介质及电子设备,包括:获取图像处理任务对应的描述文本、风格图像和原始图像;提取描述文本的文本特征;提取风格图像的风格图像特征;基于原始图像提取重绘图像特征;基于所述文本特征、所述风格图像特征和重绘图像特征生成综合特征;对综合特征进行去噪处理,获取去噪后的综合特征;基于风格图像特征、图生图特征、重绘图像特征和去噪后的综合特征,获取风格图像对应的生成图像、重绘图像和描述文本对应的生成图像。本发明的多任务图像处理方法、系统、存储介质及电子设备能够同时完成文生图、图生图和重绘等多个图像生成任务,有效地减少了硬件资源和处理耗时。地减少了硬件资源和处理耗时。地减少了硬件资源和处理耗时。


技术研发人员:武嘉妮 孔欧
受保护的技术使用者:上海蜜度信息技术有限公司
技术研发日:2023.09.13
技术公布日:2023/10/20
版权声明

本文仅代表作者观点,不代表航家之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)

航空之家 https://www.aerohome.com.cn/

航空商城 https://mall.aerohome.com.cn/

航空资讯 https://news.aerohome.com.cn/

分享:

扫一扫在手机阅读、分享本文

评论

相关推荐