工单处理方法、装置、计算机设备和计算机可读存储介质与流程
未命名
09-29
阅读:71
评论:0
1.本技术涉及计算机技术领域,特别是涉及一种工单处理方法、装置、计算机设备和计算机可读存储介质。
背景技术:
2.随着计算机技术的发展,出现了机器人流程自动化(robotic processautomation,简称rpa)技术,通过利用rpa,能够运用软件机器人将简单重复的计算机工作自动化。
3.传统技术中,通过rpa实现工单处理流程的自动化,运用软件机器人根据人工手动输入的工单类型对工单执行一系列自动化处理。但是,人工手动输入工单类型比较繁复,导致工单处理的效率低下。
技术实现要素:
4.基于此,有必要针对上述技术问题,提供一种能够提高效率的工单处理方法、装置、计算机设备、计算机可读存储介质和计算机程序产品。
5.第一方面,本技术提供了一种工单处理方法。所述方法应用于流程自动化工具,包括:
6.确定用于工单分类的文本分类模型;所述文本分类模型是基于至少两种提示词模板和历史样本工单构建完形填空样本后,根据所述完形填空样本对预训练模型进行训练得到的;所述提示词模板中的掩码用于指示所述预训练模型在完形填空样本中的空缺位置处填充预测的工单类别;所述预训练模型用于以词为单位处理输入的工单文本;
7.登录工单派发系统,以获取所述工单派发系统中的待派工单;
8.通过所述文本分类模型对所述待派工单初步分类,得到初步分类结果;
9.基于预设的业务规则正则和所述初步分类结果对所述待派工单进阶分类,得到进阶分类结果;
10.根据所述进阶分类结果定位所述待派工单的派发对象;
11.将所述待派工单派发至所述派发对象对应的终端。
12.第二方面,本技术还提供了一种工单处理装置。所述装置包括:
13.确定模块,用于确定用于工单分类的文本分类模型;所述文本分类模型是基于至少两种提示词模板和历史样本工单构建完形填空样本后,根据所述完形填空样本对预训练模型进行训练得到的;所述提示词模板中的掩码用于指示所述预训练模型在完形填空样本中的空缺位置处填充预测的工单类别;所述预训练模型用于以词为单位处理输入的工单文本;
14.登录模块,用于登录工单派发系统,以获取所述工单派发系统中的待派工单;
15.初步分类模块,用于通过所述文本分类模型对所述待派工单初步分类,得到初步分类结果;
16.进阶分类模块,用于基于预设的业务规则正则和所述初步分类结果对所述待派工单进阶分类,得到进阶分类结果;
17.定位模块,用于根据所述进阶分类结果定位所述待派工单的派发对象;
18.派发模块,用于将所述待派工单派发至所述派发对象对应的终端。
19.第三方面,本技术还提供了一种计算机设备。所述计算机设备包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现上述的方法中的步骤。
20.第四方面,本技术还提供了一种计算机可读存储介质。所述计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述的方法中的步骤。
21.第五方面,本技术还提供了一种计算机程序产品。所述计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现上述的方法中的步骤。
22.上述工单处理方法、装置、计算机设备、存储介质和计算机程序产品,确定用于工单分类的文本分类模型;文本分类模型是基于至少两种提示词模板和历史样本工单构建完形填空样本后,根据完形填空样本对预训练模型进行训练得到的;提示词模板中的掩码用于指示预训练模型在完形填空样本中的空缺位置处填充预测的工单类别;在完形填空样本的句式下,每个词都需要被正确理解才能在工单文本中填充正确的词,使得每个词在工单文本的上下文中的语义和重要性都会得到充分的考虑和评估,通过完形填空的方式训练的文本分类模型的性能更好。并且,不同的提示词模板会对预训练模型的应用产生不同的影响,选用至少两种提示词模板能够尽量提高预训练模型在泛化性和先验知识等优点在实际工单文本中的作用。预训练模型用于以词为单位处理输入的工单文本,而以词为单位进行预训练可以更好地捕捉词与词之间的语义联系,这样训练出的文本分类模型能够更好地理解工单文本。
23.进而,流程自动化工具登录工单派发系统,以获取工单派发系统中的待派工单;通过文本分类模型对待派工单初步分类,得到初步分类结果;基于预设的业务规则正则和初步分类结果对待派工单进阶分类,得到进阶分类结果,能够避免待派工单存在特殊情况时初步分类不够准确的问题,提高工单自动分类的准确性;根据进阶分类结果定位待派工单的派发对象;将待派工单派发至派发对象对应的终端,无需人工手动指定工单类别,提高了工单处理的效率。
附图说明
24.图1为本技术实施例提供的一种工单处理方法的流程示意图;
25.图2为本技术实施例提供的一种训练文本分类模型的流程示意图;
26.图3为本技术实施例提供的一种流程自动化工具处理工单的流程示意图;
27.图4为本技术实施例提供的一种工单处理装置的结构框图;
28.图5为本技术实施例提供的一种计算机设备的内部结构图;
29.图6为本技术实施例提供的另一种计算机设备的内部结构图。
具体实施方式
30.为了使本技术的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对
本技术进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本技术,并不用于限定本技术。
31.在一个实施例中,如图1所示,提供了一种工单处理方法,该方法应用于流程自动化工具,包括以下步骤:
32.s102,确定用于工单分类的文本分类模型。
33.其中,文本分类模型是基于至少两种提示词模板和历史样本工单构建完形填空样本后,根据完形填空样本对预训练模型进行训练得到的;提示词模板中的掩码用于指示预训练模型在完形填空样本中的空缺位置处填充预测的工单类别;预训练模型用于以词为单位处理输入的工单文本。
34.示例性地,流程自动化工具可以运行在计算机设备中。流程自动化工具可以获取文本分类模型对应的接口。
35.在一些实施例中,文本分类模型对应的接口可以包括网络资源服务接口(restful-api)、远程程序调用接口(grpc api)、数据查询接口(graphql api)或双向实时通信接口(websocket api)等中的任意一种。其中,网络资源服务接口基于统一资源定位符(url)和http协议,通过对资源的操作来实现网络服务。
36.在一些实施例中,预训练模型是使用大规模语料作为输入,进行自监督学习,学习输入语句中每一个上下文词之间的关系,获取到通用的语法语义知识,用于作为基础模型进行下游任务的微调。比如,下游任务可以是工单分类任务。
37.在一些实施例中,预训练模型可以针对中文语言的预训练模型,比如,ernie。针对中文语言的预训练模型以词为单位而非以字为单位,更符合中文环境特征。
38.在一些实施例中,基于至少两种提示词模板和历史样本工单构建完形填空样本的步骤,包括:从历史样本工单中提取出文本样本;针对每种提示词模板,通过融合文本样本和该提示词模板,构建出该提示词模板对应的完形填空样本。
39.在一些实施例中,计算机设备可以收集历史样本工单;从收集到的历史样本工单中抽取每个预设的工单类别下的文本样本。其中,抽取过程中尽量覆盖该预设的工单类别中不同语义项的文本,同时保证每个类别下的文本样本量尽量均衡一致。同一工单类别下的不同工单可以包括不同的语义项。比如,计费类别下的工单,有的包含欠费,有的包含费用不认可,有的包含退费等等不同情况,抽取过程中尽量要覆盖到各个情况,因为情况不同,工单中的问题描述可能有差别。
40.在一些实施例中,计算机设备可以对收集到的历史样本工单中内容条目的输入格式进行去除,以得到历史样本工单中的文本。上述的输入格式包括且不限于回车、换行、制表符或无规则符号等中的至少一种。
41.使用正则表达式对历史样本工单中的文本进行内容保留操作、使用正则匹配对历史样本工单中的文本进行脱敏操作、并根据语气词词表和停词词表对历史样本工单中的文本进行词过滤操作,以得到文本样本。其中,内容保留操作后文本中的汉字,数字,连续英文字符等内容被保留。脱敏操作后文本中涉及的用户号码等信息被生成的伪号码代替。词过滤操作后文本中语气词和停词等被去除。
42.在一些实施例中,计算机设备还可以对历史样本工单中的文本进行拼写修正和词形还原等,以得到文本样本。
43.其中,拼写修正主要是针对文本中的错别字或拼写错误进行自动纠正。拼写修正可以基于语言模型和编辑距离等技术实现。例如,通过计算拼音之间的编辑距离,或者根据大规模中文语料库中的统计信息,将候选词与文本中的词进行比较,然后从候选词中选择正确词进行替换。
44.而词形还原旨在将文本中的词还原为其原始形态。中文的词形变化包括动词的时态、名词的数形等。词形还原可以基于规则的词性标注和词形还原技术实现。通过词性标注,识别出文本中每个词的词性,并根据词性和词形规则将词汇还原为其基本形式,以便进行后续的文本分析和处理。
45.例如,对于拼写修正“用户反馈自费有问题”通过修正后还原为”用户反馈资费有问题”。对于词形还原“用户表示去了营业厅。”,原始形式是“去”,而它在文本中使用了过去时的形式“去了”。词形还原的任务是将动词“去了”还原为其原始形态“去”,以便进行后续的文本分析和处理。
46.在一些实施例中,计算机设备可以对文本样本进行增强处理,到增强样本。针对每种提示词模板,通过融合该提示词模板和增强样本,得到该提示词模板对应的完形填空样本。
47.在一些实施例中,计算机设备可以统计每个预设的工单类别下的文本样本数量,对文本样本数量不大于数量阈值的工单类别下的文本样本进行增强处理。
48.在一些实施例中,计算机设备可以对文本样本进行词替换或词嵌入中的至少一种处理,生成增强样本。比如,词替换和词嵌入在生成增强样本的数量上各占50%。
49.在一些实施例中,在使用词替换方式进行增强处理时,首先使用词频-逆文档频率算法确定词的词频得分,词频得分低于分数阈值的词被替换掉。而替换方式可以包括同音词替换或同义词替换中的至少一种。比如,生成的增强样本中70%由同义词替换方式生成,30%由同音词替换方式生成。
50.在一些实施例中,词嵌入的处理就是根据同义词词表在句子中的词的相邻位置处插入为同义词。例如,词嵌入处理前:人类语言是抽象的信息符号,其中蕴含着丰富的语义信息,人类可以很轻松地理解其中的含义。词嵌入处理后:人类语言是抽象的信息符号,其中蕴含着丰富的语义信息,人类可以很轻松地明了理解其中的含义。插入同义词为“明了”。
51.在一些实施例中,计算机设备可以通过融合每种提示词模板和文本样本,以及融合每种提示词模板和增强样本,得到该提示词模板对应的完形填空样本。
52.在一些实施例中,计算机设备可以在文本样本或增强样本中的至少一种中添加提示词模板,得到完形填空样本。比如,提示词模板可以有四种,“这是《unk》的内容!”,“这是《unk》!”,“包含了《unk》的内容!”和“综合来讲是《unk》的内容!”。将文本样本或增强样本中的至少一种与提示词模板进行组合。《unk》表征文本样本或增强样本所属的工单类别。组合后的样本可以如下:“汤姆打破了110米栏世界记录,包含了《unk》的内容”,《unk》在训练时替换为需要分类的标签,即“体育”。
53.在一些实施例中,对预训练模型的训练过程包括模型初始化阶段和模型前馈阶段。计算机设备可以在模型初始化阶段获取预训练模型的词嵌入(word_embeddings)权重。其中,词嵌入权重用于将一个词映射到一个多维空间中的一个向量。向量的值代表了这个词的隐含含义。
54.在模型前馈阶段,通过预训练模型及分词器(tokenizer)获取到完形填空样本的样本序号标识(input_ids)、类型标识(token_type_ids)和位置标识(position_ids),送入模型中获取到第一样本向量(sequence_output)和第二样本向量(pooled_output)。其中,分词器用于将完形填空样本中的词转换为预训练模型词典中的id标识,例如将apple转换为1155,apple在预训练模型词典中的序列为1155号。样本序号标识是将完形填空样本转换为预训练模型词典中的序号标识得到的,例如there is an apple的样本序号标识为3394 15 9 1155。类型标识用于标识输入的完形填空样本是独立句子还是句对,例如输入是一个句子,句子长度为4,那么类型标识为0 0 0 0,例如输入为一个句对,包含两个句子,一个长度为4,一个长度为3,那么类型标识表示为0 0 0 0 1 1 1。位置标识用于标记输入的完形填空样本中每个词在该完形填空样本的索引,例如there isan apple,there的position_ids为0,is的position_ids为1,以此类推。第一样本向量为完形填空样本中每个词的向量表示。第二样本向量是经过池化后整个完形填空样本的向量表示。
55.第一样本向量和第二样本向量用于完成下游任务,比如,工单分类任务。计算机设备可以将第一样本向量和第二样本向量送入分类器得到样本分类结果。根据样本分类结果和真实标签之间的差异得到损失值。朝着损失值减小的方向对预训练模型进行优化,以得到文本分类模型。
56.在一些实施例中,计算机设备可以使用多分类交叉熵(softmax with crossentropy)评估样本分类结果和真实标签之间的差异得到损失值。
57.在一些实施例中,样本分类结果可以包括对完形填空样本的空缺位置处的预测词。预设的标签字典中包括预测词和预设的工单类别之间的对应关系。计算机设备可以预设的从标签字典中查找出样本分类结果中预测词对应的工单类别,得到样本预测结果。使用多分类交叉熵评估样本预测结果和真实标签之间的差异得到损失值。
58.在一些实施例中,计算机设备可以包括终端或服务器中的至少一种。终端可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑、物联网设备和便携式可穿戴设备,物联网设备可为智能音箱、智能电视、智能空调、智能车载设备等。便携式可穿戴设备可为智能手表、智能手环、头戴设备等。服务器可以用独立的服务器或者是多个服务器组成的服务器集群来实现。
59.s104,登录工单派发系统,以获取工单派发系统中的待派工单。
60.示例性地,流程自动化工具是依据配置文件运行的。流程自动化工具可以从配置文件中获取自动登录条件,并根据自动登录条件登录工单派发系统。登入工单派发系统后,流程自动化工具可以从工单派发系统中读取待派工单。
61.在一些实施例中,自动登录条件可以包括登录方式、登录凭证或登录入口等中的至少一种。登录方式可以包括自动填写用户名密码或sso单点登录等中的任意一种。登录凭证可以包括用户名、密码或证书等中的至少一种。登录入口可以用于指示工单派发系统的登录页面。流程自动化工具在登录入口输入用户名和密码或者切换到sso登录的页面。
62.在一些实施例中,流程自动化工具的配置文件可以是一个文本文件,包括多个不同的参数和属性的设置,用于设置流程自动化工具的操作行为、连接信息、日志记录、异常处理、以及其它运行时参数等。
63.在一些实施例中,流程自动化工具可以读取工单派发系统中的元素,以获取待派
工单。
64.s106,通过文本分类模型对待派工单初步分类,得到初步分类结果。
65.示例性地,流程自动化工具可以将待派工单中的文本作为文本分类模型的输入,获取文本分类模型输出的初步分类结果。
66.在一些实施例中,流程自动化工具可以去除待派工单的工单模板,以获取待派工单中的文本。
67.在一些实施例中,待派工单中可以包括工单内容、类型和发起单位等属性数据。可以理解,属性数据是指描述某个实例特征的数据。工单作为一种业务实例,也具有自己的属性数据,这些数据描述工单的特征和属性。工单的属性数据可以是在工单创建时填写的,并且在工单派发系统中进行存储和管理。
68.s108,基于预设的业务规则正则和初步分类结果对待派工单进阶分类,得到进阶分类结果。
69.示例性地,流程自动化工具可以根据初步分类结果判定待派工单是否需要进阶分类,在需要进阶分类的情况下,通过匹配预设的业务规则正则和待派工单中的文本进阶分类,得到进阶分类结果。
70.在一些实施例中,并非所有的预设的工单类别都需要进阶分类,初步分类结果可以指示待派工单是否属于待进阶分类的工单类别。对于待进阶分类的工单类别下的待派工单,需要基于业务规则正则进阶分类。
71.在一些实施例中,业务规则正则由至少一个正则表达式组成,每个正则表达式表示一种匹配规则。流程自动化工具可以匹配业务规则正则中的正则表达式和待派工单中的文本,判断待派工单是否满足匹配规则。进而依据待派工单满足的匹配规则确定进阶分类结果。不同的匹配规则可以对应不同的工单类别。
72.在一些实施例中,流程自动化工具可以将预设的业务规则正则中的关键字、短语或模式等中的至少一种和待派工单中的文本进行匹配,以确定待派工单满足的匹配规则。比如,初始分类结果可以指示待派工单属于计费类别,在待派工单中文本包括欠费时,进阶分类结果可以进一步指示待派工单属于欠费类别。
73.在一些实施例中,配置文件中包括预设的业务规则正则。
74.在一些实施例中,业务规则正则部分为可配置,用户根据自身需求可对配置文件中的业务规则正则部分进行新增、修改或删除等至少一种操作。
75.在一些实施例中,初步分类可以是粗粒度的分类,而进阶分类可以是更细粒度的分类。
76.s110,根据进阶分类结果定位待派工单的派发对象。
77.其中,派发对象是指接受并处理待派工单的对象。
78.示例性地,流程自动化工具可以按照进阶分类结果指示的待派工单的工单类别,定位相应的派发对象。例如,网络故障类别的工单可分配给网络团队,软件问题类别的工单可分配给技术支持团队。
79.s112,将待派工单派发至派发对象对应的终端。
80.示例性地,流程自动化工具可以根据值班表信息将待派工单派发至派发对象对应的终端。其中,值班表信息用于表征派发对象的值班情况。
81.在一些实施例中,配置文件中包括值班表信息、预设的业务规则正则、自动登录条件或配置规则等中的至少一种。
82.上述工单处理方法中,确定用于工单分类的文本分类模型;文本分类模型是基于至少两种提示词模板和历史样本工单构建完形填空样本后,根据完形填空样本对预训练模型进行训练得到的;提示词模板中的掩码用于指示预训练模型在完形填空样本中的空缺位置处填充预测的工单类别;在完形填空样本的句式下,每个词都需要被正确理解才能在工单文本中填充正确的词,使得每个词在工单文本的上下文中的语义和重要性都会得到充分的考虑和评估,通过完形填空的方式训练的文本分类模型的性能更好。并且,不同的提示词模板会对预训练模型的应用产生不同的影响,选用至少两种提示词模板能够尽量提高预训练模型在泛化性和先验知识等优点在实际工单文本中的作用。预训练模型用于以词为单位处理输入的工单文本,而以词为单位进行预训练可以更好地捕捉词与词之间的语义联系,这样训练出的文本分类模型能够更好地理解工单文本。
83.进而,流程自动化工具登录工单派发系统,以获取工单派发系统中的待派工单;通过文本分类模型对待派工单初步分类,得到初步分类结果;基于预设的业务规则正则和初步分类结果对待派工单进阶分类,得到进阶分类结果,能够避免待派工单存在特殊情况时初步分类不够准确的问题,提高工单自动分类的准确性;根据进阶分类结果定位待派工单的派发对象;将待派工单派发至派发对象对应的终端,无需人工手动指定工单类别,提高了工单处理的效率。
84.在一些实施例中,文本分类模型为静态图模型;在对预训练模型的训练完毕后,训练出的动态图模型被转换成静态图模型,静态图模型被封装成网络资源服务接口;确定用于工单分类的文本分类模型,包括:获取文本分类模型对应的网络资源服务接口。
85.示例性地,计算机设备可以在对预训练模型的训练完毕后获取动态图模型。将动态图模型转换成静态图模型,并将静态图模型封装成网络资源服务接口,便于流程自动化工具调用。可以理解,动态图是模型可用于再次加载训练,而最终使用的模型考量的是推理速度,通过将动态图模型转换为静态图模型,设置合理的推理精度,从而达到在处理器上包含数据处理的全推理流程在预设时间以内。推理精度可以设置为fp16,预设时间可以为1秒。
86.在一些实施例中,配置文件中包括文本分类模型对应的网络资源服务接口的相关信息。流程自动化工具可以从配置文件中确定文本分类模型对应的网络资源服务接口。
87.本实施例中,文本分类模型为静态图模型;在对预训练模型的训练完毕后,训练出的动态图模型被转换成静态图模型,在提高推理速度的同时,能够降低对资源的需求,使得能够部署在没有图像处理器资源的普通计算机设备上。静态图模型被封装成网络资源服务接口;流程自动化工具获取文本分类模型对应的网络资源服务接口,使得流程自动化工具无需进行大量的代码改造即可将文本分类模型的能力纳入自身,提高了工作效率。
88.在一些实施例中,通过文本分类模型对待派工单初步分类,得到初步分类结果,包括:针对网络资源服务接口发起接口请求;其中,接口请求携带待派工单中的文本;文本分类模型用于响应接口请求对待派工单中的文本初步分类,输出初步分类结果;获取通过网络资源服务接口返回的初步分类结果。
89.示例性地,流程自动化工具可以访问文本分类模型对应的网络资源服务接口,向
网络资源服务接口发起接口请求。部署有文本分类模型的计算机设备可以获取接口请求中的待派工单中的文本,并将待派工单中的文本输入至文本分类模型,得到文本分类模型输出的初步分类结果。该计算机设备可以通过网络资源服务接口将初步分类接口返回至流程自动化工具。
90.本实施例中,针对网络资源服务接口发起接口请求;文本分类模型用于响应接口请求对待派工单中的文本初步分类,输出初步分类结果;获取通过网络资源服务接口返回的初步分类结果,使得流程自动化工具无需进行大量的代码改造即可将文本分类模型的能力纳入自身,提高了工作效率。
91.在一些实施例中,获取工单派发系统中的待派工单,包括:获取工单派发系统中的待处理工单;根据待处理工单的属性数据和配置规则判断待处理工单是否需要分类派发;在待处理工单需要分类派发时,确定待处理工单为待派工单。
92.示例性地,配置规则用于指示需要分类派发的工单。对于无需分类派发的待处理工单,不用再执行分类处理,直接派发至指定的对象即可。流程自动化工具可以从待处理工单中读取属性数据,并通过确定属性数据与配置规则是否匹配判断待处理工单是否需要分类派发。在属性数据与配置规则匹配的情况下,判定待处理工单需要分类派发,将待处理工单作为待派工单。
93.在一些实施例中,配置文件中可以包括配置规则。
94.本实施例中,获取工单派发系统中的待处理工单;根据待处理工单的属性数据和配置规则判断待处理工单是否需要分类派发;在待处理工单需要分类派发时,确定待处理工单为待派工单,从而针对性地对待派工单进行分类派发,除待派工单外的待处理工单无需分类派发,节约计算资源。
95.在一些实施例中,方法还包括:根据历史样本工单的类别不平衡情况确定待补充类别;从至少一个已派工单中确定出需要多次派发的工单和待补充类别下的工单,得到新的样本工单;基于至少两种提示词模板、历史样本工单和新的样本工单构建新的完形填空样本;根据新的完形填空样本对文本分类模型进一步训练,以更新文本分类模型。
96.示例性地,文本分类模型持续学习。由于文本分类模型是基于文本样本和增强样本训练得到的,无法避免类别不平衡的问题。对于文本样本较少,而增强样本较多的工单类别可以作为待补充类别。在文本分类模型投入使用后,特别关注待补充类别下的工单,抽取出来作为新的样本工单,用于后续持续训练。除了对待补充类别下的工单特别关注外,还设置了对分类错误的工单的回收机制。计算机设备可以在预设时间段对流程自动化工具的日志进行扫描,以从至少一个已派工单中确定出需要至少二次派发的工单,得到新的样本工单。
97.将基于至少两种提示词模板和新的样本工单构建的完形填空样本,与历史构建的完形填空样本,共同作为新的完形填空样本。可以理解,新的样本工单和历史样本工单,与每种提示词模板融合以构建完形填空样本的处理是一样的。
98.在一些实施例中,计算机设备可以加载当前的文本分类模型对应的动态图模型,根据新的完形填空样本对该动态图模型进一步训练,以更新动态图模型。将更新后的动态图模型转换成静态图模型,得到更新后的文本分类模型。
99.在一些实施例中,需要至少二次派发的工单经过人工核验确定该工单为错误派发
的工单后才能作为新的样本工单。可以理解,需要二次派发的情况比较复杂,未必是分类出现问题。比如,通过每晚对日志进行扫描,获取其中的需要进行二次转派的工单送入错单库中,定期进行人工核验,分析得到确实是文本分类模型分类错误的工单,在分类错误的工单累计到一定量时,将这些工单进行数据处理后,与历史的完形填空样本进行混合,加载前一版本的模型进行再次训练,迭代得到新的模型版本。
100.本实施例中,根据历史样本工单的类别不平衡情况确定待补充类别;从至少一个已派工单中确定出需要多次派发的工单和待补充类别下的工单,得到新的样本工单;基于至少两种提示词模板、历史样本工单和新的样本工单构建新的完形填空样本;根据新的完形填空样本对文本分类模型进一步训练,以更新文本分类模型,保证文本分类模型的持续学习,提高文本分类模型的准确性。
101.在一些实施例中,确定用于工单分类的文本分类模型之前,还包括:针对每种提示词模板,通过融合提示词模板和历史样本工单构建提示词模板对应的完形填空样本;通过提示词模板对应的完形填空样本训练预训练模型,以评估提示词模板的效果;提示词模板的效果与训练过程中预训练模型的预测准确性相关;从至少两种提示词模板中确定出效果最好的目标提示词模板;其中,文本分类模型是基于目标提示词模板对应的完形填空样本对预训练模型进行训练得到的。
102.示例性地,计算机设备可以对历史样本工单进行处理得到文本样本和增强样本。针对每种提示词模板,通过将该提示词模板添加至文本样本,以及将该提示词模板添加至增强样本中,得到每种提示词模板对应的完形填空样本。通过每种提示词模板对应的完形填空样本训练预训练模型,确定训练过程中模型的预测准确度,以评估该提示词模板的效果。提示词模板的效果与训练过程中预训练模型的预测准确性正相关。从至少两种提示词模板中确定出效果最好的目标提示词模板。
103.在一些实施例中,计算机设备可以基于每种提示词模板对应的完形填空样本训练预训练模型,在训练完毕后确定训练出的候选分类模型对应的损失值,以评估该提示词模板的效果。该损失值与提示词模板的效果负相关。从至少两个候选分类模型中筛选出损失值最小的文本分类模型。
104.在一些实施例中,在文本分类模型的持续学习中,依然基于至少两种提示词模板和样本工单构建完形填空样本,这是因为工单这一业务场景是不固定的,目标提示词模板最适用于历史样本工单,未必最适用于新的样本工单。
105.在一些实施例中,在文本分类模型的持续学习中,可以仅基于目标提示词模板和样本工单构建完形填空样本,能够减少计算资源的浪费。
106.本实施例中,针对每种提示词模板,通过融合提示词模板和历史样本工单构建提示词模板对应的完形填空样本;通过提示词模板对应的完形填空样本训练预训练模型,以评估提示词模板的效果;从至少两种提示词模板中确定出效果最好的目标提示词模板,每次训练时与一种提示词模板进行组合从而判断哪种模板最适合此批次的样本工单,更适合当前的业务场景,提高了适应性。
107.在一些实施例中,流程自动化工具是根据配置文件运行的;配置文件中包括值班表信息;派发对象包括至少两个子对象;将待派工单派发至派发对象对应的终端,包括:根据值班表信息从至少两个子对象中确定出值班子对象;将待派工单派发至值班子对象对应
的终端。
108.示例性地,值班表信息用于表征派发对象中每个子对象的值班情况。流程自动化可以确定值班表信息指示的当前时间值班的子对象,得到值班子对象。比如,派发对象可以一个部门,流程自动化工具结合配置文件中的值班表信息,将待派工单派发给当日该部门内的值班人员对应的终端。
109.本实施例中,根据值班表信息从至少两个子对象中确定出值班子对象;将待派工单派发至值班子对象对应的终端,避免工单派发至的对象不在岗,导致待派工单无法及时处理的情况,提高工单的处理效率。
110.在一些实施例中,如图2所示,提供了训练文本分类模型的流程图。
111.数据来源:历史派发工单数据;历史派发工单数据包括历史样本工单。
112.数据处理部分:去除问题格式,工单编码,号码信息,停词等;对数据进行加工,结合提示词模板构造完形填空样本;分类别统计样本数据,对不平衡数据进行数据增强;数据增强使用词嵌入和同义词替换两种方式进行。
113.其中,问题格式并非有问题的格式,而是工单中的问题本身是有固定模式的。比如,“问题发起xxxx号,请根据以下内容妥善解决xxx”等前缀和后缀,这些对于分类没有帮助的文本都需要去除掉。工单编码和号码信息均用伪号码代替。停词被滤除。
114.模型训练阶段:选择以词为单位处理文本的预训练模型,继承词嵌入权重,使用多标签软间隔损失函数(multi-label soft margin criterionde)计算损失值对预训练模型进行训练;将训练出的动态图模型转换为静态图模型,加速推理过程。
115.比如,此阶段使用ernie-1.0作为预训练模型进行参数加载,然后进行参数的训练,使用ernie-1.0模型使用全词掩码而非单字掩码,更符合中文语义的特征。训练过程中使用部分超参可以如下:输入文本序列中的最大长度限制(max_seq_length)为128,学习率(learning_rate)为3e-5,使用热身(warmup)策略,周期(epoch)为100。
116.上线部署阶段:服务化部署模型,将文本分类模型部署为网络资源服务接口供流程自动化工具调用。
117.持续优化阶段:定期回收需要二次转派的工单,进行人工分析,确定第一次派发出错的工单,进行数据收集;结合新派发的待补充类别下的工单混合形成新的样本工单。后续对新的样本工单进行数据加工,然后迭代模型。
118.在一些实施例中,如图3所示,提供了流程自动化工具处理工单的流程图。流程自动化工具根据配置文件中的自动登录条件自动登录工单派发系统;流程自动化工具读取工单派发系统的元素来获取待派单工单;流程自动化工具读取工单内容、类型、发起单位等,根据配置规则判断是否需要分类派发;在需要分类派发时,调用网络资源服务接口,结合预设的业务规则正则,对工单分类;其中,业务规则正则部分为可配置,用户根据自身需求可对配置文件中的业务规则正则部分进行新增、修改或删除等至少一种操作;流程自动化工具获取分类结果,定位派发部门;其中,此过程中,记录派发日志,包括工单编号、文本内容,派发目的地等;流程自动化工具结合配置文件内的值班表信息,派发给当日该部门内的值班人员对应的终端;其中,针对派发后,处理需要时间的挂起工单,在工单逾期前由流程自动化工具重新派发至处理岗;此过程中包含挂起工单即将逾期提醒;正常处理完毕后流程自动化工具进行工单闭环操作。
119.应该理解的是,虽然如上所述的各实施例所涉及的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,如上所述的各实施例所涉及的流程图中的至少一部分步骤可以包括多个步骤或者多个阶段,这些步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。
120.基于同样的发明构思,本技术实施例还提供了一种用于实现上述所涉及的工单处理方法的工单处理装置。该装置所提供的解决问题的实现方案与上述方法中所记载的实现方案相似,故下面所提供的一个或多个工单处理装置实施例中的具体限定可以参见上文中对于工单处理方法的限定,在此不再赘述。
121.在一个实施例中,如图4所示,提供了一种工单处理装置400,包括:确定模块402、登录模块404、初步分类模块406、进阶分类模块408、定位模块410、和派发模块412,其中:
122.确定模块402,用于确定用于工单分类的文本分类模型;文本分类模型是基于至少两种提示词模板和历史样本工单构建完形填空样本后,根据完形填空样本对预训练模型进行训练得到的;提示词模板中的掩码用于指示预训练模型在完形填空样本中的空缺位置处填充预测的工单类别;预训练模型用于以词为单位处理输入的工单文本。
123.登录模块404,用于登录工单派发系统,以获取工单派发系统中的待派工单。
124.初步分类模块406,用于通过文本分类模型对待派工单初步分类,得到初步分类结果。
125.进阶分类模块408,用于基于预设的业务规则正则和初步分类结果对待派工单进阶分类,得到进阶分类结果。
126.定位模块410,用于根据进阶分类结果定位待派工单的派发对象。
127.派发模块412,用于将待派工单派发至派发对象对应的终端。
128.在一些实施例中,文本分类模型为静态图模型;在对预训练模型的训练完毕后,训练出的动态图模型被转换成静态图模型,静态图模型被封装成网络资源服务接口;确定模块402还用于获取文本分类模型对应的网络资源服务接口。
129.在一些实施例中,初步分类模块406还用于针对网络资源服务接口发起接口请求;其中,接口请求携带待派工单中的文本;文本分类模型用于响应接口请求对待派工单中的文本初步分类,输出初步分类结果;获取通过网络资源服务接口返回的初步分类结果。
130.在一些实施例中,登录模块404还用于获取工单派发系统中的待处理工单;根据待处理工单的属性数据和配置规则判断待处理工单是否需要分类派发;在待处理工单需要分类派发时,确定待处理工单为待派工单。
131.在一些实施例中,确定模块402还用于根据历史样本工单的类别不平衡情况确定待补充类别;从至少一个已派工单中确定出需要多次派发的工单和待补充类别下的工单,得到新的样本工单;基于至少两种提示词模板、历史样本工单和新的样本工单构建新的完形填空样本;根据新的完形填空样本对文本分类模型进一步训练,以更新文本分类模型。
132.在一些实施例中,确定模块402还用于针对每种提示词模板,通过融合提示词模板和历史样本工单构建提示词模板对应的完形填空样本;通过提示词模板对应的完形填空样
本训练预训练模型,以评估提示词模板的效果;提示词模板的效果与训练过程中预训练模型的预测准确性相关;从至少两种提示词模板中确定出效果最好的目标提示词模板;其中,文本分类模型是基于目标提示词模板对应的完形填空样本对预训练模型进行训练得到的。
133.在一些实施例中,流程自动化工具是根据配置文件运行的;配置文件中包括值班表信息;派发对象包括至少两个子对象;派发模块412还用于根据值班表信息从至少两个子对象中确定出值班子对象;将待派工单派发至值班子对象对应的终端。
134.上述工单处理装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
135.在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图5所示。该计算机设备包括处理器、存储器、输入/输出接口(input/output,简称i/o)和通信接口。其中,处理器、存储器和输入/输出接口通过系统总线连接,通信接口通过输入/输出接口连接到系统总线。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质和内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储配置文件。该计算机设备的输入/输出接口用于处理器与外部设备之间交换信息。该计算机设备的通信接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种工单处理方法。
136.在一个实施例中,提供了一种计算机设备,该计算机设备可以是终端,其内部结构图可以如图6所示。该计算机设备包括处理器、存储器、输入/输出接口、通信接口、显示单元和输入装置。其中,处理器、存储器和输入/输出接口通过系统总线连接,通信接口、显示单元和输入装置通过输入/输出接口连接到系统总线。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质和内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的输入/输出接口用于处理器与外部设备之间交换信息。该计算机设备的通信接口用于与外部的终端进行有线或无线方式的通信,无线方式可通过wifi、移动蜂窝网络、nfc(近场通信)或其他技术实现。该计算机程序被处理器执行时以实现一种工单处理方法。该计算机设备的显示单元用于形成视觉可见的画面,可以是显示屏、投影装置或虚拟现实成像装置。显示屏可以是液晶显示屏或者电子墨水显示屏,该计算机设备的输入装置可以是显示屏上覆盖的触摸层,也可以是计算机设备外壳上设置的按键、轨迹球或触控板,还可以是外接的键盘、触控板或鼠标等。
137.本领域技术人员可以理解,图5或图6中示出的结构,仅仅是与本技术方案相关的部分结构的框图,并不构成对本技术方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
138.在一个实施例中,提供了一种计算机设备,包括存储器和处理器,存储器中存储有计算机程序,该处理器执行计算机程序时实现上述各方法实施例中的步骤。
139.在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现上述各方法实施例中的步骤。
140.在一个实施例中,提供了一种计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现上述各方法实施例中的步骤。
141.本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本技术所提供的各实施例中所使用的对存储器、数据库或其它介质的任何引用,均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(read-only memory,rom)、磁带、软盘、闪存、光存储器、高密度嵌入式非易失性存储器、阻变存储器(reram)、磁变存储器(magnetoresistive random access memory,mram)、铁电存储器(ferroelectric random access memory,fram)、相变存储器(phase changememory,pcm)、石墨烯存储器等。易失性存储器可包括随机存取存储器(random access memory,ram)或外部高速缓冲存储器等。作为说明而非局限,ram可以是多种形式,比如静态随机存取存储器(static random accessmemory,sram)或动态随机存取存储器(dynamic random access memory,dram)等。本技术所提供的各实施例中所涉及的数据库可包括关系型数据库和非关系型数据库中至少一种。非关系型数据库可包括基于区块链的分布式数据库等,不限于此。本技术所提供的各实施例中所涉及的处理器可为通用处理器、中央处理器、图形处理器、数字信号处理器、可编程逻辑器、基于量子计算的数据处理逻辑器等,不限于此。
142.以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
143.以上所述实施例仅表达了本技术的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本技术专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本技术构思的前提下,还可以做出若干变形和改进,这些都属于本技术的保护范围。因此,本技术的保护范围应以所附权利要求为准。
技术特征:
1.一种工单处理方法,其特征在于,应用于流程自动化工具,所述方法包括:确定用于工单分类的文本分类模型;所述文本分类模型是基于至少两种提示词模板和历史样本工单构建完形填空样本后,根据所述完形填空样本对预训练模型进行训练得到的;所述提示词模板中的掩码用于指示所述预训练模型在完形填空样本中的空缺位置处填充预测的工单类别;所述预训练模型用于以词为单位处理输入的工单文本;登录工单派发系统,以获取所述工单派发系统中的待派工单;通过所述文本分类模型对所述待派工单初步分类,得到初步分类结果;基于预设的业务规则正则和所述初步分类结果对所述待派工单进阶分类,得到进阶分类结果;根据所述进阶分类结果定位所述待派工单的派发对象;将所述待派工单派发至所述派发对象对应的终端。2.根据权利要求1所述的方法,其特征在于,所述文本分类模型为静态图模型;在对预训练模型的训练完毕后,训练出的动态图模型被转换成所述静态图模型,所述静态图模型被封装成网络资源服务接口;所述确定用于工单分类的文本分类模型,包括:获取文本分类模型对应的网络资源服务接口。3.根据权利要求2所述的方法,其特征在于,所述通过所述文本分类模型对所述待派工单初步分类,得到初步分类结果,包括:针对所述网络资源服务接口发起接口请求;其中,所述接口请求携带所述待派工单中的文本;所述文本分类模型用于响应所述接口请求对所述待派工单中的文本初步分类,输出初步分类结果;获取通过所述网络资源服务接口返回的初步分类结果。4.根据权利要求1所述的方法,其特征在于,所述获取所述工单派发系统中的待派工单,包括:获取所述工单派发系统中的待处理工单;根据所述待处理工单的属性数据和配置规则判断所述待处理工单是否需要分类派发;在所述待处理工单需要分类派发时,确定所述待处理工单为待派工单。5.根据权利要求1所述的方法,其特征在于,所述方法还包括:根据所述历史样本工单的类别不平衡情况确定待补充类别;从至少一个已派工单中确定出需要多次派发的工单和所述待补充类别下的工单,得到新的样本工单;基于所述至少两种提示词模板、所述历史样本工单和所述新的样本工单构建新的完形填空样本;根据所述新的完形填空样本对所述文本分类模型进一步训练,以更新所述文本分类模型。6.根据权利要求1所述的方法,其特征在于,所述确定用于工单分类的文本分类模型之前,还包括:针对每种提示词模板,通过融合所述提示词模板和所述历史样本工单构建所述提示词模板对应的完形填空样本;
通过所述提示词模板对应的完形填空样本训练所述预训练模型,以评估所述提示词模板的效果;所述提示词模板的效果与训练过程中所述预训练模型的预测准确性相关;从所述至少两种提示词模板中确定出效果最好的目标提示词模板;其中,所述文本分类模型是基于所述目标提示词模板对应的完形填空样本对所述预训练模型进行训练得到的。7.根据权利要求1至6任一项所述的方法,其特征在于,所述流程自动化工具是根据配置文件运行的;所述配置文件中包括值班表信息;所述派发对象包括至少两个子对象;所述将所述待派工单派发至所述派发对象对应的终端,包括:根据所述值班表信息从所述至少两个子对象中确定出值班子对象;将所述待派工单派发至所述值班子对象对应的终端。8.一种工单处理装置,其特征在于,所述装置包括:确定模块,用于确定用于工单分类的文本分类模型;所述文本分类模型是基于至少两种提示词模板和历史样本工单构建完形填空样本后,根据所述完形填空样本对预训练模型进行训练得到的;所述提示词模板中的掩码用于指示所述预训练模型在完形填空样本中的空缺位置处填充预测的工单类别;所述预训练模型用于以词为单位处理输入的工单文本;登录模块,用于登录工单派发系统,以获取所述工单派发系统中的待派工单;初步分类模块,用于通过所述文本分类模型对所述待派工单初步分类,得到初步分类结果;进阶分类模块,用于基于预设的业务规则正则和所述初步分类结果对所述待派工单进阶分类,得到进阶分类结果;定位模块,用于根据所述进阶分类结果定位所述待派工单的派发对象;派发模块,用于将所述待派工单派发至所述派发对象对应的终端。9.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述的方法的步骤。10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。
技术总结
本申请涉及一种工单处理方法、装置、计算机设备和计算机可读存储介质。方法应用于流程自动化工具,包括:确定文本分类模型;文本分类模型是基于至少两种提示词模板和历史样本工单构建完形填空样本后,对预训练模型进行训练得到的;提示词模板的掩码用于指示预训练模型在完形填空样本的空缺位置处填充预测的工单类别;预训练模型用于以词为单位处理输入的工单文本;登录工单派发系统,以获取待派工单;通过文本分类模型对待派工单初步分类,得到初步分类结果;基于预设的业务规则正则和初步分类结果对待派工单进阶分类,得到进阶分类结果;根据进阶分类结果定位派发对象;将待派工单派发至派发对象对应的终端。采用本方法能够提高工单处理的效率。工单处理的效率。工单处理的效率。
技术研发人员:李曌宇 唐宁 唐志雄 马青 黄吉 张慧茹
受保护的技术使用者:中国电信股份有限公司
技术研发日:2023.06.21
技术公布日:2023/9/23
版权声明
本文仅代表作者观点,不代表航家之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)
航空之家 https://www.aerohome.com.cn/
航空商城 https://mall.aerohome.com.cn/
航空资讯 https://news.aerohome.com.cn/