基于人工智能的OFD版式文件自动签章管理方法与流程
未命名
10-26
阅读:60
评论:0
基于人工智能的ofd版式文件自动签章管理方法
技术领域
1.本发明涉及数据处理技术领域,特别是涉及一种基于人工智能的ofd版式文件自动签章管理方法。
背景技术:
2.ofd(open fixed-layout documents)版式文件的含义为开放版式文档,是我国自主研发、自主制定的国家文件格式标准。在不同软件、电脑等终端上打开,排版、内容都是高度一致的,因此ofd版式文件适合应用在一些严肃正式的场合,如各种正式的电子公文、电子合同、电子发票、电子证照等均为ofd版式文件。
3.ofd版式文件签章的目的是通过相关加密算法保证数据的完整性、真实性。ofd版式文件的签章功能较多,包括单页签章、多页签章、主题词签章、时间签章等,对ofd版式文件进行签章时需要耗费较多的人力物力,而且不同的ofd版式文件可能需要不同的部门、不同的负责人完成签章,因此需要对ofd版式文件进行聚类处理,使特征相似的ofd版式文件聚为一类,提高签章效率,并确保文件的安全性。传统的基于人工智能的聚类算法如k-means聚类算法,简单易于实现,适用于大规模数据,但需要预先指定聚类簇的数量;基于密度的dbscan聚类算法则无需指定聚类簇的数量,根据邻域密度进行聚类,但在ofd版式文件这类的高维空间中计算量较大,聚类效率低。
技术实现要素:
4.鉴于上述问题,本技术提供了一种基于人工智能的ofd版式文件自动签章管理方法,能够实现ofd版式文件自动签章管理,提高签章效率。
5.本技术实施例提供了一种基于人工智能的ofd版式文件自动签章管理方法,包括:获取多个ofd版式文件的第一信息数据,所述第一信息数据包括撰写过程时间和文字内容;对每个所述ofd版式文件的所述第一信息数据进行预处理得到第二信息数据,所述第二信息数据包括撰写过程序列和主题词;对每个所述ofd版式文件,基于所述主题词的数量和出现频率进行特异性计算得到特异性指数,基于所述撰写过程序列进行生成效率计算得到版式文件生成效率指数,基于所述特异性指数和所述版式文件生成效率指数计算得到文件签章优先指数;对每个所述ofd版式文件,基于创建者姓名和人员信息列表确定部门编码,基于所述特异性指数、所述文件签章优先指数和所述部门编码构建特征信息向量;基于多个所述ofd版式文件的特征信息向量进行聚类处理,得到多个聚类簇;对每个聚类簇,基于所述聚类簇的聚类中心将所述聚类簇的ofd版式文件分配给对应的签章处理责任人。
6.在一种可能的实现方式中,所述对每个所述ofd版式文件的所述第一信息数据进行预处理得到第二信息数据,所述第二信息数据包括撰写过程序列和主题词,包括:
对每个所述ofd版式文件,基于所述ofd版式文件的撰写过程时间构建撰写过程序列。
7.在一种可能的实现方式中,所述对每个所述ofd版式文件的所述第一信息数据进行预处理得到第二信息数据,所述第二信息数据包括撰写过程序列和主题词,还包括:对每个所述ofd版式文件,基于所述ofd版式文件的文字内容进行分词处理,得到多个分词和所述分词的出现频率,按照第一选取条件选取多个分词中的部分分词作为主题词。
8.在一种可能的实现方式中,所述基于所述主题词的数量和出现频率进行特异性计算得到特异性指数,包括:对每个所述ofd版式文件,基于所述主题词的数量和出现频率进行特异性计算得到特异性指数,所述特异性指数的计算公式为:其中,表示第个ofd版式文件的特异性指数,表示第个ofd版式文件的主题词的数量,表示在第个ofd版式文件中第个主题词出现的频率,表示ofd版式文件的数量,表示在第个ofd版式文件中主题词出现最高的频率,表示第个ofd版式文件中第个主题词在第个ofd版式文件中出现的频率。
9.在一种可能的实现方式中,所述基于所述撰写过程序列进行生成效率计算得到版式文件生成效率指数,包括:对每个所述ofd版式文件,基于所述撰写过程序列进行生成效率计算得到版式文件生成效率指数,所述版式文件生成效率指数的计算公式为:其中,表示第个ofd版式文件的版式文件生成效率指数,表示所述撰写过程序列的长度,表示所述撰写过程序列中第个元素的值。
10.在一种可能的实现方式中,所述基于所述特异性指数和所述版式文件生成效率指数计算得到文件签章优先指数,包括:对每个所述ofd版式文件,基于所述特异性指数和所述版式文件生成效率指数计算得到文件签章优先指数,所述文件签章优先指数的计算公式为:其中,表示第个ofd版式文件的文件签章优先指数,表示第个ofd版式文件的特异性指数,为自然常数,表示第一时间差值与第二时间差值之间的比值,所述第一时间差值为第个ofd版式文件的截止时间与当前时间之差,所述第二时间差值为第个
ofd版式文件的截止时间与创建时间之差,表示第个ofd版式文件的版式文件生成效率指数。
11.在一种可能的实现方式中,所述基于创建者姓名和人员信息列表确定部门编码,包括:获取所述ofd版式文件的创建者姓名;基于创建者姓名和人员信息列表对创建者姓名和所在部门进行匹配,根据所述所在部门确定部门编码。
12.在一种可能的实现方式中,所述基于所述特异性指数、所述文件签章优先指数和所述部门编码构建特征信息向量,还包括:基于所述特异性指数、所述文件签章优先指数和所述部门编码构建特征信息向量,所述特征信息向量的构建方式为:其中,表示第个ofd版式文件的特征信息向量,表示第个ofd版式文件的特异性指数,表示第个ofd版式文件的文件签章优先指数,表示第个ofd版式文件的创建者所在部门的部门编码。
13.在一种可能的实现方式中,所述基于多个所述ofd版式文件的特征信息向量进行聚类处理,得到多个聚类簇,包括:对每个所述ofd版式文件,对所述特征信息向量进行归一化处理得到特征信息归一化向量,所述归一化处理的方法为z-score方法;对每个所述ofd版式文件,计算所述ofd版式文件的特征信息归一化向量与其余ofd版式文件的特征信息归一化向量之间的欧式距离,得到第一距离;基于所述第一距离对多个所述ofd版式文件进行聚类处理得到多个聚类簇,所述聚类处理的算法为dbscan聚类算法。
14.在一种可能的实现方式中,所述对每个聚类簇,基于所述聚类簇的聚类中心将所述聚类簇的ofd版式文件分配给对应的签章处理责任人,包括:对每个聚类簇,计算所述聚类簇的聚类中心与坐标原点之间的欧式距离得到第二距离;对每个聚类簇,基于所述第二距离确定所述聚类簇的签章负责人等级;对每个聚类簇,基于所述签章负责人等级将所述聚类簇的ofd版式文件分配给对应的签章处理责任人。
15.本技术的有益效果在于:通过分析每个ofd版式文件与其余ofd版式文件主题词之间出现的频率,构建ofd版式文件的特异性指数,反映ofd版式文件文字内容的差异性,通过分析ofd版式文件历史撰写时间,构建版式文件生成效率指数,结合特异性指数和版式文件生成效率指数构建文件签章优先指数;对ofd版式文件创建者所在部门进行部门编码,将部门编码、特异性指数与文件签章处理优先指数作为ofd版式文件的特征信息向量,根据特征信息向量使用dbscan聚类算法对ofd版式文件进行聚类,基于所述聚类簇的聚类中心将不同聚类簇的ofd版式文件分配给不同的签章处理责任人进行签章,提高ofd版式文件的签章
效率。
附图说明
16.图1是本技术实施例提供的一种基于人工智能的ofd版式文件自动签章管理方法的步骤流程图。
具体实施方式
17.为使本技术的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本技术中的实施例,本领域普通技术人员所获得的所有其它实施例,都属于本技术保护的范围。
18.本技术的实施方式部分使用的术语仅用于对本技术的具体实施例进行解释,而非旨在限定本技术。
19.需要注意,本技术中提及的“一个”、“多个”的修饰是示意性而非限制性的,本领域技术人员应当理解,除非在上下文另有明确指出,否则应该理解为“一个或多个”。
20.下面结合附图,对本技术的实施例进行描述。本领域普通技术人员可知,随着技术的发展和新场景的出现,本技术实施例提供的技术方案对于类似的技术问题,同样适用。
21.参见图1所示,本技术实施例公开了一种基于人工智能的ofd版式文件自动签章管理方法,包括:步骤s11,获取多个ofd版式文件的第一信息数据,所述第一信息数据包括撰写过程时间和文字内容;步骤s12,对每个所述ofd版式文件的所述第一信息数据进行预处理得到第二信息数据,所述第二信息数据包括撰写过程序列和主题词;步骤s13,对每个所述ofd版式文件,基于所述主题词的数量和出现频率进行特异性计算得到特异性指数,基于所述撰写过程序列进行生成效率计算得到版式文件生成效率指数,基于所述特异性指数和所述版式文件生成效率指数计算得到文件签章优先指数;步骤s14,对每个所述ofd版式文件,基于创建者姓名和人员信息列表确定部门编码,基于所述特异性指数、所述文件签章优先指数和所述部门编码构建特征信息向量;步骤s15,基于多个所述ofd版式文件的特征信息向量进行聚类处理,得到多个聚类簇;步骤s16,对每个聚类簇,基于所述聚类簇的聚类中心将所述聚类簇的ofd版式文件分配给对应的签章处理责任人。
22.在上述实施例步骤中,首先,获取多个ofd版式文件的第一信息数据,所述第一信息数据包括撰写过程时间和文字内容(步骤s11)。ofd版式文件是一种存储结构化数据的文件,可以通过ofd版式文件读取软件或编程语言读取ofd版式文件的相关信息数据,相关信息数据包括ofd版式文件的创建者姓名、创建时间、撰写过程时间、处理截止时间、文字内容等。记所采集的ofd版式文件数量为n,本实施例中取经验值300,也可以根据计算量和数据处理速度进行选择,在此不进行具体限定。然后,对每个所述ofd版式文件的所述第一信息数据进行预处理得到第二信息数据,所述第二信息数据包括撰写过程序列和主题词(步骤
s12)。直接获取的ofd版式文本的数据维度较高,且数据量较大,直接处理效率较低,因此需要对所采集获取的ofd版式文件数据进行预处理。接下来,对每个所述ofd版式文件,基于所述主题词的数量和出现频率进行特异性计算得到特异性指数,基于所述撰写过程序列进行生成效率计算得到版式文件生成效率指数,基于所述特异性指数和所述版式文件生成效率指数计算得到文件签章优先指数(步骤s13)。通过分析各个版式文件主题词之间的差异构建每个ofd版式文件的特异性指数,反映ofd版式文件文字内容的差异性,ofd版式文件的特异性指数越大,表明该ofd版式文件的文字内容与其余ofd版式文件的文字内容差异性越大,该ofd版式文件所具有的信息量越大;通过分析ofd版式文件的撰写过程序列构建文件生成效率指数,ofd版式文件的文件生成效率指数越大,表明该ofd版式文件撰写效率越高,撰写速度越快,该ofd版式文件的加急程度越高;基于特异性指数结合版式文件生成效率指数构建文件签章处理优先指数。接下来,对每个所述ofd版式文件,基于创建者姓名和人员信息列表确定部门编码,基于所述特异性指数、所述文件签章优先指数和所述部门编码构建特征信息向量(步骤s14)。根据ofd版式文件创建者所在部门确定部门编码,将部门编码、特异性指数与文件签章优先指数作为ofd版式文件的文件特征信息向量。接下来,基于多个所述ofd版式文件的特征信息向量进行聚类处理,得到多个聚类簇(步骤s15)。最后,对每个聚类簇,基于所述聚类簇的聚类中心将所述聚类簇的ofd版式文件分配给对应的签章处理责任人(步骤s16)。基于ofd版式文件的聚类处理结果,将不同聚类簇的ofd版式文件分配给不同的签章处理责任人进行签章,提高ofd版式文件的签章效率。
23.在本技术一个可选的实施例中,所述对每个所述ofd版式文件的所述第一信息数据进行预处理得到第二信息数据,所述第二信息数据包括撰写过程序列和主题词,包括:对每个所述ofd版式文件,基于所述ofd版式文件的撰写过程时间构建撰写过程序列。
24.在上述实施例步骤中,基于所述ofd版式文件的撰写过程时间构建撰写过程序列。撰写过程序列中的各个元素对应为撰写过程中的时间,例如序列中第一个元素可以表示第一次撰写的时间,序列中第一个元素也可以表示其他时间,如ofd版式文件的签章截止时间,在此不对其进行具体限定。
25.在本技术一个可选的实施例中,所述对每个所述ofd版式文件的所述第一信息数据进行预处理得到第二信息数据,所述第二信息数据包括撰写过程序列和主题词,还包括:对每个所述ofd版式文件,基于所述ofd版式文件的文字内容进行分词处理,得到多个分词和所述分词的出现频率,按照第一选取条件选取多个分词中的部分分词作为主题词。
26.在上述实施例步骤中,对每个所述ofd版式文件,基于所述ofd版式文件的文字内容可以通过编程语言(如python等)使用jieba分词库对ofd版式文件内容的进行分词处理,得到多个分词和所述分词的出现频率。分词处理也可以使用其他常规分词手段,在此不对其进行具体限定。然后,按照第一选取条件选取多个分词中的部分分词作为主题词。例如,统计每个ofd版式文件中不同分词出现的频率,按照词汇出现的频率对词汇进行降序排序,将排序结果中前10%的词汇作为代表各个ofd版式文件主要内容的主题词。第一选取条件和选取的具体执行方式也可以根据文件进行灵活调整,在此不对其进行具体限定。对每个ofd版式文件执行上述分词处理和选取处理步骤,得到每个ofd版式文件的主题词和主题词的
出现频率。
27.在本技术一个可选的实施例中,所述基于所述主题词的数量和出现频率进行特异性计算得到特异性指数,包括:对每个所述ofd版式文件,基于所述主题词的数量和出现频率进行特异性计算得到特异性指数,所述特异性指数的计算公式为:其中,表示第个ofd版式文件的特异性指数,表示第个ofd版式文件的主题词的数量,表示在第个ofd版式文件中第个主题词出现的频率,表示ofd版式文件的数量,表示在第个ofd版式文件中主题词出现最高的频率,表示第个ofd版式文件中第个主题词在第个ofd版式文件中出现的频率。
28.在上述实施例步骤中,基于所述主题词的数量和出现频率进行特异性计算得到特异性指数;在需要签章的ofd版式文件中,若某ofd版式文件中的文字内容与其余ofd版式文件的文字内容差异较大,则该ofd版式文件所具有的特异性指数越强。
29.需要说明的是,若第个ofd版式文件中的主题词的出现频率越高,即越大,表明该ofd版式文件越容易被主题词提炼总结;当该ofd版式文件中的主题词在其他ofd版式文件中出现频率越低,表明该ofd版式文件与其他ofd版式文件主题差异越大,即越大,则该ofd版式文件计算出的特异性指数越大;若第个ofd版式文件中的主题词的出现频率越低,即越小,表明该ofd版式文件越难以被主题词提炼总结;当该ofd版式文件中的主题词在其他ofd版式文件中出现频率越高,表明该ofd版式文件与其他ofd版式文件主题差异越小,即越小,则该ofd版式文件计算出的特异性指数越小。
30.在本技术一个可选的实施例中,所述基于所述撰写过程序列进行生成效率计算得到版式文件生成效率指数,包括:对每个所述ofd版式文件,基于所述撰写过程序列进行生成效率计算得到版式文件生成效率指数,所述版式文件生成效率指数的计算公式为:其中,表示第个ofd版式文件的版式文件生成效率指数,表示所述撰写过程序列的长度,表示所述撰写过程序列中第个元素的值。
31.对于ofd版式文件的生成,一般分为三个阶段:流:通过编辑工具完成对文件的编辑。流式文件重点在于对文件的编辑,流式文件格式如doc、docx等;版:将编辑好的流式文件内容真实的呈现出来,使其在不同设备、不同系统上显示的内容都是相同的,其内容、排版、格式等不受环境影响;签:对版式文件做签章处理,确保版式文件的完整性和真实性。
32.在上述实施例步骤中,考虑到对于重要文件的签章处理,通常需要在较短时间内完成,即重要文件从开始编辑到生成版式文件并提交签章的过程用时较短;因此基于所述撰写过程序列进行生成效率计算得到版式文件生成效率指数,反映ofd版式文件的历史处理效率。
33.需要说明的是,ofd版式文件各个阶段的处理时间越短,即越小,表明该ofd版式文件加急程度越高,最终计算出来的版式文件生成效率指数越大;ofd版式文件各个阶段的处理时间越长,即越大,表明该ofd版式文件加急程度相对较低,最终计算出来的版式文件生成效率指数越小。
34.在本技术一个可选的实施例中,所述基于所述特异性指数和所述版式文件生成效率指数计算得到文件签章优先指数,包括:对每个所述ofd版式文件,基于所述特异性指数和所述版式文件生成效率指数计算得到文件签章优先指数,所述文件签章优先指数的计算公式为:其中,表示第个ofd版式文件的文件签章优先指数,表示第个ofd版式文件的特异性指数,为自然常数,表示第一时间差值与第二时间差值之间的比值,所述第一时间差值为第个ofd版式文件的截止时间与当前时间之差,所述第二时间差值为第个ofd版式文件的截止时间与创建时间之差,表示第个ofd版式文件的版式文件生成效率指数。
35.在上述实施例步骤中,考虑到在需要签章的ofd版式文件中,若某ofd版式文件的特异性指数较大,即该ofd版式文件与其余ofd版式文件相似性较小,表明该ofd版式文件所包含的信息量可能越大,即该ofd版式文件可能越重要,越需要优先进行签章处理;因此基于所述特异性指数和所述版式文件生成效率指数计算得到文件签章优先指数。
36.需要说明的是,ofd版式文件与其余ofd版式文件的差异性越大,表明该ofd版式文件中所包含的信息在其余文件中较少出现,该ofd版式文件的特异性越强,即越大,越需要优先对该ofd版式文件进行签章处理,故计算出的文件签章优先指数越大;反之亦然。ofd版式文件处理的截止时间(最后期限)距离当前时间越近,第一时间差值(截止时间与当前时间之差)与第二时间差值(截止时间与创建时间之差)之间的比值越小,表明越需要优先对该ofd版式文件进行签章处理,否则超过截止日期可能会产生较大影响,故计算出的文件签章优先指数越大;反之亦然。同理,ofd版式文件的历史处理时间越短,表明该ofd版
式文件的加急程度越高,即越大,越需要优先对该ofd版式文件进行签章处理,故计算出的文件签章优先指数越大;反之亦然。
37.在本技术一个可选的实施例中,所述基于创建者姓名和人员信息列表确定部门编码,包括:获取所述ofd版式文件的创建者姓名;基于创建者姓名和人员信息列表对创建者姓名和所在部门进行匹配,根据所述所在部门确定部门编码。
38.在上述实施例步骤中,首先获取所述ofd版式文件的创建者姓名;ofd版式文件的创建者姓名是ofd版式文件的相关信息数据之一,可以通过ofd版式文件读取软件或编程语言获取。然后基于创建者姓名和人员信息列表对创建者姓名和所在部门进行匹配;基于创建者姓名和人员信息列表对创建者姓名和所在部门进行匹配例如可以为:根据所述ofd版式文件的创建者姓名,查询人员信息列表,通过python编程语言将创建者姓名与其所在部门进行匹配,将ofd版式文件中创建者姓名属性变更为其所在部门或在ofd版式文件中增加创建者所在部门的属性。匹配的方法也可以采用其他常规方法,在此不对其进行具体限定。最后,根据所述所在部门确定部门编码;例如可以按照企业内部部门的处理事务的重要性对部门进行排序,将部门排序结果进行编码处理,编码从1开始,到企业内部处理事务最高的部门结束,同级部门编码结果相同,如a1部门处理最简单的事务,则其编码结果为1,b1与b2部门处理a1部门递交的事务,则b1与b2部门的编码结果均为2,据此对ofd版式文件的创建者所在部门进行编码,得到ofd版式文件的部门编码。根据所述所在部门确定部门编码也可以采用其他常规的方法,如预先设定每个部门的编码,进行编码查询以根据所在部门确定部门编码等,在此不对其进行具体限定。
39.在本技术一个可选的实施例中,所述基于所述特异性指数、所述文件签章优先指数和所述部门编码构建特征信息向量,还包括:基于所述特异性指数、所述文件签章优先指数和所述部门编码构建特征信息向量,所述特征信息向量的构建方式为:其中,表示第个ofd版式文件的特征信息向量,表示第个ofd版式文件的特异性指数,表示第个ofd版式文件的文件签章优先指数,表示第个ofd版式文件的创建者所在部门的部门编码。
40.在上述实施例步骤中,结合前面多个步骤获得的所述特异性指数、所述文件签章优先指数和所述部门编码构建特征信息向量。特征信息向量长度为3,至此将ofd版式文件中维度较多的相关数据信息转换为维度较低的特征信息向量。
41.在本技术一个可选的实施例中,所述基于多个所述ofd版式文件的特征信息向量进行聚类处理,得到多个聚类簇,包括:对每个所述ofd版式文件,对所述特征信息向量进行归一化处理得到特征信息归一化向量,所述归一化处理的方法为z-score方法;对每个所述ofd版式文件,计算所述ofd版式文件的特征信息归一化向量与其余
ofd版式文件的特征信息归一化向量之间的欧式距离,得到第一距离;基于所述第一距离对多个所述ofd版式文件进行聚类处理得到多个聚类簇,所述聚类处理的算法为dbscan聚类算法。
42.在上述实施例步骤中,由于每个所述ofd版式文件的特征信息向量中各个元素的取值范围不同,可能会导致在度量各个ofd版式文件特征信息向量之间的欧式距离时存在精度较低的问题,因此对每个所述ofd版式文件,对所述特征信息向量采用z-score方法进行归一化处理得到每个所述ofd版式文件的特征信息归一化向量,基于特征信息归一化向量计算每个ofd版式文件的特征信息归一化向量与其余ofd版式文件的特征信息归一化向量的欧式距离,根据所述欧式距离对多个所述ofd版式文件采用dbscan进行聚类处理得到多个聚类簇,记最终聚类数为k。
43.在本技术一个可选的实施例中,所述对每个聚类簇,基于所述聚类簇的聚类中心将所述聚类簇的ofd版式文件分配给对应的签章处理责任人,包括:对每个聚类簇,计算所述聚类簇的聚类中心与坐标原点之间的欧式距离得到第二距离;对每个聚类簇,基于所述第二距离确定所述聚类簇的签章负责人等级;对每个聚类簇,基于所述签章负责人等级将所述聚类簇的ofd版式文件分配给对应的签章处理责任人。
44.在上述实施例步骤中,对每个聚类簇可以计算其聚类中心,进而计算所述聚类簇的聚类中心到坐标原点的欧氏距离。由于ofd版式文件的特征信息归一化向量中各个元素分别表示特异性指数、文件签章优先指数与文件创建者所在部门编码,特征信息归一化向量的值越大表明该ofd版式文件越重要,故计算出的所述聚类簇的聚类中心到坐标原点的欧式距离越大表明该类内ofd版式文件越重要,越需要紧急处理。因此,对每个聚类簇,基于所述第二距离确定所述聚类簇的签章负责人等级;例如可以记签章负责人等级数为m,签章负责人等级为1表明权限最低,所处理的ofd版式文件相对不重要、不紧急,签章负责人等级为m表明权限最高,所处理的ofd版式文件相对重要、紧急。最后,对每个聚类簇,基于所述签章负责人等级将所述聚类簇的ofd版式文件分配给对应的签章处理责任人,从而将属于各个聚类簇的ofd版式文件分配给相应等级的签章处理责任人进行签章处理,提高ofd版式文件的签章效率,实现对ofd版式文件的自动签章管理。
45.本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其它实施例的不同之处,各个实施例之间相同或相似部分互相参见即可。对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
46.结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块,或者二者的结合来实施。软件模块可以置于随机存储器(ram)、内存、只读存储器(rom)、电可编程rom、电可擦除可编程rom、寄存器、硬盘、可移动磁盘、cd-rom、或技术领域内所公知的任意其它形式的存储介质中。
47.以上对本技术所提供的一种基于人工智能的ofd版式文件自动签章管理方法进行了详细介绍,本文中应用了具体个例对本技术的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本技术的方法及其核心思想;同时,对于本领域的一般技术人员,
依据本技术的思想,在具体实施方式及应用范围上均会有改变之处,综上,本说明书内容不应理解为对本技术的限制。
技术特征:
1.一种基于人工智能的ofd版式文件自动签章管理方法,其特征在于,包括:获取多个ofd版式文件的第一信息数据,所述第一信息数据包括撰写过程时间和文字内容;对每个所述ofd版式文件的所述第一信息数据进行预处理得到第二信息数据,所述第二信息数据包括撰写过程序列和主题词;对每个所述ofd版式文件,基于所述主题词的数量和出现频率进行特异性计算得到特异性指数,基于所述撰写过程序列进行生成效率计算得到版式文件生成效率指数,基于所述特异性指数和所述版式文件生成效率指数计算得到文件签章优先指数;对每个所述ofd版式文件,基于创建者姓名和人员信息列表确定部门编码,基于所述特异性指数、所述文件签章优先指数和所述部门编码构建特征信息向量;基于多个所述ofd版式文件的特征信息向量进行聚类处理,得到多个聚类簇;对每个聚类簇,基于所述聚类簇的聚类中心将所述聚类簇的ofd版式文件分配给对应的签章处理责任人。2.根据权利要求1所述的基于人工智能的ofd版式文件自动签章管理方法,其特征在于,所述对每个所述ofd版式文件的所述第一信息数据进行预处理得到第二信息数据,所述第二信息数据包括撰写过程序列和主题词,包括:对每个所述ofd版式文件,基于所述ofd版式文件的撰写过程时间构建撰写过程序列。3.根据权利要求1或2所述的基于人工智能的ofd版式文件自动签章管理方法,其特征在于,所述对每个所述ofd版式文件的所述第一信息数据进行预处理得到第二信息数据,所述第二信息数据包括撰写过程序列和主题词,还包括:对每个所述ofd版式文件,基于所述ofd版式文件的文字内容进行分词处理,得到多个分词和所述分词的出现频率,按照第一选取条件选取多个分词中的部分分词作为主题词。4.根据权利要求1所述的基于人工智能的ofd版式文件自动签章管理方法,其特征在于,所述基于所述主题词的数量和出现频率进行特异性计算得到特异性指数,包括:对每个所述ofd版式文件,基于所述主题词的数量和出现频率进行特异性计算得到特异性指数,所述特异性指数的计算公式为:其中,表示第个ofd版式文件的特异性指数,表示第个ofd版式文件的主题词的数量,表示在第个ofd版式文件中第个主题词出现的频率,表示ofd版式文件的数量,表示在第个ofd版式文件中主题词出现最高的频率,表示第个ofd版式文件中第个主题词在第个ofd版式文件中出现的频率。5.根据权利要求1所述的基于人工智能的ofd版式文件自动签章管理方法,其特征在于,所述基于所述撰写过程序列进行生成效率计算得到版式文件生成效率指数,包括:对每个所述ofd版式文件,基于所述撰写过程序列进行生成效率计算得到版式文件生成效率指数,所述版式文件生成效率指数的计算公式为:
其中,表示第个ofd版式文件的版式文件生成效率指数,表示所述撰写过程序列的长度,表示所述撰写过程序列中第个元素的值。6.根据权利要求1所述的基于人工智能的ofd版式文件自动签章管理方法,其特征在于,所述基于所述特异性指数和所述版式文件生成效率指数计算得到文件签章优先指数,包括:对每个所述ofd版式文件,基于所述特异性指数和所述版式文件生成效率指数计算得到文件签章优先指数,所述文件签章优先指数的计算公式为:其中,表示第个ofd版式文件的文件签章优先指数,表示第个ofd版式文件的特异性指数,为自然常数,表示第一时间差值与第二时间差值之间的比值,所述第一时间差值为第个ofd版式文件的截止时间与当前时间之差,所述第二时间差值为第个ofd版式文件的截止时间与创建时间之差,表示第个ofd版式文件的版式文件生成效率指数。7.根据权利要求1所述的基于人工智能的ofd版式文件自动签章管理方法,其特征在于,所述基于创建者姓名和人员信息列表确定部门编码,包括:获取所述ofd版式文件的创建者姓名;基于创建者姓名和人员信息列表对创建者姓名和所在部门进行匹配,根据所述所在部门确定部门编码。8.根据权利要求1所述的基于人工智能的ofd版式文件自动签章管理方法,其特征在于,所述基于所述特异性指数、所述文件签章优先指数和所述部门编码构建特征信息向量,还包括:基于所述特异性指数、所述文件签章优先指数和所述部门编码构建特征信息向量,所述特征信息向量的构建方式为:其中,表示第个ofd版式文件的特征信息向量,表示第个ofd版式文件的特异性指数,表示第个ofd版式文件的文件签章优先指数,表示第个ofd版式文件的创建者所在部门的部门编码。9.根据权利要求1所述的基于人工智能的ofd版式文件自动签章管理方法,其特征在于,所述基于多个所述ofd版式文件的特征信息向量进行聚类处理,得到多个聚类簇,包括:对每个所述ofd版式文件,对所述特征信息向量进行归一化处理得到特征信息归一化向量,所述归一化处理的方法为z-score方法;对每个所述ofd版式文件,计算所述ofd版式文件的特征信息归一化向量与其余ofd版
式文件的特征信息归一化向量之间的欧式距离,得到第一距离;基于所述第一距离对多个所述ofd版式文件进行聚类处理得到多个聚类簇,所述聚类处理的算法为dbscan聚类算法。10.根据权利要求1所述的基于人工智能的ofd版式文件自动签章管理方法,其特征在于,所述对每个聚类簇,基于所述聚类簇的聚类中心将所述聚类簇的ofd版式文件分配给对应的签章处理责任人,包括:对每个聚类簇,计算所述聚类簇的聚类中心与坐标原点之间的欧式距离得到第二距离;对每个聚类簇,基于所述第二距离确定所述聚类簇的签章负责人等级;对每个聚类簇,基于所述签章负责人等级将所述聚类簇的ofd版式文件分配给对应的签章处理责任人。
技术总结
本申请涉及数据处理技术领域,特别是涉及一种基于人工智能的OFD版式文件自动签章管理方法,包括:获取多个OFD版式文件的撰写过程时间和文字内容并进行预处理得到撰写过程序列和主题词,基于主题词的数量和出现频率计算得到特异性指数,基于撰写过程序列计算得到版式文件生成效率指数,基于特异性指数和版式文件生成效率指数计算得到文件签章优先指数,基于创建者姓名和人员信息列表确定部门编码并结合特异性指数、文件签章优先指数构建特征信息向量,基于特征信息向量进行聚类处理得到多个聚类簇;基于各个聚类簇的聚类中心将版式文件分配给对应的签章处理责任人。本申请的方法能够实现版式文件自动签章管理,提高签章效率。提高签章效率。提高签章效率。
技术研发人员:赵云 陆猛 李超 庄玉龙 谢文迅
受保护的技术使用者:北京点聚信息技术有限公司
技术研发日:2023.09.13
技术公布日:2023/10/20
版权声明
本文仅代表作者观点,不代表航家之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)
航空之家 https://www.aerohome.com.cn/
航空商城 https://mall.aerohome.com.cn/
航空资讯 https://news.aerohome.com.cn/
上一篇:一种汽车雨刮组合开关手柄的制作方法 下一篇:一种车辆局部增强结构以及车辆的制作方法