一种基于解析医保数据文档并自动化增量数据库的方法与流程
未命名
10-22
阅读:114
评论:0
1.本技术涉及医疗数据处理技术领域,尤其涉及一种基于解析医保数据文档并自动化增量数据库的方法。
背景技术:
2.由于各地医保局会于当年指定时间段公开并更新医保目录文件,在进行医保目录文件更新的过程中,其内部将新增多条增量数据,由于各地医保局的数据源与数据结构有所不同,在进行医保数据更新时通常采用人工录入的方式进行数据字段添加,但是此种添加方式效率较低,需要消耗大量的人力和时间成本;同时多地医保局之间新增数据的结构差异将影响数据的兼容处理,不利于后期医保业务中的数据查询使用,如何实现多数据源下增量医保数据的自动化与标准化处理,是时下医疗数据处理领域亟需解决的问题。
3.公开号为cn111161817a的中国专利,提供了一种医疗数据标准化处理方法、装置、介质及电子设备,此专利中对医疗数据中的特定字段进行标准化处理,并对标准化处理结果进行标准化评估,以此提高医疗数据处理的准确。但是此专利中所得到的标准化评估结果虽然可以提高医疗数据的标准化精度,但却并不能实现医疗数据的自动化标准处理流程。
4.因此,针对现有的医疗数据处理过程中存在的问题,本发明中提供了一种基于解析医保数据文档并自动化增量数据库的方法。
技术实现要素:
5.针对上述存在的问题,本发明中提供了一种基于解析医保数据文档并自动化增量数据库的方法,如图1所示,具体包括:s1、自动爬取各地医保局公开医保目录文件;s2、自动解析医保目录文件数据并进行数据结构化处理,生成标准化数据;s3、将标准化数据与各地医保局医保扣费信息关联,从而在医保业务中使用。
6.优选的,所述自动解析医保目录文件数据中,对不同格式的医保目录文件建立了模板配置型策略。
7.优选的,所述模板配置型策略,对通用二维表格进行整行数据读取。
8.优选的,所述模板解析中,配置标签对行扫描得到的数据字段进行提取与匹配,从而进行数据结构化处理并生成标准化数据。
9.优选的,所述数据结构化处理,包括文本类型处理,数字类型处理与别名项处理。
10.优选的,对所述数据结构化处理数据,进行项目关键词拆分,并对拆分得到的项目关键词进行去重合并操作。
11.优选的,所述模板配置型策略中,通过调整模板配置进行不同数据字段解析,根据模板配置与数据字段之间的关系,抽象用以解析数据字段的通用模板配置策略,从而生成数据字段解析的通用逻辑。
12.优选的,所述标准化数据与各地医保局医保扣费信息关联中,将增量数据进行自
动编码,将自动编码后的增量数据与各地医保局医保扣费信息关联,从而在医保业务中使用。
13.优选的,对所述增量数据,抽象出编码生成逻辑,对增量数据实现自动编码。
14.优选的,所述信息关联中,将结构化数据字段进行文本向量化表征。
15.与现有技术相比,本发明的有益效果在于:
16.(1)本发明提供的基于解析医保数据文档并自动化增量数据库的方法,通过建立了一套标准化医保数据处理流程,用以将采集的多源医保目录文件进行结构化处理,对生成的标准化数据进行人工审核,并对人工审核后的标准化数据进行自动编码,最终将自动编码后的数据导入知识库中与医保扣费信息相互关联,达到医保知识库的数据统一,实现医保数据在数据库维护日常作业中的高效更新录入。
17.(2)在(1)的基础上,本发明中通过将自动编码后的数据导入知识库中与医保扣费信息相互关联,再配合智能搜索引擎,用以提高医保业务中医保数据查询效率与查询准确度,能够便捷的、系统的、全面的提供数据查询需求和智能理赔系统业务对接需求。
18.(3)在(2)的基础上,本发明中通过建立模板配置型策略进行医保数据的标准化处理,同时通过在模板配置型策略中调整模板配置,用以进行不同数据字段的解析,从而生成一套通用的模板配置型策略,帮助用户根据自身业务需求建立医保数据的自动化处理逻辑。
19.(4)在(3)的基础上,本发明中将增量数据进行自动编码,根据增量数据的编码生成逻辑对增量数据进行训练并实现自动编码,从而对同类型的增量医保数据可以实现自动化编码处理,并生成唯一的编码存储于知识库中,提高了增量数据的编码效率与编码准确性。
20.(5)在(4)的基础上,本发明中将标准化数据与各地医保局医保扣费信息关联,用以进行医保数据与标准化数据中文本数据的自动化关联,在进行医保业务查询中,使用相似度计算方法对搜索文本进行排名后,返回最相似的搜索文本结果,提高了标准化数据中文本匹配精度。
附图说明
21.图1为基于解析医保数据文档并自动化增量数据库的方法流程图;
22.图2为基于解析医保数据文档并自动化增量编码生成逻辑框图。
具体实施方式
23.实施例:
24.本实施例中提供了一种基于解析医保数据文档并自动化增量数据库的方法,如图2所示,具体包括:
25.s1、自动爬取各地医保局公开医保目录文件;
26.s2、自动解析医保目录文件数据并进行数据结构化处理,生成标准化数据;
27.s3、将标准化数据与各地医保局医保扣费信息关联,从而在医保业务中查询使用。
28.其中,对所述各地医保局公开医保目录文件,根据医保局等级进行分级处理,各层级医保数据更新互补干扰。所述分级处理中,所述分级处理中,包括但是不限制于生产数
据,本地医保,地级市,省本级,国家级。各地医保局公开医保目录文件只存储一份,后期仅对存在增量数据的层级进行增量数据单独更新。所述结构化形式的数据字段关联各医保扣费信息,所述医保扣费信息包括但是不限制于医保类型,比例,备注与限制说明等,从而在医保知识库查询系统中查询;
29.所述自动解析医保目录文件数据中,对不同格式的医保目录文件建立了模板配置型策略。所述模板配置型策略,对通用表格进行行扫描与模板解析。所述模板解析中,配置标签对行扫描得到的数据字段进行提取与匹配,从而进行数据结构化处理并生成标准化数据,将所述标准化数据关联地方医保扣费信息;
30.所述模板配置型策略中,通过调整模板配置进行不同数据字段解析,根据模板配置与数据字段之间的关系,抽象用以解析数据字段的通用模板配置策略,从而生成数据字段解析的通用逻辑;
31.对所述数据结构化处理数据,进行项目关键词拆分,并对拆分得到的项目关键词进行去重合并操作;
32.其中,所述文本类型处理中,自动去除特殊字符并对符号大小写统一标准;
33.所述数字类型处理中,包括但是不限制于统一小数位数以此建立清洗逻辑;
34.所述别名项处理中,对于括号中的别名项进行自动拆分后,将其映射与标准化名称进行映射。
35.所述标准化数据包括爬取的各地医保局公开医保目录文件数据与增量数据。所述增量数据包括但是不限制于医保药品目录中的新增药,注销药等,医保类型(甲乙类),支付药品费用标准更新等。
36.其中,如图2所示,所述标准化数据与各地医保局医保扣费信息关联中,若无增量数据,则将增量项目作为知识库标准化数据,直接进行医保目录文件数据的关联,从而关联地方医保扣费信息;若有增量数据,则进行增量数据与医保目录文件数据的共同关联,其中,通过人工核实的方式,对增量数据与医保目录文件数据进行新增或合并处理,将增量数据进行自动编码,将自动编码后的增量数据存储于知识库中,所述知识库包括但不限制于大项编码,成分编码,剂型编码,顺序编码,并进行码表库自动维护,之后则存入知识库标准化数据关联地方医保扣费信息,即关联对应的自付比例。
37.对所述自动编码后的增量数据,抽象出增量数据的编码生成逻辑,根据增量数据的编码生成逻辑对增量数据进行训练并实现自动编码,所述编码为唯一码,其中在进行增量数据进行自动编码中,将唯一编码拆分为多个小编码,所述多各小编码包括但是不限制于剂型,成分,分类,适应症等维度。
38.所述信息关联中,使用于cosent模型将结构化数据字段进行文本向量化表征。在文本向量化表征的基础上,建立搜索文本对向量化文本进行搜索匹配,在搜索匹配过程中使用cosin相似度计算方法对搜索文本进行分数排名后,返回最相似的搜索文本结果。对所述增量数据分类后排名,根据排名顺序生成对应的码库表,将编码后的增量数据加入至关联数据库中。
39.根据本发明的技术方案,通过提供一种基于解析医保数据文档并自动化增量数据库的方法,用以建立一套完整的知识库,通过所述知识库生成标准化数据与各地医保局之间进行医保数据关联,在数据发生变化时,进行医保增量数据的自动更新处理,从而在提高
医保增量数据录入效率的基础上,进一步提高医保数据的查询使用,同时对公司业务系统提供业务支撑。
技术特征:
1.一种基于解析医保数据文档并自动化增量数据库的方法,其特征在于,具体包括:s1、自动爬取各地医保局公开医保目录文件;s2、自动解析医保目录文件数据并进行数据结构化处理,生成标准化数据;s3、将标准化数据与各地医保局医保扣费信息关联,从而在医保业务中查询使用。2.根据权利要求1所述基于解析医保数据文档并自动化增量数据库的方法,其特征在于,所述自动解析医保目录文件数据中,对不同格式的医保目录文件建立了模板配置型策略。3.根据权利要求2所述基于解析医保数据文档并自动化增量数据库的方法,其特征在于,所述模板配置型策略,对通用二维表格进行整行数据读取。4.根据权利要求3所述基于解析医保数据文档并自动化增量数据库的方法,其特征在于,所述模板解析中,配置标签对行扫描得到的数据字段进行提取与匹配,从而进行数据结构化处理并生成标准化数据。5.根据权利要求4所述基于解析医保数据文档并自动化增量数据库的方法,其特征在于,所述数据结构化处理,包括文本类型处理,数字类型处理与别名项处理。6.根据权利要求5所述基于解析医保数据文档并自动化增量数据库的方法,其特征在于,对所述数据结构化处理数据,进行项目关键词拆分,并对拆分得到的项目关键词进行去重合并操作。7.根据权利要求3所述基于解析医保数据文档并自动化增量数据库的方法,其特征在于,所述模板配置型策略中,通过调整模板配置进行不同数据字段解析,根据模板配置与数据字段之间的关系,抽象用以解析数据字段的通用模板配置策略,从而生成数据字段解析的通用逻辑。8.根据权利要求1所述基于解析医保数据文档并自动化增量数据库的方法,其特征在于,所述标准化数据与各地医保局医保扣费信息关联中,将增量数据进行自动编码,将自动编码后的增量数据与各地医保局医保扣费信息关联,从而在医保业务中使用。9.根据权利要求7所述基于解析医保数据文档并自动化增量数据库的方法,其特征在于,对所述增量数据,抽象出编码生成逻辑,对增量数据实现自动编码。10.根据权利要求1所述基于解析医保数据文档并自动化增量数据库的方法,其特征在于,所述信息关联中,将结构化数据字段进行文本向量化表征。
技术总结
本申请涉及医疗数据处理技术领域,尤其涉及一种基于解析医保数据文档并自动化增量数据库的方法。本发明具体包括:自动爬取各地医保局公开医保目录文件;自动解析医保目录文件数据并进行数据结构化处理,生成标准化数据;将标准化数据与各地医保局医保扣费信息关联,从而在医保业务中查询使用。本发明通过建立了一套标准化医保数据处理流程,用以将采集的多源医保目录文件进行标准化处理,对生成的标准化数据进行人工审核,并对人工审核后的标准化数据进行自动编码,最终将自动编码后的数据导入知识库中与医保扣费信息相互关联,实现医保数据在医药业务中的高效更新录入。数据在医药业务中的高效更新录入。数据在医药业务中的高效更新录入。
技术研发人员:杨光 李翔 陆培
受保护的技术使用者:金卫医保信息管理(中国)有限公司
技术研发日:2023.07.05
技术公布日:2023/10/19
版权声明
本文仅代表作者观点,不代表航家之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)
航空之家 https://www.aerohome.com.cn/
航空商城 https://mall.aerohome.com.cn/
航空资讯 https://news.aerohome.com.cn/