一种基于大数据的E账册数据校验方法与流程
未命名
09-22
阅读:47
评论:0
一种基于大数据的e账册数据校验方法
技术领域
本发明涉及e账册技术领域,具体涉及一种基于大数据的e账册数据校验方法。
背景技术:
“e账册”就是用“电子账册”取代目前加工贸易管理中的纸质手册。海关以企业界为单元为联网企业建立的电子底账,实施电子帐册管理的,联网企业只设立一个电子帐册。海关应当根据联网企业的生产情况和海关的监管需要确定核销周期,按照核销周期对实行电子帐册管理的联网企业进行核销管理。自2006年9月1日起实行中期核查制度,企业每月底均需向海关申报料号以及物料的库存数据。目前系统对企业录入/导入的数据只进行简单的业务规范校验,校验完成返回校验结果。该执行过程中并未对数据进行智能化校验,使得校验功能较为薄弱,并且无数据整理、归纳、分析等环节,导致上报数据退单率高,通关周期长,影响企业效益。基于此,本发明设计了一种基于大数据的e账册数据校验方法,以解决上述问题。
技术实现要素:
本发明的目的在于提供一种基于大数据的e账册数据校验方法,为了解决系统在处理企业录入/导入数据时只进行简单的业务规范校验,无数据进行智能化校验及对数据进行整理、归纳、分析等功能,将通过大数据处理技术,从使用者、行为、转化、活动维度等不同角度进行数据分析,为不同行业企业找到有价值的数据、从而提高海关审批通过率,缩短审批、通关时间,提供企业效益。为实现上述目的,本发明提供如下技术方案:一种基于大数据的e账册数据校验方法,包括企业导入数据和大数据处理,根据所述企业导入数据,通过多个维度计算和分析,得到企业正常导入数据值的范围,再根据企业所在行业,将行业内的各类数据进行整理、归纳、分析、汇总后,得到行业内的普遍标准值,所述大数据处理的具体步骤如下:step1,数据仓库建设所述数据仓库建设包括各申报系统数据源、etl数据交换、数据存储及处理和应用;所述各申报系统数据源为梳理公司内部数据源、外部数据源、结构化数据源和非结构化数据进行数据整合;所述etl数据交换为利用“kafka”整合线上实时生产数据、“kettle”整合外部数据及离线数据和“filebeat”整合线上实时生产日志文件;所述数据存储及处理包括采用hdfs分布式文件存储系统,存储数据,对于海量数据在线计算时采用hbase sql或hive sql,hbase sql用于结果集操作,hive sql用于高效查询,将计算的中间结果存储于族式存储hbase,对于海量数据进行离线计算我们采用“spark“,将结果存储于hbase中,供各个应用系统使用;所述应用包括将计算结果展现给各个业务系统,或利用webapi调用hive sql进行时实统计计算;
step2,行业内数据分析数据源说明行业内数据分析,数据源来自各个业务系统,且数据库类型、业务数据格式、各不相同,前期需将各业务系统的数据整合同步到大数据分布式文件存储系统hdfs中,例如:捷关通系统的“经营范围(料件、成品)、归并关系(料件、成品、单损耗)、进出口清单、账册核销、日志管理“等等;区内物流系统“备案信息(料件、成品、单损耗)、申请表、仓库信息、简单加清单、出入库单信息等等”;数据特点(1)数据量按tb计算,公司现有客户家数在4000左右;(2)数据存储较为分散,有此系统采用sas模式,有些业务系统采用c/s模式,c/s的模式采用分库的方式进行系统部署,综合各个数据源,共有400左右,etl设计工作较为复杂;(3)计算的效率要求较高,用户在业务系统中进行数据导入时,页面数据导入完成后,调用大数据webapi进行业数据分析,将行业的分析结果展现到业务系统界面,供其用户参考,如,行业内同规格型号物件的最低进口价格、行业内同品名的申报单位、行业内同商品的采购来源等等;分析方案第一步,采用sparkstreaming从kafka中获取数据,进行大数据处理计算,将计算的中间结果,采用族式存储于hbase中《k,v》,例如key的设计有:电子、服装、食品、化工等等,然后再采用二级分类存储,一样采用《k,v》,例如二级分类的key设计:一级分类的v;依次计算中间结果;第二步,采用《k,v》的存储方式,将数据灌入hdfs中,结合elasticsearch框架,利于搜索引擎快速查找;第三步,对于计算的效率,采用sparksql的提供的jdbc,从中间结果集中(hbase)进行数据抽取和计算,最终将结果呈现至页面;step3,损耗标准智能分析提醒数据源说明数据源来自内部数据,外部购买数据,企业erp生产数据等等,数据库类型、业务数据格式、各不相同,前期需将各业务系统的数据整合同步到大数据分布式文件存储系统hdfs中,例如:捷关通系统的“单损耗“数据、加工贸易手册“单损耗”信息、加工贸易账册“bom”信息,第三方信息网上的损耗标准信息,第三方数据供应商提供的损耗信息,企业内部erp生产损耗信息;数据特点(1)数据量较大,按tb计算;(2)数据源较多,数据格式不统一,有格式化的,有文件类;(3)计算的效率要求较高,用户在业务系统中进行数据录入、导入时,进行提醒反馈,调用大数据webapi进行业数据分析,将单损标准展现到业务系统界面,供其用户参考;
分析方案:第一步,采用sparkstreaming从hdfs中获取离线数据,进行大数据处理计算,结合海关商品编码表,运用map、reduce和join等复杂计算操作将结果存储为中间结果mysql中,主表信息来自于海关商品编码表,共1w多个商编,数据量较少可直接存储于mysql中;第二步,结合业务需求实际应用场景,采用“spark推荐算法”完成损耗标准智能分析推荐。所述企业导入数据的具体步骤如下:企业首先登陆系统并进入导入界面,选择需要上传的文件进行文件上传工作,系统将导入文件上传至云端文件服务器,完成文件的上传工作;e账册企业录入、导入的数据进行简单业务校验后,进行基于大数据的智能化校验、数据整理、归纳、分析,得到海关物流行业信息化领域内所需要的参考数据,如同种规格型号物件的最低进口价格;企业登陆系统,在相应模块中点击导入按钮,弹出导入数据页面,点击页面上的“浏览按钮”,选择需要上传的文件,然后点击“上传”按钮,此时系统将导入文件上传至云端文件服务器,并在下方的文件导入记录中增加一条“上传成功待执行”的执行任务;需要时,从云端文件服务器下载文件,完成文件的下载工作,后台通过大数据处理分析进行数据校验工作,校验完成后,将返回数据校验结果为校验成功、校验失败、警告数据,并在进入导入界面中显示,用户可下载数据进行确认;后台通过任务调度,执行任务校验方式,对数据进行业务逻辑校验及智能化数据校验,校验完成后,将分为校验成功、校验失败、警告数据,并在导入数据的公用界面中显示,用户可下载数据进行确认,对弈校验成功与警告数据,可点击确认按钮导入到系统中;通过大数据处理得到的企业导入数据的正常值范围及行业标准值范围,可在数据导入过程中进行合理值的判定。与现有技术相比,本发明的有益效果是:本发明通过大数据处理算法,根据各个企业导入的数据及行业标准,进行智能化校验及对数据进行整理、归纳、分析等功能,将企业导入的数据部分栏位与大数据处理得到的企业正常值与行业标准值进行比对,当存在较大差异时,在定义为警告数据,并在界面中展示。通过大数据处理得到的企业导入数据的正常值范围及行业标准值范围,可在数据导入过程中进行合理值的判定,避免由于企业操作失误录入了超标数值,减少申报过程中人为问题引起的法律风险,减少审批退单风险,节约企业的人力成本、提高企业执行效率。
附图说明
图1为本发明数据仓库建设架构图。图2为本发明设计方案流程图。图3为本发明spark推荐算法流程图。图4为本发明实施例流程图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于
本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。请参阅图1-4,本发明提供一种技术方案:一种基于大数据的e账册数据校验方法,包括企业导入数据和大数据处理,根据企业导入数据,通过多个维度计算和分析,得到企业正常导入数据值的范围,再根据企业所在行业,将行业内的各类数据进行整理、归纳、分析、汇总后,得到行业内的普遍标准值,大数据处理的具体步骤如下:step1,数据仓库建设数据仓库建设包括各申报系统数据源、etl数据交换、数据存储及处理和应用;各申报系统数据源为梳理公司内部数据源、外部数据源、结构化数据源和非结构化数据进行数据整合;etl数据交换为利用“kafka”整合线上实时生产数据、“kettle”整合外部数据及离线数据和“filebeat”整合线上实时生产日志文件;数据存储及处理包括采用hdfs分布式文件存储系统,存储数据,对于海量数据在线计算时采用hbase sql或hive sql,hbase sql用于结果集操作,hive sql用于高效查询,将计算的中间结果存储于族式存储hbase,对于海量数据进行离线计算我们采用“spark“,将结果存储于hbase中,供各个应用系统使用;应用包括将计算结果展现给各个业务系统,或利用webapi调用hive sql进行时实统计计算;step2,行业内数据分析数据源说明行业内数据分析,数据源来自各个业务系统,且数据库类型、业务数据格式、各不相同,前期需将各业务系统的数据整合同步到大数据分布式文件存储系统hdfs中,例如:捷关通系统的“经营范围(料件、成品)、归并关系(料件、成品、单损耗)、进出口清单、账册核销、日志管理“等等;区内物流系统“备案信息(料件、成品、单损耗)、申请表、仓库信息、简单加清单、出入库单信息等等”;分析方案第一步,采用sparkstreaming从kafka中获取数据,进行大数据处理计算,将计算的中间结果,采用族式存储于hbase中《k,v》,例如key的设计有:电子、服装、食品、化工等等,然后再采用二级分类存储,一样采用《k,v》,例如二级分类的key设计:一级分类的v;依次计算中间结果;第二步,采用《k,v》的存储方式,将数据灌入hdfs中,结合elasticsearch框架,利于搜索引擎快速查找;第三步,对于计算的效率,采用sparksql的提供的jdbc,从中间结果集中(hbase)进行数据抽取和计算,最终将结果呈现至页面;step3,损耗标准智能分析提醒数据源说明数据源来自内部数据,外部购买数据,企业erp生产数据等等,数据库类型、业务数据格式、各不相同,前期需将各业务系统的数据整合同步到大数据分布式文件存储系统hdfs中,例如:捷关通系统的“单损耗“数据、加工贸易手册“单损耗”信息、加工贸易账册“bom”信息,第三方信息网上的损耗标准信息,第三方数据供应商提供的损耗信息,企业内部erp生产损耗信息;分析方案:第一步,采用sparkstreaming从hdfs中获取离线数据,进行大数据处理计算,结合海关商品编码表,运用map、reduce和join等复杂计算操作将结果存储为中间结果mysql中,主表信息来自于海关商品编码表,共1w多个商编,数据量较少可直接存储于mysql中;第二步,结合业务需求实际应用场景,采用“spark推荐算法”完成损耗标准智能分析推荐。其中,企业导入数据的具体步骤如下:企业登陆系统,在相应模块中点击导入按钮,弹出导入数据页面,点击页面上的“浏览按钮”,选择需要上传的文件,然后点击“上传”按钮,此时系统将导入文件上传至云端文件服务器,并在下方的文件导入记录中增加一条“上传成功待执行”的执行任务;后台通过任务调度,执行任务校验方式,对数据进行业务逻辑校验及智能化数据校验,校验完成后,将分为校验成功、校验失败、警告数据,并在导入数据的公用界面中显示,用户可下载数据进行确认,对弈校验成功与警告数据,可点击确认按钮导入到系统中。行业内数据分析的数据特点为:(1)数据量按tb计算,公司现有客户家数在4000左右;(2)数据存储较为分散,有此系统采用sas模式,有些业务系统采用c/s模式,c/s的模式采用分库的方式进行系统部署,综合各个数据源,共有400左右,etl设计工作较为复杂;(3)计算的效率要求较高,用户在业务系统中进行数据导入时,页面数据导入完成后,调用大数据webapi进行业数据分析,将行业的分析结果展现到业务系统界面,供其用户参考,如,行业内同规格型号物件的最低进口价格、行业内同品名的申报单位、行业内同商品的采购来源等等。损耗标准智能分析提醒的数据特点为:(1)数据量较大,按tb计算;(2)数据源较多,数据格式不统一,有格式化的,有文件类;(3)计算的效率要求较高,用户在业务系统中进行数据录入、导入时,进行提醒反馈,调用大数据webapi进行业数据分析,将单损标准展现到业务系统界面,供其用户参考。本实施例的一个具体应用为:企业首先登陆系统并进入导入界面,选择需要上传的文件进行文件上传工作,系统将导入文件上传至云端文件服务器,完成文件的上传工作。需要时,从云端文件服务器下载文件,完成文件的下载工作,后台通过大数据处理分析进行数据校验工作,校验完成后,将返回数据校验结果为校验成功、校验失败、警告数据,并在进入导入界面中显示,用户可下载数据进行确认。e账册企业录入、导入的数据进行简单业务校验后,进行基于大数据的智能化校验、数据整理、归纳、分析,得到海关物流行业信息化领域内所需要的参考数据,如同种规格型号物件的最低进口价格等。通过大数据处理得到的企业导入数据的正常值范围及行业标准值范围,可在数据导入过程中进行合理值的判定,避免由于企业操作失误录入了超标数值,减少申报过程中人为问题引起的法律风险,减少审批退单风险,节约企业的人力成本、提高企业执行效率。
75.在本说明书的描述中,参考术语“一个实施例”、“示例”、“具体示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。以上公开的本发明优选实施例只是用于帮助阐述本发明。优选实施例并没有详尽叙述所有的细节,也不限制该发明仅为所述的具体实施方式。显然,根据本说明书的内容,可作很多的修改和变化。本说明书选取并具体描述这些实施例,是为了更好地解释本发明的原理和实际应用,从而使所属技术领域技术人员能很好地理解和利用本发明。本发明仅受权利要求书及其全部范围和等效物的限制。
技术特征:
1.一种基于大数据的e账册数据校验方法,包括企业导入数据和大数据处理,其特征在于,根据所述企业导入数据,通过多个维度计算和分析,得到企业正常导入数据值的范围,再根据企业所在行业,将行业内的各类数据进行整理、归纳、分析、汇总后,得到行业内的普遍标准值,所述大数据处理的具体步骤如下:step1,数据仓库建设所述数据仓库建设包括各申报系统数据源、etl数据交换、数据存储及处理和应用;所述各申报系统数据源为梳理公司内部数据源、外部数据源、结构化数据源和非结构化数据进行数据整合;所述etl数据交换为利用“kafka”整合线上实时生产数据、“kettle”整合外部数据及离线数据和“filebeat”整合线上实时生产日志文件;所述数据存储及处理包括采用hdfs分布式文件存储系统,存储数据,对于海量数据在线计算时采用hbasesql或hivesql,hbasesql用于结果集操作,hivesql用于高效查询,将计算的中间结果存储于族式存储hbase,对于海量数据进行离线计算我们采用“spark“,将结果存储于hbase中,供各个应用系统使用;所述应用包括将计算结果展现给各个业务系统,或利用webapi调用hivesql进行时实统计计算;step2,行业内数据分析数据源说明行业内数据分析,数据源来自各个业务系统,且数据库类型、业务数据格式、各不相同,前期需将各业务系统的数据整合同步到大数据分布式文件存储系统hdfs中,例如:捷关通系统的“经营范围(料件、成品)、归并关系(料件、成品、单损耗)、进出口清单、账册核销、日志管理“等等;区内物流系统“备案信息(料件、成品、单损耗)、申请表、仓库信息、简单加清单、出入库单信息等等”;数据特点(1)数据量按tb计算,公司现有客户家数在4000左右;(2)数据存储较为分散,有此系统采用sas模式,有些业务系统采用c/s模式,c/s的模式采用分库的方式进行系统部署,综合各个数据源,共有400左右,etl设计工作较为复杂;(3)计算的效率要求较高,用户在业务系统中进行数据导入时,页面数据导入完成后,调用大数据webapi进行业数据分析,将行业的分析结果展现到业务系统界面,供其用户参考,如,行业内同规格型号物件的最低进口价格、行业内同品名的申报单位、行业内同商品的采购来源等等;分析方案第一步,采用sparkstreaming从kafka中获取数据,进行大数据处理计算,将计算的中间结果,采用族式存储于hbase中<k,v>,例如key的设计有:电子、服装、食品、化工等等,然后再采用二级分类存储,一样采用<k,v>,例如二级分类的key设计:一级分类的v;依次计算中间结果;第二步,采用<k,v>的存储方式,将数据灌入hdfs中,结合elasticsearch框架,利于搜索引擎快速查找;第三步,对于计算的效率,采用sparksql的提供的jdbc,从中间结果集中(hbase)进行数据抽取和计算,最终将结果呈现至页面;
step3,损耗标准智能分析提醒数据源说明数据源来自内部数据,外部购买数据,企业erp生产数据等等,数据库类型、业务数据格式、各不相同,前期需将各业务系统的数据整合同步到大数据分布式文件存储系统hdfs中,例如:捷关通系统的“单损耗“数据、加工贸易手册“单损耗”信息、加工贸易账册“bom”信息,第三方信息网上的损耗标准信息,第三方数据供应商提供的损耗信息,企业内部erp生产损耗信息;数据特点(1)数据量较大,按tb计算;(2)数据源较多,数据格式不统一,有格式化的,有文件类;(3)计算的效率要求较高,用户在业务系统中进行数据录入、导入时,进行提醒反馈,调用大数据webapi进行业数据分析,将单损标准展现到业务系统界面,供其用户参考;分析方案:第一步,采用sparkstreaming从hdfs中获取离线数据,进行大数据处理计算,结合海关商品编码表,运用map、reduce和join等复杂计算操作将结果存储为中间结果mysql中,主表信息来自于海关商品编码表,共1w多个商编,数据量较少可直接存储于mysql中;第二步,结合业务需求实际应用场景,采用“spark推荐算法”完成损耗标准智能分析推荐;所述企业导入数据的具体步骤如下:企业首先登陆系统并进入导入界面,选择需要上传的文件进行文件上传工作,系统将导入文件上传至云端文件服务器,完成文件的上传工作;e账册企业录入、导入的数据进行简单业务校验后,进行基于大数据的智能化校验、数据整理、归纳、分析,得到海关物流行业信息化领域内所需要的参考数据,如同种规格型号物件的最低进口价格;企业登陆系统,在相应模块中点击导入按钮,弹出导入数据页面,点击页面上的“浏览按钮”,选择需要上传的文件,然后点击“上传”按钮,此时系统将导入文件上传至云端文件服务器,并在下方的文件导入记录中增加一条“上传成功待执行”的执行任务;需要时,从云端文件服务器下载文件,完成文件的下载工作,后台通过大数据处理分析进行数据校验工作,校验完成后,将返回数据校验结果为校验成功、校验失败、警告数据,并在进入导入界面中显示,用户可下载数据进行确认;后台通过任务调度,执行任务校验方式,对数据进行业务逻辑校验及智能化数据校验,校验完成后,将分为校验成功、校验失败、警告数据,并在导入数据的公用界面中显示,用户可下载数据进行确认,对弈校验成功与警告数据,可点击确认按钮导入到系统中;通过大数据处理得到的企业导入数据的正常值范围及行业标准值范围,可在数据导入过程中进行合理值的判定。
技术总结
本发明公开了E账册技术领域的一种基于大数据的E账册数据校验方法,包括企业导入数据和大数据处理,根据企业导入数据,通过多个维度计算和分析,得到企业正常导入数据值的范围,再根据企业所在行业,将行业内的各类数据进行整理、归纳、分析、汇总后,得到行业内的普遍标准值;本发明通过大数据处理得到的企业导入数据的正常值范围及行业标准值范围,可在数据导入过程中进行合理值的判定,避免由于企业操作失误录入了超标数值,减少申报过程中人为问题引起的法律风险,减少审批退单风险,节约企业的人力成本、提高企业执行效率。提高企业执行效率。提高企业执行效率。
技术研发人员:戚晟 朱峰 杨开新
受保护的技术使用者:苏州智贸捷通科技有限公司
技术研发日:2019.06.04
技术公布日:2023/9/20
版权声明
本文仅代表作者观点,不代表航家之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)
航空之家 https://www.aerohome.com.cn/
航空商城 https://mall.aerohome.com.cn/
航空资讯 https://news.aerohome.com.cn/