数据质量评估方法、装置及存储介质与流程

未命名 10-19 阅读:76 评论:0


1.本发明涉及数据分析技术领域,尤其涉及一种数据质量评估方法、装置及存储介质。


背景技术:

2.近年来随着新能源的发展,越来越多的电车走向千家万户,随之而来的电池安全问题也吸引了越来越多的企业和高校的关注。一些企业和机构建立新能源大数据平台来接收车端上传的数据,通过对数据的分析进行电池的风险预警以及残值评估等相关事项。但由于每个电池类型上市时间不同,电池参数要求不同,导致车端上传到云端的数据质量良莠不齐,数据精度会影响电池预警等业务。为此,需要建立一套完整的数据质量评价模型来对各个电池类型上传的数据进行一个整体的评估,进而可以根据评估结果对上传的数据质量进行针对性优化,使得云端获得更优质的数据,可以更好地对电池进行预警和残值评估。
3.现有技术仅对单个字段的全部电池的数据进行分析,并未针对性的针对单个电池或单个车型整体进行电池数据分析,缺少完整的评价标准。


技术实现要素:

4.本发明提供了一种数据质量评估方法、装置及存储介质,旨在有效解决现有技术中没有对单个车辆电池或一种车型电池的数据进行多维度数据质量评估的技术问题。
5.根据本发明的一方面,本发明提供一种数据质量评估方法,所述数据质量评估方法包括:
6.接收多种车辆电池的原始数据,将所述原始数据转换为平台数据并存储至所述云平台,其中,所述平台数据的格式为所述云平台定义的标准格式;
7.针对一种或多种车型下的多个目标车辆,根据所述原始数据和所述平台数据计算每一个目标车辆的数据质量单项分数,根据所述数据质量单项分数计算目标车辆的数据质量总分;
8.针对每一种车型,根据多个所述数据质量单项分数计算该车型的数据质量单项平均值,以及根据所述数据质量总分计算该车型的数据质量总分平均值;
9.根据所述数据质量单项平均值和所述数据质量总分平均值分析一种或多种所述车型的数据质量。
10.进一步地,所述数据质量单项分数包括完整性分数、一致性分数、准确性分数、唯一性分数、有效性分数和及时性分数的一种或多种。
11.进一步地,所述原始数据以报文的形式由所述目标车辆传输至所述云平台,其中,所述报文包括多个字段,所述数据质量评估方法还包括:
12.针对所述平台数据,计算所述预设时间内的每一个所述目标车辆的报文总数量;
13.计算一个报文的单帧字段总数量;
14.计算传输所述原始数据的数据传输时间;
15.根据所述报文总数量和所述单帧字段总数量计算累计字段总数量;
16.针对所述原始数据,根据所述目标车辆的数据采样时间和电池使用时间计算所述目标车辆采集并发出报文的初始报文总数量。
17.进一步地,计算所述完整性分数包括:
18.统计所述平台数据中整字段为空字段的第一空报文数量以及整字段为零字段的第一零报文数量;
19.根据所述第一空报文数量和所述报文总数量计算第一完整性分数;
20.根据所述第一零报文数量和所述报文总数量计算第二完整性分数;
21.在所述平台数据中,当一帧报文的部分字段为空字段时,统计空字段数量,当所述空字段数量除以所述单帧字段总数量后的空字段比例大于预设的空字段比例阈值时,确定该帧报文为部分空值报文;确定部分空值报文的数量为第二空报文数量;
22.在所述平台数据中,当一帧报文的部分字段为零字段时,统计零字段数量,当所述零字段数量除以所述单帧字段总数量后的零字段比例大于预设的零字段比例阈值时,确定该帧报文为部分零值报文;确定部分零值报文的数量为第二零报文数量;
23.根据所述第二空报文数量和所述报文总数量计算第三完整性分数;
24.根据所述第二零报文数量和所述报文总数量计算第四完整性分数;
25.在所述平台数据中,获取所述数据集合中与电池实时电量相对应的报文,若所述电池实时电量发生跳变且跳变前后的电量跳变差值大于预设的跳变阈值,则根据跳变起始时间和跳变结束时间计算数据丢失累计时间,并计算传输所述原始数据的数据传输时间,根据所述数据丢失累计时间和所述数据传输时间计算第五完整性分数;
26.根据所述初始报文总数量和所述报文总数量计算第六完整性分数。
27.进一步地,计算所述一致性分数包括:
28.根据所述原始数据计算所述目标车辆发送的发送字段数量,计算所述云平台接收的接收字段数量,将所述接收字段数量除以所述发送字段数量以计算字段数目一致性分数;
29.计算所述原始数据和所述平台数据中的数据相同的相同字段数量,将所述相同字段数量除以所述接收字段数量以计算表间字段一致性分数;
30.将所述目标车辆与其所属的车型的同类车辆数据进行对比,统计所述原始数据和所述同类车辆数据相同的表间一致报文数量,将所述表间一致报文数量除以所述报文总数量以得到表间数值一致性分数。
31.进一步地,计算所述准确性分数包括:
32.针对具有标准参考值的数据,在所述平台数据中确定字段无效值对应的无效报文数量,其中,与所述标准参考值不同的数据为所述字段无效值;将所述无效报文数量除以所述报文总数量以得到字段无效值率,根据所述字段无效值率计算第一准确性分数;
33.针对具有阈值区间的数据,在所述平台数据中确定字段异常值对应的异常报文数量,其中,数值不在所述阈值区间的数据为所述字段异常值;将所述异常报文数量除以所述报文总数量以得到字段异常值率,根据所述字段异常值率计算第二准确性分数。
34.其中,计算所述唯一性分数包括:
35.统计所述原始数据中具有多个名称的原始数据的冗余字段数量,将所述冗余字段
数量除以所述累计字段总数量以得到字段冗余率,根据所述字段冗余率计算第一唯一性分数;
36.统计所述平台数据中相同报文的重复报文数量,将所述重复报文数量除以所述报文总数量以得到报文重复率,根据所述报文重复率计算第二唯一性分数。
37.进一步地,计算所述有效性分数包括:
38.统计所述平台数据中字段出现错误数值的第一错误报文数量,将所述第一错误报文数量除以所述报文总数量以得到数值错误率,根据所述数值错误率计算第一有效性分数;
39.统计所述平台数据中报文出现错误数值的第二错误报文数量,将所述第二错误报文数量除以所述报文总数量以得到报文错误率,根据所述报文错误率计算第二有效性分数;
40.其中,计算所述及时性分数包括:
41.获取所述原始数据的数据生成时间和数据接收时间,根据所述数据生成时间和所述数据接收时间计算数据时间差,统计所述数据时间差小于预设的时间阈值的报文数量,用该报文数量除以所述报文总数量以得到所述及时性分数。
42.进一步地,所述根据所述数据质量单项分数计算每一个目标车辆的数据质量总分包括:
43.针对每一个所述数据质量单项分数,确定该数据质量单项分数的权重系数,根据所述数据质量单项分数和所述权重系数计算所述数据质量总分;
44.进一步地,所述根据所述数据质量单项平均值和所述数据质量总分平均值分析一种或多种所述车型的数据质量包括:
45.根据所述数据质量单项平均值将多种所述车型的原始数据至少分为单项高质量数据、单项中质量数据、单项低质量数据;
46.根据所述数据质量总分平均值将多种所述车型的原始数据至少分为整体高质量数据、整体中质量数据、整体低质量数据。
47.根据本发明的另一方面,本发明还提供了一种数据质量评估装置,所述装置包括:
48.数据接收模块,用于接收多种车辆电池的原始数据,将所述原始数据转换为平台数据并存储至所述云平台,其中,所述平台数据的格式为所述云平台定义的标准格式;
49.第一计算模块,用于针对一种或多种车型下的多个目标车辆,根据所述原始数据和所述平台数据计算每一个目标车辆的数据质量单项分数,根据所述数据质量单项分数计算目标车辆的数据质量总分;
50.第二计算模块,用于针对每一种车型,根据多个所述数据质量单项分数计算该车型的数据质量单项平均值,以及根据所述数据质量总分计算该车型的数据质量总分平均值;
51.数据分析模块,用于根据所述数据质量单项平均值和所述数据质量总分平均值分析一种或多种所述车型的数据质量。
52.根据本发明的另一方面,本发明还提供了一种存储介质,所述存储介质中存储有多条指令,所述指令适于由处理器加载以执行如上所述的任一数据质量评估方法。
53.通过本发明中的上述实施例中的一个实施例或多个实施例,至少可以实现如下技
术效果:
54.在本发明所公开的技术方案中,接收车辆发送的电池相关的原始数据,将原始数据转换为平台数据;计算目标车辆的数据质量单项分数和数据质量总分,其中,数据质量单项分数包括完整性分数、一致性分数、准确性分数、唯一性分数、有效性分数和及时性分数的一种或多种;针对每一种车型,计算该数据质量单项平均值和数据质量总分平均值;根据数据质量单项平均值和数据质量总分平均值分析一种或多种车型的数据质量。本发明旨在通过对现有数据进行分析,从空值、异常值、无效值以及跳变数据等多个维度对每个类型车辆以及数据整体进行电池数据质量的评价。该评价方法得到的评估结果可用于调整不同车型的数据的清洗策略,保证上传到云端的数据质量尽可能的精准,使得云端的预警和残值评估等业务得到更精准的结果。
附图说明
55.下面结合附图,通过对本发明的具体实施方式详细描述,将使本发明的技术方案及其它有益效果显而易见。
56.图1为本发明实施例提供的一种数据质量评估方法的步骤流程图;
57.图2为本发明实施例提供的一种数据质量评估装置的结构示意图。
具体实施方式
58.下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述。显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域技术人员在没有作出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
59.在本发明的描述中,需要说明的是,除非另有明确的规定和限定,本文中术语“和/或”,仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,a和/或b,可以表示:单独存在a,同时存在a和b,单独存在b这三种情况。另外,本文中字符“/”,在不做特别说明的情况下,一般表示前后关联对象是一种“或”的关系。
60.图1所示为本发明实施例所提供的数据质量评估方法的步骤流程图,根据本发明的一方面,本发明提供一种数据质量评估方法,方法包括:
61.步骤101:接收多种车辆电池的原始数据,将所述原始数据转换为平台数据并存储至所述云平台,其中,所述平台数据的格式为所述云平台定义的标准格式;
62.步骤102:针对一种或多种车型下的多个目标车辆,根据所述原始数据和所述平台数据计算每一个目标车辆的数据质量单项分数,根据所述数据质量单项分数计算目标车辆的数据质量总分;
63.步骤103:针对每一种车型,根据多个所述数据质量单项分数计算该车型的数据质量单项平均值,以及根据所述数据质量总分计算该车型的数据质量总分平均值;
64.步骤104:根据所述数据质量单项平均值和所述数据质量总分平均值分析一种或多种所述车型的数据质量。
65.本发明旨在通过对现有数据进行分析,从空值、异常值、无效值、跳变数据等多个维度对每个类型以及数据整体进行电池数据质量的评价。在多维度进行数据评估以后,能
够以此为依据,针对性地对不同车型的数据进行不同的清洗策略,以及将结果针对性的反馈给负责各个电池类型数据采集者,以使上传到云端的数据质量更加精准,使得云端的预警和残值评估等业务得到更精准的结果。本数据质量评估丰富主要包括完整性、一致性、准确性、唯一性、有效性和及时性等方面的评估。以下对上述步骤101~104进行具体描述。
66.在步骤101中,接收多种车辆电池的原始数据,将所述原始数据转换为平台数据并存储至所述云平台,其中,所述平台数据的格式为所述云平台定义的标准格式;
67.示例性地,云平台和多个车型的车辆进行数据互通,每个车型对应多个车辆,车辆在使用电池的过程中,不断根据采样时间实时采集电池数据,并将电池数据上传至云平台。车辆数据包括多种数据,例如,电池相关的数据,包括电池实时电量、电池电压、电池电流、电池温度等,还可以包括车辆的其它数据,例如车辆行驶速度、车辆行驶距离等数据采样时间和车辆型号等。
68.车辆采集的数据为原始数据,车辆将原始数据及时发送至云平台。由于车辆型号众多,且车辆的系统不断更新,导致数据的格式和形式存在不同。为了便于数据管理,云平台具有定义的数据格式。为了将不同类型的车辆的数据进行统一管理,在接收到车辆的原始数据后,云平台将原始数据转换为格式标准化的平台数据,该数据转换过程可以理解为数据标准化。
69.在步骤102中,针对一种或多种车型下的多个目标车辆,根据所述原始数据和所述平台数据计算每一个目标车辆的数据质量单项分数,根据所述数据质量单项分数计算目标车辆的数据质量总分,其中,所述数据质量单项分数包括完整性分数、一致性分数、准确性分数、唯一性分数、有效性分数和及时性分数的一种或多种;
70.示例性地,对数据进行评估时,可以评估单独一辆车对应的数据,也可以评估一个车型的数据,被选中进行评估的车辆为目标车辆。在本方案中,先计算出每一个目标车辆的数据质量单项分数,其中,数据质量单项分数共有五种,即:完整性分数、一致性分数、准确性分数、唯一性分数、有效性分数和及时性分数。为了灵活评估数据,本方案不限定数据评估类型,可以为五种的一种或多种,具体根据实际应用确定。
71.在分别计算出一种或多种数据质量单项分数后,根据每一种数据对应的权重值计算出目标车辆的数据质量总分。
72.在步骤103中,针对每一种车型,根据多个所述数据质量单项分数计算该车型的数据质量单项平均值,以及根据所述数据质量总分计算该车型的数据质量总分平均值;
73.示例性地,在计算出每一辆目标车辆的数据后,对于同一个车型的车辆,将多个目标车辆的数据进行汇总,则可以计算出该车型的数据质量单项平均值和数据质量总分平均值。
74.在步骤104中,根据所述数据质量单项平均值和所述数据质量总分平均值分析一种或多种所述车型的数据质量。
75.示例性地,根据一个车型的数据分析该车型的数据质量,将目标车型的数据分类为多类,例如高质量数据、中质量数据和低质量数据。
76.进一步地,所述数据质量单项分数包括完整性分数、一致性分数、准确性分数、唯一性分数、有效性分数和及时性分数的一种或多种。
77.下面一一解释数据的完整性、一致性、准确性、唯一性、有效性和及时性。
78.完整性涉及的情况较多,例如,数据出现空值或零值,空值表示数据未被采集或者未被整理到数据帧中,零值表示可能出现数据计算错误,而将数据置零处理;数据出现跳变也影响数据完整性,例如电池的电量的变化是连续的,不会从70%直接下降到10%,若出现该情况,表示电量从70%到10%之间的数据出现丢失;数据传输过程中可能出现数据丢失,例如网络信号问题引起一些数据丢失,虽然车辆发出数据,但是云平台却未收到数据。
79.一致性分为字段数目一致率、表间字段一致率和表间数值一致率。其中,字段数目一致率表征车辆发送出的字段数目和平台接收到的字段数目是否一致;表间字段一致率表示车辆上传的字段和云平台需接收的字段含义是否相同,即字段含义是否一致;表间数值一致率表示同一个类型上传的数据呈现一定的规律性,对于具有规律性的数据,某辆车上传的数据是否和其所属类型的数据保持一致。
80.准确性分为字段无效值率和字段异常值率,表征收到的数据是否是准确的。在判断准确性时,通常数据具有标准参考值或者取值区间,超出范围则为不准确。例如,假设电池温度的正常取值范围为工作范围是-30℃~60℃,若采集的温度值为80℃,则该数据存在问题。字段无效值率指某个字段数值为无效值的报文数占总报文数的占比,字段异常值率为某个字段数值为异常值的报文数占总报文数的占比。
81.唯一性分为字段冗余率和报文重复率,字段冗余率表示一个数据具有多种格式,出现冗余。报文重复率为同一帧报文由于任务重复调度等问题导致存入数据库多份。
82.有效性可分为数值错误率和报文错误率。有效性和准确性不同,准确性表征数据是真实可得的,但是确实不准确的,例如,可以测出温度为80℃,该值有效但是不准确。而有效性表示获取的数据是不可能得到的,例如,数值错误率为有些字段的数值超出了这个数值本身的合理范围,例如,电池电量soc范围为[0,100%],若数据出现120%,则该数据是无效的;报文错误率为有些报文由于数据解析等问题导致报文错乱,例如数据解析时导致时间错乱,车辆23年出厂,但实际上传报文出现1900年或2050年的时间戳数据。
[0083]
及时性为数据从产生到上传到接收到存入数据库存在一个时间差是否合理。例如,车辆在第一天采集的数据还未上传,车辆就被关闭,当车辆第二天启动时,云平台在第二天却收到了第一天的数据,表示数据发送超时。
[0084]
进一步地,所述原始数据以报文的形式由所述目标车辆传输至所述云平台,其中,所述报文包括多个字段,所述数据质量评估方法还包括:
[0085]
针对所述平台数据,计算所述预设时间内的每一个所述目标车辆的报文总数量;
[0086]
计算一个报文的单帧字段总数量;
[0087]
计算传输所述原始数据的数据传输时间;
[0088]
根据所述报文总数量和所述单帧字段总数量计算累计字段总数量;
[0089]
针对所述原始数据,根据所述目标车辆的数据采样时间和电池使用时间计算所述目标车辆采集并发出报文的初始报文总数量。
[0090]
示例性地,车辆采集数据时,一个参数对应一个字段,例如,车辆数据包括多种数据,例如,电池相关的数据有电池实时电量、电池电压、电池电流、电池温度等。其中,电池实时电量为一个字段,电池电压为一个字段,电池电流为一个字段等等等。多个字段一起组成一个报文,发送至云平台。
[0091]
进行数据统计和评估时,以时间周期进行评估,即预设时间,例如一天一次,三天
一次,或者一周一次。统计该预设时间内的数据。
[0092]
具体来说,计算总车辆数,每种车型对应的车辆数记为all_car辆车,其中,单个车的报文总数量为n_total,即n_total条报文,上传信息的数据传输时间为all_time,一个报文的单帧字段总数量为all_field。
[0093]
进一步地,计算所述完整性分数包括:
[0094]
统计所述平台数据中整字段为空字段的第一空报文数量以及整字段为零字段的第一零报文数量;
[0095]
根据所述第一空报文数量和所述报文总数量计算第一完整性分数;
[0096]
根据所述第一零报文数量和所述报文总数量计算第二完整性分数;
[0097]
在所述平台数据中,当一帧报文的部分字段为空字段时,统计空字段数量,当所述空字段数量除以所述单帧字段总数量后的空字段比例大于预设的空字段比例阈值时,确定该帧报文为部分空值报文;确定部分空值报文的数量为第二空报文数量;
[0098]
在所述平台数据中,当一帧报文的部分字段为零字段时,统计零字段数量,当所述零字段数量除以所述单帧字段总数量后的零字段比例大于预设的零字段比例阈值时,确定该帧报文为部分零值报文;确定部分零值报文的数量为第二零报文数量;
[0099]
根据所述第二空报文数量和所述报文总数量计算第三完整性分数;
[0100]
根据所述第二零报文数量和所述报文总数量计算第四完整性分数;
[0101]
在所述平台数据中,获取所述数据集合中与电池实时电量相对应的报文,若所述电池实时电量发生跳变且跳变前后的电量跳变差值大于预设的跳变阈值,则根据跳变起始时间和跳变结束时间计算数据丢失累计时间,并计算传输所述原始数据的数据传输时间,根据所述数据丢失累计时间和所述数据传输时间计算第五完整性分数;
[0102]
根据所述初始报文总数量和所述报文总数量计算第六完整性分数。
[0103]
示例性地,完整性从四个方面进行考虑,单个字段、单帧报文、电池本身数据缺失以及数据传输过程缺失。
[0104]
第一完整性分数和整字段为空字段的报文相关。例如,某个字段表征最高电压数值,其中,第一空报文数量为field_null,即有field_null条报文为空,则该目标车辆的该字段空值率field_null_rate=(field_null/n_total)*100%,第一完整性分数为(1-field_null_rate)*100;
[0105]
第二完整性分数和整字段为零字段的报文相关。例如,某个字段表征最高电压数值,其中,第一零报文数量为field_zero,即有field_zero条报文为0值,则该目标车辆的该字段零值率field_zero_rate=(field_zero/n_total)*100%,第二完整性分数为(1-field_zero_rate)*100;
[0106]
第三完整性分数和部分字段为空字段的报文相关,当空字段比例大于预设的空字段比例阈值时,确定该帧报文为部分空值报文。例如,有部分字段partial_field_null的数值为空,则当(partial_field_null/all_field)*100%》10%时,则该帧报文计为部分空值报文,第二空报文数量记为n_null,则报文空值率为n_null_rate=(n_null/n_total)*100%,第三完整性分数为(1-n_null_rate)*100;
[0107]
第四完整性分数和部分字段为零字段的报文相关,当零字段比例大于预设的零字段比例阈值时,确定该帧报文为部分零值报文。例如,有部分字段partial_field_zero的数
值为零,则当(partial_field_zero/all_field)*100%》10%时,则该帧报文计为部分零值报文,第二零值报文数量记为n_zero,则报文零值率为n_zero_rate=(n_zero/n_total)*100%,第四完整性分数为(1-n_zero_rate)*100;
[0108]
第五完整性分数和数据采集中丢失的数据相关,具体来说,可根据电池实时电量(soc)确定丢失的报文情况。例如,目标车辆的soc从10%跳变到80%,数据明显出现丢失的,丢失数据的时间段和记为数据丢失累计时间loss_time,则报文丢失率n_loss_rate=(loss_time/all_time)*100%,第五完整性分数为(1-n_loss_rate)*100;
[0109]
第六完整性分数和数据传输过程中丢失的数据相关。例如,目标车辆采集的的数据经过传输后存入云平台的数据库的初始报文总数量为message_count,则传输丢失率transmit_loss_rate=(1-(message_count/n_total))*100%,第六完整性分数为(1-transmit_loss_rate)*100。
[0110]
进一步地,计算所述一致性分数包括:
[0111]
根据所述原始数据计算所述目标车辆发送的发送字段数量,计算所述云平台接收的接收字段数量,将所述接收字段数量除以所述发送字段数量以计算字段数目一致性分数;
[0112]
计算所述原始数据和所述平台数据中的数据相同的相同字段数量,将所述相同字段数量除以所述接收字段数量以计算表间字段一致性分数;
[0113]
将所述目标车辆与其所属的车型的同类车辆数据进行对比,统计所述原始数据和所述同类车辆数据相同的表间一致报文数量,将所述表间一致报文数量除以所述报文总数量以得到表间数值一致性分数。
[0114]
示例性地,一致性分为字段数目一致率、表间字段一致率、表间数值一致率。
[0115]
字段数目一致率表征车辆发送出的字段数目和平台接收到的字段数目是否一致。其中,字段数目一致率为(接收字段数量/发送字段数量)*100%,字段数目一致性分数为字段数目一致率*100;
[0116]
表间字段一致率表示车辆上传的字段和云平台需接收的字段含义是否相同。因为车辆的型号不同,版本不同,因此发送的数据的字段含义的定义也不同。其中,相同字段数量为实际上传字段含义与平台需接收字段含义相同字段数目,表间字段一致率为(相同字段数量/实际接收字段总数目)*100%,表间字段一致性分数为表间字段一致率*100;
[0117]
表间数值一致率表示同一个类型上传的数据呈现一定的规律性,对于具有规律性的数据,某辆车上传的数据是否和其所属类型的数据保持一致。其中,表间一致报文数量为同一车辆同一个字段上传的数据与实际接收到的对应车辆字段数值相等的报文帧数,表间数值一致率为(表间一致报文数量/总报文帧数)*100%,表间数值一致性分数为表间数值一致率*100。
[0118]
进一步地,计算所述准确性分数包括:
[0119]
针对具有标准参考值的数据,在所述平台数据中确定字段无效值对应的无效报文数量,其中,与所述标准参考值不同的数据为所述字段无效值;将所述无效报文数量除以所述报文总数量以得到字段无效值率,根据所述字段无效值率计算第一准确性分数;
[0120]
针对具有阈值区间的数据,在所述平台数据中确定字段异常值对应的异常报文数量,其中,数值不在所述阈值区间的数据为所述字段异常值;将所述异常报文数量除以所述
报文总数量以得到字段异常值率,根据所述字段异常值率计算第二准确性分数。
[0121]
示例性地,准确性分为字段无效值率,字段异常值率,表征收到的数据是否是准确的。
[0122]
字段无效值率指某个字段数值为无效值的报文数占总报文数的占比,例如温度的-40、254、255等字段初始化或者标志位等,第一准确性分数为(1-字段无效值率)*100;
[0123]
字段异常值率为某个字段数值为异常值的报文数占总报文数的占比,例如soc在短时间内发生跳变或某个不合理的数值长时间持续,例如温度数值达到70℃,第二准确性分数为(1-字段异常值率)*100。
[0124]
其中,计算所述唯一性分数包括:
[0125]
统计所述原始数据中具有多个名称的原始数据的冗余字段数量,将所述冗余字段数量除以所述累计字段总数量以得到字段冗余率,根据所述字段冗余率计算第一唯一性分数;
[0126]
统计所述平台数据中相同报文的重复报文数量,将所述重复报文数量除以所述报文总数量以得到报文重复率,根据所述报文重复率计算第二唯一性分数。
[0127]
示例性地,唯一性分为字段冗余率和报文重复率,表征数据出现重复的情况。
[0128]
第一唯一性分数与字段冗余相关,其中,字段冗余率为拥有相同含义的字段存在多个,例如有一些字段会有后缀是否带_rm的区别,原因为一个为国标要求,一个为企标要求。字段冗余率为(冗余字段数量/累计字段总数量)*100%,第一唯一性分数为(1-字段冗余率)*100;
[0129]
第二唯一性分数与报文重复相关,报文重复率为同一帧报文由于任务重复调度等问题导致存入数据库多份,报文重复率等于(重复报文数量/报文总数量)*100%,第二唯一性分数为(1-报文重复率)*100。
[0130]
进一步地,计算所述有效性分数包括:
[0131]
统计所述平台数据中字段出现错误数值的第一错误报文数量,将所述第一错误报文数量除以所述报文总数量以得到数值错误率,根据所述数值错误率计算第一有效性分数;
[0132]
统计所述平台数据中报文出现错误数值的第二错误报文数量,将所述第二错误报文数量除以所述报文总数量以得到报文错误率,根据所述报文错误率计算第二有效性分数;
[0133]
示例性地,有效性可分为数值错误率和报文错误率。
[0134]
数值错误率为有些字段的数值超出了数值本身的合理范围,例如,电池电量soc范围为[0,100%],若数据出现125%,则该数据是错误的,但实际数据里会出现125%的数值。数值错误率等于(第一错误报文数量/报文总数量)*100%,比如soc范围为[0,100],第一有效性分数为(1-数值错误率)*100。
[0135]
报文错误率为有些报文由于数据解析等问题导致报文错乱,例如数据解析时导致时间错乱,车辆23年出厂,但实际上传报文出现1900年或2050年的时间戳数据。报文错误率等于(第二错误报文数量/报文总数量)*100%,得分为(1-报文错误)*100。
[0136]
其中,计算所述及时性分数包括:
[0137]
获取所述原始数据的数据生成时间和数据接收时间,根据所述数据生成时间和所
述数据接收时间计算数据时间差,统计所述数据时间差小于预设的时间阈值的报文数量,用该报文数量除以所述报文总数量以得到所述及时性分数。
[0138]
示例性地,数据及时性为传输及时率,数据从产生到上传到接收到存入数据库存在一个时间差。假设在合理的接收数据时间内落库的数据报文数为n_realtime,则传输及时率为=(n_realtime/n_total)*100%,及时性分数为传输及时率*100。
[0139]
进一步地,所述根据所述数据质量单项分数计算每一个目标车辆的数据质量总分包括:
[0140]
针对每一个所述数据质量单项分数,确定该数据质量单项分数的权重系数,根据所述数据质量单项分数和所述权重系数计算所述数据质量总分;
[0141]
示例性地,在如上所述的5种数据中共计16个分数。例如,可以计算每个目标车辆每周每一项的得分(共16项),每一项的权重系数设为1/16或者其它数值,总权重为1。其中,权重系数可根据目标车型接入首月每一项的得分组织专家评审,针对每个评估项调整权重系数;后期若数据质量得分较低,再进行针对的调整。计算每个车辆每周每一项的数据质量单项分数,以及将每一项的得分乘以对应的权重系数后相加,计算每个车辆的数据质量总分。
[0142]
然后,根据每个车型的车辆数求该车型每个车辆的单项评分的均值,得到每个车型的每一项的数据质量单项平均值。根据每个车型的车辆数求该车型每个车辆的总的评分的均值,即数据质量总分平均值,得到每个车型的总的数据质量评分。
[0143]
进一步地,所述根据所述数据质量单项平均值和所述数据质量总分平均值分析一种或多种所述车型的数据质量包括:
[0144]
根据所述数据质量单项平均值将多种所述车型的原始数据至少分为单项高质量数据、单项中质量数据、单项低质量数据;
[0145]
根据所述数据质量总分平均值将多种所述车型的原始数据至少分为整体高质量数据、整体中质量数据、整体低质量数据。
[0146]
示例性地,根据数据质量单项平均值进行判断,将原始数据分成三挡。举例来说,得分在[90,100]之间的不进行修改,得分在[80,90)之间的,进行对应的分析,并跟数据采集者确定现状是否可以满足现有业务,若不满足则进行调整,直到连续多周数据评分大于等于90分;得分低于80的,进行对应的分析,数据源头的问题反馈给相关业务方,数据质量的问题,在数据清洗的时候加入对应的清洗策略直到连续4周数据评分大于等于80分,看是否满足现有业务需求,如不满足,则继续进行调整。单项评分不满足的仅针对单项进行分析和数据清洗。
[0147]
根据数据质量总分平均值进行判断,将原始数据分成三挡。举例来说,得分在[95,100]之间的不进行修改,得分在[90,95)之间的,进行对应的分析,并跟数据采集者确定现状是否可以满足现有业务,若不满足则进行调整,直到连续多周数据评分大于等于95分;得分低于90的,进行对应的分析,数据源头的问题反馈给相关业务方,数据质量的问题,在数据清洗的时候加入对应的清洗策略直到连续多周数据评分大于等于90分,看是否满足现有业务需求,如不满足,则继续进行调整。
[0148]
通过动力电池数据质量评估方法,既可以根据分析得到的结果针对性的做数据清洗保证预警算法的精准,也可以将分析得到的问题反馈给负责数据采集者优化上传的数据
质量。
[0149]
通过本发明中的上述实施例中的一个实施例或多个实施例,至少可以实现如下技术效果:
[0150]
在本发明所公开的技术方案中,接收车辆发送的电池相关的原始数据,将原始数据转换为平台数据;计算目标车辆的数据质量单项分数和数据质量总分,其中,数据质量单项分数包括完整性分数、一致性分数、准确性分数、唯一性分数、有效性分数和及时性分数的一种或多种;针对每一种车型,计算该数据质量单项平均值和数据质量总分平均值;根据数据质量单项平均值和数据质量总分平均值分析一种或多种车型的数据质量。本发明旨在通过对现有数据进行分析,从空值、异常值、无效值以及跳变数据等多个维度对每个类型车辆以及数据整体进行电池数据质量的评价。该评价方法得到的评估结果可用于调整不同车型的数据的清洗策略,保证上传到云端的数据质量尽可能的精准,使得云端的预警和残值评估等业务得到更精准的结果。
[0151]
基于与本发明实施例的一种数据质量评估方法同样的发明构思,本发明实施例提供了一种数据质量评估装置,请参考图2,所述装置包括:
[0152]
数据接收模块201,用于接收多种车辆电池的原始数据,将所述原始数据转换为平台数据并存储至所述云平台,其中,所述平台数据的格式为所述云平台定义的标准格式;
[0153]
第一计算模块202,用于针对一种或多种车型下的多个目标车辆,根据所述原始数据和所述平台数据计算每一个目标车辆的数据质量单项分数,根据所述数据质量单项分数计算目标车辆的数据质量总分;
[0154]
第二计算模块203,用于针对每一种车型,根据多个所述数据质量单项分数计算该车型的数据质量单项平均值,以及根据所述数据质量总分计算该车型的数据质量总分平均值;
[0155]
数据分析模块204,用于根据所述数据质量单项平均值和所述数据质量总分平均值分析一种或多种所述车型的数据质量。
[0156]
进一步地,所述数据质量单项分数包括完整性分数、一致性分数、准确性分数、唯一性分数、有效性分数和及时性分数的一种或多种。
[0157]
进一步地,所述原始数据以报文的形式由所述目标车辆传输至所述云平台,其中,所述报文包括多个字段,所述装置还用于:
[0158]
针对所述平台数据,计算所述预设时间内的每一个所述目标车辆的报文总数量;
[0159]
计算一个报文的单帧字段总数量;
[0160]
计算传输所述原始数据的数据传输时间;
[0161]
根据所述报文总数量和所述单帧字段总数量计算累计字段总数量;
[0162]
针对所述原始数据,根据所述目标车辆的数据采样时间和电池使用时间计算所述目标车辆采集并发出报文的初始报文总数量。
[0163]
进一步地,第一计算模块202还用于:
[0164]
统计所述平台数据中整字段为空字段的第一空报文数量以及整字段为零字段的第一零报文数量;
[0165]
根据所述第一空报文数量和所述报文总数量计算第一完整性分数;
[0166]
根据所述第一零报文数量和所述报文总数量计算第二完整性分数;
[0167]
在所述平台数据中,当一帧报文的部分字段为空字段时,统计空字段数量,当所述空字段数量除以所述单帧字段总数量后的空字段比例大于预设的空字段比例阈值时,确定该帧报文为部分空值报文;确定部分空值报文的数量为第二空报文数量;
[0168]
在所述平台数据中,当一帧报文的部分字段为零字段时,统计零字段数量,当所述零字段数量除以所述单帧字段总数量后的零字段比例大于预设的零字段比例阈值时,确定该帧报文为部分零值报文;确定部分零值报文的数量为第二零报文数量;
[0169]
根据所述第二空报文数量和所述报文总数量计算第三完整性分数;
[0170]
根据所述第二零报文数量和所述报文总数量计算第四完整性分数;
[0171]
在所述平台数据中,获取所述数据集合中与电池实时电量相对应的报文,若所述电池实时电量发生跳变且跳变前后的电量跳变差值大于预设的跳变阈值,则根据跳变起始时间和跳变结束时间计算数据丢失累计时间,并计算传输所述原始数据的数据传输时间,根据所述数据丢失累计时间和所述数据传输时间计算第五完整性分数;
[0172]
根据所述初始报文总数量和所述报文总数量计算第六完整性分数。
[0173]
进一步地,第一计算模块202还用于:
[0174]
根据所述原始数据计算所述目标车辆发送的发送字段数量,计算所述云平台接收的接收字段数量,将所述接收字段数量除以所述发送字段数量以计算字段数目一致性分数;
[0175]
计算所述原始数据和所述平台数据中的数据相同的相同字段数量,将所述相同字段数量除以所述接收字段数量以计算表间字段一致性分数;
[0176]
将所述目标车辆与其所属的车型的同类车辆数据进行对比,统计所述原始数据和所述同类车辆数据相同的表间一致报文数量,将所述表间一致报文数量除以所述报文总数量以得到表间数值一致性分数。
[0177]
进一步地,第一计算模块202还用于:
[0178]
针对具有标准参考值的数据,在所述平台数据中确定字段无效值对应的无效报文数量,其中,与所述标准参考值不同的数据为所述字段无效值;将所述无效报文数量除以所述报文总数量以得到字段无效值率,根据所述字段无效值率计算第一准确性分数;
[0179]
针对具有阈值区间的数据,在所述平台数据中确定字段异常值对应的异常报文数量,其中,数值不在所述阈值区间的数据为所述字段异常值;将所述异常报文数量除以所述报文总数量以得到字段异常值率,根据所述字段异常值率计算第二准确性分数。
[0180]
进一步地,第一计算模块202还用于:
[0181]
统计所述原始数据中具有多个名称的原始数据的冗余字段数量,将所述冗余字段数量除以所述累计字段总数量以得到字段冗余率,根据所述字段冗余率计算第一唯一性分数;
[0182]
统计所述平台数据中相同报文的重复报文数量,将所述重复报文数量除以所述报文总数量以得到报文重复率,根据所述报文重复率计算第二唯一性分数。
[0183]
进一步地,第一计算模块202还用于:
[0184]
统计所述平台数据中字段出现错误数值的第一错误报文数量,将所述第一错误报文数量除以所述报文总数量以得到数值错误率,根据所述数值错误率计算第一有效性分数;
[0185]
统计所述平台数据中报文出现错误数值的第二错误报文数量,将所述第二错误报文数量除以所述报文总数量以得到报文错误率,根据所述报文错误率计算第二有效性分数;
[0186]
进一步地,第一计算模块202还用于:
[0187]
获取所述原始数据的数据生成时间和数据接收时间,根据所述数据生成时间和所述数据接收时间计算数据时间差,统计所述数据时间差小于预设的时间阈值的报文数量,用该报文数量除以所述报文总数量以得到所述及时性分数。
[0188]
进一步地,第一计算模块202还用于:
[0189]
针对每一个所述数据质量单项分数,确定该数据质量单项分数的权重系数,根据所述数据质量单项分数和所述权重系数计算所述数据质量总分;
[0190]
进一步地,所述根据所述数据质量单项平均值和所述数据质量总分平均值分析一种或多种所述车型的数据质量包括:
[0191]
根据所述数据质量单项平均值将多种所述车型的原始数据至少分为单项高质量数据、单项中质量数据、单项低质量数据;
[0192]
根据所述数据质量总分平均值将多种所述车型的原始数据至少分为整体高质量数据、整体中质量数据、整体低质量数据。
[0193]
其中,所述数据质量评估装置的其它方面以及实现细节与前面所描述的数据质量评估方法相同或相似,在此不再赘述。
[0194]
根据本发明的另一方面,本发明还提供一种存储介质,所述存储介质中存储有多条指令,所述指令适于由处理器加载以执行如上所述的任一数据质量评估方法。
[0195]
综上所述,虽然本发明已以优选实施例揭露如上,但上述优选实施例并非用以限制本发明,本领域的普通技术人员,在不脱离本发明的精神和范围内,均可作各种更动与润饰,因此本发明的保护范围以权利要求界定的范围为准。

技术特征:
1.一种数据质量评估方法,用于云平台,其特征在于,所述数据质量评估方法包括:接收多种车辆电池的原始数据,将所述原始数据转换为平台数据并存储至所述云平台,其中,所述平台数据的格式为所述云平台定义的标准格式;针对一种或多种车型下的多个目标车辆,根据所述原始数据和所述平台数据计算每一个目标车辆的数据质量单项分数,根据所述数据质量单项分数计算目标车辆的数据质量总分;针对每一种车型,根据多个所述数据质量单项分数计算该车型的数据质量单项平均值,以及根据所述数据质量总分计算该车型的数据质量总分平均值;根据所述数据质量单项平均值和所述数据质量总分平均值分析一种或多种所述车型的数据质量。2.如权利要求1所述的数据质量评估方法,其特征在于,所述数据质量单项分数包括完整性分数、一致性分数、准确性分数、唯一性分数、有效性分数和及时性分数的一种或多种。3.如权利要求2所述的数据质量评估方法,其特征在于,所述原始数据以报文的形式由所述目标车辆传输至所述云平台,其中,所述报文包括多个字段,所述数据质量评估方法还包括:针对所述平台数据,计算预设时间内的每一个所述目标车辆的报文总数量;计算一个报文的单帧字段总数量;根据所述报文总数量和所述单帧字段总数量计算累计字段总数量;针对所述原始数据,根据所述目标车辆的数据采样时间和电池使用时间计算所述目标车辆采集并发出报文的初始报文总数量。4.如权利要求3所述的数据质量评估方法,其特征在于,计算所述完整性分数包括:统计所述平台数据中整字段为空字段的第一空报文数量以及整字段为零字段的第一零报文数量;根据所述第一空报文数量和所述报文总数量计算第一完整性分数;根据所述第一零报文数量和所述报文总数量计算第二完整性分数;在所述平台数据中,当一帧报文的部分字段为空字段时,统计空字段数量,当所述空字段数量除以所述单帧字段总数量后的空字段比例大于预设的空字段比例阈值时,确定该帧报文为部分空值报文;确定部分空值报文的数量为第二空报文数量;在所述平台数据中,当一帧报文的部分字段为零字段时,统计零字段数量,当所述零字段数量除以所述单帧字段总数量后的零字段比例大于预设的零字段比例阈值时,确定该帧报文为部分零值报文;确定部分零值报文的数量为第二零报文数量;根据所述第二空报文数量和所述报文总数量计算第三完整性分数;根据所述第二零报文数量和所述报文总数量计算第四完整性分数;在所述平台数据中,获取所述数据集合中与电池实时电量相对应的报文,若所述电池实时电量发生跳变且跳变前后的电量跳变差值大于预设的跳变阈值,则根据跳变起始时间和跳变结束时间计算数据丢失累计时间,并计算传输所述原始数据的数据传输时间,根据所述数据丢失累计时间和所述数据传输时间计算第五完整性分数;根据所述初始报文总数量和所述报文总数量计算第六完整性分数。5.如权利要求3所述的数据质量评估方法,其特征在于,计算所述一致性分数包括:
根据所述原始数据计算所述目标车辆发送的发送字段数量,计算所述云平台接收的接收字段数量,将所述接收字段数量除以所述发送字段数量以计算字段数目一致性分数;计算所述原始数据和所述平台数据中的数据相同的相同字段数量,将所述相同字段数量除以所述接收字段数量以计算表间字段一致性分数;将所述目标车辆与其所属的车型的同类车辆数据进行对比,统计所述原始数据和所述同类车辆数据相同的表间一致报文数量,将所述表间一致报文数量除以所述报文总数量以得到表间数值一致性分数。6.如权利要求3所述的数据质量评估方法,其特征在于,计算所述准确性分数包括:针对具有标准参考值的数据,在所述平台数据中确定字段无效值对应的无效报文数量,其中,与所述标准参考值不同的数据为所述字段无效值;将所述无效报文数量除以所述报文总数量以得到字段无效值率,根据所述字段无效值率计算第一准确性分数;针对具有阈值区间的数据,在所述平台数据中确定字段异常值对应的异常报文数量,其中,数值不在所述阈值区间的数据为所述字段异常值;将所述异常报文数量除以所述报文总数量以得到字段异常值率,根据所述字段异常值率计算第二准确性分数;其中,计算所述唯一性分数包括:统计所述原始数据中具有多个名称的原始数据的冗余字段数量,将所述冗余字段数量除以所述累计字段总数量以得到字段冗余率,根据所述字段冗余率计算第一唯一性分数;统计所述平台数据中相同报文的重复报文数量,将所述重复报文数量除以所述报文总数量以得到报文重复率,根据所述报文重复率计算第二唯一性分数。7.如权利要求3所述的数据质量评估方法,其特征在于,计算所述有效性分数包括:统计所述平台数据中字段出现错误数值的第一错误报文数量,将所述第一错误报文数量除以所述报文总数量以得到数值错误率,根据所述数值错误率计算第一有效性分数;统计所述平台数据中报文出现错误数值的第二错误报文数量,将所述第二错误报文数量除以所述报文总数量以得到报文错误率,根据所述报文错误率计算第二有效性分数;其中,计算所述及时性分数包括:获取所述原始数据的数据生成时间和数据接收时间,根据所述数据生成时间和所述数据接收时间计算数据时间差,统计所述数据时间差小于预设的时间阈值的报文数量,用该报文数量除以所述报文总数量以得到所述及时性分数。8.如权利要求1所述的数据质量评估方法,其特征在于,所述根据所述数据质量单项分数计算每一个目标车辆的数据质量总分包括:针对每一个所述数据质量单项分数,确定该数据质量单项分数的权重系数,根据所述数据质量单项分数和所述权重系数计算所述数据质量总分;所述根据所述数据质量单项平均值和所述数据质量总分平均值分析一种或多种所述车型的数据质量包括:根据所述数据质量单项平均值将多种所述车型的原始数据至少分为单项高质量数据、单项中质量数据、单项低质量数据;根据所述数据质量总分平均值将多种所述车型的原始数据至少分为整体高质量数据、整体中质量数据、整体低质量数据。9.一种数据质量评估装置,其特征在于,所述装置包括:
数据接收模块,用于接收多种车辆电池的原始数据,将所述原始数据转换为平台数据并存储至所述云平台,其中,所述平台数据的格式为所述云平台定义的标准格式;第一计算模块,用于针对一种或多种车型下的多个目标车辆,根据所述原始数据和所述平台数据计算每一个目标车辆的数据质量单项分数,根据所述数据质量单项分数计算目标车辆的数据质量总分;第二计算模块,用于针对每一种车型,根据多个所述数据质量单项分数计算该车型的数据质量单项平均值,以及根据所述数据质量总分计算该车型的数据质量总分平均值;数据分析模块,用于根据所述数据质量单项平均值和所述数据质量总分平均值分析一种或多种所述车型的数据质量。10.一种存储介质,其特征在于,所述存储介质中存储有多条指令,所述指令适于由处理器加载以执行如权利要求1至8中任一项所述的数据质量评估方法。

技术总结
本发明公开了一种数据质量评估方法、装置及存储介质,所述数据质量评估方法包括:接收车辆发送的电池相关的原始数据,将原始数据转换为平台数据;计算目标车辆的数据质量单项分数和数据质量总分;针对每一种车型,计算该数据质量单项平均值和数据质量总分平均值;根据数据质量单项平均值和数据质量总分平均值分析一种或多种车型的数据质量。本发明所提供的技术方案能够解决现有技术中没有对单个车辆电池或一种车型电池的数据进行数据质量评估的技术问题。的技术问题。的技术问题。


技术研发人员:吕金河 杨红新 张建彪 高攀龙
受保护的技术使用者:章鱼博士智能技术(上海)有限公司
技术研发日:2023.06.30
技术公布日:2023/10/8
版权声明

本文仅代表作者观点,不代表航家之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)

航空之家 https://www.aerohome.com.cn/

航空商城 https://mall.aerohome.com.cn/

航空资讯 https://news.aerohome.com.cn/

分享:

扫一扫在手机阅读、分享本文

评论

相关推荐