天然气用户评分方法、装置、计算机设备及可读存储介质与流程

未命名 10-21 阅读:38 评论:0


1.本发明涉及天然气服务技术领域,尤其涉及一种天然气用户评分方法、装置、计算机设备及可读存储介质。


背景技术:

2.客户画像技术用于帮助企业制定营销策略,其原理是通过搜集用户的基础信息和行为属性来构建用户标签,并挖掘出各个行为间的相关性,据此实现用户分类和行为预测,该技术在电力、银行、保险等行业应用较多,针对天然气用户的研究几乎没有。
3.现有的天然气用户客户评价规则是基于线性权重打分求合的基本方法,从合同、收款、沟通与协调、销售价格、用气与调峰等指标分别进行打分,该方法需要人为确定各指标权重,主观程度很高。


技术实现要素:

4.有鉴于此,本发明的目的是为了克服现有技术中的不足,提供一种天然气用户评分方法、装置、计算机设备及可读存储介质。
5.本发明提供如下技术方案:
6.第一方面,本公开实施例中提供了一种天然气用户评分方法,所述方法包括:
7.获取天然气用户的原始数据,对所述原始数据进行过滤,得到中间数据,并对所述中间数据进行清洗,得到有效数据;
8.确定所述有效数据中第一预设数量个指标数据,获取同一时段内各所述天然气用户的营业额,计算各所述指标数据与所述营业额的相关系数,并计算各所述相关系数的指标权重;
9.通过降维算法计算各所述指标数据之间的分布特征,并采用聚类算法根据所述分布特征对各所述天然气用户进行分类,得到第二预设数量个用户类型;
10.根据各所述指标权重计算各所述用户类型内各所述天然气用户的指标得分,根据各所述指标得分选出最佳用户与最差用户,并采用欧氏距离公式根据所述最佳用户与所述最差用户计算各所述天然气用户的评分。
11.进一步地,所述对所述中间数据进行清洗,得到有效数据,包括:
12.从单张数据库表与多张数据库表中按条件提取所述中间数据;
13.通过优化sql语句、优化嵌套和筛选逻辑层次对所述中间数据进行清洗。
14.进一步地,计算各所述指标数据与所述营业额的相关系数的公式为:
[0015][0016]
式中,x为所述指标数据,y为所述营业额,ρ
x,y
为所述相关系数,cov(x,y)为所述指标数据与所述营业额的协方差,σ
x
为所述指标数据的标准差,σy为所述营业额的标准差。
[0017]
进一步地,所述计算各所述相关系数的指标权重的公式为:
[0018][0019]
式中,si为第i个所述相关系数的指标权重,xi为第i个所述指标数据,j为所有所述相关系数的总和。
[0020]
进一步地,所述计算各所述相关系数的指标权重之后,还包括:
[0021]
通过将各所述指标数据的平均值和标准差确定为预设值,对各所述指标数据进行归一化处理,其中,所述归一化处理的公式为:
[0022][0023]
式中,xi为第i个归一化后的指标数据,xi为第i个所述指标数据,μ为所述指标数据的平均值,σ
x
为所述指标数据的标准差。
[0024]
进一步地,所述根据各所述指标权重计算各所述用户类型内各所述天然气用户的指标得分,根据各所述指标得分选出最佳用户与最差用户,包括:
[0025]
计算各所述指标数据与对应的指标权重的乘积,将所述乘积作为所述指标得分;
[0026]
将各所述指标得分按照预设顺序进行排序,将指标得分最大者确定为所述最佳用户,将指标得分最小者确定为所述最差用户。
[0027]
进一步地,所述采用欧氏距离公式根据所述最佳用户与所述最差用户计算各所述天然气用户的评分,包括:
[0028]
使用所述欧氏距离公式计算出各所述天然气用户与所述最佳用户、所述最差用户的相似度距离矩阵:
[0029][0030]
式中,[d0,

,dn]为当前用户类型内的n个天然气用户,[dxh,dx
l
]为当前天然气用户到所述最佳用户、所述最差用户的欧氏相似度距离;
[0031]
根据所述相似度距离矩阵,计算当前用户类型内各所述天然气用户的得分,计算公式为:
[0032][0033]
式中,h为所述指标得分的上限,l为所述指标得分的下限,为当前天然气用户到当前用户类型内剩余天然气用户的距离之和,e
10
为可调缩放系数。
[0034]
第二方面,本公开实施例中提供了一种天然气用户评分装置,所述装置包括:
[0035]
数据处理模块,用于获取天然气用户的原始数据,对所述原始数据进行过滤,得到中间数据,并对所述中间数据进行清洗,得到有效数据;
[0036]
指标处理模块,用于确定所述有效数据中第一预设数量个指标数据,获取同一时段内各所述天然气用户的营业额,计算各所述指标数据与所述营业额的相关系数,并计算各所述相关系数的指标权重;
[0037]
用户分类模块,用于通过降维算法计算各所述指标数据之间的分布特征,并采用聚类算法根据所述分布特征对各所述天然气用户进行分类,得到第二预设数量个用户类型;
[0038]
评分计算模块,用于根据各所述指标权重计算各所述用户类型内各所述天然气用户的指标得分,根据各所述指标得分选出最佳用户与最差用户,并采用欧氏距离公式根据所述最佳用户与所述最差用户计算各所述天然气用户的评分。
[0039]
第三方面,本公开实施例中提供了一种计算机设备,所述计算机设备包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现第一方面中所述的天然气用户评分方法的步骤。
[0040]
第四方面,本公开实施例中提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现第一方面中所述的天然气用户评分方法的步骤。
[0041]
本技术的实施例具有如下优点:
[0042]
本技术实施例提供的天然气用户评分方法,方法包括:获取天然气用户的原始数据,对所述原始数据进行过滤,得到中间数据,并对所述中间数据进行清洗,得到有效数据;确定所述有效数据中第一预设数量个指标数据,获取同一时段内各所述天然气用户的营业额,计算各所述指标数据与所述营业额的相关系数,并计算各所述相关系数的指标权重;通过降维算法计算各所述指标数据之间的分布特征,并采用聚类算法根据所述分布特征对各所述天然气用户进行分类,得到第二预设数量个用户类型;根据各所述指标权重计算各所述用户类型内各所述天然气用户的指标得分,根据各所述指标得分选出最佳用户与最差用户,并采用欧氏距离公式根据所述最佳用户与所述最差用户计算各所述天然气用户的评分。本技术采用聚类算法,根据天然气用户数据的分布特征,对用户进行分类,同时根据客户实际用气历史记录,为其进行评分。
[0043]
为使本发明的上述目的、特征和优点能更明显和易懂,下文特举较佳实施例,并配合所附附图,做详细说明如下。
附图说明
[0044]
为了更清楚地说明本发明实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本发明的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。在各个附图中,类似的构成部分采用类似的编号。
[0045]
图1示出了本技术实施例提供的一种天然气用户评分方法的流程图;
[0046]
图2示出了本技术实施例提供的一种聚类算法的效果图;
[0047]
图3示出了本技术实施例提供的一种天然气用户评分装置的结构示意图。
具体实施方式
[0048]
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本发明,而不能理解为对本发明的限制。
[0049]
需要说明的是,当元件被称为“固定于”另一个元件,它可以直接在另一个元件上或者也可以存在居中的元件。当一个元件被认为是“连接”另一个元件,它可以是直接连接到另一个元件或者可能同时存在居中元件。相反,当元件被称作“直接在”另一元件“上”时,不存在中间元件。本文所使用的术语“垂直的”、“水平的”、“左”、“右”以及类似的表述只是为了说明的目的。
[0050]
在本发明中,除非另有明确的规定和限定,术语“安装”、“相连”、“连接”、“固定”等术语应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或成一体;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通或两个元件的相互作用关系。对于本领域的普通技术人员而言,可以根据具体情况理解上述术语在本发明中的具体含义。
[0051]
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。在本发明的描述中,“多个”的含义是两个或两个以上,除非另有明确具体的限定。
[0052]
除非另有定义,本文所使用的所有的技术和科学术语与属于本技术的技术领域的技术人员通常理解的含义相同。本文中在模板的说明书中所使用的术语只是为了描述具体的实施例的目的,不是旨在限制本发明。本文所使用的术语“及/或”包括一个或多个相关的所列项目的任意的和所有的组合。
[0053]
实施例1
[0054]
如图1所示,为本技术实施例中的一种天然气用户评分方法的流程图,本技术实施例提供的天然气用户评分方法包括以下步骤:
[0055]
步骤s110,获取天然气用户的原始数据,对所述原始数据进行过滤,得到中间数据,并对所述中间数据进行清洗,得到有效数据。
[0056]
在本实施例中,从企业的营销系统或生产系统等系统中调取天然气用户的原始数据,并了解原始数据产生的时间、条件、格式、内容、长度、限制条件等。
[0057]
在了解天然气用户的原始数据内部的工作机制和流程后,在原始数据基础上经过加工处理,过滤掉一些无效的、错误的、空缺的数据,得到新的中间数据,将中间数据存储在新的数据库中。
[0058]
进一步依据特定的异常值、空值和归约处理方法,提升数据质量,具体使用sql和对应的处理算法来查询、提取和清洗分析所述中间数据,整个过程分为三层:第一层,是从单张数据库表中按条件提取数据;第二层从多张数据库表中按条件提取所述中间数据;第三层是通过优化sql(structured query language)语句、优化嵌套、筛选逻辑层次等遍历预设次数,减少个人时间浪费和资源消耗。
[0059]
以下表为例,本技术从天然气营销系统中进行数据清洗得到的有效数据如下:
[0060][0061]
本技术评分的指标数据来源于企业系统的历史数据,通过大数据采集、存储、清洗整理出来的一系列指标数据,能够真实反映天然气用户的用气需求,降低人工经验对客户
评价的主观影响。
[0062]
步骤s120,确定所述有效数据中第一预设数量个指标数据,获取同一时段内各所述天然气用户的营业额,计算各所述指标数据与所述营业额的相关系数,并计算各所述相关系数的指标权重。
[0063]
进一步地,结合业务需求以及现有数据状况,确定所述有效数据中第一预设数量个指标数据,这些指标数据组成了天然气用户的标签库,在本实施例中,选取了以下12个指标数据:(1)用气量比率:用于说明该客户的气量消费能力;(2)用气价格:该客户天然气平均销售价,衡量客户用气的实际价格;(3)用气计划符合度:客户申报用气量的准确性程度;(4)用气增长量:用户消费增长的绝对数量;(5)用气增长率:用户消费增长的速率;(6)可承受气价能力:客户天然气价格的承受能力,总体来说,用气价格越高,外购气占比越大,其可承受气价的能力越强;(7)客户生产经营发展评分:反应客户的自身生产经营状况;(8)客户行业标识:用于说明用户的行业类别;(9)客户区域气价偏离系数:用于说明该用户现行气价与该行业天然气销售均价和高价的偏离情况;(10)客户行业气价偏离系数:同一行业销售均价和最高价的偏离;(11)用气稳定性:反应客户某段时间内用气波动情况;(12)气温变化系数:反应用气量与气温关系。
[0064]
确定了第一预设数量个指标数据后,将各个统计因素按照时间计算得到其统计向量,获取同一时段内各天然气用户的营业额(各类起价乘以其用气量,未知利润的情况下,以营业额作为经济利益的参考),计算各指标数据与营业额之间的相关系数,计算公式为:
[0065][0066]
式中,x为所述指标数据,y为所述营业额,ρ
x,y
为所述相关系数,cov(x,y)为所述指标数据与所述营业额的协方差,σ
x
为所述指标数据的标准差,σy为所述营业额的标准差。
[0067]
可以理解的是,研究变量之间线性相关程度的量,可以反映出各个要素的变化对经济利益的相关性。根据场景有不同的计算方式,皮尔逊相关系数通常用于实验数据符合正态分布,数据之间差距不大,样本之间独立抽样的情况,比如样本数据中的天然气客户的用气量比率在同一时间段里是成正态分布的,因此本实施例中采用该方法计算。
[0068]
在本技术中相关系数的取值总是在-1.0到1.0之间,接近0的变量被称为无相关性,接近1或者-1被称为具有强相关性。
[0069]
在得到各个指标数据的重要性排序之后,可以将这些反映重要性的数字转换成概率,更直观的体现出其在最终得分中的权重。计算公式如下:
[0070][0071]
式中,si为第i个所述相关系数的指标权重,xi为第i个所述指标数据,j为所有所述相关系数的总和。
[0072]
确定指标权重后,对所有指标数据进行归一化处理。数据归一化就是将所有的数据映射到同一尺度,即让每一个特征数据的影响力是相同的。常见的归一算法包括最值归一化和均值方差归一化,最值归一化适用于有明显边界的情况,根据天然气客户指标特点,本技术实施例采取均值方差归一化。
[0073]
具体操作是将指标数据的分布调整成标准正态分布,给予指标数据的均值和标准差进行归一化。经过处理的指标数据符合标准正态分布,即均值为0,标准差为1。其中,归一化处理的公式为:
[0074][0075]
式中,xi为第i个归一化后的指标数据,xi为第i个所述指标数据,μ为所述指标数据的平均值,σ
x
为所述指标数据的标准差。
[0076]
通过上述方法避免了以往天然气用户评分中人为因素的干扰,对于各指标数据的指标权重不是由人为主观判断,而是通过计算客观获得。经过大数据处理获得指标数据后,将指标数据与营业额做相关系数计算,其相关程度反映出各指标数据的变化与经济利益的相关性,从而得到各个指标数据的排序以及权重。
[0077]
步骤s130,通过降维算法计算各所述指标数据之间的分布特征,并采用聚类算法根据所述分布特征对各所述天然气用户进行分类,得到第二预设数量个用户类型。
[0078]
具体地,在确定了第一预设数量个指标数据后,可将具备多维用户特征的指标数据通过降维算法(t-distributed stochastic neighbor embedding,tsne)计算得到二维平面示意图,该二维平面示意图就是指标数据间的分布特征。
[0079]
进一步地,采用聚类算法根据分布特征对用户进行分类,从而形成用户画像。如图2所示,在聚类算法的选取上,选取了四类具有代表性的算法,包括亲和传播(affinity propagation,ap)聚类算法、密度(density-based spatial clustering of applications with noise,dbscan)聚类算法、均值漂移(meanshift)聚类算法、分区(k-means)聚类算法。通过对相同样本数据集进行计算,得到了如图2的聚类结果。
[0080]
通过对比,可以看出分区(k-means)的聚类效果更好,可以得到理想的天然气用户分类。因此本技术实施例采用k-means,k-means属于无监督学习算法,即在不知道数据集分类的情况下将相似的对象归到一个类(簇)中,是聚类算法的一种,具体采用的算法可根据实际情况确定,本技术实施例对此不做限定。
[0081]
通过调整聚类算法可以得到具有辨识度的第二预设数量个用户类型,例如在本实施例中,结合业务实际可将天然气用户分为四类:(1)1类用户:用气量较大,用气稳定系数很高,用气量增长较高,用气价格很低,符合大型城市燃气公司的基本特征;(2)2类用户:用气量较小,用气稳定系数较高,用气量增长较小,用气价格很高,比较符合用气较为稳定的工业客户的特征,如玻璃、石油炼化等;(3)3类用户:用气量很小,用气稳定系数很低,用气量增长很低,用气价格较低,比较符合零散的小客户的特征;(4)4类用户:用气量很大,用气稳定系数较低,用气量增长很高,用气价格较高,比较符合用气波动较大的大型工业用户的特征。
[0082]
本技术实施例通过调取数据库了解样本信息后,业务人员根据需求可以大致确定用户类型的数量。在对海量数据进行分类时,为了降低数据满足分类算法要求所需要的预处理代价,往往选择非监督的聚类算法,k-means作为无监督的聚类算法,实现较简单,聚类效果更好。
[0083]
步骤s140,根据各所述指标权重计算各所述用户类型内各所述天然气用户的指标得分,根据各所述指标得分选出最佳用户与最差用户,并采用欧氏距离公式根据所述最佳
用户与所述最差用户计算各所述天然气用户的评分。
[0084]
最终根据业务需要,天然气用户在聚类完成后仍需要对其得出一个评分,从而对业务进行相应指导。本技术实施例设计一种对标打分方法,选取业务最关注的指标数据,结合指标权重,根据指标得分对用户类别内的天然气用户进行排序。具体为:计算各指标数据与对应的指标权重的乘积,将乘积作为指标得分,即指标得分=指标数据
×
指标权重。
[0085]
进一步将各指标得分按照从高到底或从低到高的预设顺序进行排序,将指标得分最大者确定为最佳用户xh,将指标得分最小者确定为最差用户x
l
。然后使用所述欧氏距离公式计算出各天然气用户与最佳用户xh、最差用户x
l
的相似度距离矩阵:
[0086][0087]
式中,[d0,

,dn]为当前用户类型内的n个天然气用户,[dxh,dx
l
]为当前天然气用户到最佳用户xh、最差用户x
l
的欧氏相似度距离。
[0088]
根据相似度距离矩阵,计算当前用户类型内各所述天然气用户的得分,计算公式为:
[0089][0090]
式中,h为指标得分的上限,l为指标得分的下限,为当前天然气用户到当前用户类型内剩余天然气用户的距离之和,e
10
为可调缩放系数。在本技术实施例中,每个用户类型的指标得分的上限和下限都分别被定为100和60。
[0091]
本技术将天然气用户进行分类评分,便于企业针对不同类别制定不同的销售策略。同类天然气用户的评分采取标杆法进行排序,能够通过欧氏距离公式法计算得到一个具体分值,克服了现有技术中需要人为确定各指标权重、主观程度高的缺点。
[0092]
本技术实施例提供的天然气用户评分方法,获取天然气用户的原始数据,对所述原始数据进行过滤,得到中间数据,并对所述中间数据进行清洗,得到有效数据;确定所述有效数据中第一预设数量个指标数据,获取同一时段内各所述天然气用户的营业额,计算各所述指标数据与所述营业额的相关系数,并计算各所述相关系数的指标权重;通过降维算法计算各所述指标数据之间的分布特征,并采用聚类算法根据所述分布特征对各所述天然气用户进行分类,得到第二预设数量个用户类型;根据各所述指标权重计算各所述用户类型内各所述天然气用户的指标得分,根据各所述指标得分选出最佳用户与最差用户,并采用欧氏距离公式根据所述最佳用户与所述最差用户计算各所述天然气用户的评分。本技术采用聚类算法,根据天然气用户数据的分布特征,对用户进行分类,同时根据客户实际用气历史记录,为其进行评分。
[0093]
实施例2
[0094]
如图3所示,为本技术实施例中的一种天然气用户评分装置300的结构示意图,其装置包括:
[0095]
数据处理模块310,用于获取天然气用户的原始数据,对所述原始数据进行过滤,得到中间数据,并对所述中间数据进行清洗,得到有效数据;
[0096]
指标处理模块320,用于确定所述有效数据中第一预设数量个指标数据,获取同一时段内各所述天然气用户的营业额,计算各所述指标数据与所述营业额的相关系数,并计算各所述相关系数的指标权重;
[0097]
用户分类模块330,用于通过降维算法计算各所述指标数据之间的分布特征,并采用聚类算法根据所述分布特征对各所述天然气用户进行分类,得到第二预设数量个用户类型;
[0098]
评分计算模块340,用于根据各所述指标权重计算各所述用户类型内各所述天然气用户的指标得分,根据各所述指标得分选出最佳用户与最差用户,并采用欧氏距离公式根据所述最佳用户与所述最差用户计算各所述天然气用户的评分。
[0099]
可选地,上述天然气用户评分装置还包括:
[0100]
提取模块,用于从单张数据库表与多张数据库表中按条件提取所述中间数据;
[0101]
清洗模块,用于通过优化sql语句、优化嵌套和筛选逻辑层次对所述中间数据进行清洗。
[0102]
可选地,上述天然气用户评分装置还包括:
[0103]
归一化处理模块,用于通过将各所述指标数据的平均值和标准差确定为预设值,对各所述指标数据进行归一化处理,其中,所述归一化处理的公式为:
[0104][0105]
式中,xi为第i个归一化后的指标数据,xi为第i个所述指标数据,μ为所述指标数据的平均值,σ
x
为所述指标数据的标准差。
[0106]
可选地,上述天然气用户评分装置还包括:
[0107]
第一计算模块,用于计算各所述指标数据与对应的指标权重的乘积,将所述乘积作为所述指标得分;
[0108]
排序模块,用于将各所述指标得分按照预设顺序进行排序,将指标得分最大者确定为所述最佳用户,将指标得分最小者确定为所述最差用户。
[0109]
可选地,上述天然气用户评分装置还包括:
[0110]
第二计算模块,用于使用所述欧氏距离公式计算出各所述天然气用户与所述最佳用户、所述最差用户的相似度距离矩阵:
[0111][0112]
式中,[d0,

,dn]为当前用户类型内的n个天然气用户,[dxh,dx
l
]为当前天然气用户到所述最佳用户、所述最差用户的欧氏相似度距离;
[0113]
第三计算模块,用于根据所述相似度距离矩阵,计算当前用户类型内各所述天然气用户的得分,计算公式为:
[0114]
[0115]
式中,h为所述指标得分的上限,l为所述指标得分的下限,为当前天然气用户到当前用户类型内剩余天然气用户的距离之和,e
10
为可调缩放系数。
[0116]
本技术实施例提供的天然气用户评分装置,通过聚类算法,根据天然气用户数据的分布特征,对用户进行分类,同时根据客户实际用气历史记录,为其进行评分。
[0117]
本公开实施例中还提供了一种计算机设备,所述计算机设备包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现实施例1中所述的天然气用户评分方法的步骤。
[0118]
本公开实施例中还提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现实施例1中所述的天然气用户评分方法的步骤。
[0119]
在本技术所提供的几个实施例中,应该理解到,所揭露的装置和方法,也可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,附图中的流程图和结构图显示了根据本发明的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在作为替换的实现方式中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,结构图和/或流程图中的每个方框、以及结构图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
[0120]
另外,在本发明各个实施例中的各功能模块或单元可以集成在一起形成一个独立的部分,也可以是各个模块单独存在,也可以两个或更多个模块集成形成一个独立的部分。
[0121]
所述功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是智能手机、个人计算机、服务器、或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:u盘、移动硬盘、只读存储器(rom,read-only memory)、随机存取存储器(ram,random access memory)、磁碟或者光盘等各种可以存储程序代码的介质。
[0122]
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。

技术特征:
1.一种天然气用户评分方法,其特征在于,所述方法包括:获取天然气用户的原始数据,对所述原始数据进行过滤,得到中间数据,并对所述中间数据进行清洗,得到有效数据;确定所述有效数据中第一预设数量个指标数据,获取同一时段内各所述天然气用户的营业额,计算各所述指标数据与所述营业额的相关系数,并计算各所述相关系数的指标权重;通过降维算法计算各所述指标数据之间的分布特征,并采用聚类算法根据所述分布特征对各所述天然气用户进行分类,得到第二预设数量个用户类型;根据各所述指标权重计算各所述用户类型内各所述天然气用户的指标得分,根据各所述指标得分选出最佳用户与最差用户,并采用欧氏距离公式根据所述最佳用户与所述最差用户计算各所述天然气用户的评分。2.根据权利要求1所述的天然气用户评分方法,其特征在于,所述对所述中间数据进行清洗,得到有效数据,包括:从单张数据库表与多张数据库表中按条件提取所述中间数据;通过优化sql语句、优化嵌套和筛选逻辑层次对所述中间数据进行清洗。3.根据权利要求1所述的天然气用户评分方法,其特征在于,计算各所述指标数据与所述营业额的相关系数的公式为:式中,x为所述指标数据,y为所述营业额,ρ
x,y
为所述相关系数,cov(x,y)为所述指标数据与所述营业额的协方差,σ
x
为所述指标数据的标准差,σ
y
为所述营业额的标准差。4.根据权利要求1所述的天然气用户评分方法,其特征在于,计算各所述相关系数的指标权重的公式为:式中,s
i
为第i个所述相关系数的指标权重,x
i
为第i个所述指标数据,j为所有所述相关系数的总和。5.根据权利要求1所述的天然气用户评分方法,其特征在于,所述计算各所述相关系数的指标权重之后,还包括:通过将各所述指标数据的平均值和标准差确定为预设值,对各所述指标数据进行归一化处理,其中,所述归一化处理的公式为:式中,x
i
为第i个归一化后的指标数据,x
i
为第i个所述指标数据,μ为所述指标数据的平均值,σ
x
为所述指标数据的标准差。6.根据权利要求1所述的天然气用户评分方法,其特征在于,所述根据各所述指标权重计算各所述用户类型内各所述天然气用户的指标得分,根据各所述指标得分选出最佳用户
与最差用户,包括:计算各所述指标数据与对应的指标权重的乘积,将所述乘积作为所述指标得分;将各所述指标得分按照预设顺序进行排序,将指标得分最大者确定为所述最佳用户,将指标得分最小者确定为所述最差用户。7.根据权利要求1所述的天然气用户评分方法,其特征在于,所述采用欧氏距离公式根据所述最佳用户与所述最差用户计算各所述天然气用户的评分,包括:使用所述欧氏距离公式计算出各所述天然气用户与所述最佳用户、所述最差用户的相似度距离矩阵:式中,[d0,

,d
n
]为当前用户类型内的n个天然气用户,[dx
h
,dx
l
]为当前天然气用户到所述最佳用户、所述最差用户的欧氏相似度距离;根据所述相似度距离矩阵,计算当前用户类型内各所述天然气用户的得分,计算公式为:式中,h为所述指标得分的上限,l为所述指标得分的下限,为当前天然气用户到当前用户类型内剩余天然气用户的距离之和,e
10
为可调缩放系数。8.一种天然气用户评分装置,其特征在于,所述装置包括:数据处理模块,用于获取天然气用户的原始数据,对所述原始数据进行过滤,得到中间数据,并对所述中间数据进行清洗,得到有效数据;指标处理模块,用于确定所述有效数据中第一预设数量个指标数据,获取同一时段内各所述天然气用户的营业额,计算各所述指标数据与所述营业额的相关系数,并计算各所述相关系数的指标权重;用户分类模块,用于通过降维算法计算各所述指标数据之间的分布特征,并采用聚类算法根据所述分布特征对各所述天然气用户进行分类,得到第二预设数量个用户类型;评分计算模块,用于根据各所述指标权重计算各所述用户类型内各所述天然气用户的指标得分,根据各所述指标得分选出最佳用户与最差用户,并采用欧氏距离公式根据所述最佳用户与所述最差用户计算各所述天然气用户的评分。9.一种计算机设备,其特征在于,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现权利要求1-7中任一项所述的天然气用户评分方法的步骤。10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现权利要求1-7中任一项所述的天然气用户评分方法的步骤。

技术总结
本发明公开了一种天然气用户评分方法、装置、计算机设备及可读存储介质。该方法包括:获取天然气用户的原始数据,对原始数据进行过滤得到中间数据,对中间数据进行清洗得到有效数据;确定有效数据中第一预设数量个指标数据,获取各天然气用户的营业额,计算各指标数据与营业额的相关系数,计算各相关系数的指标权重;采用聚类算法对各天然气用户进行分类,得到第二预设数量个用户类型;根据各指标权重计算各用户类型内各天然气用户的指标得分,选出最佳用户与最差用户,采用欧氏距离公式根据最佳用户与最差用户计算各天然气用户的评分。本申请采用聚类算法,根据天然气用户数据的分布特征对用户进行分类,同时根据客户实际用气历史记录进行评分。史记录进行评分。史记录进行评分。


技术研发人员:袁露 王晨 宋亮 陈振宇
受保护的技术使用者:清华四川能源互联网研究院
技术研发日:2023.07.28
技术公布日:2023/10/19
版权声明

本文仅代表作者观点,不代表航家之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)

航空之家 https://www.aerohome.com.cn/

航空商城 https://mall.aerohome.com.cn/

航空资讯 https://news.aerohome.com.cn/

分享:

扫一扫在手机阅读、分享本文

评论

相关推荐