数据处理的方法、装置、电子设备和计算机可读介质与流程
未命名
09-22
阅读:110
评论:0
1.本技术涉及大数据技术领域,尤其涉及一种数据处理的方法、装置、电子设备和计算机可读介质。
背景技术:
2.互联网信息推荐系统中产生的用户行为数据,经过一系列的加工处理,可以反作用于推荐系统,为优化迭代排序模型与推荐策略提供数据支撑,进而提升推荐系统的推荐效果。用户行为数据中的图数据,用于以节点和边直观表达数据。由于数据量大、更新速度快、时效性强,图数据对推荐效果影响较大。
3.当前主要采取离线生产、离线存储的方式或者实时生产、内存存储的方式来处理图数据。然而,上述方式由于是以行或者列变相存储图数据,可能造成大量数据冗余和不必要的资源消耗,进而存在吞吐量低、延迟高的问题。
技术实现要素:
4.本技术实施例的目的是提供一种数据处理的方法、装置、电子设备和计算机可读介质,能够避免数据冗余和不必要的资源消耗,进而提高数据吞吐量、降低数据延迟。
5.为解决上述技术问题,本技术实施例是通过以下各方面实现的。
6.第一方面,本技术实施例提供了一种数据处理的方法,包括:根据获取到的用户行为数据,确定与图数据库结构匹配的第一数据,其中所述第一数据的结构包括用于表示用户信息的第一节点、用于表示物料信息的第二节点、以及用于表示用户对物料进行的交互行为的边;根据所述用户信息和所述物料信息,对预定时间内的第一数据进行聚合,得到第二数据,其中所述第二数据用于表示在预定时间内相同用户对相同物料进行的交互行为;将所述第二数据存储至所述图数据库。
7.第二方面,本技术实施例提供了一种数据处理的装置,包括:确定模块,用于根据获取到的用户行为数据,确定与图数据库结构匹配的第一数据,其中所述第一数据的结构包括用于表示用户信息的第一节点、用于表示物料信息的第二节点、以及用于表示用户对物料进行的交互行为的边;聚合模块,用于根据所述用户信息和所述物料信息,对预定时间内的第一数据进行聚合,得到第二数据,其中所述第二数据用于表示在预定时间内相同用户对相同物料进行的交互行为;存储模块,用于将所述第二数据存储至所述图数据库。
8.第三方面,本技术实施例提供了一种电子设备,包括:存储器、处理器和存储在所述存储器上并可在所述处理器上运行的计算机可执行指令,所述计算机可执行指令被所述处理器执行时实现上述第一方面所述的数据处理的方法。
9.第四方面,本技术实施例提供了一种计算机可读存储介质,所述计算机可读存储介质用于存储计算机可执行指令,所述计算机可执行指令被处理器执行时实现上述第一方面所述的数据处理的方法。
10.在本技术实施例中,通过根据获取到的用户行为数据,确定与图数据库结构匹配
的第一数据,其中所述第一数据的结构包括用于表示用户信息的第一节点、用于表示物料信息的第二节点、以及用于表示用户对物料进行的交互行为的边;根据所述用户信息和所述物料信息,对预定时间内的第一数据进行聚合,得到第二数据,其中所述第二数据用于表示在预定时间内相同用户对相同物料进行的交互行为;将所述第二数据存储至所述图数据库,相比原始用户行为数据,第二数据一方面能够满足图数据的结构特点,另一方面通过聚合减少了数据量,能够避免数据冗余和不必要的资源消耗,进而提高数据吞吐量、降低数据延迟。
附图说明
11.为了更清楚地说明本技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本技术中记载的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
12.图1示出本技术实施例提供的一种数据处理的方法的一种流程示意图;
13.图2示出本技术实施例提供的一种数据处理的方法的另一种流程示意图;
14.图3示出本技术实施例提供的一种数据处理的方法的另一种流程示意图;
15.图4示出本技术实施例提供的一种数据处理的装置的结构示意图;
16.图5为执行本技术实施例提供的一种数据处理的方法的电子设备的硬件结构示意图。
具体实施方式
17.为了使本技术领域的人员更好地理解本技术中的技术方案,下面将结合本技术实施例中的附图,对本技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本技术一部分实施例,而不是全部的实施例。基于本技术中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都应当属于本技术保护的范围。
18.图1示出本技术实施例提供的数据处理的方法的一种流程示意图,该方法可以由电子设备执行,例如终端设备或服务端设备。换言之,所述方法可以由安装在终端设备或服务端设备的软件或硬件来执行。所述服务端包括但不限于:单台服务器、服务器集群、云端服务器或云端服务器集群等。如图所示,该方法可以包括以下步骤。
19.步骤s110:根据获取到的用户行为数据,确定与图数据库结构匹配的第一数据。
20.用户行为数据用于指示用户与物料的交互行为,例如用户浏览物料、用户转发物料、用户接收物料推荐等。图数据库用于以图式存储用户行为数据,例如,以节点和边的形式存储用户行为数据。第一数据的结构与图数据库结构匹配,包括用于表示用户信息的第一节点、用于表示物料信息的第二节点、以及用于表示用户对物料进行的交互行为的边。。
21.可选的,用户行为数据通过数据格式映射,以形成统一格式的第一数据。
22.将用户行为数据映射为节点和边的格式,能够直观表达数据、节约节点信息的存储资源、方便后续数据处理。
23.步骤s120:根据所述用户信息和所述物料信息,对预定时间内的第一数据进行聚
合,得到第二数据。
24.所述第二数据用于表示各用户在在预定时间内相同用户对相同物料进行的交互行为。聚合用于将相同用户对相同物料的交互行为进行累加。例如,将第一数据《用户a点击物料a,用户a浏览物料a以及用户a转载物料a》,可以聚合为第二数据《用户a点击、浏览、转载物料a》。可以理解的是,在聚合过程中,第一数据的结构未发生改变,聚合得到的第二数据的结构与图数据库的结构匹配。预定时间可以为任意自定义的时间段,可选的,预定时间以时间窗口实现。一名用户可以在较短的时间间隔内完成对一条物料的多次用户行为,例如,1分钟内,用户可以完成对一条博文的点赞、转发、评论。可选的,可以通过时间窗口滑动,统计用户在固定时间内的用户行为数据。
25.可选的,通过流处理技术flink执行上述数据处理,包括数据格式转换以及数据聚合。
26.将用户固定时间段的多条行为数据通过聚合形成一条数据,能够减少数据量以及存储数据所需的资源消耗。
27.步骤s130:将所述第二数据存储至所述图数据库。
28.第二数据的结构与图数据库的结构匹配,具体的,第二数据的节点和节点属性、边及边属性均与图数据库匹配。将第二数据存入图数据库后,可以进行数据的增加、读取、更新、删除操作,以及进行数据的存储和检索操作。
29.在本技术实施例中,通过根据获取到的用户行为数据,确定与图数据库结构匹配的第一数据,其中所述第一数据的结构包括用于表示用户信息的第一节点、用于表示物料信息的第二节点、以及用于表示用户对物料进行的交互行为的边;根据所述用户信息和所述物料信息,对预定时间内的第一数据进行聚合,得到第二数据,其中所述第二数据用于表示在预定时间内相同用户对相同物料进行的交互行为;将所述第二数据存储至所述图数据库,相比原始用户行为数据,第二数据一方面能够满足图数据的结构特点,另一方面通过聚合减少了数据量,能够避免数据冗余和不必要的资源消耗,进而提高数据吞吐量、降低数据延迟。
30.图2示出本技术实施例提供的数据处理的方法的另一种流程示意图。如图所示,该方法可以包括以下步骤。
31.步骤s211:通过消息队列,获取用户行为数据。
32.可选的,通过开源流处理平台kafka消息队列获取实时用户数据,例如从存放原始信息的消息队列中获取数据。用户行为数据是实时获取,并进行对应处理、存储。相较于离线数据获取、存储的方式,能够降低数据延迟。
33.步骤s212:从获取到的用户行为数据中过滤掉脏数据,得到第一用户行为数据。
34.脏数据,也称坏数据,包括所述脏数据包括非法格式数据和异常字段数据。去除的数据还包括无需在图数据库进行存储的数据,例如无需进行存储的字段。具体的,以数据清洗的方式去除用户行为数据中的脏数据、坏数据,留下正确数据;在正确数据中查找存储所需的数据字段,即数据库需要存储的主要数据,并以统一格式整理数据。通过过滤(filter)算子执行过滤操以去除与所述图数据库结构不匹配的脏数据。由于去除了不能匹配的数据,能够进一步降低数据量,减少数据冗余。
35.步骤s213:对所述第一用户行为数据进行字段封装,得到与图数据库结构匹配的
graph query language,ngql)语句以创建点边。nebula的安装包括下载执行nebula安装包、使用脚本执行启动nebula服务、在客户端连接nebula graph、注册添加storage主机、进行增加、读取、更新、删除(create,read,update,delete,crud)操作,以快速使用nebula服务,并进行存储与检索操作。可以通过apache提供的有多种开发语言的客户端实现flink与nebula的连接。可以连接操作图数据库,操作语句则以nebulagraph使用的声明式图查询语言-ngql语句执行。nebula为分布式图数据库,可以通过集群的方式搭建服务,提高服务查询性能,面向固态硬盘存储数据,提高读存性能,实现读写平衡。
55.可选的,第二数据分批次存储至图数据库,例如,每一百条第二数据执行一次存储操作。基于flink实时分布式流处理引擎,实现了流处理数据与批处理数据的结合,保证数据处理的实时性。
56.基于nebula图数据库作为外部存储容器。以图数据结构存储数据,将行为数据分解为节点与边,相同节点数据存储一次,能够节约存储资源;有向边表示用户行为,能够更直观方便查询到行为数据。
57.在一种可能的实现方式中,通过应用程序编程接口fetch,获取所述图数据库的图空间中的已存储数据;在所述已存储数据对应的图数据库结构中不包括待存储的第二数据对应的目标第一节点的情况下,在所述图空间中创建与所述待存储的第二数据相对应的目标第一节点;在所述已存储数据对应的图数据库结构中不包括待存储的第二数据对应的目标第二节点的情况下,在所述图空间中创建与所述待存储的第二数据相对应的目标第二节点;在所述已存储数据对应的图数据库结构中不包括待存储的第二数据对应的目标边的情况下,在所述图空间中创建与所述待存储的第二数据相对应的目标边;基于创建的所述目标第一节点、所述目标第二节点和所述目标边,将待存储的第二数据添加至所述图空间。。
58.第二数据与数据库内容进行合并。具体的,通过fetch,获取图数据库所包含的对象,在图数据库未包含第二数据的全部对象的情况下,例如图数据库未包含第二数据的目标对象x,在图数据库新增该对象x。之后,将第二数据与数据库内容进行合并。可选的,按ngql语句格式整理为待插入ngql并执行。
59.以合并的方式进行数据存储,可以避免相同数据多次存储造成的数据冗余。而fetch操作,可以避免图数据库与第二数据结构不匹配的情形。可选的,数据聚合包括本地聚合和数据库聚合。本地聚合用于在某一时间范围内聚合用户的消息队列新行为数据,得到的数据用于表示各用户的物料行为。具体的,聚合操作用于按用户进行点聚合和边聚合。例如,确定的第二数据用于表示用户a在5分钟内浏览并点赞了博文a、浏览并转发了博文b以及浏览了博文c。本地聚合的目的是为了避免用户在某一时间范围内进行多次点击行为而造成同一数据插入多次。数据库聚合用于将行为数据以及点数据与数据库内容合并,防止数据库中存在而新数据没有的字段数据信息经过插入操作而覆盖掉,导致旧数据丢失。
60.在本技术实施例中,通过去除与数据库结构不匹配的脏数据,以及将用户在预定时间内对多条物料的多次行为聚合为一条数据,能够减少数据存储量和数据处理所需的资源消耗,进而提升数据吞吐量、降低数据时延。
61.在一种可能的实现方式中,一种数据处理的方法还包括:
62.获取所述第一数据和所述第二数据对应的监控指标,所述监控指标包括数据吞吐量、数据延迟量、数据查询耗时、数据写入耗时、数据读写成功状态中的至少一个;展示所述
监控指标。。
63.flink技术内含的测量(metric)组件可以用于在任务运行过程中,监控项目运行状态,具体的,可以监控数据吞吐量、数据延迟量、各算子数据状态、nebula查询写入耗时、nebula数据读写成功状态等。可以通过本方法获取并在监控告警可视化平台中展示上述监控数据。可选的,监控数据的获取是通过测量组(metric group)以及基础算术运算填充指标,测量上报器上传指标数据以上传监控数据,以时间序列数据库(influxdb)作为存储容器存储指标数据,以可视化监控工具(grafana)展示监控数据。监控方案具有高度可扩展性,支持添加新监控指标项。
64.使用flink自带的metric组件,监控项目任务运行状态,能够及时发现数据处理过程中的问题,并及时报警,避免不必要的数据损失。
65.图3示出本技术实施例提供的数据处理的方法的另一种流程示意图。如图所示,可选的,通过kafka消息队列实时获取用户行为源数据,整理源数据,将源数据映射为统一格式;利用filter算子进行数据过滤,去除数据中的非法格式数据以及异常字段;提取过滤后数据中的全部重要字段,将提取的字段封装为新数据对象,新数据对象与图格式匹配,即包含双节点与有向边,新数据对象用于表示与物料相关的用户行为,例如,用户点击博文物料、用户转发博文物料等。压缩新数据对象至二进制,通过map算子将该二进制数据传输至消息队列系统。
66.对消息队列传送的二进制数据进行解析。flink算子可让不同数据流产生联系,使其成为上下游关系,常用算子操作为map、flatmap、filter、keyby等。具体的,利用filter算子过滤无用数据。利用flatmap算子将对象元素平摊拆解,可选的,将一个对象拆解过多个对象元素,例如将对象拆解为节点与边多个对象元素。利用keyby算子进行聚合操作,可选的以hash散列值为key,对元素进行分区,不同区可隔离处理。可以通过窗口滑动,在固定时间内统计累加数据。具体的,在聚合操作中,对上游数据按点边聚合,分区执行操作,按“与”操作在时间窗口内对属性数据进行累加整合,并在窗口结束后将数据传递至下一数据游中。
67.数据解析后,将统计后的新数据传入下游、进行批次处理。每批数据与数据库内容执行合并,以将处理好的数据对象存储至对应图数据库。
68.上述方法利用了flink实时流处理技术具有高吞吐、低延迟的优点,数据仅在消息队列消费一次,极大的改善了以前大数据处理技术的问题,减少了资源消耗,克服了相关技术高延迟的问题。
69.图4示出本技术实施例提供的数据处理的装置的结构示意图,该装置400包括:确定模块410、聚合模块420和存储模块430。
70.确定模块410,用于根据获取到的用户行为数据,确定与图数据库结构匹配的第一数据,其中所述第一数据的结构包括用于表示用户信息的第一节点、用于表示物料信息的第二节点、以及用于表示用户对物料进行的交互行为的边;聚合模块420,用于根据所述用户信息和所述物料信息,对预定时间内的第一数据进行聚合,得到第二数据,其中所述第二数据用于表示在预定时间内相同用户对相同物料进行的交互行为;存储模块430,将所述第二数据存储至所述图数据库。
71.在一种可能的实现方式中,聚合模块420具体用于确定所述预定时间内的第一数
据中的待聚合数据,所述待聚合数据包括所述预定时间内的第一数据中具有相同用户和相同物料的数据;根据所述待聚合数据,确定对应的第二数据,其中,所述第二数据的结构包括用于表示所述相同用户的用户信息的目标第一节点、用于表示所述相同物料的物料信息的目标第二节点、以及用于表示所述相同用户对所述相同物料进行的多个交互行为的目标边。
72.在一种可能的实现方式中,数据处理的装置还包括创建模块,用于在所述图数据库中,创建用于存储第二数据的图空间,其中,所述图空间中的节点用于表示与已存储数据对应的用户信息或物料信息,所述图空间中的边用于表示与已存储数据对应的用户对物料的交互行为,所述图空间中的节点和边形成已存储数据对应的图数据库结构。
73.在一种可能的实现方式中,存储模块430具体用于通过应用程序编程接口fetch,获取所述图数据库的图空间中的已存储数据;在所述已存储数据对应的图数据库结构中不包括待存储的第二数据对应的目标第一节点的情况下,在所述图空间中创建与所述待存储的第二数据相对应的目标第一节点;在所述已存储数据对应的图数据库结构中不包括待存储的第二数据对应的目标第二节点的情况下,在所述图空间中创建与所述待存储的第二数据相对应的目标第二节点;在所述已存储数据对应的图数据库结构中不包括待存储的第二数据对应的目标边的情况下,在所述图空间中创建与所述待存储的第二数据相对应的目标边;基于创建的所述目标第一节点、所述目标第二节点和所述目标边,将待存储的第二数据添加至所述图空间
74.在一种可能的实现方式中,确定模块410具体用于通过消息队列,获取用户行为数据;从获取到的用户行为数据中过滤掉脏数据,得到第一用户行为数据,所述脏数据包括非法格式数据和异常字段数据;对所述第一用户行为数据进行字段封装,得到与图数据库结构匹配的第一数据。
75.在一种可能的实现方式中,数据处理的装置还包括监控模块,所述监控模块用于获取所述第一数据和所述第二数据对应的监控指标,所述监控指标包括数据吞吐量、数据延迟量、数据查询耗时、数据写入耗时、数据读写成功状态中的至少一个;展示所述监控指标。
76.本技术实施例提供的该装置400,可执行前文方法实施例中所述的各方法,并实现前文方法实施例中所述的各方法的功能和有益效果,在此不再赘述。
77.图5示出执行本技术实施例提供的一种物料处理的方法的电子设备的硬件结构示意图,参考该图,在硬件层面,电子设备包括处理器510,可选地,包括内部总线520、网络接口530、存储器。其中,存储器可能包含内存540,例如高速随机存取存储器(random-access memory,ram),也可能还包括非易失性存储器(non-volatile memory)550,例如至少1个磁盘存储器等。当然,该电子设备还可能包括其他业务所需要的硬件。
78.处理器510、网络接口530和存储器可以通过内部总线520相互连接,该内部总线可以是工业标准体系结构(industry standard architecture,isa)总线、外设部件互连标准(peripheral component interconnect,pci)总线或扩展工业标准结构(extended industry standard architecture,eisa)总线等。所述总线可以分为地址总线、数据总线、控制总线等。为便于表示,该图中仅用一个双向箭头表示,但并不表示仅有一根总线或一种类型的总线。
79.存储器,用于存放程序。具体地,程序可以包括程序代码,所述程序代码包括计算机操作指令。存储器可以包括内存540和非易失性存储器550,并向处理器510提供指令和数据。
80.处理器510从非易失性存储器550中读取对应的计算机程序到内存540中然后运行,在逻辑层面上形成定位目标用户的装置。处理器510,执行存储器所存放的程序,并具体用于执行图1至图3实施例所述的方法,并实现相同或相应的技术效果。
81.上述如本技术图1至图3所示实施例揭示的方法可以应用于处理器中,或者由处理器510实现。处理器510可能是一种集成电路芯片,具有信号的处理能力。在实现过程中,上述方法的各步骤可以通过处理器510中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器510可以是通用处理器,包括中央处理器(central processing unit,cpu)、网络处理器(network processor,np)等;还可以是数字信号处理器(digital signal processor,dsp)、专用集成电路(application specific integrated circuit,asic)、现场可编程门阵列(field-programmable gate array,fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本技术实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本技术实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器,闪存、只读存储器,可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器,处理器510读取存储器中的信息,结合其硬件完成上述方法的步骤。
82.该电子设备还可执行前文方法实施例中所述的各方法,并实现前文方法实施例中所述的各方法的功能和有益效果,在此不再赘述。
83.当然,除了软件实现方式之外,本技术的电子设备并不排除其他实现方式,比如逻辑器件抑或软硬件结合的方式等等,也就是说以下处理流程的执行主体并不限定于各个逻辑单元,也可以是硬件或逻辑器件。
84.本技术实施例还提出了一种计算机可读存储介质,所述计算机可读介质存储一个或多个程序,所述一个或多个程序当被包括多个应用程序的电子设备执行时,使得所述电子设备执行图1至图3实施例所述的方法,并实现相同或相应的技术效果。
85.其中,所述的计算机可读存储介质包括只读存储器(read-only memory,简称rom)、随机存取存储器(random access memory,简称ram)、磁碟或者光盘等。
86.进一步地,本技术实施例还提供了一种计算机程序产品,所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机执行时,实现前文方法实施例中所述的各方法。
87.总之,以上所述仅为本技术的较佳实施例,并非用于限定本技术的保护范围。凡在本技术的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本技术的保护范围之内。
88.上述实施例阐明的系统、装置、模块或单元,具体可以由计算机芯片或实体实现,或者由具有某种功能的产品来实现。一种典型的实现设备为计算机。具体的,计算机例如可以为个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放
器、导航设备、电子邮件设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任何设备的组合。
89.计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(pram)、静态随机存取存储器(sram)、动态随机存取存储器(dram)、其他类型的随机存取存储器(ram)、只读存储器(rom)、电可擦除可编程只读存储器(eeprom)、快闪记忆体或其他内存技术、只读光盘只读存储器(cd-rom)、数字多功能光盘(dvd)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
90.还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个
……”
限定的要素,并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。
91.本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于系统实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
技术特征:
1.一种数据处理的方法,其特征在于,包括:根据获取到的用户行为数据,确定与图数据库结构匹配的第一数据,其中所述第一数据的结构包括用于表示用户信息的第一节点、用于表示物料信息的第二节点、以及用于表示用户对物料进行的交互行为的边;根据所述用户信息和所述物料信息,对预定时间内的第一数据进行聚合,得到第二数据,其中所述第二数据用于表示在预定时间内相同用户对相同物料进行的交互行为;将所述第二数据存储至所述图数据库。2.根据权利要求1所述的方法,其中,所述根据所述用户信息和所述物料信息,对预定时间内的第一数据进行聚合包括:确定所述预定时间内的第一数据中的待聚合数据,所述待聚合数据包括所述预定时间内的第一数据中具有相同用户和相同物料的数据;根据所述待聚合数据,确定对应的第二数据,其中,所述第二数据的结构包括用于表示所述相同用户的用户信息的目标第一节点、用于表示所述相同物料的物料信息的目标第二节点、以及用于表示所述相同用户对所述相同物料进行的多个交互行为的目标边。3.根据权利要求1所述的方法,其中,在所述将所述第二数据存储至所述图数据库之前,还包括:在所述图数据库中,创建用于存储第二数据的图空间,其中,所述图空间中的节点用于表示与存储于图空间中的数据对应的用户信息或物料信息,所述图空间中的边用于表示与所述数据对应的用户对物料的交互行为,所述图空间中的节点和边形成所述数据对应的图数据库结构。4.根据权利要求2所述的方法,其中,所述将所述第二数据存储至所述图数据库,包括:通过应用程序编程接口fetch,获取所述图数据库的图空间中的已存储数据;在所述已存储数据对应的图数据库结构中不包括待存储的第二数据对应的目标第一节点的情况下,在所述图空间中创建与所述待存储的第二数据相对应的目标第一节点;在所述已存储数据对应的图数据库结构中不包括待存储的第二数据对应的目标第二节点的情况下,在所述图空间中创建与所述待存储的第二数据相对应的目标第二节点;在所述已存储数据对应的图数据库结构中不包括待存储的第二数据对应的目标边的情况下,在所述图空间中创建与所述待存储的第二数据相对应的目标边;基于创建的所述目标第一节点、所述目标第二节点和所述目标边,将待存储的第二数据添加至所述图空间。5.根据权利要求1所述的方法,其中,所述根据获取到的用户行为数据,确定与图数据库结构匹配的第一数据包括:通过消息队列,获取用户行为数据;从获取到的用户行为数据中过滤掉脏数据,得到第一用户行为数据,所述脏数据包括非法格式数据和异常字段数据;对所述第一用户行为数据进行字段封装,得到与图数据库结构匹配的第一数据。6.根据权利要求1所述的方法,其中,在获取所述第二数据之后,还包括:获取所述第一数据和所述第二数据对应的监控指标,所述监控指标包括数据吞吐量、数据延迟量、数据查询耗时、数据写入耗时、数据读写成功状态中的至少一个;
展示所述监控指标。7.一种数据处理的装置,其特征在于,包括:确定模块,用于根据获取到的用户行为数据,确定与图数据库结构匹配的第一数据,其中所述第一数据的结构包括用于表示用户信息的第一节点、用于表示物料信息的第二节点、以及用于表示用户对物料进行的交互行为的边;聚合模块,用于根据所述用户信息和所述物料信息,对预定时间内的第一数据进行聚合,得到第二数据,其中所述第二数据用于表示在预定时间内相同用户对相同物料进行的交互行为;存储模块,用于将所述第二数据存储至所述图数据库。8.根据权利要求7所述的装置,其特征在于,所述聚合模块,具体用于:确定所述预定时间内的第一数据中的待聚合数据,所述待聚合数据包括所述预定时间内的第一数据中具有相同用户和相同物料的数据;根据所述待聚合数据,确定对应的第二数据,其中,所述第二数据的结构包括用于表示所述相同用户的用户信息的目标第一节点、用于表示所述相同物料的物料信息的目标第二节点、以及用于表示所述相同用户对所述相同物料进行的多个交互行为的目标边。9.一种电子设备,包括:处理器;以及被安排成存储计算机可执行指令的存储器,所述可执行指令在被执行时使用所述处理器执行权利要求1-6中任一项所述的数据处理的方法。10.一种计算机可读介质,所述计算机可读介质存储一个或多个程序,所述一个或多个程序当被包括多个应用程序的电子设备执行时,使得所述电子设备执行以下权利要求1-6中任一项所述的数据处理的方法。
技术总结
本申请实施例提供了一种数据处理的方法、装置、电子设备和计算机可读介质,涉及大数据技术领域。所述数据处理的方法包括:根据获取到的用户行为数据,确定与图数据库结构匹配的第一数据,其中所述第一数据的结构包括用于表示用户信息的第一节点、用于表示物料信息的第二节点、以及用于表示用户对物料进行的交互行为的边;根据所述用户信息和所述物料信息,对预定时间内的第一数据进行聚合,得到第二数据,其中所述第二数据用于表示在预定时间内相同用户对相同物料进行的交互行为;将所述第二数据存储至所述图数据库。数据存储至所述图数据库。数据存储至所述图数据库。
技术研发人员:段宇蓉 任玉建 高家华
受保护的技术使用者:微梦创科网络科技(中国)有限公司
技术研发日:2023.06.08
技术公布日:2023/9/20
版权声明
本文仅代表作者观点,不代表航家之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)
航空之家 https://www.aerohome.com.cn/
航空商城 https://mall.aerohome.com.cn/
航空资讯 https://news.aerohome.com.cn/