一种手机数据深度提取方法、装置及电子设备与流程
未命名
10-21
阅读:78
评论:0
1.本技术涉及信息安全的技术领域,具体涉及一种手机数据深度提取方法、装置及电子设备。
背景技术:
2.随着科技的发展,手机已逐渐成为人们生活及其工作的一部分。同样手机也给一些不合法的行为带来了通信上的便利,目标用户将手机作为不合法行为的工具,利用手机与其它用户进行通信从而实施预定行为。因此,相关人员在获取到取证权限的情况下,通过进行手机取证可以为案件侦破提供电子证据,并辅助搜集重要线索。
3.在对移动终端进行数据提取时,在提取出移动终端内部存储的目标用户的相关数据,例如短信、通讯录以及应用程序运行数据等。还需要对相关数据进行进一步分析,例如分析目标用户的通信数据与定位数据之间的关联性,进而从大量的相关数据中提取出更具价值的数据,从而完成数据的深度提取。
4.目前,在提取出目标用户的移动终端的相关数据后,需要相关人员凭借个人经验对数据进行分析,从而完成数据的深度提取,这一过程需要花费较长时间。因此,需要一种方法提高数据深度提取的效率。
技术实现要素:
5.本技术提供一种手机数据深度提取方法、装置及电子设备,具有提高数据深度提取的效率的效果。
6.在本技术的第一方面提供了一种手机数据深度提取方法,所述方法应用于服务器,包括:获取多个终端取证数据;确定第一数据的出现频次,所述第一数据为多个所述终端取证数据中的任意一个终端取证数据;判断所述出现频次是否大于预设出现频次,若确定所述出现频次大于所述预设出现频次,则通过预设的数据深度提取模型,分析所述第一数据与第二数据之间的关联性,所述第二数据为多个所述终端取证数据中除所述第一数据外的任意一个终端取证数据;判断所述第一数据与所述第二数据之间的关联性是否满足预设标准,若所述第一数据与所述第二数据之间的关联性满足所述预设标准,则输出所述第一数据,并对所述第一数据与所述第二数据之间的关联性进行可视化展示。
7.通过采用上述技术方案,服务器获取多个终端取证数据后,对多个终端取证数据进行并行处理,计算多个终端取证数据的出现频次。当其中任意一个第一数据的出现频次大于预设出现频次时,再通过预设的数据深度提取模型分析第一数据与其它数据的关联性,将聚焦在出现频次较高的数据上,而减少模型分析的计算量。最后,判断第一数据与第二数据之间的关联性满足预设标准后,服务器对第一数据与第二数据之间的关联性进行可
视化展示,可以直观地呈现数据之间的关系。通过自动化的处理方式,能够快速找到出现频次较高的有价值的终端取证数据,并分析该数据与其它数据的关联性,无需人工手动筛查,从而实现提高数据深度提取的效率的效果。
8.可选的,所述若确定所述出现频次大于所述预设出现频次,则通过预设的数据深度提取模型,分析所述第一数据与第二数据之间的关联性,具体包括:将所述第一数据和所述第二数据输入至训练完成的所述数据深度提取模型;获取所述数据深度提取模型对所述第一数据的第一数据类型的判断结果,以及对所述第二数据的第二数据类型的判断结果;根据所述第一数据类型,提取出所述第一数据的多个第一详细信息,形成第一数据集;根据所述第二数据类型,提取出所述第二数据的多个第二详细信息,形成第二数据集;将所述第一数据集和所述第二数据集输入至所述数据深度提取模型,获取所述数据深度提取模型分析的任意一个所述第一详细信息与任意一个所述第二详细信息之间的信息相关度;根据多个所述信息相关度,确定所述第一数据集与所述第二数据集之间的数据相关度,得到所述第一数据与所述第二数据之间的关联性。
9.通过采用上述技术方案,通过数据深度提取模型分析多个第一详细信息与多个第二详细信息之间的信息相关度,第一详细信息为第一数据的关联信息,第二详细信息为第二数据的关联信息。因此通过分析多个第一详细信息与多个第二详细信息之间的信息相关度,进而计算第一数据集与第二数据集的数据相关度,能够有效反映第一数据与第二数据的关联性。
10.可选的,获取所述数据深度提取模型分析的任意一个所述第一详细信息与任意一个所述第二详细信息之间的信息相关度;任意一个所述第一详细信息与任意一个所述第二详细信息之间相关度的分析方法,具体包括:确定第一目标信息与第二目标信息在目标维度上的目标相关度,所述第一目标信息为多个所述第一详细信息中的任意一个第一详细信息,所述第二目标信息为多个所述第二详细信息中的任意一个第二详细信息,所述目标维度为多个比对维度中的任意一个比对维度,多个所述比对维度包括时间维度、空间维度、属性维度以及行为维度;根据目标维度获取所述目标相关度的目标权重值;基于多个所述目标相关度,以及多个所述目标权重值,确定所述信息相关度。
11.通过采用上述技术方案,采用了多个比对维度,包括时间维度、空间维度、属性维度以及行为维度。通过对多个维度的数据进行分析,能够全面地探索第一详细信息与第二详细信息之间的相关性,而不仅仅局限于单一维度的分析。综合考虑多个维度的情况下,对信息相关度进行细致的计算和评估。通过合理设置目标权重值,可以使得相关性分析更符合实际需求,并能够快速而准确地确定第一详细信息与第二详细信息之间的信息相关度。
12.可选的,所述获取多个终端取证数据,具体包括:获取与移动终端接入同一局域网的信息,建立与所述移动终端的通信连接;获取所述移动终端发送的访问请求;
根据所述访问请求,发送预设通信地址至所述移动终端;获取所述移动终端根据所述通信地址,发送的资源获取请求;根据所述资源获取请求,发送数据提取程序的数据至所述移动终端;接收所述数据提取程序发送的所述终端取证数据。
13.通过采用上述技术方案,服务器和移动终端之间通过局域网进行通信连接,跟有线连接的方式相比,更加便捷快速。服务器通过获取访问请求将预设的通信地址发送给移动终端,然后接收移动终端的资源获取请求,使移动终端下载安装数据提取程序。通过数据提取程序自动进行数据提取,降低了对相关人员的专业要求,同时能够快速完成终端取证数据的提取。
14.可选的,所述判断所述第一数据与所述第二数据之间的关联性是否满足预设标准,具体包括:根据所述第一数据类型,获取所述第一数据类型对应的预设相关度阈值;根据对所述数据相关度是否大于或等于所述预设相关度阈值的判断结果,确定所述第一数据与所述第二数据之间的关联性是否满足预设标准。
15.通过采用上述技术方案,通过根据所述第一数据类型获取对应的预设相关度阈值,实现了对关联性判断标准的自适应性。不同类型的数据可能具有不同的关联性特征,因此设置不同的预设相关度阈值可以更加准确地判断关联性是否满足预设标准。
16.可选的,在所述将所述第一数据和所述第二数据输入至训练完成的所述数据深度提取模型之前,所述方法还包括:输入第一样本数据和第二样本数据至构建完成的所述数据深度提取模型中,所述第一样本数据和所述第二样本数据为多个预设终端取证数据中的任意两个预设终端取证数据;获取所述数据深度提取模型计算的所述第一样本数据与所述第二样本数据的样本数据相关度;获取用户输入的针对所述样本数据相关度的判定结果;输入所述判定结果至所述数据深度提取模型。
17.通过采用上述技术方案,在数据深度提取模型中输入第一样本数据和第二样本数据,计算样本数据之间的相关度。这样可以通过模型的学习和计算,得到样本数据之间的关联性评估,为关联性判断提供依据。在获取了模型计算的样本数据相关度后,用户可以根据自己的专业知识和判断,输入针对样本数据相关度的判定结果。这样用户可以主动参与到关联性判断过程中,确保判断结果更符合实际需求。
18.可选的,所述对所述第一数据与所述第二数据之间的关联性进行可视化展示,具体包括:获取所述第一目标信息与所述第二目标信息在所述目标维度上的所述目标相关度;对所述目标相关度的数值进行展示;获取所述第一目标信息与所述第二目标信息在所述目标维度上的关联内容;对所述关联内容进行展示。
19.通过采用上述技术方案,通过获取第一目标信息与第二目标信息在目标维度上的
目标相关度,将相关度的数值进行展示。这样可以直观地了解第一数据与第二数据在不同维度上的关联程度,为用户提供了关联性的定量参考。除了展示目标相关度的数值,还可以获取第一目标信息与第二目标信息在目标维度上的具体关联内容,并进行展示。这样用户可以直接了解数据之间的关联细节。
20.在本技术的第二方面提供了一种手机数据深度提取装置,所述装置为服务器,包括获取模块、计算模块、判断模块以及展示模块,其中:所述获取模块,用于获取多个终端取证数据;所述计算模块,用于确定第一数据的出现频次,所述第一数据为多个所述终端取证数据中的任意一个终端取证数据;所述判断模块,用于判断所述出现频次是否大于预设出现频次,若确定所述出现频次大于所述预设出现频次,则通过预设的数据深度提取模型,分析所述第一数据与第二数据之间的关联性,所述第二数据为多个所述终端取证数据中除所述第一数据外的任意一个终端取证数据;所述展示模块,用于判断所述第一数据与所述第二数据之间的关联性是否满足预设标准,若所述第一数据与所述第二数据之间的关联性满足所述预设标准,则输出所述第一数据,并对所述第一数据与所述第二数据之间的关联性进行可视化展示。
21.在本技术的第三方面提供了一种电子设备,包括处理器、存储器、用户接口以及网络接口,所述存储器用于存储指令,所述用户接口和所述网络接口均用于与其他设备通信,所述处理器用于执行所述存储器中存储的指令,以使所述电子设备执行如上述任意一项所述的方法。
22.在本技术的第四方面提供了一种计算机可读存储介质,所述计算机可读存储介质存储有指令,当所述指令被执行时,执行如上述任意一项所述的方法。
23.综上所述,本技术实施例中提供的一个或多个技术方案,至少具有如下技术效果或优点:1.服务器获取多个终端取证数据后,对多个终端取证数据进行并行处理,计算多个终端取证数据的出现频次。当其中任意一个第一数据的出现频次大于预设出现频次时,再通过预设的数据深度提取模型分析第一数据与其它数据的关联性,将聚焦在出现频次较高的数据上,而减少模型分析的计算量。最后,判断第一数据与第二数据之间的关联性满足预设标准后,服务器对第一数据与第二数据之间的关联性进行可视化展示,可以直观地呈现数据之间的关系。通过自动化的处理方式,能够快速找到出现频次较高的有价值的终端取证数据,并分析该数据与其它数据的关联性,无需人工手动筛查,从而实现提高数据深度提取的效率的效果。
24.2. 通过数据深度提取模型分析多个第一详细信息与多个第二详细信息之间的信息相关度,第一详细信息为第一数据的关联信息,第二详细信息为第二数据的关联信息。因此通过分析多个第一详细信息与多个第二详细信息之间的信息相关度,进而计算第一数据集与第二数据集的数据相关度,能够有效反映第一数据与第二数据的关联性。
25.3.采用了多个比对维度,包括时间维度、空间维度、属性维度以及行为维度。通过对多个维度的数据进行分析,能够全面地探索第一详细信息与第二详细信息之间的相关性,而不仅仅局限于单一维度的分析。综合考虑多个维度的情况下,对信息相关度进行细致
的计算和评估。通过合理设置目标权重值,可以使得相关性分析更符合实际需求,并能够快速而准确地确定第一详细信息与第二详细信息之间的信息相关度。
附图说明
26.图1是本技术实施例公开的一种手机数据深度提取方法的流程示意图;图2是本技术实施例公开的一种手机数据展示方法的示意图;图3是本技术实施例公开的一种手机数据深度提取装置的结构示意图;图4是本技术实施例公开的一种电子设备的结构示意图。
27.附图标记说明:301、获取模块;302、计算模块;303、判断模块;304、展示模块;401、处理器;402、通信总线;403、用户接口;404、网络接口;405、存储器。
具体实施方式
28.为了使本领域的技术人员更好地理解本说明书中的技术方案,下面将结合本说明书实施例中的附图,对本说明书实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本技术一部分实施例,而不是全部的实施例。
29.在本技术实施例的描述中,“例如”或者“举例来说”等词用于表示作例子、例证或说明。本技术实施例中被描述为“例如”或者“举例来说”的任何实施例或设计方案不应被解释为比其他实施例或设计方案更优选或更具优势。确切而言,使用“例如”或者“举例来说”等词旨在以具体方式呈现相关概念。
30.在本技术实施例的描述中,术语“多个”的含义是指两个或两个以上。例如,多个系统是指两个或两个以上的系统,多个屏幕终端是指两个或两个以上的屏幕终端。此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。术语“包括”、“包含”、“具有”及它们的变形都意味着“包括但不限于”,除非是以其他方式另外特别强调。
31.随着科技的发展,手机已逐渐成为人们生活及其工作的一部分。同样手机也给一些不合法的行为带来了通信上的便利,目标用户将手机作为不合法行为的工具,利用手机与其它用户进行通信从而实施预定行为。因此,相关人员相关人员在获取到取证权限的情况下,例如警方在进行刑事调查时,对嫌疑人或证人的手机进行取证时,通过进行手机取证可以为案件侦破提供电子证据,并辅助搜集重要线索。或者在民事诉讼案件中,当手机中的信息和数据与案件有关时,律师或法院可以要求进行手机取证,进行收集证据。以及个人或企业也可能需要对手机进行取证,以尝试得到部分重要的数据或文件。
32.在对移动终端进行数据提取时,在提取出移动终端内部存储的目标用户的相关数据,例如短信、通讯录以及应用程序运行数据等。还需要对相关数据进行进一步分析,例如分析目标用户的通信数据与定位数据之间的关联性,进而从大量的相关数据中提取出更具价值的数据,从而完成数据的深度提取。
33.目前,在提取出目标用户的移动终端的相关数据后,需要相关人员凭借个人经验对数据进行分析从而完成数据的深度提取,这一过程需要花费较长时间。因此,需要一种方法提高数据深度提取的效率。
34.本实施例公开了一种手机数据深度提取方法,参照图1,包括如下步骤s110-s140:s110,获取多个终端取证数据。
35.本技术实施例公开的一种手机数据深度提取方法应用于服务器,服务器包括但不限于诸如手机、平板电脑、可穿戴设备、pc(personal computer,个人计算机)等电子设备,也可以是运行一种手机数据深度提取方法的后台服务器。服务器可以用独立的服务器或者是多个服务器组成的服务器集群来实现。
36.手机取证是指在法律和法医领域中使用特定的技术和方法,从手机或移动设备中获取电子证据的过程。手机取证是数字取证的一部分,专门用于手机和其他移动设备的取证。在手机取证过程中,使用各种工具和技术来收集、分析和保护手机中的数据,以用作法律调查、刑事诉讼或其他法律程序的证据。这些数据可以包括短信、通话记录、联系人信息、照片、视频、应用程序数据等。终端取证数据即通过手机取证从移动终端的内存中提取出的数据,移动终端为搭载安卓系统的手机,且具有无线调试功能,并已在开发者选项中启用,能够进入无线调试模式下的手机。
37.首先需要将目标用户的移动终端连入预设的局域网中,具体可以通过在服务器安装adb(android debug bridge)工具,然后将移动终端通过usb数据线连接服务器。由于移动终端已连接并启用了usb调试功能,服务器通过adb工具识别移动终端的设备序列号并连接移动终端。接着服务器获取移动终端已连接的无线局域网信息,通过在服务器输入如下指令实现:“adb shell dumpsys wifi | grep ssid”。该指令为adb指令,用于在连接到安卓设备的情况下查看设备当前连接的网络的ssid。其中,“adb”是用于与移动终端通信的命令行工具,允许您在服务器上执行各种与移动终端交互的操作。“shell”是adb命令的一个子命令,用于在服务器的shell环境中执行命令。“dumpsys wifi”是在服务器的shell环境中执行的另一个命令,它用于检索与wi-fi连接相关的信息。“|”是一个管道符号,用于将前面的命令的输出作为后面命令的输入。“grep”是一个用于文本搜索的工具,后面跟着的"ssid"是一个搜索关键字。“grep ssid”将在“dumpsys wifi”的输出中搜索包含“ssid”关键字的行,并将结果输出展示。
38.接下来通过在服务器输入如下指令:“adb shell am broadcast
ꢀ‑
a com.android.settings.wifi.action.connect
ꢀ‑
e ssid
ꢀ‘
abc
’ꢀ‑
e password
ꢀ‘
xyz
’”
,以使移送终端连接预设的局域网中。其中,“am broadcast”是在服务器的shell环境中执行的另一个adb命令,用于向移动终端发送广播。“a com.android.settings.wifi.action.connect”中,“a”表示要发送的广播的动作或动作名称,在这里,服务器发送一个名为“com.android.settings.wifi.action.connect”的广播,这是一个用于连接wi-fi网络的动作。
“‑
e ssid
ꢀ‘
abc
’”
中,
“‑
e”表示在广播中传递一个额外的数据项。在这里,服务器传递了一个名为ssid的数据项,并将它的值设置为
‘
abc’,
‘
abc’为预设局域网的ssid。
“‑
e password
ꢀ‘
xyz
’”
,同样,服务器传递了一个名为password的数据项,并将它的值设置为
‘
xyz’,这是预设局域网的无线密码,如果预设局域网未设置无线密码也可以不用输入该数据项。
39.基于上述步骤,移动终端会尝试连接预设局域网,如果网络信息正确且移动终端位于网络范围内,应该会自动连接成功预设局域网。
40.移动终端连接预设局域网后,服务器通过连接预设局域网与移动终端建立通信连接,服务器并为移动终端分配一个ip地址,即通信地址。移动终端发送向dns服务器发送访
问请求,以获取特定域名的ip地址或其他与域名相关的信息。服务器劫持访问请求,并返回分配好的ip地址至移动终端。移动终端再根据ip地址,发送资源获取请求,即http请求。服务器接收资源获取请求后,发送数据提取程序至移动终端。移动终端接收数据提取程序后,安装并启动数据提取程序,数据提取程序进行终端取证数据提取,提取后发送终端取证数据至服务器。
41.服务器和移动终端之间通过局域网进行通信连接,跟有线连接的方式相比,更加便捷快速。服务器通过获取访问请求将预设的通信地址发送给移动终端,然后接收移动终端的资源获取请求,使移动终端下载安装数据提取程序。通过数据提取程序自动进行数据提取,降低了对相关人员的专业要求,同时能够快速完成终端取证数据的提取。
42.s120,确定第一数据的出现频次。
43.服务器接收到移动终端的多个终端取证数据后,对终端取证数据进行预处理,包括数据清洗和格式统一化,确保所有数据都按照相同的标准进行记录,便于后续准确计算出现频次。判断任意一个数据是否重复出现过,该数据可以是通讯记录数据,也可以是定位数据,还可以是程序运行数据。当任意一个终端取证数据,即第一数据多次出现,服务器记录第一数据的出现频次。
44.s130,判断出现频次是否大于预设出现频次,若确定出现频次大于预设出现频次,则通过预设的数据深度提取模型,分析第一数据与第二数据之间的关联性。
45.服务器将第一数据的出现频次与预设出现频次进行比对,判断出现频次是否大于预设出现频次,其中,不同实施例中预设出现频次可根据实际情况调整,本实施例不做具体限定。当第一数据的出现频次大于预设出现频次,表明第一数据的出现次数较高,则服务器从数据集中分离出第一数据和第二数据,其中第二数据为多个终端取证数据中的任意一个终端取证数据。接着服务器将第一数据和第二数据输入至训练完成的数据深度提取模型,以分析第一数据与第二数据之间的关联性。在此之前,需要构建并训练数据深度提取模型,具体步骤如下:首先收集并准备用于训练和验证的多个样本数据,确保数据集具有足够的样本量和代表性,包含第一样本数据和第二样本数据。第一样本数据和第二样本数据为多个预设终端取证数据中的任意两个预设终端取证数据。通过提前模拟目标用户的移动终端可能的状态,例如可能安装并使用的应用程序,可能进行的通话。从模拟的移动终端中提取出的数据即预设终端取证数据。
46.接着进行特征提取,从第一样本数据和第二样本数据中提取适当的特征用于建模。特征提取的目标是将原始数据转换为计算机可以处理的数字向量形式。常用的特征提取方法包括文本特征提取、图像特征提取等,取决于具体样本数据的类型。同时将第一样本数据和第二样本数据均划分成训练集和验证集,训练集用于构建模型,验证集用于评估模型的性能。
47.然后,根据不同任务的特点和样本数据的类型,选择适合的模型类型,包括前馈神经网络(feedforward neural network)、卷积神经网络(convolutional neural network)、循环神经网络(recurrent neural network)、变换器(transformer)等,不同的模型类型适用于不同的数据类型和任务。再确定输入层,根据样本数据的特点,确定输入层的节点数,输入层的节点数应该与特征的维度相匹配,每个节点代表一个特征。数据深度提
取模型通常包含多个隐藏层,用于处理数据的非线性关系和抽象特征。确定隐藏层的数量和每个隐藏层的节点数是模型构建中的关键步骤。这些参数的选择可以基于经验、试验和超参数调优等方法。在隐藏层的节点中引入激活函数,用于引入非线性性质。常用的激活函数包括relu(rectified linear unit)、sigmoid、tanh等。选择适当的激活函数可以改善模型的性能和训练效果。
48.然后确定输出层,输出层的节点数取决于任务的类型。例如,对于分类任务,输出层的节点数通常等于类别的数量,对于回归任务,输出层的节点数通常为1。根据任务类型选择合适的损失函数。损失函数用于度量模型在训练过程中的预测值与真实值之间的差异。常见的损失函数包括均方误差(mean squared error)用于回归任务,交叉熵(cross entropy)用于分类任务等。将模型结构和损失函数组合在一起,并指定优化算法和学习率。优化算法用于调整模型的参数,学习率决定了参数的更新步幅。常见的优化算法包括随机梯度下降(stochastic gradient descent)、adam等。需要说明的是,模型构建的过程是一个迭代的过程,可能需要多次尝试不同的模型结构、超参数和优化算法,以获得最佳的模型性能,本技术实施例仅对基础的内容进行说明,以表明本技术方案的可实施性。
49.根据上述步骤构建完成的数据深度提取模型,将训练集的第一样本数据和第二样本数据输入至模型进行训练。模型计算第一样本数据与第二样本数据的样本数据相关度。由于第一样本数据与第一数据属于同一类型数据,第二样本数据与第二数据属于同一类型数据,因此对于第一样本数据与第二样本数据的样本数据相关度的计算过程,在此不进行详细说明,后面介绍第一数据与第二数据的相关度的计算过程将进行详细说明。
50.数据深度提取模型计算出第一样本数据与第二样本数据的样本数据相关度后,用户输入针对样本数据相关度的判定结果至服务器,包括正确或者错误的判定结果服务器输入判定结果至数据深度提取模型,数据深度提取模型根据判定结果进行参数调整,具体来说在不同比对维度下,计算出不同的子样本数据相关度,再根据多个子样本数据相关度与多个权重值计算出第一样本数据与第二样本数据的样本数据相关度。因此权重值的大小影响样本数据相关度的准确性,通过根据判定结果不断调整相关度,提高样本数据相关度计算的准确性。同样还需要使用验证集对训练后的模型进行验证。通过验证集的性能指标来评估模型的泛化能力和效果。如果验证性能满足要求,则模型构建阶段完成。
51.通过采用上述技术方案,在数据深度提取模型中输入第一样本数据和第二样本数据,计算样本数据之间的相关度。这样可以通过模型的学习和计算,得到样本数据之间的关联性评估,为关联性判断提供依据。在获取了模型计算的样本数据相关度后,用户可以根据自己的专业知识和判断,输入针对样本数据相关度的判定结果。这样用户可以主动参与到关联性判断过程中,确保判断结果更符合实际需求。
52.训练完成后,将第一数据和第二数据输入至训练完成的数据深度提取模型,根据数据的形式,模型判断第一数据的第一数据类型,判断第二数据的第二数据类型。由于移动终端通常存储的二进制数据,因此需要先解析为相应的数据结构。例如对于通信数据,可能涉及解析网络包、消息、通话记录等数据格式。对于定位数据,可能涉及解析gps数据、位置信息等数据格式。再根据数据格式判断出数据类型。
53.接着根据根据第一数据类型,提取出第一数据的多个第一详细信息,形成第一数据集。根据第二数据类型,提取出第二数据的多个第二详细信息,形成第二数据集。对于任
意一个终端取证数据,其存在至少一个关联的详细信息,例如,若终端取证数据为短信数据,其对应有发件人信息、收件人信息、信息内容以及发件时间信息等详细信息。对于任意一个终端取证数据的多个详细信息,服务器将其进行打包形成数据集。
54.再将第一数据集和第二数据集输入至数据深度提取模型,模型分析任意一个第一详细信息与第二详细信息之间的信息相关度,以多个第一详细信息中的第一目标信息,多个第二详细信息中的第二目标信息为例。
55.计算第一目标信息和第二目标信息在多个比对维度上的目标相关度,比对维度包括时间维度、空间维度、属性维度以及行为维度。对于第一目标信息和第二目标信息在时间维度下的相关度,若第一目标信息与第二目标信息对应的时间戳信息对应的时间越接近,则二者的相关度越高,反之第一目标信息与第二目标信息对应的时间戳越远,则二者的相关度越低。空间维度与时间维度相同,对于第一目标信息和第二目标信息在空间维度下的相关度,若第一目标信息与第二目标信息对应的位置戳信息对应的位置越接近,则二者的相关度越高,反之第一目标信息与第二目标信息对应的空间戳越远,则二者的相关度越低。
56.对于属性维度,需要通过相关深度学习模型分析第一目标信息的属性信息与第二目标信息的属性信息之间的相关性,揭示不同属性信息之间的关联关系,再根据关联关系评估关联度为1或0,关联度为1表示具备关联性,关联度为0表示不具备关联性。例如分析手机通话记录数据中的呼叫时长与通话类型(呼入、呼出、未接)之间的相关性,或者分析通话记录中的呼叫号码与通话次数之间的相关性。对于行为信息同样需要通过深度学习模型分析第一目标信息的行为信息与第二目标信息的属性信息之间的相关性,行为维度涉及到数据中个体的行为模式或动态。通过分析数据的行为信息,可以研究数据之间的行为关联和趋势。例如,分析手机通话记录数据中的通话频率与通话时间段(早晨、下午、晚上)之间的相关性,或者分析通话记录数据中的通话时长与通话时间段之间的相关性。当第一目标信息的行为信息与第二目标信息的行为信息不存在关联性,关联度为0,反之当第一目标信息的行为信息与第二目标信息的行为信息存在关联性,关联度为1。
57.通过采用上述技术方案,采用了多个比对维度,包括时间维度、空间维度、属性维度以及行为维度。通过对多个维度的数据进行分析,能够全面地探索第一详细信息与第二详细信息之间的相关性,而不仅仅局限于单一维度的分析。综合考虑多个维度的情况下,对信息相关度进行细致的计算和评估。通过合理设置目标权重值,可以使得相关性分析更符合实际需求,并能够快速而准确地确定第一详细信息与第二详细信息之间的信息相关度。
58.再根据不同的比对维度,获取相关度对应的权重值,前面提到在模型训练过程中,通过大量数据训练以及人工反馈,需要不停地调整权重值的具体数值,因此对于权重值的具体数值,本实施例不做具体限定。将各个目标相关度,与其对应的目标权重值进行相乘,最后将多个相乘后的结果求取平均值,即可得到第一详细信息与第二详细信息的信息相关度。最后对多个信息相关度进行加权求取平均值,得到第一数据集与第二数据集之间的数据相关度。对于不同类型的详细信息,其信息相关度对应的权重值也需要通过数据深度提取模型进行训练得到。通过第一数据集与第二数据集的数据相关度大小,反应第一数据与第二数据的关联性,数据相关度越大,关联性越强,反之数据相关度越小,关联性越弱。
59.通过数据深度提取模型分析多个第一详细信息与多个第二详细信息之间的信息相关度,第一详细信息为第一数据的关联信息,第二详细信息为第二数据的关联信息。因此
通过分析多个第一详细信息与多个第二详细信息之间的信息相关度,进而计算第一数据集与第二数据集的数据相关度,能够有效反映第一数据与第二数据的关联性。
60.s140,判断第一数据与第二数据之间的关联性是否满足预设标准,若第一数据与第二数据之间的关联性满足预设标准,则输出第一数据,并对第一数据与第二数据之间的关联性进行可视化展示。
61.由于不同类型的第一数据,与第二数据的相关度计算方法不同,因此需要设定不同的预设相关度阈值,从而在第一数据集与第二数据集的数据相似度大于或等于预设相关度阈值时,表明第一数据与第二数据的关联性达到预设的标准。通过根据所述第一数据类型获取对应的预设相关度阈值,实现了对关联性判断标准的自适应性。不同类型的数据可能具有不同的关联性特征,因此设置不同的预设相关度阈值可以更加准确地判断关联性是否满足预设标准。
62.因此服务器根据第一数据类型,获取第一数据类型对应的预设相关度阈值。再将数据相关度与预设相关度阈值进行比对,判断数据相关度是否大于或等于预设相关度阈值,当数据相关度大于或等于预设相关度阈值,表明第一数据与第二数据具有较强的关联性,确定第一数据与第二数据之间的关联性满足预设标准。反之,当数据相关度小于预设相关度阈值,表明第一数据与第二数据具有较弱的关联性,确定第一数据与第二数据之间的关联性不满足预设标准。
63.当数据相关度大于或等于预设相关度阈值,表明第一数据与第二数据具有较强的关联性,确定第一数据与第二数据之间的关联性满足预设标准。进一步地,再对第一数据与第二数据之间的关联性进行可视化展示。由于第一数据与第二数据均包含多个详细信息,且二者不同的详细信息在不同维度上的目标相关度不同。因此,需要对不同的目标相关度的数值进行分别展示。同时展示第一目标信息与第二目标信息在目标维度上的关联内容。
64.通过采用上述技术方案,服务器获取多个终端取证数据后,对多个终端取证数据进行并行处理,计算多个终端取证数据的出现频次。当其中任意一个第一数据的出现频次大于预设出现频次时,再通过预设的数据深度提取模型分析第一数据与其它数据的关联性,将聚焦在出现频次较高的数据上,而减少模型分析的计算量。最后,判断第一数据与第二数据之间的关联性满足预设标准后,服务器对第一数据与第二数据之间的关联性进行可视化展示,可以直观地呈现数据之间的关系。通过自动化的处理方式,能够快速找到出现频次较高的有价值的终端取证数据,并分析该数据与其它数据的关联性,无需人工手动筛查,从而实现提高数据深度提取的效率的效果。
65.参照图3,第一数据为移动终端中的一个短信数据,第二数据为移动终端中的一个导航数据。根据短信数据,发件人甲在a市b区于7月6日16:31,向位于a市c区的收件人乙发送了一条短信。根据导航数据,账号为123456789的用户于7月6日18:15从a市b区d街出发,前往a市e区f街。其中,对于第一详细信息发件人甲,第二详细信息账号123456789,由于二者属于同一人,根据计算二者在属性维度上的目标相关度为1,因此对目标相关度数值1,以及关联内容同一人进行展示。而第一详细信息收件人乙与第二详细信息账号123456789,在属性维度上的目标相关度为0,表明相关度较低。对于第一详细信息发件人地址a市b区,与第二详细信息起点a市b区d街,二者属于同一地级行政区,根据计算二者在空间维度上的目标相关度为0.95.第一详细信息收件人地址a市c区,第二详细信息终点e市f区g街,根据计
算二者在空间维度上的目标相关度为0.12。对于第一详细信息发件时间7月6日16:31,第二详细信息出发时间7月6日18:15,二者在时间维度上属于同一天,根据计算二者在时间维度上的目标相关度为0.78。
66.通过获取第一目标信息与第二目标信息在目标维度上的目标相关度,将相关度的数值进行展示。这样可以直观地了解第一数据与第二数据在不同维度上的关联程度,为用户提供了关联性的定量参考。除了展示目标相关度的数值,还可以获取第一目标信息与第二目标信息在目标维度上的具体关联内容,并进行展示。这样用户可以直接了解数据之间的关联细节。
67.本实施例还公开了一种手机数据深度提取装置,装置为服务器,参照图3,包括获取模块301、计算模块302、判断模块303以及展示模块304,其中:获取模块301,用于获取多个终端取证数据。
68.计算模块302,用于确定第一数据的出现频次,第一数据为多个终端取证数据中的任意一个终端取证数据。
69.判断模块303,用于判断出现频次是否大于预设出现频次,若确定出现频次大于预设出现频次,则通过预设的数据深度提取模型,分析第一数据与第二数据之间的关联性,第二数据为多个终端取证数据中除第一数据外的任意一个终端取证数据。
70.展示模块304,用于判断第一数据与第二数据之间的关联性是否满足预设标准,若第一数据与第二数据之间的关联性满足预设标准,则输出第一数据,并对第一数据与第二数据之间的关联性进行可视化展示。
71.在一种可能的实施方式中,获取模块301,用于将第一数据和第二数据输入至训练完成的数据深度提取模型。
72.获取模块301,用于获取数据深度提取模型对第一数据的第一数据类型的判断结果,以及对第二数据的第二数据类型的判断结果。
73.获取模块301,用于根据第一数据类型,提取出第一数据的多个第一详细信息,形成第一数据集。
74.获取模块301,用于根据第二数据类型,提取出第二数据的多个第二详细信息,形成第二数据集。
75.获取模块301,用于将第一数据集和第二数据集输入至数据深度提取模型,获取数据深度提取模型分析的任意一个第一详细信息与任意一个第二详细信息之间的信息相关度。
76.计算模块302,用于根据多个信息相关度,确定第一数据集与第二数据集之间的数据相关度,得到第一数据与第二数据之间的关联性。
77.在一种可能的实施方式中,计算模块302,用于确定第一目标信息与第二目标信息在目标维度上的目标相关度,第一目标信息为多个第一详细信息中的任意一个第一详细信息,第二目标信息为多个第二详细信息中的任意一个第二详细信息,目标维度为多个比对维度中的任意一个比对维度,多个比对维度包括时间维度、空间维度、属性维度以及行为维度。
78.获取模块301,用于根据目标维度获取目标相关度的目标权重值。
79.判断模块303,用于基于多个目标相关度,以及多个目标权重值,确定信息相关度。
array,pla)中的至少一种硬件形式来实现。处理器401可集成中央处理器401(central processing unit,cpu)、图像处理器401(graphics processing unit,gpu)和调制解调器等中的一种或几种的组合。其中,cpu主要处理操作系统、用户界面和应用程序等;gpu用于负责显示屏所需要显示的内容的渲染和绘制;调制解调器用于处理无线通信。可以理解的是,上述调制解调器也可以不集成到处理器401中,单独通过一块芯片进行实现。
102.其中,存储器405可以包括随机存储器405(random access memory,ram),也可以包括只读存储器405(read-only memory)。可选的,该存储器405包括非瞬时性计算机可读介质(non-transitory computer-readable storage medium)。存储器405可用于存储指令、程序、代码、代码集或指令集。存储器405可包括存储程序区和存储数据区,其中,存储程序区可存储用于实现操作系统的指令、用于至少一个功能的指令(比如触控功能、声音播放功能、图像播放功能等)、用于实现上述各个方法实施例的指令等;存储数据区可存储上面各个方法实施例中涉及的数据等。存储器405可选的还可以是至少一个位于远离前述处理器401的存储装置。如图所示,作为一种计算机存储介质的存储器405中可以包括操作系统、网络通信模块、用户接口403模块以及一种手机数据深度提取方法的应用程序。
103.在图4所示的电子设备中,用户接口403主要用于为用户提供输入的接口,获取用户输入的数据;而处理器401可以用于调用存储器405中存储一种手机数据深度提取方法的应用程序,当由一个或多个处理器401执行时,使得电子设备执行如上述实施例中一个或多个的方法。
104.需要说明的是,对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本技术并不受所描述的动作顺序的限制,因为依据本技术,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本技术所必需的。
105.在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
106.在本技术所提供的几个实施例中,应该理解到,所披露的装置,可通过其他的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些服务接口,装置或单元的间接耦合或通信连接,可以是电性或其他的形式。
107.作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
108.另外,在本技术各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
109.集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储器405中。基于这样的理解,本技术的技术方案本质上或者
说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储器405中,包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本技术各个实施例方法的全部或部分步骤。而前述的存储器405包括:u盘、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
110.以上所述者,仅为本公开的示例性实施例,不能以此限定本公开的范围。即但凡依本公开教导所作的等效变化与修饰,皆仍属本公开涵盖的范围内。本领域技术人员在考虑说明书及实践真理的公开后,将容易想到本公开的其他实施方案。本技术旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未记载的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本公开的范围和精神由权利要求限定。
技术特征:
1.一种手机数据深度提取方法,其特征在于,所述方法应用于服务器,包括:获取多个终端取证数据;确定第一数据的出现频次,所述第一数据为多个所述终端取证数据中的任意一个终端取证数据;判断所述出现频次是否大于预设出现频次,若确定所述出现频次大于所述预设出现频次,则通过预设的数据深度提取模型,分析所述第一数据与第二数据之间的关联性,所述第二数据为多个所述终端取证数据中除所述第一数据外的任意一个终端取证数据;判断所述第一数据与所述第二数据之间的关联性是否满足预设标准,若所述第一数据与所述第二数据之间的关联性满足所述预设标准,则输出所述第一数据,并对所述第一数据与所述第二数据之间的关联性进行可视化展示。2.根据权利要求1所述的一种手机数据深度提取方法,其特征在于,所述若确定所述出现频次大于所述预设出现频次,则通过预设的数据深度提取模型,分析所述第一数据与第二数据之间的关联性,具体包括:将所述第一数据和所述第二数据输入至训练完成的所述数据深度提取模型;获取所述数据深度提取模型对所述第一数据的第一数据类型的判断结果,以及对所述第二数据的第二数据类型的判断结果;根据所述第一数据类型,提取出所述第一数据的多个第一详细信息,形成第一数据集;根据所述第二数据类型,提取出所述第二数据的多个第二详细信息,形成第二数据集;将所述第一数据集和所述第二数据集输入至所述数据深度提取模型,获取所述数据深度提取模型分析的任意一个所述第一详细信息与任意一个所述第二详细信息之间的信息相关度;根据多个所述信息相关度,确定所述第一数据集与所述第二数据集之间的数据相关度,得到所述第一数据与所述第二数据之间的关联性。3.根据权利要求2所述的一种手机数据深度提取方法,其特征在于,获取所述数据深度提取模型分析的任意一个所述第一详细信息与任意一个所述第二详细信息之间的信息相关度;任意一个所述第一详细信息与任意一个所述第二详细信息之间相关度的分析方法,具体包括:确定第一目标信息与第二目标信息在目标维度上的目标相关度,所述第一目标信息为多个所述第一详细信息中的任意一个第一详细信息,所述第二目标信息为多个所述第二详细信息中的任意一个第二详细信息,所述目标维度为多个比对维度中的任意一个比对维度,多个所述比对维度包括时间维度、空间维度、属性维度以及行为维度;根据目标维度获取所述目标相关度的目标权重值;基于多个所述目标相关度,以及多个所述目标权重值,确定所述信息相关度。4.根据权利要求1所述的一种手机数据深度提取方法,其特征在于,所述获取多个终端取证数据,具体包括:获取与移动终端接入同一局域网的信息,建立与所述移动终端的通信连接;获取所述移动终端发送的访问请求;根据所述访问请求,发送预设通信地址至所述移动终端;获取所述移动终端根据所述通信地址,发送的资源获取请求;
根据所述资源获取请求,发送数据提取程序的数据至所述移动终端;接收所述数据提取程序发送的所述终端取证数据。5.根据权利要求2所述的一种手机数据深度提取方法,其特征在于,所述判断所述第一数据与所述第二数据之间的关联性是否满足预设标准,具体包括:根据所述第一数据类型,获取所述第一数据类型对应的预设相关度阈值;根据对所述数据相关度是否大于或等于所述预设相关度阈值的判断结果,确定所述第一数据与所述第二数据之间的关联性是否满足预设标准。6.根据权利要求2所述的一种手机数据深度提取方法,其特征在于,在所述将所述第一数据和所述第二数据输入至训练完成的所述数据深度提取模型之前,所述方法还包括:输入第一样本数据和第二样本数据至构建完成的所述数据深度提取模型中,所述第一样本数据和所述第二样本数据为多个预设终端取证数据中的任意两个预设终端取证数据;获取所述数据深度提取模型计算的所述第一样本数据与所述第二样本数据的样本数据相关度;获取用户输入的针对所述样本数据相关度的判定结果;输入所述判定结果至所述数据深度提取模型。7.根据权利要求3所述的一种手机数据深度提取方法,其特征在于,所述对所述第一数据与所述第二数据之间的关联性进行可视化展示,具体包括:获取所述第一目标信息与所述第二目标信息在所述目标维度上的所述目标相关度;对所述目标相关度的数值进行展示;获取所述第一目标信息与所述第二目标信息在所述目标维度上的关联内容;对所述关联内容进行展示。8.一种手机数据深度提取装置,其特征在于,所述装置为服务器,包括获取模块(301)、计算模块(302)、判断模块(303)以及展示模块(304),其中:所述获取模块(301),用于获取多个终端取证数据;所述计算模块(302),用于确定第一数据的出现频次,所述第一数据为多个所述终端取证数据中的任意一个终端取证数据;所述判断模块(303),用于判断所述出现频次是否大于预设出现频次,若确定所述出现频次大于所述预设出现频次,则通过预设的数据深度提取模型,分析所述第一数据与第二数据之间的关联性,所述第二数据为多个所述终端取证数据中除所述第一数据外的任意一个终端取证数据;所述展示模块(304),用于判断所述第一数据与所述第二数据之间的关联性是否满足预设标准,若所述第一数据与所述第二数据之间的关联性满足所述预设标准,则输出所述第一数据,并对所述第一数据与所述第二数据之间的关联性进行可视化展示。9.一种电子设备,其特征在于,包括处理器(401)、存储器(405)、用户接口(403)以及网络接口(404),所述存储器(405)用于存储指令,所述用户接口(403)和所述网络接口(404)均用于与其他设备通信,所述处理器(401)用于执行所述存储器(405)中存储的指令,以使所述电子设备执行如权利要求1-7任意一项所述的方法。10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有指令,当所述指令被执行时,执行如权利要求1-7任意一项所述的方法。
技术总结
本申请提供一种手机数据深度提取方法、装置及电子设备,方法应用于服务器,包括:获取多个终端取证数据;确定第一数据的出现频次,第一数据为多个终端取证数据中的任意一个终端取证数据;判断出现频次是否大于预设出现频次,若确定出现频次大于预设出现频次,则通过预设的数据深度提取模型,分析第一数据与第二数据之间的关联性,第二数据为多个终端取证数据中除第一数据外的任意一个终端取证数据;判断第一数据与第二数据之间的关联性是否满足预设标准,若第一数据与第二数据之间的关联性满足预设标准,则输出第一数据,并对第一数据与第二数据之间的关联性进行可视化展示。本申请具有提高数据深度提取的效率的效果。请具有提高数据深度提取的效率的效果。请具有提高数据深度提取的效率的效果。
技术研发人员:郑友敏 张丽君 刘元生 郑旭 李双其 张艺萱
受保护的技术使用者:福建中锐电子科技有限公司
技术研发日:2023.08.05
技术公布日:2023/10/19
版权声明
本文仅代表作者观点,不代表航家之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)
航空之家 https://www.aerohome.com.cn/
航空商城 https://mall.aerohome.com.cn/
航空资讯 https://news.aerohome.com.cn/