多媒体数据的目标跟踪方法和装置与流程

未命名 10-26 阅读：107 评论：0

1.本技术涉及目标跟踪技术领域，尤其涉及一种多媒体数据的目标跟踪方法和装置。

背景技术：

2.目前，多目标跟踪是一个重要的研究课题。随着对多目标跟踪算法研究的发展，基于目标检测的多目标跟踪算法逐级成为主流。基于目标检测的多目标跟踪算法主要包括目标检测和目标跟踪两个阶段，目标检测阶段对多个目标进行检测，然后预测检测到的目标下一帧的轨迹。而目标跟踪阶段则将下一帧检测到的目标的位置信息和当前跟踪轨迹序列进行关联，从而实现对多目标的跟踪。然而，现有的多目标跟踪算法在进行关联时，由于前期目标检测得到的检测框不准确、预测器估计的状态不准确等原因，往往会出现漏关联、误关联等问题。

技术实现要素：

3.有鉴于此，本技术实施例提供了一种多媒体数据的目标跟踪方法、装置、电子设备及计算机可读存储介质，以解决现有技术中多目标跟踪准确率较低的问题。
4.本技术实施例的第一方面，提供了一种多媒体数据的目标跟踪方法，包括：对多媒体数据的当前帧对应的图像进行目标检测，获得当前帧对应的图像中各个目标对应的检测框；根据各个目标对应的检测框，确定各个检测框的状态向量，其中，状态向量包括检测框中心点的横坐标、检测框中心点的纵坐标、检测框的宽度、检测框的高度、检测框中心点的横坐标的变化速度、检测框中心点的纵坐标的变化速度、检测框的宽度变化速度、检测框的高度变化速度；根据各个检测框的状态向量，预测各个检测框在下一帧对应的图像的变化轨迹，得到下一帧对应的图像中各个目标对应的预测框；根据各个检测框中目标的运动特征和各个预测框中目标的运动特征，确定目标的运动代价矩阵；根据各个检测框中目标的外观特征和各个预测框中目标的外观特征，确定目标的外观代价矩阵；根据目标的运动代价矩阵和外观代价矩阵，对多媒体数据中的目标进行跟踪。
5.本技术实施例的第二方面，提供了一种多媒体数据的目标跟踪装置，包括：目标检测模块，被配置为对多媒体数据的当前帧对应的图像进行目标检测，获得当前帧对应的图像中各个目标对应的检测框；状态向量确定模块，被配置为根据各个目标对应的检测框，确定各个检测框的状态向量，其中，状态向量包括检测框中心点的横坐标、检测框中心点的纵坐标、检测框的宽度、检测框的高度、检测框中心点的横坐标的变化速度、检测框中心点的纵坐标的变化速
度、检测框的宽度变化速度、检测框的高度变化速度；目标预测模块，被配置为根据各个检测框的状态向量，预测各个检测框在下一帧对应的图像的变化轨迹，得到下一帧对应的图像中各个目标对应的预测框；运动代价计算模块，被配置为根据各个检测框中目标的运动特征和各个预测框中目标的运动特征，确定目标的运动代价矩阵；外观代价计算模块，被配置为根据各个检测框中目标的外观特征和各个预测框中目标的外观特征，确定目标的外观代价矩阵；目标跟踪模块，被配置为根据目标的运动代价矩阵和外观代价矩阵，对多媒体数据中的目标进行跟踪。
6.本技术实施例的第三方面，提供了一种电子设备，包括存储器、处理器以及存储在存储器中并且可在处理器上运行的计算机程序，该处理器执行计算机程序时实现上述方法的步骤。
7.本技术实施例的第四方面，提供了一种计算机可读存储介质，该计算机可读存储介质存储有计算机程序，该计算机程序被处理器执行时实现上述方法的步骤。
8.本技术实施例与现有技术相比存在的有益效果是：对多媒体数据的当前帧对应的图像进行目标检测，获得当前帧对应的图像中各个目标对应的检测框；根据各个目标对应的检测框，确定各个检测框的状态向量，其中，状态向量包括检测框中心点的横坐标、检测框中心点的纵坐标、检测框的宽度、检测框的高度、检测框中心点的横坐标的变化速度、检测框中心点的纵坐标的变化速度、检测框的宽度变化速度、检测框的高度变化速度；根据各个检测框的状态向量，预测各个检测框在下一帧对应的图像的变化轨迹，得到下一帧对应的图像中各个目标对应的预测框；根据各个检测框中目标的运动特征和各个预测框中目标的运动特征，确定目标的运动代价矩阵；根据各个检测框中目标的外观特征和各个预测框中目标的外观特征，确定目标的外观代价矩阵；根据目标的运动代价矩阵和外观代价矩阵，对多媒体数据中的目标进行跟踪，可以提高多目标跟踪的准确率。
附图说明
9.为了更清楚地说明本技术实施例中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本技术的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它的附图。
10.图1是本技术实施例提供的一种多媒体数据的目标跟踪方法的流程示意图；图2是本技术实施例提供的一种多媒体数据的目标跟踪装置的结构示意图；图3是本技术实施例提供的一种电子设备的结构示意图。
具体实施方式
11.以下描述中，为了说明而不是为了限定，提出了诸如特定系统结构、技术之类的具体细节，以便透彻理解本技术实施例。然而，本领域的技术人员应当清楚，在没有这些具体细节的其它实施例中也可以实现本技术。在其它情况中，省略对众所周知的系统、装置、电路以及方法的详细说明，以免不必要的细节妨碍本技术的描述。
12.下面将结合附图详细说明根据本技术实施例的一种多媒体数据的目标跟踪方法和装置。
13.图1是本技术实施例提供的一种多媒体数据的目标跟踪方法的流程示意图。该方法包括：101，对多媒体数据的当前帧对应的图像进行目标检测，获得当前帧对应的图像中各个目标对应的检测框；102，根据各个目标对应的检测框，确定各个检测框的状态向量，其中，状态向量包括检测框中心点的横坐标、检测框中心点的纵坐标、检测框的宽度、检测框的高度、检测框中心点的横坐标的变化速度、检测框中心点的纵坐标的变化速度、检测框的宽度变化速度、检测框的高度变化速度；103，根据各个检测框的状态向量，预测各个检测框在下一帧对应的图像的变化轨迹，得到下一帧对应的图像中各个目标对应的预测框；104，根据各个检测框中目标的运动特征和各个预测框中目标的运动特征，确定目标的运动代价矩阵；105，根据各个检测框中目标的外观特征和各个预测框中目标的外观特征，确定目标的外观代价矩阵；106，根据目标的运动代价矩阵和外观代价矩阵，对多媒体数据中的目标进行跟踪。
14.在步骤101中，示例性地说明，对多媒体数据的当前帧对应的图像进行目标检测，获得当前帧对应的图像中各个目标对应的检测框，例如，现有的基于检测的双阶段多目标跟踪算法在每帧计算时主要包括目标检测、预测器预测和关联三个阶段，在目标检测阶段，采用目标检测算法对视频中的图像进行目标检测，能够得到图像中表示多个目标的目标检测框，这些目标检测框即为观测值。理论而言，更好的目标检测算法往往可以更准确的将当前帧的对象检出，因此往往仅更新检测算法就可以提升跟踪效果，但在现实场景下，该阶段为整个跟踪算法的瓶颈。目前，常用的目标检测算法包括ssd(single shot multiboxdetector)、fasterrcnn (faster regions with cnn features)、yolo(you only look once)等等，在本实施例中，可以采用yolox算法对当前帧对应的图像进行目标检测，获得各个多个目标对应的检测框，其中，每个检测框内的图像表示一个多个目标，同时，该检测框携带检测框坐标信息、检测框高度信息和检测框宽度信息。
15.在步骤102至步骤103中，示例性地说明，根据各个目标对应的检测框，确定各个检测框的状态向量，其中，状态向量包括检测框中心点的横坐标、检测框中心点的纵坐标、检测框的宽度、检测框的高度、检测框中心点的横坐标的变化速度、检测框中心点的纵坐标的变化速度、检测框的宽度变化速度、检测框的高度变化速度，根据各个检测框的状态向量，预测各个检测框在下一帧对应的图像的变化轨迹，得到下一帧对应的图像中各个目标对应的预测框，例如，通过目标检测来实现目标跟踪的方法高度依赖于目标检测的准确度以及匹配多个目标的检测框的准确度，然而，目标检测算法的检测准确度毕竟有限，匹配多个目标的检测框也难以实现精准匹配。在现有技术中，预测器预测阶段，通过预测器的状态向量进行检测框状态的估计，在一些实施过程中，对检测框可以是通过sort算法中的状态向量或者deepsort算法中的状态向量进行预测，在sort算法中，状态向量为
，其中，为预测框中心点横坐标，为预测框中心点纵坐标，为预测框面积，为预测框高宽比，为预测框中心点横坐标变化速度，为预测框中心点纵坐标变化速度，为预测框面积变化速度。在另一些实施过程中，deepsort算法中，状态向量为，其中，为预测框高度，为预测框高度变化速度。也就是说，上述sort算法或deepsort算法通过预测框高宽比来对检测框进行预测，获得的预测框往往不能完全框住多个目标，从而影响后续中目标跟踪的准确性。发明人发现，直接对预测框的宽度信息和高度信息往往可以取得更好的效果，因此，在本方案中，可以通过在预测阶段采用8维状态向量对预测框进行预测，其中，为预测框宽度，为预测框宽度变化速度。从而直接通过高度和宽度对检测框进行预测，可以取得更好的预测效果，提高预测框准确性。在一些实施过程中，对预测框对应的图像通过指数滑动平均进行特征更新。具体地，通过指数滑动平均进行特征更新的数学表达如下：；其中，i为多个目标对应轨迹的身份标识id，k为帧，为第k帧轨迹id为i的更新后的预测框的reid特征，为第k-1帧轨迹id为i的预测框的历史reid特征，为第k帧轨迹id为i的检测框的reid特征，为滑动因子，该滑动因子通常为0.9。
16.在步骤104中，示例性地说明，根据各个检测框中目标的运动特征和各个预测框中目标的运动特征，确定目标的运动代价矩阵，例如，目前，对目标进行跟踪包括目标检测、预测器预测和关联三个阶段，在关联阶段，可以将当前帧的检测框和预测框进行关联，从而为检测框分配相应的轨迹。即将预测框和检测框进行重叠度计算，具体的，可以通过重叠度（intersection over union，iou）进行关联，iou常常用来衡量目标检测任务中，预测结果的位置信息的准确程度。计算每个预测框和每个检测框的iou，从而构建运动代价矩阵。具体地，iou的计算原理为多个目标实际区域与预测区域之间重合的面积在两个区域整体所有面积的占比。在一些实施过程中，进行iou关联的时候，得到最终的结果包括三种：检测框和预测框的轨迹无法匹配，如果无法匹配的次数达到了预设次数，则将该检测框对应的多个目标的身份标识从该视频图像中删除；没有任意一个预测框的轨迹可以匹配检测框，则为该检测框分配一个新的轨迹；检测框和预测框的轨迹成功匹配。但是以上没有涉及一种特殊的情况，就是当多个目标存在遮挡的情况，当多个目标被遮挡时，预测框的轨迹也无法匹配相应的检测框，多个目标暂时从图像中消失。
17.在步骤105中，示例性地说明，根据各个检测框中目标的外观特征和各个预测框中目标的外观特征，确定目标的外观代价矩阵，例如，为了进一步提高目标跟踪的准确性，避免出现漏关联等情况发生，除了可以将检测框和预测框通过iou来进行重叠度关联以外，还可以关联检测框和预测框的外观特征信息，从而构建外观代价矩阵，通过运动代价矩阵和外观代价矩阵进行综合判断。这是因为，在目标跟踪过程中，在目标检测阶段会为每个多个目标分配相应的身份标识（identity，id），在关联阶段，可以将预测框与每个检测框的id进行关联，但如果在获取视频图像时出现遮挡等情况，无法跟踪多个目标，则多个目标的id就会频繁切换，以至多个目标的检测框和预测框出现漏关联的情况，关联准确率较低，因此，
可以利用多个目标的外观特征信息，基于该外观特征信息建立外观代价矩阵，并结合运动代价矩阵和外观代价矩阵进一步进行关联，从而降低被遮挡然后再出现的多个目标发生的id切换次数。
18.在步骤106中，示例性地说明，根据目标的运动代价矩阵和外观代价矩阵，对多媒体数据中的目标进行跟踪，例如，在本技术实施例中，由于运动代价矩阵强依赖于检测框和预测框的质量，如果检测框或预测框不准确，则易导致运动代价矩阵也有较大误差，因此为了改善这一问题，可以引入外观代价矩阵，通过目标的运动代价矩阵和外观代价矩阵实现检测框和预测框之间的关联，从而提高目标跟踪的准确率。
19.上述方法，可以应用于对视频图像进行多目标跟踪的场景中，基于预测器和关联优化进行双阶段目标跟踪，首先通过对多媒体数据的当前帧对应的图像进行目标检测，获得当前帧对应的图像中各个目标对应的检测框；根据各个目标对应的检测框，确定各个检测框的状态向量，其中，状态向量包括检测框中心点的横坐标、检测框中心点的纵坐标、检测框的宽度、检测框的高度、检测框中心点的横坐标的变化速度、检测框中心点的纵坐标的变化速度、检测框的宽度变化速度、检测框的高度变化速度；根据各个检测框的状态向量，预测各个检测框在下一帧对应的图像的变化轨迹，得到下一帧对应的图像中各个目标对应的预测框；根据各个检测框中目标的运动特征和各个预测框中目标的运动特征，确定目标的运动代价矩阵；根据各个检测框中目标的外观特征和各个预测框中目标的外观特征，确定目标的外观代价矩阵；根据目标的运动代价矩阵和外观代价矩阵，对多媒体数据中的目标进行跟踪，从而提高多目标跟踪的准确率。
20.在一些实施例中，根据各个检测框的状态向量，预测各个检测框在下一帧对应的图像的变化轨迹，得到下一帧对应的图像中各个目标对应的预测框，包括：根据检测框中心点的纵坐标的变化速度和检测框在当前帧的中心点的纵坐标，对各个检测框在下一帧对应的图像的纵坐标进行预测，得到下一帧对应的图像中各个目标对应的预测框中心点的纵坐标；根据检测框的高度变化速度和检测框在当前帧的高度，对各个检测框在下一帧对应的图像的高度进行预测，得到下一帧对应的图像中各个目标对应的预测框的高度；根据检测框的宽度变化速度和检测框在当前帧的宽度，对各个检测框在下一帧对应的图像的宽度进行预测，得到下一帧对应的图像中各个目标对应的预测框的宽度；根据预测框中心点的横坐标、预测框中心点的纵坐标、预测框的高度、预测框的宽度，确定下一帧对应的图像中各个目标对应的预测框。
21.具体地，卡尔曼滤波算法通过卡尔曼滤波器来实现，卡尔曼滤波器是一种高效的自回归滤波器，它能在存在诸多不确定性情况的组合信息中估计动态系统的状态。卡尔曼滤波算法被广泛应用于无人机、自动驾驶、卫星导航等领域，简单来说，其作用就是基于传感器的测量值来更新预测值，以达到更精确的估计。在目标跟踪任务中，可以通过卡尔曼滤波算法对目标轨迹进行预测和更新，具体地，卡尔曼滤波算法分为两个阶段：预测多个目标在下一帧的位置；基于检测框来更新预测的位置。其中，预测多个目标在下一帧的位置时，需要预测两个状态：均值和协方差；其中，均值表示多个目标的位置信息，在本方案中，由预测框的中心点的横坐标和纵坐标，预测框的高度、预测框的宽度以及各自相对应的速度变化值组成，各个速度变化值初始化为0。该均值在卡尔曼滤波算法中通过一个8维状态向量表示，例如，将多个目标的运动模型假设为匀速模型，然后用卡尔曼滤波器预测当前轨迹在
下一帧中的边界框，得到预测框，以便与检测框进行关联。具体地，卡尔曼滤波器通过检测框信息对卡尔曼滤波器初始化，其中，检测框坐标信息包括检测框横向坐标信息和检测框纵向坐标信息，然后通过初始化后的卡尔曼滤波器及其状态向量，对多个目标的轨迹进行预测，获得相应的预测框。在一些实施过程中，卡尔曼滤波算法中的协防差表示多个目标位置的不确定性，由的对角矩阵表示，矩阵中元素的数值越大则表明不确定性越大。
22.在一些实施例中，根据各个检测框中目标的运动特征和各个预测框中目标的运动特征，确定目标的运动代价矩阵，包括：根据各个检测框的宽度和高度，获得各个检测框的面积；根据各个预测框的宽度和高度，获得各个预测框的面积；根据各个检测框的面积和各个预测框的面积，计算各个检测框和各个预测框的重叠度；基于各个检测框和各个预测框间的重叠度，建立目标的运动代价矩阵。
23.具体地，在计算运动代价矩阵时，通过iou来进行预测框和检测框的关联，即检测框与各个预测框之间的面积重叠度，首先需要计算检测框与预测框之间的面积之和，然后需要计算检测框与预测框之间重叠的面积，然后计算该重叠的面积和面积之和的比值，从而得到各个检测框和各个预测框之间的重叠度，基于各个重叠度建立运动代价矩阵。例如，在目标检测阶段存在6个检测框，预测阶段存在9个预测框，那么运动代价矩阵为的矩阵，这只是为了说明运动代价矩阵的构建过程，对于运动代价矩阵的行数和列数不作具体限定。而由于该方法非常依赖于预测框和检测框的质量，即预测框和检测框的坐标信息、高度信息、宽度信息等的准确性，如果预测框和检测框出现不准确的情况，在iou关联时可能会造成关联轨迹的分裂等情况，因此为了提高关联效果，本方案除了计算运动代价矩阵，还引入外观代价矩阵进行综合判定。
24.在一些实施例中，根据各个检测框的面积和各个预测框的面积，计算各个检测框和各个预测框的重叠度，包括：根据各个检测框中心点的横坐标和纵坐标，各个预测框中心点的横坐标和纵坐标，计算各个检测框和各个预测框间的重叠面积；根据各个检测框的面积和各个预测框的面积，获得检测框与各个预测框间的面积和；根据重叠面积和，获得各个检测框和各个预测框间的重叠度。
25.在一些实施例中，根据各个检测框中目标的外观特征和各个预测框中目标的外观特征，确定目标的外观代价矩阵，包括：对各个检测框中的目标进行特征提取，获得各个检测框中目标的检测框外观特征；对各个预测框中的目标进行特征提取，获得各个预测框中目标的预测框外观特征；计算检测框外观特征和预测框外观特征间的特征关联度，基于特征关联度确定目标的外观代价矩阵。
26.具体地，在本方案中引入行人重识别（re-identification，reid）特征，通过提取预测框和检测框对应的图像的特征，进行特征关联。具体地，为了提取预测框和检测框的外观特征，可以采用特征提取模型resnet50在一个大规模的行人重识别数据集上进行离线训练，然后将训练好的resnet50用于在线跟踪时对多个目标的外观特征提取，从而获得检测框对应的图像的检测框外观特征，和预测框对应的图像的预测框外观特征。具体地，可以将检测框对应的图像输入resnet50模型中，得到检测框外观特征对应的特征向量；将预测框对应的图像输入resnet50模型中，得到预测框外观特征对应的特征向量。在一些实施过程
中，检测框外观特征和预测框外观特征间的特征关联度可以通过相似度计算得到，具体地，该相似度计算可以通过计算第一特征和第二特征之间的余弦距离来度量，若检测框对应的多个目标和预测框对应的多个目标属于同一个目标，则二者之间的余弦距离较小，反之，若检测框对应的多个目标和预测框对应的多个目标不属于同一个目标，则二者之间的余弦距离较大。
27.在一些实施例中，根据目标的运动代价矩阵和外观代价矩阵，对多媒体数据中的目标进行追踪，包括：对目标的运动代价矩阵和外观代价矩阵进行加权求和，获得关联代价矩阵；根据关联代价矩阵，对检测框和预测框进行关联，获得关联结果，根据关联结果对多媒体数据中的目标进行跟踪。
28.具体地，对运动代价矩阵和外观代价矩阵进行加权求和，获得关联代价矩阵，例如，多个目标在运动时，通过卡尔曼滤波器预测的多个目标下一帧的状态只是在图像空间中对物体位置的粗略估计，并没有考虑在图像平面中多个目标快速位移的情况，因此，如果仅是通过运动代价矩阵来对检测框和预测框进行关联，并不适合作为处理有遮挡情况下的度量指标，为此，本实施例引入reid进行度量，结合基于reid的外观代价矩阵和基于iou的运动代价矩阵进行加权求和的数学表达为：，其中，为关联代价矩阵，为外观代价矩阵，为运动代价矩阵，为滑动因子，每个代价矩阵的权重由控制。根据外观代价矩阵和匈牙利算法，对检测框和预测框进行关联，获得关联代价矩阵的关联结果，例如，匈牙利算法是一种在多项式时间内求解任务分配问题的组合优化算法，在本方案中，通过计算运动代价矩阵和外观代价矩阵的加权求和，得到最终的相似度矩阵，即关联代价矩阵，匈牙利算法就是通过求解这个相似度矩阵，从而解决前后两帧真正匹配的多个目标。具体的计算过程如下：；其中，关联代价矩阵中的元素是通过计算运动代价矩阵和外观代价矩阵的加权求和获得，对于第三代价矩阵的每一行，找到其中最小的元素，然后从这一行的每个元素减去这个最小的元素，得到：；对于第三代价矩阵的每一列，找到最小的元素，然后从这一列的每个元素减去这个最小的元素，得到；最后对于该矩阵，用数量最小的直线覆盖所有的0元素，如果线段数量等于该矩阵行数和列数中的最小值，即4，就得到了最优分配，否则，找到没有被直线覆盖的元素中的最小的一个值，让每个没有完全被直线覆盖的元素行中的元素减去这个值，让每个完全被直线覆盖了的列的元素加上这个值，最后重复用数量最小的直线覆盖所有的0元素。需要说明的是，上述矩阵只
是为了说明匈牙利算法的计算过程，对本方案第三代价矩阵的元素不作限定。当通过匈牙利算法得到检测框和预测框的最优匹配后，就可以获得各个多个目标的轨迹，从而进行多目标跟踪。外观代价矩阵中的元素代表了各个检测框和预测框的轨迹之间的相似度，通过匈牙利算法为每个检测框分配轨迹时，如果出现一个检测框没有和对应的轨迹关联到，则该检测框对应生成新的轨迹，而如果有一条轨迹没有和检测框关联到，则该将该轨迹丢弃。在一些实施过程中，当每一次目标跟踪完成之后，就对卡尔曼滤波器进行更新。
29.上述所有可选技术方案，可以采用任意结合形成本技术的可选实施例，在此不再一一赘述。
30.下述为本技术装置实施例，可以用于执行本技术方法实施例。对于本技术装置实施例中未披露的细节，请参照本技术方法实施例。
31.图2是本技术实施例提供的一种多媒体数据的目标跟踪装置的示意图。如图2所示，该装置包括：目标检测模块201，被配置为对多媒体数据的当前帧对应的图像进行目标检测，获得当前帧对应的图像中各个目标对应的检测框；状态向量确定模块202，被配置为根据各个目标对应的检测框，确定各个检测框的状态向量，其中，状态向量包括检测框中心点的横坐标、检测框中心点的纵坐标、检测框的宽度、检测框的高度、检测框中心点的横坐标的变化速度、检测框中心点的纵坐标的变化速度、检测框的宽度变化速度、检测框的高度变化速度；目标预测模块203，被配置为根据各个检测框的状态向量，预测各个检测框在下一帧对应的图像的变化轨迹，得到下一帧对应的图像中各个目标对应的预测框；运动代价计算模块204，被配置为根据各个检测框中目标的运动特征和各个预测框中目标的运动特征，确定目标的运动代价矩阵；外观代价计算模块205，被配置为根据各个检测框中目标的外观特征和各个预测框中目标的外观特征，确定目标的外观代价矩阵；目标跟踪模块206，被配置为根据目标的运动代价矩阵和外观代价矩阵，对多媒体数据中的目标进行跟踪。
32.在一些实施例中，目标预测模块203，被配置为根据检测框中心点的横坐标的变化速度和检测框在当前帧的中心点的横坐标，对各个检测框在下一帧对应的图像的横坐标进行预测，得到下一帧对应的图像中各个目标对应的预测框中心点的横坐标；根据检测框中心点的纵坐标的变化速度和检测框在当前帧的中心点的纵坐标，对各个检测框在下一帧对应的图像的纵坐标进行预测，得到下一帧对应的图像中各个目标对应的预测框中心点的纵坐标；根据检测框的高度变化速度和检测框在当前帧的高度，对各个检测框在下一帧对应的图像的高度进行预测，得到下一帧对应的图像中各个目标对应的预测框的高度；根据检测框的宽度变化速度和检测框在当前帧的宽度，对各个检测框在下一帧对应的图像的宽度进行预测，得到下一帧对应的图像中各个目标对应的预测框的宽度；根据预测框中心点的横坐标、预测框中心点的纵坐标、预测框的高度、预测框的宽度，确定下一帧对应的图像中各个目标对应的预测框。
33.在一些实施例中，目标预测模块203，被配置为根据各个检测框的宽度和高度，获得各个检测框的面积；根据各个预测框的宽度和高度，获得各个预测框的面积；根据各个检
测框的面积和各个预测框的面积，计算各个检测框和各个预测框的重叠度；基于各个检测框和各个预测框间的重叠度，建立目标的运动代价矩阵。
34.在一些实施例中，目标预测模块203，被配置为根据各个检测框中心点的横坐标和纵坐标，各个预测框中心点的横坐标和纵坐标，计算各个检测框和各个预测框间的重叠面积；根据各个检测框的面积和各个预测框的面积，获得检测框与各个预测框间的面积和；根据重叠面积和，获得各个检测框和各个预测框间的重叠度。
35.在一些实施例中，外观代价计算模块205，被配置为对各个检测框中的目标进行特征提取，获得各个检测框中目标的检测框外观特征；对各个预测框中的目标进行特征提取，获得各个预测框中目标的预测框外观特征；计算检测框外观特征和预测框外观特征间的特征关联度，基于特征关联度确定目标的外观代价矩阵。
36.在一些实施例中，目标跟踪模块206，被配置为对目标的运动代价矩阵和外观代价矩阵进行加权求和，获得关联代价矩阵；根据关联代价矩阵，对检测框和预测框进行关联，获得关联结果，根据关联结果对多媒体数据中的目标进行跟踪。
37.在一些实施例中，目标跟踪模块206，被配置为确定关联代价矩阵的最优代价，将最优代价对应的检测框和预测框进行关联，获得各个检测框对应的轨迹；根据检测框对应的轨迹对多媒体数据中的目标进行跟踪。
38.应理解，上述实施例中各步骤的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本技术实施例的实施过程构成任何限定。
39.图3是本技术实施例提供的电子设备3的示意图。如图3所示，该实施例的电子设备3包括：处理器301、存储器302以及存储在该存储器302中并且可在处理器301上运行的计算机程序303。处理器301执行计算机程序303时实现上述各个方法实施例中的步骤。或者，处理器301执行计算机程序303时实现上述各装置实施例中各模块/单元的功能。
40.电子设备3可以是桌上型计算机、笔记本、掌上电脑及云端服务器等电子设备。电子设备3可以包括但不仅限于处理器301和存储器302。本领域技术人员可以理解，图3仅仅是电子设备3的示例，并不构成对电子设备3的限定，可以包括比图示更多或更少的部件，或者不同的部件。
41.处理器301可以是中央处理单元（central processing unit，cpu），也可以是其它通用处理器、数字信号处理器（digital signal processor，dsp）、专用集成电路（application specificintegrated circuit，asic）、现场可编程门阵列（field-programmable gate array，fpga）或者其它可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。
42.存储器302可以是电子设备3的内部存储单元，例如，电子设备3的硬盘或内存。存储器302也可以是电子设备3的外部存储设备，例如，电子设备3上配备的插接式硬盘，智能存储卡（smart media card，smc），安全数字（secure digital，sd）卡，闪存卡（flash card）等。存储器302还可以既包括电子设备3的内部存储单元也包括外部存储设备。存储器302用于存储计算机程序以及电子设备所需的其它程序和数据。
43.所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，仅以上述各功能单元、模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的
功能单元、模块完成，即将装置的内部结构划分成不同的功能单元或模块，以完成以上描述的全部或者部分功能。实施例中的各功能单元、模块可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中，上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。
44.集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读存储介质中。基于这样的理解，本技术实现上述实施例方法中的全部或部分流程，也可以通过计算机程序来指令相关的硬件来完成，计算机程序可以存储在计算机可读存储介质中，该计算机程序在被处理器执行时，可以实现上述各个方法实施例的步骤。计算机程序可以包括计算机程序代码，计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。计算机可读介质可以包括：能够携带计算机程序代码的任何实体或装置、记录介质、u盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器（read-only memory，rom）、随机存取存储器（random access memory，ram）、电载波信号、电信信号以及软件分发介质等。需要说明的是，计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减，例如，在某些司法管辖区，根据立法和专利实践，计算机可读介质不包括电载波信号和电信信号。
45.以上实施例仅用以说明本技术的技术方案，而非对其限制；尽管参照前述实施例对本技术进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本技术各实施例技术方案的精神和范围，均应包含在本技术的保护范围之内。

技术特征：
1.一种多媒体数据的目标跟踪方法，其特征在于，包括：对所述多媒体数据的当前帧对应的图像进行目标检测，获得所述当前帧对应的图像中各个目标对应的检测框；根据所述各个目标对应的检测框，确定各个所述检测框的状态向量，其中，所述状态向量包括检测框中心点的横坐标、检测框中心点的纵坐标、检测框的宽度、检测框的高度、检测框中心点的横坐标的变化速度、检测框中心点的纵坐标的变化速度、检测框的宽度变化速度、检测框的高度变化速度；根据所述各个检测框的状态向量，预测所述各个检测框在下一帧对应的图像的变化轨迹，得到所述下一帧对应的图像中所述各个目标对应的预测框；根据所述各个检测框中目标的运动特征和所述各个预测框中目标的运动特征，确定所述目标的运动代价矩阵；根据所述各个检测框中目标的外观特征和所述各个预测框中目标的外观特征，确定所述目标的外观代价矩阵；根据所述目标的运动代价矩阵和所述外观代价矩阵，对所述多媒体数据中的目标进行跟踪。2.如权利要求1所述的方法，其特征在于，根据所述各个检测框的状态向量，预测所述各个检测框在下一帧对应的图像的变化轨迹，得到所述下一帧对应的图像中所述各个目标对应的预测框，包括：根据所述检测框中心点的横坐标的变化速度和所述检测框在当前帧的中心点的横坐标，对所述各个检测框在下一帧对应的图像的横坐标进行预测，得到下一帧对应的图像中所述各个目标对应的预测框中心点的横坐标；根据所述检测框中心点的纵坐标的变化速度和所述检测框在当前帧的中心点的纵坐标，对所述各个检测框在下一帧对应的图像的纵坐标进行预测，得到下一帧对应的图像中所述各个目标对应的预测框中心点的纵坐标；根据所述检测框的高度变化速度和所述检测框在当前帧的高度，对所述各个检测框在下一帧对应的图像的高度进行预测，得到下一帧对应的图像中所述各个目标对应的预测框的高度；根据所述检测框的宽度变化速度和所述检测框在当前帧的宽度，对所述各个检测框在下一帧对应的图像的宽度进行预测，得到下一帧对应的图像中所述各个目标对应的预测框的宽度；根据所述预测框中心点的横坐标、所述预测框中心点的纵坐标、所述预测框的高度、所述预测框的宽度，确定下一帧对应的图像中所述各个目标对应的预测框。3.如权利要求2所述的方法，其特征在于，根据所述各个检测框中目标的运动特征和各个预测框中目标的运动特征，确定所述目标的运动代价矩阵，包括：根据所述各个检测框的宽度和高度，获得所述各个检测框的面积；根据所述各个预测框的宽度和高度，获得所述各个预测框的面积；根据所述各个检测框的面积和所述各个预测框的面积，计算所述各个检测框和所述各个预测框的重叠度；基于所述各个检测框和所述各个预测框间的重叠度，建立所述目标的运动代价矩阵。
4.如权利要求3所述的方法，其特征在于，根据所述各个检测框的面积和所述各个预测框的面积，计算所述各个检测框和所述各个预测框的重叠度，包括：根据所述各个检测框中心点的横坐标和纵坐标，所述各个预测框中心点的横坐标和纵坐标，计算所述各个检测框和所述各个预测框间的重叠面积；根据所述各个检测框的面积和所述各个预测框的面积，获得所述检测框与所述各个预测框间的面积和；根据所述重叠面积和所述面积和，获得所述各个检测框和所述各个预测框间的重叠度。5.如权利要求1所述的方法，其特征在于，根据所述各个检测框中目标的外观特征和各个预测框中目标的外观特征，确定所述目标的外观代价矩阵，包括：对所述各个检测框中的目标进行特征提取，获得所述各个检测框中目标的检测框外观特征；对所述各个预测框中的目标进行特征提取，获得所述各个预测框中目标的预测框外观特征；计算所述检测框外观特征和所述预测框外观特征间的特征关联度，基于所述特征关联度确定所述目标的外观代价矩阵。6.如权利要求1所述的方法，其特征在于，根据所述目标的运动代价矩阵和所述外观代价矩阵，对所述多媒体数据中的目标进行追踪，包括：对所述目标的运动代价矩阵和所述外观代价矩阵进行加权求和，获得关联代价矩阵；根据所述关联代价矩阵，对所述检测框和所述预测框进行关联，获得关联结果，根据所述关联结果对所述多媒体数据中的目标进行跟踪。7.如权利要求6所述的方法，其特征在于，根据所述关联代价矩阵，对检测框和预测框进行关联，获得关联结果，根据所述关联结果对所述多媒体数据中的目标进行跟踪，包括：确定所述关联代价矩阵的最优代价，将所述最优代价对应的所述检测框和所述预测框进行关联，获得各个所述检测框对应的轨迹；根据所述检测框对应的轨迹对所述多媒体数据中的目标进行跟踪。8.一种多媒体数据的目标跟踪装置，其特征在于，包括：目标检测模块，被配置为对所述多媒体数据的当前帧对应的图像进行目标检测，获得所述当前帧对应的图像中各个目标对应的检测框；状态向量确定模块，被配置为根据所述各个目标对应的检测框，确定各个所述检测框的状态向量，其中，所述状态向量包括检测框中心点的横坐标、检测框中心点的纵坐标、检测框的宽度、检测框的高度、检测框中心点的横坐标的变化速度、检测框中心点的纵坐标的变化速度、检测框的宽度变化速度、检测框的高度变化速度；目标预测模块，被配置为根据所述各个检测框的状态向量，预测所述各个检测框在下一帧对应的图像的变化轨迹，得到所述下一帧对应的图像中所述各个目标对应的预测框；运动代价计算模块，被配置为根据所述各个检测框中目标的运动特征和各个预测框中目标的运动特征，确定所述目标的运动代价矩阵；外观代价计算模块，被配置为根据所述各个检测框中目标的外观特征和各个预测框中目标的外观特征，确定所述目标的外观代价矩阵；
目标跟踪模块，被配置为根据所述目标的运动代价矩阵和所述外观代价矩阵，对所述多媒体数据中的目标进行跟踪。9.一种电子设备，包括存储器、处理器以及存储在所述存储器中并且可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至7中任一项所述方法的步骤。10.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至7中任一项所述方法的步骤。

技术总结
本申请涉及目标跟踪技术领域，提供了一种多媒体数据的目标跟踪方法和装置。该方法包括：对多媒体数据的当前帧对应的图像进行目标检测，获得当前帧对应的图像中各个目标对应的检测框；根据各个目标对应的检测框，确定各个检测框的状态向量；根据各个检测框的状态向量，预测各个检测框的变化轨迹，得到对应的预测框；根据各个检测框的运动特征和各个预测框的运动特征，确定目标的运动代价矩阵；根据各个检测框的外观特征和各个预测框的外观特征，确定目标的外观代价矩阵；根据目标的运动代价矩阵和外观代价矩阵，对多媒体数据中的目标进行跟踪。本申请能够提高在对多目标跟踪时跟踪的准确率。的准确率。的准确率。

技术研发人员：蒋召黄泽元
受保护的技术使用者：深圳须弥云图空间科技有限公司
技术研发日：2023.09.12
技术公布日：2023/10/20

版权声明

本文仅代表作者观点，不代表航家之家立场。
本文系作者授权航家号发表，未经原创作者书面授权，任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时，须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的，航空之家将依法追究其法律责任。（航空之家官方QQ：2926969996）

航空之家 https://www.aerohome.com.cn/

航空商城 https://mall.aerohome.com.cn/

航空资讯 https://news.aerohome.com.cn/

上一篇：一种用于稻谷加工的筛糠分离装置的制作方法 下一篇：一种切割机转动轴的制作方法

多媒体数据的目标跟踪方法和装置与流程

版权声明

评论

航空之家

相关推荐

文章排行

最近发表

标签列表

多媒体数据的目标跟踪方法和装置与流程

版权声明

相关文章

评论

航空之家

相关推荐

文章排行

最近发表

标签列表