用于提取时间序列数据的特征值的方法和装置与流程

未命名 09-24 阅读:54 评论:0


1.本公开内容涉及用于提取时间序列数据的特征值的方法和装置。


背景技术:

2.时间序列数据可以被定义为在预定时间段内收集并顺序地确定的一系列数据的集合。时间序列数据点按时间排序,并且在连续的数据点之间存在着相关性。因此,可以基于时间序列数据的自相关性或多个时间序列数据之间的相关性来检测包括在时间序列数据中的异常数据。例如,可以使用递归神经网络(rnn)和长短期记忆(lstm)深度学习技术来检测异常数据,或者可以基于过去的时间序列数据来预测未来的时间序列数据。
3.现有文献:韩国专利公开第10-1940029号
4.与此同时,由于在处理期间由传感器生成了大量的时间序列数据,因此管理传感器数据是高科技领域中的挑战。因此,预测建模通常可以从原始数据中提取特征并且将特征改变成变量以供使用,而非使用原始数据。然而,具有挑战性的是在每个处理中提取时间序列数据的合适特征值,并且将所提取的特征值应用于建模中。此外,预测性能或许可能由于对要在建模中输入的特征值的错误选择而劣化。
5.因此,需要用于有效地管理时间序列数据并且提取对于检测异常所必需的特征值的方法和装置。


技术实现要素:

技术目标
6.一方面提供了用于提取时间序列数据的特征值的方法和装置,其中,将时间序列数据分割成一个或更多个片段,并且根据映射至各个片段的特征组来提取在对应的特征组中包括的项的特征值。
7.由本公开内容的示例实施方式所要实现的目标不限于上述技术方面,并且其他目标可以从以下示例实施方式中推断出。技术方案
8.根据第一示例实施方式,提供了一种用于提取时间序列数据的特征值的方法,其中,该方法可以包括:接收时间序列数据;根据预先设置片段类型将时间序列数据分割成一个或更多个片段;识别映射至一个或更多个片段中的第一片段的片段类型的第一特征组;以及从第一片段中提取在第一特征组中包括的项的特征值。
9.根据第二示例实施方式,还提供了一种用于提取时间序列数据的特征值的装置,该装置包括:存储器,该存储器被配置成存储至少一个指令;以及处理器,其中,该处理器通过执行所述至少一个指令而被配置成:接收时间序列数据、根据预先设置片段类型将时间序列数据分割成一个或更多个片段、识别映射至一个或更多个片段中的第一片段的第一特征组、以及从第一片段中提取在第一特征组中包括的项的特征值。
10.根据第三示例实施方式,还提供了一种记录有程序的非暂态计算机可读记录介
质,所述程序用于在计算机中执行用于提取时间序列数据的特征值的方法,该方法包括:接收时间序列数据;根据预先设置片段类型将时间序列数据分割成一个或更多个片段;识别映射至一个或更多个片段中的第一片段的第一特征组;以及从第一片段中提取在第一特征组中包括的项的特征值。
11.其他示例实施方式的细节包括在以下具体实施方式和附图中。效果
12.根据示例实施方式,可以使用根据本公开内容的用于提取时间序列数据的特征值的方法和装置来通过所提取的特征值准确和容易地检测异常的时间序列数据,所述方法和装置可以根据片段类型来提取不同的特征值。
13.此外,根据本公开内容的用于提取时间序列数据的特征值的方法和装置提供了通过对时间序列数据进行压缩以及然后将时间序列数据分割成片段来提高分割的准确性的效果。
14.本公开内容的效果不限于上述那些效果,并且可以根据以下描述使其他效果对于本领域技术人员而言明显。
附图说明
15.图1示出了根据本公开内容的示例实施方式的时间序列数据和包括在时间序列数据中的片段。
16.图2示出了根据本公开内容的示例实施方式的时间序列数据的分割结果。
17.图3提供了根据本公开内容的示例实施方式的可以被映射至各个片段类型的特征组。
18.图4示出了根据本公开内容的示例实施方式的方法的效果。
19.图5示出了根据本公开内容的另一示例实施方式的方法的效果。
20.图6和图7示出了根据本公开内容的示例实施方式的对时间序列数据进行压缩的方法。
21.图8至图10示出了根据示例实施方式的基于从时间序列数据中提取的特征值来对时间序列数据进行异常检测的结果。
22.图11示出了根据本公开内容的示例实施方式的两种类型的时间序列数据的分割结果。
23.图12是示出根据本公开内容的示例实施方式的用于提取时间序列数据的特征值的方法的流程图。
24.图13是示出根据本公开内容的另一示例实施方式的用于提取时间序列数据的特征值的方法的流程图。
25.图14是示出根据本公开内容的示例实施方式的用于提取时间序列数据的特征值的装置的框图。
具体实施方式
26.示例实施方式中使用的术语在考虑根据本公开内容获得的功能的情况下要尽可能地从目前广泛使用的一般术语中选择,但是这些术语可以基于本领域技术人员的意图、
惯例、新技术的出现等而由其他术语代替。此外,在特定情况下,可以使用由本公开内容的申请人任意选择的术语。在这种情况下,这些术语的含义可以在本公开内容的对应描述部分中描述。因此,应当注意,本文中使用的术语应当基于其实际含义和本说明书的整个内容来解释,而不是仅基于术语的名称来解释。
27.在整个说明书中,当元件被称为“包括”或“包含”另一元件时,只要不存在特别的冲突描述,该元件就不应当被理解为排除其他元件,并且该元件可以包括至少一个其他元件。
28.表述“a、b和c中的至少一个”可以包括以下含义:仅a;仅b;仅c;a和b两者一起;a和c两者一起;b和c两者一起;或者a、b、和c中的全部三者一起。
29.在整个说明书中描述的时间序列数据可以被定义为以规则的时间间隔排列的数据的数值数列。因此,时间序列数据也可以被定义为按时间顺序地观察到的值的集合。同时,时间序列数据取决于时间,并且在时间t处生成的数据可能受到时间t-1处的数据的影响。例如,时间序列数据可以包括温度、股票价格、汇率和海平面观测数据,从而包括可以从各种传感器接收的传感器数据。具体地,传感器数据可以是但不限于从厚度传感器、速度传感器、加速度传感器、振动传感器、功率传感器、压力传感器、位置传感器、用于测量等离子体强度的传感器、温度传感器、ph传感器、化学成分传感器和化学浓度传感器接收的数据。
30.在以下描述中,将参照附图详细描述本公开内容的示例实施方式,以便本领域技术人员能够容易地实施本公开内容。然而,本公开内容可以以各种不同的形式实现,而不限于本文中描述的示例性实施方式。
31.在下文中,将参照附图详细描述本公开内容的示例实施方式。
32.图1示出了根据本公开内容的示例实施方式的时间序列数据和包括在时间序列数据中的片段。
33.根据本公开内容的示例实施方式的时间序列数据100可以由值保持恒定的部段a、值急剧下降的部段b、尖峰部段c、值急剧上升的部段d等组成。因此,如果在时间序列数据的所有部段上提取预定项的特征值而不考虑时间序列数据中包括的各个部段的特征,则仅使用所提取的结果来管理时间序列数据可能是不容易的。例如,图1的时间序列数据100可能是在特定处理期间从压力传感器接收的感测值。此处,在处理的早期阶段,可以恒定地维持高压(图1的部段a),以及然后随着处理进行,压力可以迅速降低(图1的部段b)。然而,如果仅提取关于图1的部段a和部段b中的每一个的起始时间点信息和结束时间点信息作为特征值,则图1的部段a可以仅通过所提取的信息来恢复,但部段b可能无法仅通过所提取的信息来容易地恢复,这是因为部段b没有斜率信息。
34.此外,如果基于针对时间序列数据的所有部段的预定标准来检测异常,则检测异常的错误率可能增加。例如,在图1的部段a中,即,在恒定地维持高压情况下的早期阶段处,如果感测值超出
±
5%的范围,则感测值可能为异常。然而,在压力迅速减小的部段b中,即使压力迅速减小10%或更多,其也可能指示处理正常地进行。因此,对于时间序列数据100,如果基于统一的标准来确定异常部段,则确定的错误率可能增加。
35.因此,根据本公开内容的示例实施方式的方法可以将时间序列数据分割成一个或更多个片段,并且针对各个片段提取不同的特征值。例如,如果接收到图1的时间序列数据100,则根据本公开内容的示例实施方式的方法可以将包括在时间序列数据100中的部段分
割成值保持恒定的恒定片段a、值急剧下降的下坡片段b、尖峰片段c等。此处,恒定型、下坡型和尖峰型可以是针对时间序列数据100的预先设置片段类型。根据本公开内容的示例实施方式的方法的预先设置片段类型除了恒定型、下坡型和尖峰型之外,还可以包括分段-恒定型、上坡型和稳态型。此外,考虑到凸度,上坡型或下坡型还可以分类成上凸坡型或下凸坡型、上凹坡型或下凹坡型等。同时,片段类型不限于此,而是可以根据时间序列数据和系统实现方式而变化。
36.根据本公开内容的示例实施方式的方法可以将时间序列数据100分割成片段,以及然后根据各个片段类型来识别映射至各个片段类型的特征组。可以基于识别结果来提取各个片段的特征值。
37.例如,映射至恒定片段的特征组可以由起始时间点、结束时间点和片段维持时间组成。同时,映射至尖峰型片段的特征组可以由峰度信息和最大值组成。因此,可以从恒定型片段中提取起始时间点信息和结束时间点信息,以及可以从尖峰型片段中提取关于峰度的信息和最大值信息。
38.换句话说,根据本公开内容的示例实施方式的方法可以针对各种片段类型提取不同的特征值,并且因此,可以在基于所提取的特征值检测时间序列数据的异常时提高检测的准确性。此外,该方法可以存储和管理从各个片段中提取的特征值而非存储和管理整个时间序列数据,并且因此可以提高系统效率。
39.图2示出了根据本公开内容的示例实施方式的时间序列数据的分割结果。
40.参照图2,本公开内容的方法可以根据预先设置片段类型(恒定型、尖峰型、上坡型和下坡型)将不同类型的时间序列数据分割成多个片段。此处,用于确定对不同类型的时间序列数据进行的分割的标准可以变化。
41.例如,图2的(a)所示的时间序列数据可以是从特定处理的压力传感器接收的时间序列数据,以及图2的(b)所示的时间序列数据可以是从特定处理的温度传感器接收的时间序列数据。此处,用于确定包括在图2的(a)的时间序列数据中的恒定型片段的标准和用于确定包括在图2的(b)的时间序列数据中的恒定型片段的标准可以彼此不同。
42.图3示出了根据本公开内容的示例实施方式的可以映射至各个片段类型的特征组。
43.根据本公开内容的示例实施方式的方法可以包括映射至预先设置片段类型的特征组。例如,映射至恒定型片段的特征组可以包括片段的起始时间点、片段的结束时间点以及片段的片段维持时间。因此,在恒定型片段的情况下,可以从片段中提取片段的起始时间点、片段的结束时间点和片段的片段维持时间中的至少一者作为特征值。
44.参照图3,可以从稳态型片段中提取最大值信息、最小值信息、平均值信息、标准偏差信息、起始时间点信息和结束时间点信息中的至少一者作为特征值。与此同时,作为可以从尖峰型片段中提取的峰度信息,可以包括对于指定尖峰形状所必需的信息,例如尖峰型的最大值和片段维持时间。
45.然而,映射至各个片段类型的特征组并不限于图3的公开内容。换句话说,在一些情况下,即使恒定型片段也可以在特征组中包括最大值项和最小值项。此外,各个片段类型的特征组中可以包括图3中未提供的项。
46.图4示出了根据本公开内容的示例实施方式的方法的效果。
47.图4的第一时间序列数据和第二时间序列数据可以是同一类型的时间序列数据。例如,图4的第一时间序列数据可以是用于在半导体处理期间控制室中的第一周期的泵强度的与阀位置有关的数据,以及图4的第二时间序列数据可以是用于控制第二周期的泵强度的与阀位置有关的数据。然而,在第一时间序列数据与第二时间序列数据之间可能发生时间偏移问题。例如,即使针对同一处理的两个时间序列数据也可能根据传感器的感测周期而具有不同的对应片段位置。
48.因此,如果仅根据时间部段来对第一时间序列数据和第二时间序列数据进行分割,则在通过比较第一时间序列数据与第二时间序列数据之间的相似片段来检测时间序列数据的异常时,错误率可能增加。
49.与此同时,本公开内容的方法可以根据各个片段类型来分割和提取各个片段的特征值。因此,尽管图4的第一时间序列数据的最小值410和第二时间序列数据的最小值420是在不同的时间处感测到的,但可以通过使两个片段同步来比较特征值,并且因此,可以提高检测时间序列数据的异常的准确性。因此,如果时间序列数据是与特定处理的环境有关的感测值,则可以根据分割结果来逐个处理地分割时间序列数据,并且针对各个处理的分割结果可以是对时间偏移问题鲁棒的。换句话说,尽管存在时间偏移问题,但是在针对各个处理的分割结果中可以仅存在少数错误。
50.图5示出了根据本公开内容的另一示例实施方式的方法的效果。
51.根据示例实施方式的用于提取时间序列数据的特征值的装置可以检测时间序列数据上的同一类型的片段中的具有不同特征值的片段,并且可以基于检测结果确定时间序列数据是否具有异常。
52.图5的(b)示出了在图5的(a)的第一部段510中包括的一个部段的分割结果,以及图5的(c)示出了在图5的(a)的第二部段520中包括的一个部段的分割结果。参照图5的(b)和(c),可以发现分割结果不同。
53.此外,图5的(b)和(c)均包括下坡型片段、上坡型片段和恒定型片段。当基于下坡型片段进行比较时,图5的(b)和(c)二者包括下坡型片段530和下坡型片段540,但是图5的(b)中包括的下坡型片段530的特征值和图5的(c)中包括的下坡型片段540的特征值彼此不同。具体地,图5的(b)中包括的下坡型片段530的斜率、最大值、最小值等与图5的(c)中包括的下坡型片段540的斜率、最大值、最小值等不同。因此,本公开内容的方法可以基于从片段中提取的特征值来检测出时间序列数据的一个部段中的异常。
54.与此同时,为了检测时间序列数据的异常,通过根据本公开内容的示例实施方式的方法提取的特征值可以被输入至机器学习算法。机器学习算法可以使用所输入的数据进行训练,并且在训练之后,该机器学习算法可以检测出所输入的时间序列数据中的异常。
55.图6和图7示出了根据本公开内容的示例实施方式的对时间序列数据进行压缩的方法。
56.根据示例实施方式的用于提取时间序列数据的特征值的方法可以对时间序列数据进行压缩。图6的(a)示出了时间序列数据,以及图6的(b)示出了对图6的(a)的时间序列数据进行压缩的结果。
57.与此同时,包括在时间序列数据中的下坡型片段或上坡型片段可以包括阶梯式坡。此处,阶梯式坡指示由多个阶梯组成的坡部段,例如图6的第一部段610。例如,如果感测
周期变得更长,则时间序列数据可以示出更清楚的阶梯式特性。
58.然而,如果在时间序列数据中包括阶梯式坡,则在确定片段类型方面可能发生错误。例如,图6的(a)的整个第一部段610应当被完整地认定为下坡型片段,但是由于预定值在第一部段610中包括的第二部段620中维持了相对长的时间,因此第二部段620可能被分割成恒定型片段。
59.因此,为了解决该问题,本公开内容的方法可以对时间序列数据进行压缩,以及然后基于压缩数据来分割时间序列数据。图6的(b)示出了包括在压缩数据中的上坡型片段和下坡型片段由曲线坡而非阶梯式坡组成。因此,针对压缩数据的分割可以更容易,并且分割的准确性可以提高。
60.为了降低时间序列数据的损失率,如果时间序列数据中的具有相同值的第一时间部段的长度小于第一阈值,则本公开内容的方法可以将第一时间部段的数据压缩成在第一时间部段中包括的第一时间点处的数据。当以这种方式对时间序列数据进行压缩时,具有一个阶梯式部段的时间序列数据可以由于数据量化而被转化成具有坡的时间序列数据。
61.参照图7,时间序列数据可以被压缩成在其处发生剧烈变化的时间点的值(t1至t7)。
62.压缩的时间序列数据可以根据压缩率来使用与压缩前的先前时间序列数据相比的较短时间的数据表示。然而,图7的压缩的时间序列数据在x轴上根据压缩率来以扩展形式表示,以与压缩前的时间序列数据进行比较。在下文中,将基于数据处于扩展形式下的前提来描述图7的压缩的时间序列数据。
63.图7的t1与t2之间的一个部段的时间序列数据可以被压缩成t1处的数据。与此同时,代替在t1至t7中的在其处时间序列数据剧烈变化的单个时间点处执行时间序列数据的压缩,可以在时间点t1至t7中的连续两个时间点之间的中间时间点处或者可以在不同时间点处执行时间序列数据的压缩。例如,图7的t1与t2之间的一个部段的时间序列数据可以被压缩成t1和t2的中间值或者t2的数据。
64.如果基于压缩数据执行分割,则根据本公开内容的示例实施方式的方法可以针对片段两端的噪声执行后处理。例如,作为对压缩数据上的被分割为第一片段的局部部段进行恢复的结果,当该部段适合被确定为第一片段之前的片段时,可以将该部段重新调整为第一片段之前的片段。作为示例,如果所恢复的时间序列数据的应当被确定为恒定型片段的区域被分类为与恒定型片段邻接的上坡型片段,则本公开内容的方法可以通过后处理将对应的区域重新调整为恒定型片段。
65.此处,根据本公开内容的示例实施方式的方法可以基于所恢复的时间序列数据的斜率来对片段进行后处理,但是用于确定后处理的标准不限于斜率。
66.此外,本公开内容的方法可以存储时间点信息(t1至t7)、各个时间点处的值信息以及时间点(t1至t7)中的连续两个时间点之间的间隔信息,以稍后对压缩数据进行恢复。因此,可以基于压缩数据和所存储的信息来恢复时间序列数据,而没有数据损失或具有最小的数据损失。
67.图8至图10示出了根据示例实施方式的基于从时间序列数据中提取的特征值对时间序列数据进行异常检测的结果。
68.与此同时,根据本公开内容的示例实施方式的方法可以用于对在高科技制造业务
例如半导体、显示器和太阳光发电的复杂处理期间可能生成的时间序列数据进行分析。
69.具体地,半导体处理包括预处理和后处理。预处理可以指示在晶片上雕刻电路以生产芯片的处理,而后处理可以指示对芯片进行切割、包装和测试的处理。预处理可以包括诸如氧化、曝光、蚀刻、清洗、平整化、离子植入、沉积和热处理等处理。
70.然而,由于在过去可以用于在处理期间检测异常的时间序列数据的数目有限,因此检测异常的准确性低。例如,仅能够基于温度数据来确定晶片弯曲的程度,并且因此,对处理的异常进行检测的准确性低。
71.然而,随着先进的技术使得整个处理规模化,以及随着为了针对每个处理检测异常而收集的时间序列数据量增加,需要用于在监控详细处理的同时基于各种时间序列数据来检测异常的方法。
72.与此同时,根据本公开内容的示例实施方式的方法可以例如检测引入到半导体处理的晶片的弯曲现象、检测用于半导体处理的特殊气体是否泄漏、或者检测用于生产晶片的薄膜或原子层蚀刻等的化学气相沉积法的等离子体。此外,该方法不限于以上示例,而是可以应用于用于基于时间序列数据检测异常的所有方法。如果使用根据本公开内容的示例实施方式的方法,则机器学习算法和各种时间序列数据可以用于检测异常,从而提高异常检测的准确性。
73.此外,根据本公开内容的示例实施方式的方法可以使用关于阀位置的时间序列数据以及各种传感器的时间序列数据,以便在半导体处理期间检测真空室内的用于生产目的的特殊气体的泄漏,从而提高气体泄漏检测的准确性。此外,根据本公开内容的示例实施方式的方法可以应用于在半导体处理期间对颗粒(灰尘、细颗粒)进行检测。
74.图8是示出根据示例实施方式的在半导体处理期间感测到的用于控制泵强度的关于阀位置的时间序列数据的图。
75.半导体处理中可以包括使用泵来降低室中的压力的处理。此处,室的内部应当处于真空状态下,但是室的内部可能由于诸如破裂的橡胶阀或破裂的玻璃管的因素而无法达到真空状态。根据本公开内容的示例实施方式的方法可以基于用于控制泵强度的关于阀位置的时间序列数据来检测室的内部无法达到真空状态的异常处理。
76.参照图8,时间序列数据810可以被分割成第一片段至第八片段。具体地,第一片段可以是下坡型片段,以及第二片段可以是上坡型片段。此外,第三片段可以是稳态型片段,以及第八片段可以是恒定型片段。
77.与此同时,根据本公开内容的示例实施方式的方法可以具有用于针对各个片段确定异常的不同标准。参照图8,如果在预定时间点处获得的时间序列数据的第二片段的最小值与最大值之间的部段(即,与图8的



之间的部段对应的片段的“范围”特征值)大于阈值,则根据本公开内容的示例实施方式的方法可以识别出与对应的时间序列数据有关的产物或处理可能具有60.3%的故障率。此外,图8中未示出的在预定时间点处获得的时间序列数据的第三片段可能轻微地波动,并且因此,可能存在关于波动范围的标准偏差。因此,如果第三片段的标准偏差(即,与图8中的



之间的部段对应的片段“std”特征值)大于阈值,则可以发现与对应的时间序列数据有关的产物或处理可能具有85.2%的故障率。因此,可以基于该统计信息更准确地检测处理的异常。
78.图9示出了表示在半导体处理期间感测到的关于电源功率(source power)的时间
序列数据的图。
79.图9的(a)是示出关于半导体处理中的电源功率的时间序列数据的图,以及图9的(b)是示出根据图9的(a)的时间序列数据的第一片段910的最小值而被检测为正常或异常的时间序列数据的分布的图。
80.例如,如果在半导体处理期间的关于电源功率的时间序列数据被收集100次,则可以从100个时间序列数据中提取各个第一片段。然后,可以从所提取的100个第一片段中得出各个最小值。图9的(a)中示出的第一片段910似乎被示出其具有恒定值,但当放大时,示出了列举出的不同的数据。因此,如图9的(b)所示,所提取的100个第一片段的最小值可以分布在特定范围(约1980至2005)内。
81.另一方面,在图9的(b)中示出的基于真实实验结果的条形图中,x值是各个时间序列数据的第一片段910的最小值,以及y值是对应的最小值出现的相对比例。作为示例,如果100个所收集的时间序列数据中的30个时间序列数据被确定为关于正常处理的数据,则可以根据从30个时间序列数据中提取的各个第一片段的最小值得出第一条形图930。此外,如果100个所收集的时间序列数据中的70个时间序列数据被确定为关于异常处理的数据,则可以根据从70个时间序列数据中提取的各个第一片段的最小值得出第二条形图940。与此同时,图9的(b)中示出的y轴上的值与第一曲线图950和第二曲线图960有关,并且在图9的(b)中没有指定第一条形图930的y值和第二条形图940的y值。作为示例,当使用100个所收集的时间序列数据得出第一条形图930和第二条形图940时,例如第二条形图930的最大条形的y值可以为40以及第二条形图940的最大条形的y值可以为8。
82.与此同时,第一曲线图950指示第一条形图930沿x轴的概率密度函数,而第二曲线图960指示第二条形图940沿x轴的概率密度函数。因此,这两个曲线图的积分为1。作为示例,第一曲线图950的每个x值包括在从1983至2003的范围内,并且第一曲线图950的关于每个x值的y值之和为1。此外,第二曲线图960的每个x值包括在从1993至2003的范围内,并且第二曲线图960的关于每个x值的y值之和为1。
83.为了更好的理解,图9的(b)中示出的第一条形图930、第二条形图940、第一曲线图950和第二曲线图960被示出为彼此交叠,并且尽管不同的图被示出为彼此交叠,但应当对各个图进行单独分析。
84.与此同时,可以使用根据本公开内容的示例实施方式的方法来分析时间序列数据与处理期间发生的异常状态之间的相关性。例如,为了将100项所收集的时间序列数据分类成对应于正常状态的数据和对应于异常状态的数据,可能必须基于许多变量应用复杂确定标准,或者可能必须使用需要长的计算时间的算法。相对地,参照图9的(b),可以发现如果图9的(a)的第一片段910的最小值等于或大于第一点920,则开始检测关于异常状态的数据。因此,本公开内容的方法可以基于第一片段的最小值来确定时间序列数据是否处于正常状态下,而不是使用复杂确定标准来确定时间序列数据是处于正常状态下或是处于异常状态下。在这种情况下,存在减少计算量和计算时间的效果。
85.根据特定的实验结果,如果图9的(a)的第一片段910的最小值小于第一点920,则在所有晶片中的99.5%的晶片中不生成颗粒。如果第一片段910的最小值等于或大于第一点920,则在所有晶片中的21.5%的晶片中生成五个或更多个颗粒。因此,如果使用根据本公开内容的示例实施方式的方法,则可以基于关于电源功率的时间序列数据的部段的部分
的最小值来预测生成五个或更多个颗粒的概率。
86.图10是示出与根据本公开内容的示例实施方式的方法有关的实验结果的图。
87.具体地,图10是示出为了验证半导体的大规模生产可能性而收集的马拉松式数据的图。马拉松式数据指示在为了验证大规模生产可能性而进行的马拉松式测试期间生成的数据。在3131个晶片中,对404个晶片进行颗粒检查,并且特别地,37个晶片具有五个或更多个颗粒,而367个晶片不具有五个或更多个颗粒。通常,具有较多颗粒的晶片很可能在处理期间具有异常。图10是为了示出仅针对已经执行颗粒检查的404个时间序列数据的基于颗粒数目的检测到异常或未检测到异常的比率。
88.与此同时,图10中示出的第一条形图1030是与未检测到异常有关的条形图,以及第二条形图1040是与检测到异常有关的条形图。在基于真实实验结果的第一条形图1030和第二条形图1040中,x值指示颗粒数目,以及y值指示所生成的处于异常状态下的数据(检测到或未检测到)与具有对应数目的所检测的颗粒的时间序列数据的相对比例。
89.与此同时,第一曲线图1010指示第一条形图1030沿x轴的概率密度函数,以及第二曲线图1020指示第二条形图1040沿x轴的概率密度函数。因此,两个曲线图的积分为1。作为示例,第一曲线图1010的每个x值包括在从3至18的范围内,并且第一曲线图1010的关于每个x值的y值之和为1。此外,第二曲线图1020的每个x值包括在从1至30的范围内,并且第二曲线图1020的关于每个x值的y值之和为1。同时,在图10中未指定第一条形图1030和第二条形图1040的y值,并且图10中示出的y轴值与第一曲线图1010和第二曲线图1020有关。作为示例,参照第一条形图1030,尽管没有具体地指示条形图的y值(即,未检测到异常的数目),但是可以发现,在存在8个颗粒的情况下的未检测到异常的比例小于在存在7个颗粒的情况下的未检测到异常的比例。
90.同时,为了更好地理解,图10中示出的第一条形图1030、第二条形图1040、第一曲线图1010和第二曲线图1020被示出为彼此交叠。因此,尽管不同的图被示出为彼此交叠,但应当对各个图进行单独分析。
91.同时,根据本公开内容的示例实施方式的方法可以通过执行基于45个不同类型的时间序列数据的机器学习来在处理期间检测异常。作为实验结果,基于根据本公开内容的示例实施方式的方法(即,根据本公开内容的算法对其中出现颗粒的晶片进行检测,而无需直接的颗粒检查)进行的处理期间的异常检测示出了在37个晶片中检测出其中出现五个或更多个颗粒的24个晶片。参照图10,可以发现,根据本公开内容的示例实施方式的方法示出了针对其中出现8个或更多个颗粒的晶片的检测性能相对地比针对其中出现少于8个颗粒的晶片的检测性能更高。
92.换句话说,可以发现,具有大的异常度的、具有8个或更多个颗粒的晶片极很可能被检测到,但是具有少于8个颗粒的晶片不太可能被检测到。然而,在现实中,在异常检测期间,用于确定异常的标准——即根据其将晶片确定为具有异常的所出现颗粒的特定数目——可能不明确。在这种情况下,如果明确地存在8个颗粒,则可以通过图10的概率密度函数将对应的晶片确定为具有异常。
93.图11指示了根据本公开内容的示例实施方式的两种类型的时间序列数据的分割结果。
94.参照图11,可以发现,时间序列数据的部段中的大部分部段维持在恒定值处,而在
一些部段1120和1130处,第一时间序列数据和第二时间序列数据转成具有彼此相反的特性。在这种情况下,具有相反特性的值的部段极很可能是对于在现实中分析数据所必需的,并且因此,这样的部段可以必要地作为重要部段来进行管理。
95.因此,根据本公开内容的示例实施方式的方法可以将时间序列数据分割成一个或更多个片段,以及然后对一些片段与不同时间序列数据的片段之间的相关性进行计算。作为示例,参照图11,根据本公开内容的示例实施方式的方法可以容易地对第一部段1120的第一时间序列数据的第一片段与第一部段1120的第二时间序列数据的第二片段之间的相关性进行计算,而不是对第一时间序列数据与第二序列数据之间的相关性进行计算。在这种情况下,由于在部段1110处的相关性为零,因此直接地对第一时间序列数据与第二时间序列数据之间的相关性进行计算变得复杂。相对地,片段之间的相关性可以以相对更容易的方式进行计算,这可以提供有效地对第一时间序列数据与第二时间序列数据之间的相关性进行计算的效果。
96.图12是示出根据示例实施方式的用于提取时间序列数据的特征值的方法的流程图。
97.在操作s1210中,该方法可以接收时间序列数据。此处,时间序列数据可以是传感器的可以在特定处理期间生成的感测数据,例如,在半导体处理期间生成的感测数据,但不限于此。
98.在操作s1220中,该方法可以根据预先设置片段类型将时间序列数据分割成一个或更多个片段。此处,预先设置片段类型可以包括恒定型、尖峰型、分段-恒定型、稳态型、上坡型和下坡型中的至少一种。
99.与此同时,如果时间序列数据中的具有相同值的第一时间部段的长度小于第一阈值,则操作s1220可以包括以下操作:将第一时间部段的数据压缩成在第一时间部段中包括的第一时间点处的数据。
100.此外,操作s1220还可以包括以下操作:基于压缩数据中的包括第一时间点的第二时间部段的斜率而将第二时间部段确定为预先设置片段类型中的一种片段类型的片段。此处,操作s1220还可以包括以下操作:基于关于第一时间点的信息和关于第一时间部段的长度的信息中的至少一个来恢复压缩数据,并且包括在所恢复的数据中的第二片段可以对应于压缩数据的第二时间部段。
101.操作s1220还可以包括基于第二片段的斜率来调整第二片段的部段的操作。
102.并且如果片段的数目小于第二阈值,则操作s1220还可以包括以下操作:调整包括在压缩数据中的一个或更多个片段的压缩率。
103.在操作s1230中,该方法可以识别映射至一个或更多个片段中的第一片段的片段类型的第一特征组。
104.在操作s1240中,该方法可以从第一片段中提取包括在第一特征组中的至少一项的值作为特征值。
105.与此同时,包括在第一特征组中的项可以包括以下中的至少一者:片段的斜率、起始时间点、结束时间点、长度、标准偏差、最大值、最小值、凸度、残差、峰度、偏斜度、幅度和频率。
106.本公开内容的方法还可以包括基于提取的特征值来检测时间序列数据的异常的
操作。此处,检测时间序列数据的异常的操作可以包括以下操作:基于提取的特征值与从不同于该时间序列数据的时间序列数据中提取的特征值之间的相关性来检测时间序列数据的异常。
107.同时,片段类型和用于确定片段类型的标准可以由时间序列数据的类型确定。
108.图13是示出根据本公开内容的另一示例实施方式的用于提取时间序列数据的特征值的方法的流程图。
109.在操作s1310中,该方法可以确定在接收到的时间序列数据中包括的第一部段是恒定型片段或是分段-恒定型片段。例如,如果在时间序列数据中包括的一个部段整体具有相同的值或者具有5个或更少的唯一值,则本公开内容的方法可以将对应的部段分割成恒定型片段或分段-恒定型片段。同时,对于本领域技术人员明显的是,用于确定恒定型片段或分段-恒定型片段的标准不限于此,并且该标准可以根据时间序列数据和系统实现条件而变化。
110.在操作s1310中,如果在时间序列数据中包括的第一部段是恒定型片段或分段-恒定型片段,则本公开内容的方法可以执行图12的操作s1230,或者如果在时间序列数据中包括的第一部段不是恒定型片段或分段-恒定型片段,则执行操作s1320。
111.在操作s1320中,该方法可以对时间序列数据进行压缩。此处,对时间序列数据进行压缩的方法可以与参照图6和图7描述的方法相同。
112.在操作s1330中,该方法可以使用压缩的时间序列数据来识别片段。换句话说,在操作s1330中,可以确定压缩的时间序列数据的部分是否对应于预先设置片段类型中的一个,所述预先设置片段类型例如尖峰型、稳态型、上坡型和下坡型。在恒定型片段和分段-恒定型片段的情况下,在操作s1310中确定该片段,并且因此,在操作s1330中可以识别除了恒定型片段和分段-恒定型片段以外的片段。
113.与此同时,尽管图13示出了在对时间序列数据进行压缩之前确定恒定型片段和分段-恒定型片段,但是对于本领域技术人员明显是,可以省略操作s1310并且可以在操作s1330中使用压缩的时间序列数据来识别恒定型片段和分段-恒定型片段。
114.在操作s1340中,该方法可以恢复压缩的时间序列数据。具体地,该方法可以基于关于起始时间点的信息、关于结束时间点的信息以及在对时间序列数据进行压缩时存储的压缩部段的值信息来恢复压缩的时间序列数据。因此,与基于内插法恢复压缩的时间序列数据的情况相比,数据损失率可以降低。
115.图14是示出根据示例实施方式的用于提取时间序列数据的特征值的装置的框图。
116.根据示例实施方式,用于提取时间序列数据的特征值的装置1400可以包括存储器1410和处理器1420。在图14中示出的用于提取时间序列数据的特征值的装置1400被描绘成仅具有与本示例实施方式有关的部件。因此,与本示例实施方式有关的领域中的技术人员可以理解,该装置还可以包括除了图14中示出的部件以外的通用部件。
117.存储器1410是存储在用于提取时间序列数据的特征值的装置1400内进行处理的每一种数据的硬件。作为示例,存储器1410可以存储在用于提取时间序列数据的特征值的装置1400中处理的数据和待进行处理的数据。存储器1410可以存储关于处理器1420的操作的至少一个指令。此外,存储器1410可以存储可以由用于提取时间序列数据的特征值的装置1400操作的程序或应用。存储器1410可以包括随机存取存储器(ram)例如动态随机存取
存储器(dram)和静态随机存取存储器(sram)、只读存储器(rom)、电可擦除可编程只读存储器(eeprom)、cd-rom、蓝光或其他光盘存储装置、硬盘驱动器(hdd)、固态驱动器(ssd)或闪存。
118.处理器1420可以控制用于提取时间序列数据的特征值的装置1400的整体操作,并且可以对数据和信号进行处理。处理器1420可以通过执行存储在存储器1410中的至少一个指令或至少一个程序来整体控制用于提取时间序列数据的特征值的装置1400。处理器1420可以由中央处理单元(cpu)、图形处理单元(gpu)、应用处理器(ap)等实现,但不限于此。
119.处理器1420可以接收时间序列数据,根据预先设置片段类型将时间序列数据分割成一个或更多个片段,识别映射至一个或更多个片段中的第一片段的片段类型的第一特征组,以及从第一片段中提取包括在第一特征组中的至少一项的值作为特征值。
120.与此同时,在将时间序列数据分割成一个或更多个片段时,如果时间序列数据中的具有相同值的第一时间部段的长度小于第一阈值,则处理器1420可以将第一时间部段的数据压缩成在第一时间部段中包括的第一时间点处的数据。此外,处理器1420可以基于压缩数据中的包括第一时间点的第二时间部段的斜率而将第二时间部段确定为预先设置片段类型中的一种片段类型的片段。
121.随后,处理器1420可以基于关于第一时间点的信息和关于第一时间部段的长度的信息中的至少一个来恢复压缩数据。此处,在所恢复的数据中包括的第二片段可以对应于压缩数据的第二时间部段。此外,处理器1420可以基于第二片段的斜率来调整第二片段的部段。
122.与此同时,如果片段的数目小于第二阈值,则处理器1420可以调整在压缩数据中包括的一个或更多个片段的压缩率。
123.与此同时,在第一特征组中包括的项可以包括以下中的至少一者:片段的斜率、起始时间点、结束时间点、长度、标准偏差、最大值、最小值、凸度、残差、峰度、偏斜度、幅度和频率。
124.此外,处理器1420可以基于提取的特征值来检测时间序列数据的异常。为此,处理器1420可以使用机器学习算法。此外,处理器1420可以基于使用rnn和lstm深度学习技术提取的特征值来预测未来的时间序列数据。
125.此外,处理器1420可以基于提取的特征值与从不同于所述时间序列数据的时间序列数据中提取的特征值之间的相关性来检测时间序列数据的异常。
126.预先设置片段类型可以包括恒定型、尖峰型、分段-恒定型、稳态型、上坡型和下坡型中的至少一个。
127.此外,片段类型和用于确定片段类型的标准可以由时间序列数据的类型来确定。作为示例,从压力传感器接收的时间序列数据的片段类型可以包括恒定型、分段-恒定型、上坡型和下坡型,而从温度传感器接收的时间序列数据的片段类型还可以包括尖峰型。此外,用于确定关于从压力传感器接收的时间序列数据的恒定型片段的标准和用于确定关于从温度传感器接收的时间序列数据的恒定型片段的标准可以彼此不同。
128.根据上述示例实施方式的处理器可以包括用户接口装置例如处理器、用于存储和执行程序数据的存储器、永久性存储装置例如磁盘驱动器、用于与外部装置进行通信的通信端口、触摸面板、按键和按钮。被实现为软件模块或算法的方法可以是可在处理器上执行
的计算机可读代码或程序指令,并且可以存储在计算机可读记录介质上。此处,计算机可读记录介质包括磁存储介质(例如,只读存储器(rom)、随机存取存储器(ram)、软盘和硬盘)以及光可读介质(例如,光盘(cd-rom)和数字多功能盘(dvd))。计算机可读记录介质可以分布在通过网络连接的计算机系统中,使得计算机可读代码可以以分布式方式存储和执行。计算机可读记录介质可以由计算机读取,并且计算机可读代码可以存储在存储器中并在处理器上执行。
129.示例实施方式可以通过功能块部件和各种处理操作来实现。这些功能块可以以执行特定功能的任意数目的硬件和/或软件配置实现。例如,示例实施方式可以采用能够在一个或更多个微处理器的控制下或通过其他控制装置来执行各种功能的集成电路部件,例如存储器、处理、逻辑、查找表等。与其类似的部件可以实现为软件编程或软件部件,示例实施方式可以包括实现为数据结构、进程、例程或其他编程部件的组合的各种算法,并且可以以诸如c、c++、java、汇编程序等的编程语言或脚本语言来实现。功能方面可以实现为在一个或更多个处理器上执行的算法。此外,示例实施方式可以采用相关技术来进行电子环境设置、信号处理和/或数据处理。诸如“机构”、“元件”、“零件”和“部件”的术语可以广义地使用,并且可以不限于机械部件和物理部件。这些术语可以包括与处理器等相关联的软件的一系列例程的含义。
130.上述示例实施方式仅为示例,并且其他实施方式可以在所附权利要求的范围内实现。

技术特征:
1.一种用于提取时间序列数据的特征值的方法,所述方法包括:接收时间序列数据;根据预先设置片段类型将所述时间序列数据分割成一个或更多个片段;识别映射至所述一个或更多个片段中的第一片段的片段类型的第一特征组;以及从所述第一片段中提取在所述第一特征组中包括的至少一项的值作为特征值。2.根据权利要求1所述的方法,其中,将所述时间序列数据分割成一个或更多个片段还包括:如果所述时间序列数据中的具有相同值的第一时间部段的长度小于第一阈值,则将所述第一时间部段的数据压缩成在所述第一时间部段中包括的第一时间点处的数据。3.根据权利要求2所述的方法,其中,将所述时间序列数据分割成一个或更多个片段还包括:基于压缩数据中的包括所述第一时间点的第二时间部段的斜率将所述第二时间部段确定为所述预先设置片段类型中的一种片段类型的片段。4.根据权利要求3所述的方法,还包括:基于关于所述第一时间点的信息和关于所述第一时间部段的长度的信息中的至少一个来恢复所述压缩数据,其中,在所恢复的数据中包括的第二片段对应于所述压缩数据的所述第二时间部段。5.根据权利要求4所述的方法,还包括基于映射至所述第二片段的片段类型的第二特征组中的至少一个来调整所述第二片段的部段。6.根据权利要求5所述的方法,还包括基于所述第二片段的斜率来调整所述第二片段的所述部段。7.根据权利要求2所述的方法,还包括:如果所分割的片段的数目小于第二阈值,则调整在所述压缩数据中包括的一个或更多个片段的压缩率。8.根据权利要求1所述的方法,其中,在所述第一特征组中包括的项包括以下中的至少一者:片段的斜率、起始时间点、结束时间点、长度、标准偏差、最大值、最小值、凸度、残差、峰度、偏斜度、幅度和频率。9.根据权利要求1所述的方法,还包括基于所提取的特征值来检测所述时间序列数据的异常。10.根据权利要求9所述的方法,其中,检测所述时间序列数据的异常包括:基于所提取的特征值与从不同于所述时间序列数据的时间序列数据中提取的特征值之间的相关性来检测所述时间序列数据的异常。11.根据权利要求1所述的方法,其中,所述预先设置片段类型包括以下中的至少一种:恒定型、尖峰型、分段-恒定型、稳态型、上坡型和下坡型。12.根据权利要求1所述的方法,其中,所述片段类型和用于确定所述片段类型的标准根据所述时间序列数据的类型来确定。13.一种用于提取时间序列数据的特征值的装置,所述装置包括:存储器,所述存储器被配置成存储至少一个指令;以及处理器,其中,所述处理器通过执行所述至少一个指令而被配置成:接收时间序列数据;
根据预先设置片段类型将所述时间序列数据分割成一个或更多个片段;识别映射至所述一个或更多个片段中的第一片段的第一特征组;以及从所述第一片段中提取在所述第一特征组中包括的至少一项的值作为特征值。14.一种记录有程序的非暂态计算机可读记录介质,所述程序用于在计算机中执行用于提取时间序列数据的特征值的方法,所述方法包括:接收时间序列数据;根据预先设置片段类型将所述时间序列数据分割成一个或更多个片段;识别映射至所述一个或更多个片段中的第一片段的片段类型的第一特征组;以及从所述第一片段中提取在所述第一特征组中包括的至少一项的值作为特征值。

技术总结
提供了用于提取时间序列数据的特征值的方法和装置,该方法包括:接收时间序列数据;根据预配置的片段类型将时间序列数据划分成一个或更多个片段;识别映射至一个或更多个片段中的第一片段的片段类型的第一特征组;以及从第一片段中提取在第一特征组中包括的至少一项的值作为特征值。项的值作为特征值。项的值作为特征值。


技术研发人员:金相烨 朴珍佑 河泰庆
受保护的技术使用者:RTM有限公司
技术研发日:2022.02.24
技术公布日:2023/9/22
版权声明

本文仅代表作者观点,不代表航家之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)

航空之家 https://www.aerohome.com.cn/

航空商城 https://mall.aerohome.com.cn/

航空资讯 https://news.aerohome.com.cn/

分享:

扫一扫在手机阅读、分享本文

评论

相关推荐