基于知识追踪的学习路径推荐方法、系统、装置和介质

未命名 09-29 阅读:60 评论:0


1.本发明涉及教育信息处理技术领域,尤其是一种基于知识追踪的学习路径推荐方法、系统、装置和介质。


背景技术:

2.相关技术中,现有方法采用了基于循环神经网络(rnn)的知识追踪模型获取学生的知识状态,由于预测准确性不高而影响学习路径推荐的质量。比如,现有模型没有设定预测达到的知识状态目标,而只是让知识状态有所提升,这样不够符合实际的教学情况,忽略了学习者期望针对不同知识点想要达到的掌握程度。同时,现有的模型也仅仅考虑了当前推荐的知识点前后掌握程度之差作为奖励设置,这样仅从局部的一个时刻考虑,没有考虑全局情况和学习目标,因而也与实际教学情况不符合,推荐的质量也不够优质。


技术实现要素:

3.本发明旨在至少解决现有技术中存在的技术问题之一。为此,本发明提出一种基于知识追踪的学习路径推荐方法、系统、装置和介质,能够有效提高学习路径推荐的质量。
4.一方面,本发明实施例提供了一种基于知识追踪的学习路径推荐方法,包括以下步骤:
5.获取问题和知识技能,并作为实体构建知识学习图,所述学习图用于表征实体节点之间的关系;
6.获取输入序列,并嵌入得到第一向量,所述输入序列的元素用于表征预设时刻的学习记录,所述学习记录包括学习问题和目标对象对所述学习问题的知识回答;
7.将所述第一向量输入时间卷积网络,得到第二向量表示,所述时间卷积网络用于处理所述输入序列内每个元素对时间的向量;
8.将所述第二向量表示输入图注意力网络,对所述知识学习图进行更新和推理,同时,图注意力网络通过自注意力机制来学习节点间的关联关系,进而更新节点的特征向量,最终对知识技能节点平均池化得到第三向量表示,所述图注意力网络用于处理所述输入序列内每个元素对关联依赖的向量;
9.根据所述第三向量表示和当前时刻的推荐题目嵌入后的向量预测所述目标对象在下一时刻的题目预测概率;
10.将所述第三向量表示作为历史知识掌握状态向量输入强化学习模型,得到所述目标对象的个性化学习路径。
11.在一些实施例中,所述将所述第三向量表示作为历史知识掌握状态向量输入强化学习模型,得到所述目标对象的个性化学习路径,包括:
12.将题目及题目预测概率加入历史输入序列中,经过嵌入、时间卷积网络和图注意力机制的重新处理,得当前时刻的知识掌握状态向量,所述历史知识掌握状态向量对应的时间节点位于当前时刻之前;
13.将所述当前时刻的知识掌握状态向量输入所述强化学习模型,得到所述目标对象的个性化学习路径。
14.在一些实施例中,所述将所述当前时刻的知识掌握状态向量输入所述强化学习模型,得到所述目标对象的个性化学习路径,包括:
15.将所述当前时刻的知识掌握状态向量输入所述强化学习模型,使所述当前时刻的知识掌握状态向量与目标知识掌握状态向量进行比较,得到第一差异;
16.当所述第一差异满足预设状态,确定所述强化学习模型训练完成,并生成所述目标对象的个性化学习路径。
17.在一些实施例中,在所述强化学习模型进行训练时,通过全局变化稳定情况衡量所述目标对象的知识掌握状态的稳定性;
18.其中,所述全局变化稳定情况的表达公式如下:
19.f
t
=x(s1,s2,l,s
t
)
20.f
t
表示全局变化稳定情况;x表示将状态转换为一个张量,然后通过线性变换计算出差距值,所述差距值用于衡量状态变化的稳定性;s1,s2,l,s
t
表示全部时刻的知识掌握状态向量。
21.在一些实施例中,在所述强化学习模型进行训练时,通过第二差异比较当前时刻推荐的题目所关联的知识技能的前后掌握程度差异;其中,所述第二差异的表达公式如下:
[0022][0023]at
表示第二差异,p
ki,t
表示当前时刻t推荐的题目q
t
所关联的知识技能ki在当前时刻t的答对概率,p
ki,t-1
表示该知识技能ki在上一时刻的答对概率,n
ki,t
表示当前时刻t推荐的题目q
t
所关联的知识技能ki被推荐的次数。
[0024]
在一些实施例中,所述强化学习模型的奖励函数表达公式如下:
[0025]rt
=y(c
t
,f
t
,a
t
)
[0026]rt
表示奖励,c
t
表示第一差异,f
t
表示全局变化稳定情况,a
t
表示第二差异,y(c
t
,f
t
,a
t
)表示通过多层感知机将c
t
,f
t
,a
t
映射到[0,1]上。
[0027]
在一些实施例中,所述根据所述第三向量表示和当前时刻的推荐题目嵌入后的向量预测所述目标对象在下一时刻的题目预测概率,包括:
[0028]
将所述第三向量表示和当前时刻的推荐题目嵌入后的向量进行拼接输入残差网络,得到第一隐藏输出数据;
[0029]
将所述第一隐藏输出数据输入稠密块,得到第二隐藏输出数据;
[0030]
将所述第二隐藏输出数据输入全连接层并通过sigmoid激活函数,得到所述目标对象在下一时刻的题目预测概率。
[0031]
另一方面,本发明实施例提供了一种基于知识追踪的学习路径推荐系统,包括:
[0032]
第一模块,用于获取问题和知识技能,并作为实体构建知识学习图,所述学习图用于表征实体节点之间的关系;
[0033]
第二模块,用于获取输入序列,并嵌入得到第一向量,所述输入序列的元素用于表征预设时刻的学习记录,所述学习记录包括学习问题和目标对象对所述学习问题的知识回答;
[0034]
第三模块,用于将所述第一向量输入时间卷积网络,得到第二向量表示,所述时间卷积网络用于处理所述输入序列内每个元素对时间的向量;
[0035]
第四模块,用于将所述第二向量表示输入图注意力网络,对所述知识学习图进行更新和推理,同时,图注意力网络通过自注意力机制来学习节点间的关联关系,进而更新节点的特征向量,最终对知识技能节点平均池化得到第三向量表示,所述图注意力网络用于处理所述输入序列内每个元素对关联依赖的向量;
[0036]
第五模块,用于根据所述第三向量表示和当前时刻的推荐题目嵌入后的向量预测所述目标对象在下一时刻的题目预测概率;
[0037]
第六模块,用于将所述第三向量表示作为历史知识掌握状态向量输入强化学习模型,得到所述目标对象的个性化学习路径。
[0038]
另一方面,本发明实施例提供了一种基于知识追踪的学习路径推荐装置,包括:
[0039]
至少一个存储器,用于存储程序;
[0040]
至少一个处理器,用于加载所述程序以执行所述的基于知识追踪的学习路径推荐方法。
[0041]
另一方面,本发明实施例提供了一种计算机存储介质,其中存储有计算机可执行的程序,所述计算机可执行的程序被处理器执行时用于实现所述的基于知识追踪的学习路径推荐方法。
[0042]
本发明实施例提供的一种基于知识追踪的学习路径推荐方法,具有如下有益效果:
[0043]
本实施例通过将表征预设时刻的学习记录嵌入后的第一向量输入时间卷积网络,从而可以扩大知识追踪过程的序列学习范围,并在知识追踪时,通过图注意网络得到的第三向量表示结合当前时刻的推荐题目嵌入后的向量预测目标对象在下一时刻的题目预测概率,从而可以提取得到目标对象动态变化的知识状态,然后通过将第三向量作为历史知识掌握状态向量输入强化学习模型,从而可以得到更高质量的学习路径。
[0044]
本发明的附加方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
[0045]
下面结合附图和实施例对本发明做进一步的说明,其中:
[0046]
图1为本发明实施例一种基于知识追踪的学习路径推荐方法的流程图;
[0047]
图2为本发明实施例一种知识追踪模型的结构示意图;
[0048]
图3为本发明实施例一种强化学习模型的数据处理示意图;
[0049]
图4为本发明实施例一种强化学习模型的训练示意图。
具体实施方式
[0050]
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终
相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本发明,而不能理解为对本发明的限制。
[0051]
在本发明的描述中,需要理解的是,涉及到方位描述,例如上、下、前、后、左、右等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。
[0052]
在本发明的描述中,若干的含义是一个以上,多个的含义是两个以上,大于、小于、超过等理解为不包括本数,以上、以下、以内等理解为包括本数。如果有描述到第一、第二只是用于区分技术特征为目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量或者隐含指明所指示的技术特征的先后关系。
[0053]
本发明的描述中,除非另有明确的限定,设置、安装、连接等词语应做广义理解,所属技术领域技术人员可以结合技术方案的具体内容合理确定上述词语在本发明中的具体含义。
[0054]
本发明的描述中,参考术语“一个实施例”、“一些实施例”、“示意性实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
[0055]
在进行具体实施例的阐述之前,对本技术实施例涉及的术语进行如下解释:
[0056]
知识追踪:是支持智能教育服务应用的一项基础且关键的任务,它旨在监控学生不断发展的知识状态,从而支持为每个学生提供最佳和适应性的学习体验、合理配置学习时间,达到提升教学质量和效率的目的。知识追踪采用了一系列面向序列建模的机器学习方法,以达到利用学习交互数据来动态预测学生知识状态的目的,当前已被广泛应用于智能教育系统。
[0057]
时间卷积知识追踪:即知识追踪里增加了对时间卷积序列的处理,使得知识追踪预测下一个问题回答答对的概率更加精确。
[0058]
强化学习:是一类模拟智能体与环境进行交互升级的算法簇,可以很自然地类比于教育过程:学习者可视为智能体、学习资源可以视为环境、学习者对于学习资源的选择可视为智能体对环境的动作、学习者学习相关知识后获得学习效果可视为环境对智能体动作的奖励,为目标学习者推荐最优学习路径的过程则就是智能体面对不同环境获得最高回报的序列。
[0059]
学习路径推荐:学习路径是一条针对目标学习者形成的由一系列路径节点组成的序列,用来指导学习者在指定时间的时间节点内完成既定学习目标。
[0060]
基于知识追踪的强化学习学习路径推荐即利用知识追踪来预测学生的知识状态,并作为强化学习的状态输入,强化学习则根据状态和设置的奖励执行策略,推荐出奖励高的习题,从而形成一个训练闭环,最终推荐的习题序列则是推荐的学习路径。现有的方法采用了基于rnn的知识追踪模型获取学生的知识状态,由于预测准确性不高而影响学习路径推荐的质量;其次,现有的模型在强化学习策略设置方面考虑得不够具体和全面,与实际教学情况有差异。比如,现有模型没有设定预测达到的知识状态目标,而只是让知识状态有所
提升,这样不够符合实际的教学情况,忽略了学习者期望针对不同知识点想要达到的掌握程度。同时,现有的模型也仅仅考虑了当前推荐的知识点前后掌握程度之差作为奖励设置,这样仅从局部的一个时刻考虑,没有考虑全局情况和学习目标,因而也与实际教学情况不符合,推荐的质量也不够优质。
[0061]
基于此,参照图1,本发明实施例提供了一种基于知识追踪的学习路径推荐方法,本实施例可应用于教育平台对应的服务器、处理器或云端。在应用过程中,本实施例的方法包括但不限于以下步骤:
[0062]
步骤s110、获取问题和知识技能,并作为实体构建知识学习图,其中,学习图用于表征实体节点之间的关系;
[0063]
步骤s120、获取输入序列,并嵌入得到第一向量,其中,输入序列的元素用于表征预设时刻的学习记录,学习记录包括学习问题和目标对象对所述学习问题的知识回答;
[0064]
步骤s130、将第一向量输入时间卷积网络,得到第二向量表示,其中,时间卷积网络用于处理输入序列内每个元素对时间的向量;
[0065]
步骤s140、将第二向量表示输入图注意力网络,对知识学习图进行更新和推理,同时,图注意力网络通过自注意力机制来学习节点间的关联关系,进而更新节点的特征向量,最终对知识技能节点平均池化得到第三向量表示,其中,图注意力网络用于处理输入序列内每个元素对关联依赖的向量;
[0066]
步骤s150、根据第三向量表示和当前时刻的推荐题目嵌入后的向量预测目标对象在下一时刻的题目预测概率;
[0067]
步骤s160、将所述第三向量表示作为历史知识掌握状态向量输入强化学习模型,得到目标对象的个性化学习路径。
[0068]
在本技术实施例中,首先需要构建一个知识学习图g
kl
,使得图注意力网络能够使用自注意力机制作用于所有图节点。假设,v
kl
和ε
kl
分别表示知识学习涉及中实体和关联,本实施例主要强调的实体是知识问题q,及相关的知识技能sk中相关内容,即v
kl
=q∪sk,其中表示知识技能sk是由知识问题q映射而来;其次,ε
kl
=q
×
sk表示的是上述问题集合和知识技能集合中元素之间的关系,最终定义知识学习图为g
kl
=(v
kl

kl
)。
[0069]
为了构建学习路径推荐模型,首需要矢量化所有输入数据。例如,当获取到输入序列为seq={x1,x2,l,x
t-1
},其中xi表示时序i时学习记录xi={qi,a
s,i
},即在时序i时记录的知识问题qi∈q(q表示知识问题的全集)及学习者s的知识回答a
s,i
∈[0,1]。假设,|q|表示知识问题的总个数,则知识问题qi可以表示为向量(d为向量维度),而整个知识问题全集的向量空间为e∈r
q*d
,知识回答a
s,i
表示为向量学习记录表示为知识问题和知识回答的向量连接的集合为了体现时序的变化,本实施例定义了时序变化向量具体定义如公式(1)和公式(2)所示:
[0070][0071][0072]
其中,f
q2e
表示知识问题转换函数,具体可以由mlp(multilayer perceptron,多层感知机)等实现。接着,时间卷积网络(tcn,temporal convolutional network)负责处理学习记录{x1,x2,l,x
t-1
}对时序的向量化处理,得到最终的第二向量表示其中,tcn主要使用因果卷积和扩展卷积来观察较长的输入序列,并捕获长期的时间依赖性。因果卷积的加入能保证网络中t时刻的输出只与t时刻之前的输入有关,从而防止了未来的信息泄露。同时,通常想要捕获更长的依赖关系,需要线性地堆叠许多层,而tcn中引入扩展卷积,使得卷积网络使用较少的层,可以获得较大的接受域。图注意力网络(gat,graph attention network)则负责处理对学习记录{x1,x2,l,x
t-1
}关联依赖的向量化处理,同时gat使用多头注意力层作用于每个中心节点的权重计算,进而更新节点的特征向量,最终对知识技能节点平均池化得到最终的第三向量表示
[0073]
在本实施例中,如图2所示,本实施例的知识追踪模型包括编码器和解码器结构。其中,上述时间卷积网络和图注意力网络的处理过程已经完成了编码器用作建模学习者的历史学习行为的交互信息和编码器的特征向量输出的随机过程。在解码器中,本实施例通过残差网络resnet组合编码器的第三向量表示作为隐藏输出,并结合当前t时刻的推荐题目q
t
嵌入后的向量然后得到解码器通过残差网络的第一隐藏输出数据,然后将第一隐藏输出数据输入稠密块,得到第二隐藏输出数据,再将第二隐藏输出数据输入全连接层并通过sigmoid激活函数,得到学生未来时刻表现的题目预测概率,即对于问题q
t
的答对概率p
t
,将其投射到一个概率p(a
t
=1)的概率值上,以此作为反馈学习的标准,同时第三向量也作为强化学习模型的输入。其中,残差网络和稠密块已被证明是训练深度网络的一种有效方法,它允许网络以跨层的方式传输信息,能够缓解梯度消失的问题。相应地,它将较低级别的特征带到更高的层次,从而能够提高预测的精度。
[0074]
在本实施例中,在得到下一时刻的题目预测概率后,将经过嵌入、时间卷积网络和图注意力机制的重新处理后得到的第三向量作为强化学习模型的输入,得到下一t+1时刻推荐的知识问题q
t+1
,并最终形成个性化学习路径。具体地,如图3所示,将题目及题目预测概率加入历史输入序列中,经过嵌入、时间卷积网络和图注意力机制的重新处理,得当前时刻的知识掌握状态向量s
t
。其中,历史知识掌握状态向量对应的时间节点位于当前时刻之前。然后将当前时刻的知识掌握状态向量输入强化学习模型,得到目标对象的个性化学习路径。可以理解的是,在将当前时刻的知识掌握状态向量输入强化学习模型,得到目标对象的个性化学习路径时,可以通过将当前时刻的知识掌握状态向量输入强化学习模型,使当
前时刻的知识掌握状态向量与目标知识掌握状态向量进行比较,得到第一差异;当第一差异满足预设状态,确定强化学习模型训练完成,并生成目标对象的个性化学习路径。
[0075]
可以理解的是,强化学习模型将上述生成的t时刻的题目预测概率p
t
,结合问题q
t
加入到历史序列中,经过嵌入、时间卷积网络和图注意力机制的重新处理后,得到t时刻的知识掌握状态向量s
t
,作为强化学习的输入状态。在训练开始前,预先设定一个目标知识掌握状态向量表示学习者期望知识技能ki要达到的掌握程度。在生成s
t
后,需要对s
t
和g进行比较,以得到第一差异,如公式(3)所示:
[0076][0077]
其中,表示知识技能ki当前掌握状态与目标掌握状态的差值,若|c
t-ε|=0,即第一差异满足预设状态,则表示强化学习模型训练完成,生成的题目序列即为推荐的学习路径。否则,还需要进一步训练强化学习网络。如图4所示,在训练过程中,需要考虑全部历史状态s1,s2,l,s
t
作为全局变化稳定情况f
t
,以此来衡量状态是否稳定变化从而有利于达成目标。其中,全局变化稳定情况f
t
的表达式如公式(4)所示:
[0078]ft
=x(s1,s2,l,s
t
)
ꢀꢀꢀꢀꢀ
公式(4)
[0079]ft
表示全局变化稳定情况;x表示将状态转换为一个张量,然后通过线性变换计算出差距值,所述差距值用于衡量状态变化的稳定性;s1,s2,l,s
t
表示全部时刻的知识掌握状态向量。
[0080]
在本实施例中,为了比较t时刻推荐的题目q
t
关联的知识技能ki的前后掌握程度的差异,本实施例用第二差异a
t
表示,如公式(5)所示:
[0081][0082]
其中,a
t
表示第二差异,p
ki,t
表示当前时刻t推荐的题目q
t
所关联的知识技能ki在当前时刻t的答对概率,表示该知识技能ki在上一时刻的答对概率,表示当前时刻t推荐的题目q
t
所关联的知识技能ki被推荐的次数。
[0083]
在本实施例中,a
t
的设置有利于避免模型反复推荐高奖励的知识技能ki相关的题目,从而提升推荐结果的多样性。
[0084]
对于本实施例的强化学习推荐模型,奖励被定义为通过推荐合适的题目所获得的奖励,因此,本实施例综合公式(3)、(4)和(5)将奖励函数设计为如公式(6)所示:
[0085]rt
=y(c
t
,f
t
,a
t
)
ꢀꢀꢀꢀꢀ
公式(6)
[0086]
其中,r
t
表示奖励,c
t
表示第一差异,f
t
表示全局变化稳定情况,a
t
表示第二差异,y(c
t
,f
t
,a
t
)表示通过多层感知机将c
t
,f
t
,a
t
映射到[0,1]上。由此可知,如图4所示,s
t
将输入到actor和critic网络中,而r
t
将输入到critic网络中,负责评价actor在上一时刻做出的策略的质量。actor根据状态和策略执行动作,选择公式(3)中的相关知识技能ki进行预测,得到个性化推荐的习题q
t+1
,同时习题q
t+1
将输入到知识追踪网络中进行预测题目的答对概率p
t+1
,以此形成一个训练的闭环。
[0087]
强化学习模型的终止条件是当t时刻产生的状态s
t
已经达到初始设定的目标知识掌握状态向量g,即|c
t-ε|=0,此时t时刻前推荐的题目序列就是本实施例得到的模型推荐的个性化学习路径lp,其中,个性化学习路径lp,其中可通过公式(7)表示:
[0088]
lp={q1,q2,l,q
t
|qi∈|q|}
ꢀꢀꢀꢀꢀ
公式(7)
[0089]
基于上述内容,对上述实施例进行实验设计。具体地,数据集采用assist09、assist12和ednet。基线方法包括ra、ga。比较指标是首先需要设定一个目标g,当t+1时刻产生的状态s
t+1
中各个知识技能ki都达到目标中设定的预测值,则视为学生已掌握目标,此时可以根据推荐的个性化学习路径长度来作为一个评价指标。为了观察推荐的题目所相关的知识技能ki是否足够多样,可以通过列举所推荐的习题关联的知识技能ki的分布情况作为多样性的评价指标。
[0090]
具体的实验步骤如下:
[0091]
步骤一、问题数量|q|,知识技能数量|sk|,构建知识学习图,其中实体v
kl
=q∪sk,ε
kl
表示知识学习涉及的关联,最终定义知识学习图为:g
kl
=(v
kl

kl
)。
[0092]
步骤二、将原始输入序列seq={x1,x2,l,x
t-1
}向量化,同时与知识回答的向量连接得到时间卷积网络处理对学习记录{x1,x2,l,x
t-1
}时序的向量化处理,得到最终的向量表示图注意力网络则负责处理对学习记录{x1,x2,l,x
t-1
}关联依赖的向量化处理,同时图注意力网络使用多头注意力层作用于每个中心节点的权重计算,进而更新节点的特征向量,最终对知识技能节点平均池化得到最终的向量表示s
t-1

[0093]
步骤三、通过残差网络resnet组合编码器的特征向量输出s
t-1
,结合t时刻的推荐题目q
t
嵌入后的向量得到第一隐藏输出数据,然后得到解码器通过稠密块的第二隐藏输出数据,最后通过全连接层和sigmoid激活函数得到学生未来表现的概率预测结果,即对于问题q
t
的答对概率p
t

[0094]
步骤四、t时刻的题目q
t
结合预测概率p
t
,加入历史输入序列中,经过嵌入、时间卷积网络和图注意力机制的重新处理,得到t时刻的知识掌握状态向量s
t
,作为强化学习的输入状态。
[0095]
步骤五、强化学习模型根据策略对相关知识技能ki进行预测,输出个性化推荐的习题q
t+1
,同时习题q
t+1
将输入到知识追踪网络中进行预测题目的答对概率p
t+1
,以此形成一个训练的闭环并优化强化学习的策略。
[0096]
由此可知,本实施例从知识追踪部分和强化学习部分总体考虑,在知识追踪部分结合了时间卷积网络,从而知识追踪可以扩大序列学习范围,并提取学生动态变化的知识状态,更加精确地预测问题答对的概率;在强化学习部分设置了预期达到的知识掌握程度的目标,则更有针对性和实际意义。其次现有技术中的强化学习部分的奖励设置过于简单,仅考虑了推荐的习题的前后掌握程度之差,而本实施例从总体目标、推荐过程中的每一轮状态、推荐的习题相关的知识技能前后掌握程度之差三方面考虑综合形成奖励,从局部和全局方面都全面考虑,能够让强化学习部分的推荐更加精确合理。
[0097]
本发明实施例提供了一种基于知识追踪的学习路径推荐系统,包括:
[0098]
第一模块,用于获取问题和知识技能,并作为实体构建知识学习图,其中,学习图
用于表征实体节点之间的关系;
[0099]
第二模块,用于获取输入序列,并嵌入得到第一向量,其中,输入序列的元素用于表征预设时刻的学习记录,学习记录包括学习问题和目标对象对学习问题的知识回答;
[0100]
第三模块,用于将第一向量输入时间卷积网络,得到第二向量表示,其中,时间卷积网络用于处理输入序列内每个元素对时间的向量;
[0101]
第四模块,用于将所述第二向量表示输入图注意力网络,对所述知识学习图进行更新和推理,同时,图注意力网络通过自注意力机制来学习节点间的关联关系,进而更新节点的特征向量,最终对知识技能节点平均池化得到第三向量表示,其中,图注意力网络用于处理输入序列内每个元素对关联依赖的向量;
[0102]
第五模块,用于根据第三向量表示和当前时刻的推荐题目嵌入后的向量预测目标对象在下一时刻的题目预测概率;
[0103]
第六模块,用于将第三向量表示作为历史知识掌握状态向量输入强化学习模型,得到目标对象的个性化学习路径。
[0104]
本发明方法实施例的内容均适用于本系统实施例,本系统实施例所具体实现的功能与上述方法实施例相同,并且达到的有益效果与上述方法达到的有益效果也相同。
[0105]
本发明实施例提供了一种基于知识追踪的学习路径推荐装置,包括:
[0106]
至少一个存储器,用于存储程序;
[0107]
至少一个处理器,用于加载所述程序以执行图1所示的基于知识追踪的学习路径推荐方法。
[0108]
本发明方法实施例的内容均适用于本装置实施例,本装置实施例所具体实现的功能与上述方法实施例相同,并且达到的有益效果与上述方法达到的有益效果也相同。
[0109]
本发明实施例提供了一种计算机存储介质,其中存储有计算机可执行的程序,所述计算机可执行的程序被处理器执行时用于实现图1所示的基于知识追踪的学习路径推荐方法。
[0110]
本发明方法实施例的内容均适用于本存储介质实施例,本存储介质实施例所具体实现的功能与上述方法实施例相同,并且达到的有益效果与上述方法达到的有益效果也相同。
[0111]
此外,本发明实施例还提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存介质中。计算机设备的处理器可以从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行图1所示的基于知识追踪的学习路径推荐方法。
[0112]
上面结合附图对本发明实施例作了详细说明,但是本发明不限于上述实施例,在所属技术领域普通技术人员所具备的知识范围内,还可以在不脱离本发明宗旨的前提下作出各种变化。此外,在不冲突的情况下,本发明的实施例及实施例中的特征可以相互组合。

技术特征:
1.一种基于知识追踪的学习路径推荐方法,其特征在于,包括以下步骤:获取问题和知识技能,并作为实体构建知识学习图,所述学习图用于表征实体节点之间的关系;获取输入序列,并嵌入得到第一向量,所述输入序列的元素用于表征预设时刻的学习记录,所述学习记录包括学习问题和目标对象对所述学习问题的知识回答;将所述第一向量输入时间卷积网络,得到第二向量表示,所述时间卷积网络用于处理所述输入序列内每个元素对时间的向量;将所述第二向量表示输入图注意力网络,对所述知识学习图进行更新和推理,同时,图注意力网络通过自注意力机制来学习节点间的关联关系,进而更新节点的特征向量,最终对知识技能节点平均池化得到第三向量表示,所述图注意力网络用于处理所述输入序列内每个元素对关联依赖的向量;根据所述第三向量表示和当前时刻的推荐题目嵌入后的向量预测所述目标对象在下一时刻的题目预测概率;将所述第三向量表示作为历史知识掌握状态向量输入强化学习模型,得到所述目标对象的个性化学习路径。2.根据权利要求1所述的一种基于知识追踪的学习路径推荐方法,其特征在于,所述将所述第三向量表示作为历史知识掌握状态向量输入强化学习模型,得到所述目标对象的个性化学习路径,包括:将题目及题目预测概率加入历史输入序列中,经过嵌入、时间卷积网络和图注意力机制的重新处理,得当前时刻的知识掌握状态向量,所述历史知识掌握状态向量对应的时间节点位于当前时刻之前;将所述当前时刻的知识掌握状态向量输入所述强化学习模型,得到所述目标对象的个性化学习路径。3.根据权利要求2所述的一种基于知识追踪的学习路径推荐方法,其特征在于,所述将所述当前时刻的知识掌握状态向量输入所述强化学习模型,得到所述目标对象的个性化学习路径,包括:将所述当前时刻的知识掌握状态向量输入所述强化学习模型,使所述当前时刻的知识掌握状态向量与目标知识掌握状态向量进行比较,得到第一差异;当所述第一差异满足预设状态,确定所述强化学习模型训练完成,并生成所述目标对象的个性化学习路径。4.根据权利要求3所述的一种基于知识追踪的学习路径推荐方法,其特征在于,在所述强化学习模型进行训练时,通过全局变化稳定情况衡量所述目标对象的知识掌握状态的稳定性;其中,所述全局变化稳定情况的表达公式如下:f
t
=x(s1,s2,l,s
t
)f
t
表示全局变化稳定情况;x表示将状态转换为一个张量,然后通过线性变换计算出差距值,所述差距值用于衡量状态变化的稳定性;s1,s2,l,s
t
表示全部时刻的知识掌握状态向量。5.根据权利要求4所述的一种基于知识追踪的学习路径推荐方法,其特征在于,在所述
强化学习模型进行训练时,通过第二差异比较当前时刻推荐的题目所关联的知识技能的前后掌握程度差异;其中,所述第二差异的表达公式如下:a
t
表示第二差异,p
ki,t
表示当前时刻t推荐的题目q
t
所关联的知识技能k
i
在当前时刻t的答对概率,p
ki,t-1
该知识技能k
i
在上一时刻的答对概率,n
ki,t
表示当前时刻t推荐的题目q
t
所关联的知识技能k
i
被推荐的次数。6.根据权利要求5所述的一种基于知识追踪的学习路径推荐方法,其特征在于,所述强化学习模型的奖励函数表达公式如下:r
t
=y(c
t
,f
t
,a
t
)r
t
表示奖励,c
t
表示第一差异,f
t
表示全局变化稳定情况,a
t
表示第二差异,y(c
t
,f
t
,a
t
)表示通过多层感知机将c
t
,f
t
,a
t
映射到[0,1]上。7.根据权利要求1所述的一种基于知识追踪的学习路径推荐方法,其特征在于,所述根据所述第三向量表示和当前时刻的推荐题目嵌入后的向量预测所述目标对象在下一时刻的题目预测概率,包括:将所述第三向量表示和当前时刻的推荐题目嵌入后的向量进行拼接输入残差网络,得到第一隐藏输出数据;将所述第一隐藏输出数据输入稠密块,得到第二隐藏输出数据;将所述第二隐藏输出数据输入全连接层并通过sigmoid激活函数,得到所述目标对象在下一时刻的题目预测概率。8.一种基于知识追踪的学习路径推荐系统,其特征在于,包括:第一模块,用于获取问题和知识技能,并作为实体构建知识学习图,所述学习图用于表征实体节点之间的关系;第二模块,用于获取输入序列,并嵌入得到第一向量,所述输入序列的元素用于表征预设时刻的学习记录,所述学习记录包括学习问题和目标对象对所述学习问题的知识回答;第三模块,用于将所述第一向量输入时间卷积网络,得到第二向量表示,所述时间卷积网络用于处理所述输入序列内每个元素对时间的向量;第四模块,用于将所述第二向量表示输入图注意力网络,对所述知识学习图进行更新和推理,同时,图注意力网络通过自注意力机制来学习节点间的关联关系,进而更新节点的特征向量,最终对知识技能节点平均池化得到第三向量表示,所述图注意力网络用于处理所述输入序列内每个元素对关联依赖的向量;第五模块,用于根据所述第三向量表示和当前时刻的推荐题目嵌入后的向量预测所述目标对象在下一时刻的题目预测概率;第六模块,用于将所述第三向量表示作为历史知识掌握状态向量输入强化学习模型,得到所述目标对象的个性化学习路径。9.一种基于知识追踪的学习路径推荐装置,其特征在于,包括:
至少一个存储器,用于存储程序;至少一个处理器,用于加载所述程序以执行如权利要求1-7任一项所述的基于知识追踪的学习路径推荐方法。10.一种计算机存储介质,其特征在于,其中存储有计算机可执行的程序,所述计算机可执行的程序被处理器执行时用于实现如权利要求1-7任一项所述的基于知识追踪的学习路径推荐方法。

技术总结
本发明公开了一种基于知识追踪的学习路径推荐方法、系统、装置和介质,可广泛应用于教育信息处理技术领域。本发明通过将表征预设时刻的学习记录嵌入后的第一向量输入时间卷积网络,从而可以扩大知识追踪过程的序列学习范围,并在知识追踪时,通过图注意网络得到的第三向量表示结合当前时刻的推荐题目嵌入后的向量预测目标对象在下一时刻的题目预测概率,从而可以提取得到目标对象动态变化的知识状态,然后通过将第三向量作为历史知识掌握状态向量输入强化学习模型,从而可以得到更高质量的学习路径。的学习路径。的学习路径。


技术研发人员:陈展轩 吴正洋 汤庸 张广涛
受保护的技术使用者:华南师范大学
技术研发日:2023.05.15
技术公布日:2023/9/23
版权声明

本文仅代表作者观点,不代表航家之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)

航空之家 https://www.aerohome.com.cn/

航空商城 https://mall.aerohome.com.cn/

航空资讯 https://news.aerohome.com.cn/

分享:

扫一扫在手机阅读、分享本文

评论

相关推荐