基于时序趋势预测的虚假新闻检测方法及系统
未命名
10-22
阅读:67
评论:0
1.本发明属于网络空间安全技术领域,特别是涉及一种基于时序趋势预测的虚假新闻检测方法及系统。
背景技术:
2.自动虚假新闻检测旨在从待检测新闻中自动识别包含不准确和故意误导信息的新闻,是维护在线新闻生态系统健康的关键任务。作为人工验证的补充,自动虚假新闻检测能够从庞大的新闻库中高效过滤虚假新闻。
3.在过去的十年里,大多数虚假新闻检测研究人员都遵循了一种传统的范式,即收集固定的数据集,并将其随机划分为训练集和测试集。然而,在实践中,虚假新闻检测模型只能根据到当前时间为止收集的数据(即离线数据)进行训练,用于检测下一个时间段(即在线数据)中的虚假新闻。由于外界环境的快速变化,新闻的主题分布往往会随时间而不断改变,进而导致离线和在线数据之间出现分布差异,这种现象被称为时序漂移。最近的实证研究表明,当数据集由随机划分变为基于时间顺序分割,虚假新闻检测模型的性能会显著下降。因此,时序漂移问题一直是将虚假新闻检测方法应用于现实系统的一个关键障碍。
4.对比常见的领域迁移场景,时序漂移场景提出了更大的挑战。虚假新闻检测中关于领域迁移的现有工作仅关注在预先定义的新闻类别之间的迁移(例如,政治、经济、健康),源领域和目标领域之间界限较为清晰。然而,不同时段的数据集合之间往往时序依赖复杂、分布边界模糊:这使得时序漂移问题更加具有挑战性。此外,很多已有工作假设训练阶段可以获取到目标领域数据,但在时序漂移场景,目标数据是在训练完成之后产生的,因此上述设置不可能实现。本发明的目标是使用当前可用的离线数据来训练模型,使模型具有在未来产生的在线数据上的虚假新闻检测能力(即时序泛化)。少数方法通过对抗性学习和去除领域特定因果效应学习不变特征,进而提高模型在在线数据上的泛化性,但却没有考虑新闻事件的时序模式特征。
5.从时间维度观察,同一主题下的新闻分布的变化会呈现一定的规律性,例如高考相关的新闻往往集中出现在夏季时段。建模上述规律性有助于推断不同新闻在目标时间段出现的可能性,从而可以用于评估训练过程中该主题下离线新闻数据的重要性,从而提升时序泛化检测效果。
技术实现要素:
6.本发明针对现有技术的虚假新闻检测模型,由于离线数据和在线数据间分布差异,在实际部署时性能降低的问题,提出了一种基于时序趋势预测的虚假新闻检测方法,具体包括:
7.提取新闻样本的新闻表征;将该新闻表征进行聚类以获取至少一个主题簇;以每个主题簇的新闻样本按时序分布,建模为对应新闻主题的数据模型,基于该数据模型,预测该新闻主题的时序分布趋势;基于该时序分布趋势将各主题簇的新闻样本进行重加权后合
并为训练集;以该训练集对虚假新闻检测器进行训练;通过该虚假新闻检测器对目标新闻进行虚假新闻检测。
8.本发明所述的虚假新闻检测方法,其中,对该虚假新闻检测器进行训练的步骤包括:对于该训练集的新闻样本xi,预测结果,预测结果是xi预测为虚假新闻的概率,的取值范围为[0,1];若则判别xi为虚假新闻,若则判别xi为真实新闻,thr是判别边界值;损失函数为真实新闻,thr是判别边界值;损失函数w
i,q
是xi的权重,yi是xi的真实性标签,若xi为虚假新闻,yi=1,若xi为真实新闻,yi=0,n是该训练集内新闻的数量。
[0009]
本发明所述的虚假新闻检测方法预测时序分布趋势的步骤中,若某一主题簇的样本数量小于重加权阈值θ
count
,将该主题簇的新闻样本赋予权重w
i,q
=1,反之则对该主题簇的新闻样本进行时序分布趋势预测,以回归拟合该新闻样本的时序分布数据模型,且若回归拟合的平均绝对百分比误差大于误差阈值θ
mape
,则将该主题簇的新闻样本赋予权重w
i,q
=1,反之则将该主题簇的新闻样本赋予权重w
i,q
=bound(w'
i,q
);其中,bound为重加权计算函数,表示当w'
i,q
》θ
upper
时,w
i,q
=θ
upper
,w'
i,q
《θ
lowrt
时,w
i,q
=θ
lower
,θ
lower
≤w'
i,q
≤θ
upper
时,w
i,q
=w'
i,q
;q'为进行重加权权重计算的新闻主题;pi(f
i,q
)为该时序分布趋势。
[0010]
本发明所述的虚假新闻检测方法,其中pi(f
i,q
)=gi(f
i,q
)+si(f
i,q
);gi(f
i,q
)为总体趋势,gi(f
i,q
)=k
ifi,q
+mi,ki表示增长率,ki=k+α(q)
t
δ,f
i,q
是新闻主题i在下一时段的发生频率,t为构建数据序列的主题簇的数量,mi表示偏移量,mi=m+α(q)
t
γ,k和m为初始参数,α(q)为记录增长率和偏移量的变化点,δ为比例调整项,γ为平滑项;si(f
i,q
)为周期性趋势。
[0011]
本发明所述的虚假新闻检测方法,其特征在于,构建与周期对应的多个新闻主题的回归模型,通过对该回归模型求和获得si(f
i,q
)。
[0012]
本发明所述的虚假新闻检测方法,使用一过式增量聚类算法对该新闻表征进行聚类,对于任一新闻样本的新闻表征,若该新闻表征与任意已有主题簇的度量距离均大于θ
sim
,则将该新闻表征聚类至一个新的主题簇;反之,则将该新闻表征聚类至与其度量距离最小的主题簇。
[0013]
本发明所述的虚假新闻检测方法,使用预训练表示模型,将该新闻样本的内容映射到向量空间,以获取该新闻表征。
[0014]
本发明还提出一种基于时序趋势预测的虚假新闻检测系统,包括:表征提取模块,用于提取新闻样本的新闻表征;主题发现模块,用于将该新闻表征进行聚类以获取至少一个主题簇;趋势预测模块,用于以每个主题簇的新闻样本按时序分布,建模为对应新闻主题的数据模型,基于该数据模型,预测该新闻主题的时序分布趋势;重加权模块,用于基于该时序分布趋势将各主题簇的新闻进行重加权后合并为训练集;检测器训练模块,用于以该训练集对虚假新闻检测器进行训练;检测模块,用于通过该虚假新闻检测器对目标新闻进行虚假新闻检测。
[0015]
本发明还提出一种计算机可读存储介质,存储有计算机可执行指令,其特征在于,当该计算机可执行指令被执行时,实现如前所述的基于时序趋势预测的虚假新闻检测。
[0016]
本发明还提出一种数据处理装置,包括如前所述的计算机可读存储介质,当该数据处理装置的处理器调取并执行该计算机可读存储介质中的计算机可执行指令时,实现基于时序趋势预测的虚假新闻检测。
附图说明
[0017]
图1是本发明的基于时序趋势预测的虚假新闻检测方法示意图。
[0018]
图2是本发明的数据处理装置示意图。
具体实施方式
[0019]
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图,对本发明进一步详细说明。应当理解,此处所描述的具体实施方法仅仅用以解释本发明,并不用于限定本发明。
[0020]
本发明提出一种基于时序趋势预测的虚假新闻检测方法,该方法建模不同主题新闻的时序分布模式,预测不同主题新闻在下一个时间段内的时序分布,并使用预测结果,指导虚假新闻检测器快速适应未来数据分布,从而让模型取得更好的时序泛化效果。具体而言,首先将训练数据映射到向量空间,并执行聚类操作以发现主题;然后,对时序分布进行建模,使用可分解的时间序列模型预测不同主题对应的新闻在下个时间段的发生频率;最后,根据预测结果评估训练集中的每条新闻对下个时间段的重要性,并通过控制每条新闻在训练过程中的训练损失权重,调整其对模型的影响,如图1所示。
[0021]
本发明的虚假新闻检测方法,首先将新闻内容映射到向量空间以获取其表征,基于该表征,使用聚类算法,将新闻样本分组到与其主题相对应的簇中,以实现基于新闻表征的主题发现;其次,采用时序分布建模和预测,将聚类结果,建模不同新闻主题的时序分布,并预测每个新闻主题在下一个时间段中的分布情况,在建模过程中,采用可分解的时间序列模型,分别从总体趋势和周期性趋势两个角度建模不同新闻主题的时序分布;最后,通过基于时序分布预测的样本级别重加权,对各新闻主题在下个时间段的时序分布预测,对训练集使用样本级别重加权,通过重加权,使训练集数据分布更加接近下个时间段,进而让在该数据集上训练的模型可以更好的适应下一个时间段数据,在下个时间段上取得更好的性能表现。
[0022]
本发明的基于时序趋势预测的虚假新闻检测方法包括:
[0023]
步骤s1、将训练集中的新闻样本的内容映射到向量空间,以获取其表征。
[0024]
步骤s2、使用聚类算法,基于新闻样本的表征将新闻样本分组到与其主题相对应的簇中。
[0025]
步骤s3、建模不同新闻主题的时序分布情况,预测其在下一个时间段的分布。
[0026]
步骤s4、基于分布预测结果,对训练数据进行样本级重加权,得到重加权后的训练集。
[0027]
步骤s5、基于重加权训练集,训练虚假新闻检测器。
[0028]
步骤s6、以完成训练的虚假新闻检测器,进行虚假新闻检测。
[0029]
下面结合具体实施例,对本发明的基于时序趋势预测的虚假新闻检测方法做进一步的描述。
[0030]
为了贴合实际应用场景,本发明以季度q为单位划分时间段,将一年划分为q1-q4四个季度。
[0031]
步骤1、获取新闻表征
[0032]
使用任意已有句子表示模型(例如:预训练表示模型sentence-bert),将新闻内容映射到向量空间,得到其表征。
[0033]
步骤2、新闻主题发现
[0034]
基于步骤1得到的新闻表征,使用聚类算法,将新闻样本分到与其主题相对应的簇中。由于缺乏主题数量的先验知识,本发明使用一过式(single-pass)增量聚类算法,该算法不需要预先设置簇的数量,而是根据预先设置的相似度阈值θ
sim
,确定何时添加新的簇:对于一个等待聚类的新闻样本,如果其和任意已有簇的相似度度量距离(此处度量方法不做限制,常见的包括余弦相似度)均大于θ
sim
,则将其视为一个新主题中的项目,使其独立为一个新的簇;反之,则将其分配到距离最小的簇中。
[0035]
步骤3、时序分布建模和预测
[0036]
基于步骤2得到的聚类结果,对不同新闻主题的时序分布分别进行建模,并预测其下一个时间段的分布。为防止不具有明显时间模式的主题干扰后续计算,簇内新闻数量小于预设阈值θ
count
的主题簇内的新闻样本将不参与时序分布趋势建模以及重加权权重计算,而是直接赋予默认权重,于本发明的实施例中,默认权重为1;而簇内新闻数量大于或等于预设阈值θ
count
的主题簇的新闻样本则继续进行后续的建模预测操作。
[0037]
1.建模过程:
[0038]
假设共有t个新闻主题参与建模过程,本发明首先计算每个新闻主题在不同季度的新闻数量,之后对每个季度的新闻数量做跨主题的归一化,以获得每个主题的季度频率序列f。为了建模时序分布,本发明对季度序列采用了可分解时间序列模型,并考虑以下两种趋势(以下使用主题i举例说明):
[0039]
1.1总体趋势
[0040]
就非周期性的总体趋势而言,一个主题在不同季度的频率(即其对应新闻数量占当季度总新闻数量的比例),可能会增加、减少或有小幅波动。为了拟合这种变化,本发明使用分段线性函数:
[0041]gi
(f
i,q
)=k
ifi,q
+mi[0042]
其中,ki=k+α(q)
t
δ表示增长率,f
i,q
是主题i在季度q的发生频率,mi=m+α(q)
t
γ表示偏移量。k和m为初始参数。α(q)则记录了增长率和偏移量的变化点,δ是比例调整项,γ是平滑项。
[0043]
1.2周期性趋势
[0044]
对于拥有以季度为单位的周期性趋势的主题,本发明添加了四个额外的二元回归器,对应于q1到q4,以让回归模型知晓输入序列中数据点所属的季度。对于主题i在季度q,本发明通过对四个回归模型求和来获得季度季节性函数si(f
i,q
)。
[0045]
2.预测过程
[0046]
本发明采用回归算法让模型拟合不同新闻主题从第1季度至第q-1季度的时序分
布。为了预测主题i在下一个季度q的趋势,本过程叠加了两个趋势建模函数的计算结果:
[0047]
pi(f
i,q
)=gi(f
i,q
)+si(f
i,q
)
[0048]
步骤4、基于时间分布预测的样本级别重加权
[0049]
基于对季度q上主题频率分布的预测,本发明将样本级别重加权应用于训练集,使得基于重加权训练集训练的模型能够更好地适应下个时间段的、季度q上的数据。
[0050]
首先,对于回归拟合过程中平均绝对百分比误差(mape)大于预设阈值θ
mape
的新闻主题的新闻样本,不进行重加权权重计算,而赋予默认权重1,对于小于或等于θ
mape
的新闻主题对应的新闻样本,才进行重加权权重计算。对于所有进行重加权权重计算的新闻样本,本发明计算并归一化主题i的预测频率之间的比率pi(f
i,q
)和保留主题的所有预测频率的总和:
[0051][0052]
其中,bound是一个用于约束计算后权重范围的函数,为了避免训练过程中的不稳定性,本发明将重加权表征中对应w'
i,q
值小于预设阈值θ
lower
和大于预设阈值θ
upper
的权重分别设置为θ
lower
或θ
upper
。即,对于进行重加权权重计算的新闻样本,当w'
i,q
》θ
upper
时,w
i,q
=θ
upper
,当w'
i,q
《θ
lower
时,w
i,q
=θ
lower
,当θ
lower
≤w'
i,q
≤θ
upper
时,w
i,q
=w'
i,q
。q'为进行重加权权重计算的新闻主题。
[0053]
将所有新闻样本合并,以得到本发明的训练虚假新闻检测器所需的训练集,该训练集包括三部分:1、簇内新闻数量小于预设阈值θ
count
的主题簇内的新闻样本,其权重w
i,q
=1;2、回归拟合过程中mape大于预设阈值θ
mape
的新闻主题的新闻样本,其权重w
i,q
=1;3、进行重加权权重计算的新闻样本,其权重w
i,q
=bound(w'
i,q
)。
[0054]
训练集中主题i的样本的新权重w
i,q
,对应于本发明对该主题的新闻在未来一段时间q中出现的频率的预测。如果预测主题i的频率低于其在训练集中的频率,则该值将小于1,因此该主题的样本将被降低权重;相反,如果预测的频率表高于其在训练集中的频率,则该值将大于1,并且样本将被增加权重。
[0055]
步骤5、训练虚假新闻检测器
[0056]
本发明的方法可以与任何基于神经网络的虚假新闻检测器兼容。这里以bert模型为例。具体来说,给定一个样本xi,本发明将特殊词元[cls]和xi连接起来,并将它们输入bert。[cls]的输出表征oi之后被送入具有sigmoid函数的多层感知器mlp中,用于最终预测:
[0057][0058]
其中,是预测为虚假新闻的概率,取值范围为[0,1]。如果则判别xi为虚假新闻;否则判别xi为真实新闻,thr是预设的判别边界值。
[0059]
本发明方法和一般方法的区别在于,使用基于时间分布预测得到的新权重来增加或减少反向传播过程中单个新闻样本的影响。本发明在训练过程中最小化加权的交叉熵损失函数l:
[0060][0061]
其中w
i,q
是样本xi的新权重,yi是其真实性标签(真实新闻为0,虚假新闻为1),n是训练集大小。
[0062]
图2是本发明的数据处理装置示意图。如图2所示,本发明实施例还提供一种计算机可读存储介质,以及一种数据处理装置。本发明的计算机可读存储介质存储有计算机可执行指令,计算机可执行指令被数据处理装置的处理器执行时,实现基于时序趋势预测的虚假新闻检测。本领域普通技术人员可以理解上述方法中的全部或部分步骤可通过程序来指令相关硬件(例如处理器、fpga、asic等)完成,所述程序可以存储于可读存储介质中,如只读存储器、磁盘或光盘等。上述实施例的全部或部分步骤也可以使用一个或多个集成电路来实现。相应地,上述实施例中的各模块可以采用硬件的形式实现,例如通过集成电路来实现其相应功能,也可以采用软件功能模块的形式实现,例如通过处理器执行存储于存储器中的程序/指令来实现其相应功能。本发明实施例不限制于任何特定形式的硬件和软件的结合。
[0063]
本发明的基于时序趋势预测的虚假新闻检测方法,通过基于新闻表征的主题发现,可以得到将新闻分组到不同主题的聚类结果;将聚类结果建模不同新闻主题的时序分布,并预测不同主题在下个时间段的分布情况;此外,对训练集采用样本级别的重加权,让训练集分布更接近下个时间段,进而让在其上训练的模型在下个时间段上取得更好的检测效果。
[0064]
以上实施方式仅用于说明本发明,而并非对本发明的限制,有关技术领域的普通技术人员,在不脱离本发明的精神和范围的情况下,还可以做出各种变化和变形,因此所有等同的技术方案也属于本发明的范畴,本发明的专利保护范围应由权利要求限定。
技术特征:
1.一种基于时序趋势预测的虚假新闻检测方法,其特征在于,包括:提取新闻样本的新闻表征;将该新闻表征进行聚类以获取至少一个主题簇;以每个主题簇的新闻样本按时序分布,建模为对应新闻主题的数据模型,基于该数据模型,预测该新闻主题的时序分布趋势;基于该时序分布趋势将各主题簇的新闻样本进行重加权后合并为训练集;以该训练集对虚假新闻检测器进行训练;通过该虚假新闻检测器对目标新闻进行虚假新闻检测。2.如权利要求1所述的虚假新闻检测方法,其特征在于,对该虚假新闻检测器进行训练的步骤包括:对于该训练集的新闻样本x
i
,预测结果是x
i
预测为虚假新闻的概率,的取值范围为[0,1];若则判别x
i
为虚假新闻,若则判别x
i
为真实新闻,thr是判别边界值;损失函数w
i,q
是x
i
的权重,y
i
是x
i
的真实性标签,若x
i
为虚假新闻,y
i
=1,若x
i
为真实新闻,y
i
=0,n是该训练集内新闻的数量。3.如权利要求2所述的虚假新闻检测方法,其特征在于,预测时序分布趋势的步骤中,若某一主题簇的样本数量小于重加权阈值θ
count
,将该主题簇的新闻样本赋予权重w
i,q
=1,反之则对该主题簇的新闻样本进行时序分布趋势预测,以回归拟合该新闻样本的时序分布数据模型,且若回归拟合的平均绝对百分比误差大于误差阈值θ
mape
,则将该主题簇的新闻样本赋予权重w
i,q
=1,反之则将该主题簇的新闻样本赋予权重w
i,q
=bound(w'
i,q
);其中,);其中,bound为重加权计算函数,表示当w'
i,q
>θ
upper
时,w
i,q
=θ
upper
,w'
i,q
<θ
lower
时,w
i,q
=θ
lower
,θ
lower
≤w'
i,q
≤θ
upper
时,w
i,q
=w'
i,q
;q'为进行重加权权重计算的新闻主题;p
i
(f
i,q
)为该时序分布趋势。4.如权利要求3所述的虚假新闻检测方法,其特征在于,p
i
(f
i,q
)=g
i
(f
i,q
)+s
i
(f
i,q
);g
i
(f
i,q
)为总体趋势,g
i
(f
i,q
)=k
i
f
i,q
)+m
i
,k
i
表示增长率,k
i
=k+α(q)
t
δ,f
i,q
是新闻主题i在下一时段的发生频率,t为构建数据序列的主题簇的数量,m
i
表示偏移量,m
i
=m+α(q)
t
γ,k和m为初始参数,α(q)为记录增长率和偏移量的变化点,δ为比例调整项,γ为平滑项;s
i
(f
i,q
)为周期性趋势。5.如权利要求4所述的虚假新闻检测方法,其特征在于,构建与周期对应的多个新闻主题的回归模型,通过对该回归模型求和获得s
i
(f
i,q
)。6.如权利要求1所述的虚假新闻检测方法,其特征在于,使用一过式增量聚类算法对该新闻表征进行聚类,对于任一新闻样本的新闻表征,若该新闻表征与任意已有主题簇的度量距离均大于θ
sim
,则将该新闻表征聚类至一个新的主题簇;反之,则将该新闻表征聚类至与其度量距离最小的主题簇。7.如权利要求1所述的虚假新闻检测方法,其特征在于,使用预训练表示模型,将该新
闻样本的内容映射到向量空间,以获取该新闻表征。8.一种基于时序趋势预测的虚假新闻检测系统,其特征在于,包括:表征提取模块,用于提取新闻样本的新闻表征;主题发现模块,用于将该新闻表征进行聚类以获取至少一个主题簇;趋势预测模块,用于以每个主题簇的新闻样本按时序分布,建模为对应新闻主题的数据模型,基于该数据模型,预测该新闻主题的时序分布趋势;重加权模块,用于基于该时序分布趋势将各主题簇的新闻进行重加权后合并为训练集;检测器训练模块,用于以该训练集对虚假新闻检测器进行训练;检测模块,用于通过该虚假新闻检测器对目标新闻进行虚假新闻检测。9.一种计算机可读存储介质,存储有计算机可执行指令,其特征在于,当该计算机可执行指令被执行时,实现如权利要求1~7任一项所述的基于时序趋势预测的虚假新闻检测。10.一种数据处理装置,包括如权利要求9所述的计算机可读存储介质,当该数据处理装置的处理器调取并执行该计算机可读存储介质中的计算机可执行指令时,实现基于时序趋势预测的虚假新闻检测。
技术总结
本发明提出一种基于时序趋势预测的虚假新闻检测方法,包括:提取新闻样本的新闻表征;将该新闻表征进行聚类以获取至少一个主题簇;以每个主题簇的新闻样本按时序分布,建模为对应新闻主题的数据模型,基于该数据模型,预测该新闻主题的时序分布趋势;基于该时序分布趋势将各主题簇的新闻样本进行重加权后合并为训练集;以该训练集对虚假新闻检测器进行训练;通过该虚假新闻检测器对目标新闻进行虚假新闻检测。本发明还提出一种基于时序趋势预测的虚假新闻检测系统,以及一种用于实现基于时序趋势预测的虚假新闻检测的数据处理装置。序趋势预测的虚假新闻检测的数据处理装置。序趋势预测的虚假新闻检测的数据处理装置。
技术研发人员:曹娟 胡焙哲 盛强 汪旦丁 唐胜 金志威
受保护的技术使用者:中国科学院计算技术研究所
技术研发日:2023.06.19
技术公布日:2023/10/19
版权声明
本文仅代表作者观点,不代表航家之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)
航空之家 https://www.aerohome.com.cn/
航空商城 https://mall.aerohome.com.cn/
航空资讯 https://news.aerohome.com.cn/