一种内容审核方法、装置及电子设备和存储介质与流程
未命名
08-22
阅读:67
评论:0

1.本技术涉及网络技术领域,更具体地说,涉及一种内容审核方法、装置及一种电子设备和一种计算机可读存储介质。
背景技术:
2.内容安全审核是互联网行业核心业务之一,主要保障平台的内容安全,打压黄赌毒垃圾广告等违规内容,营造风清气正的互联网环境。在相关技术中,需要为每个违规类型单独训练对应的安全审核模型,一般需要包括数据采集、清洗、标注、模型训练、测试、部署等操作,产出时间较长,成本较高,满足不了对互联网上不断变化的数据的审核,难以适应快速响应新增违规场景的需求。
技术实现要素:
3.本技术的目的在于提供一种内容审核方法、装置及一种电子设备和一种计算机可读存储介质,满足了新增违规场景的内容审核需求。
4.为实现上述目的,本技术提供了一种内容审核方法,包括:
5.获取违规表征数据库;其中,所述违规表征数据库包括多个违规表征,所述违规表征基于对违规样本的表征提取得到;
6.当接收到待审核样本时,提取所述待审核样本的表征;
7.计算所述待审核样本的表征与所述违规表征数据库中的违规表征之间的相似度;
8.若所述待审核样本的表征与目标违规表征之间的相似度大于预设值,则判定所述待审核样本为违规样本。
9.其中,所述违规表征数据库为违规类型表征数据库,所述违规类型表征数据库包含多个违规类型的违规表征;
10.所述获取违规表征数据库,包括:
11.获取违规类型对应的多个违规样本,并提取多个所述违规样本的表征;
12.计算多个所述违规样本的表征的簇心作为所述违规类型的违规表征,并将所述违规类型的违规表征添加至所述违规类型表征数据库。
13.其中,若所述待审核样本的表征与目标违规表征之间的相似度大于预设值,则判定所述待审核样本为违规样本,包括:
14.若所述待审核样本的表征与所述违规类型表征数据库中目标违规类型的第一目标违规表征之间的相似度大于第一预设值,则判定所述待审核样本属于所述目标违规类型的违规样本。
15.其中,所述表征数据库为违规样本表征数据库,所述违规样本表征数据库包含多个违规样本的违规表征;
16.所述获取违规表征数据库,包括:
17.获取违规样本,并提取所述违规样本的违规表征;
18.将所述违规样本的违规表征添加至所述违规样本表征数据库。
19.其中,若所述待审核样本的表征与目标违规表征之间的相似度大于预设值,则判定所述待审核样本为违规样本,包括:
20.若所述待审核样本的表征与所述违规样本表征数据库中目标违规样本的第二目标违规表征之间的相似度大于第二预设值,则判定所述待审核样本为违规样本。
21.其中,所述违规表征数据库为违规类型表征数据库和违规样本表征数据库,所述违规类型表征数据库包含多个违规类型的违规表征,所述违规样本表征数据库包含多个违规样本的违规表征;
22.若所述待审核样本的表征与目标违规表征之间的相似度大于预设值,则判定所述待审核样本为违规样本,包括:
23.若所述待审核样本的表征与所述违规类型表征数据库中目标违规类型的第一目标违规表征之间的相似度大于第一预设值,和/或,所述待审核样本的表征与所述违规样本表征数据库中目标违规样本的第二目标违规表征之间的相似度大于第二预设值,则判定所述待审核样本为违规样本。
24.其中,还包括:
25.获取样本库,提取所述样本库中样本的表征;
26.计算所述表征数据库中的违规表征与所述样本的表征之间的相似度,按所述相似度由大至小对所述样本库中的多个样本进行排序,将排序结果中的前预设数量个样本作为目标样本;
27.确定所述目标样本的违规标记;其中,所述违规标记包括违规和非违规;
28.将所述排序结果中最后一个样本的表征与所述违规表征之间的相似度确定为所述预设值。
29.其中,所述确定所述目标样本的违规标记之后,还包括:
30.根据所述违规标记确定所述目标样本中违规样本的比例;
31.判断所述比例是否大于预设比例,若是,则判定所述预设值满足精度要求。
32.为实现上述目的,本技术提供了一种内容审核装置,包括:
33.第一获取模块,用于获取违规表征数据库;其中,所述违规表征数据库包括多个违规表征,所述违规表征基于对违规样本的表征提取得到;
34.提取模块,用于当接收到待审核样本时,提取所述待审核样本的表征;
35.第一计算模块,用于计算所述待审核样本的表征与所述违规表征数据库中的违规表征之间的相似度;
36.审核模块,用于当所述待审核样本的表征与目标违规表征之间的相似度大于预设值时,判定所述待审核样本为违规样本。
37.为实现上述目的,本技术提供了一种电子设备,包括:
38.存储器,用于存储计算机程序;
39.处理器,用于执行所述计算机程序时实现如上述内容审核方法的步骤。
40.为实现上述目的,本技术提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如上述内容审核方法的步骤。
41.通过以上方案可知,本技术提供的一种内容审核方法,包括:获取违规表征数据库;其中,所述违规表征数据库包括多个违规表征,所述违规表征基于对违规样本的表征提取得到;当接收到待审核样本时,提取所述待审核样本的表征;计算所述待审核样本的表征与所述违规表征数据库中的违规表征之间的相似度;若所述待审核样本的表征与目标违规表征之间的相似度大于预设值,则判定所述待审核样本为违规样本。
42.本技术提供的内容审核方法,在新增违规类型时,只需将新的违规类型的违规表征添加至违规表征数据库,在下一次内容审核时,即判断审核样本是否属于这一新的违规类型。由此可见,本技术提供的内容审核方法,部署简单,效率较高,可以满足新增违规场景的内容审核需求。本技术还公开了一种内容审核装置及一种电子设备和一种计算机可读存储介质,同样能实现上述技术效果。
43.应当理解的是,以上的一般描述和后文的细节描述仅是示例性的,并不能限制本技术。
附图说明
44.为了更清楚地说明本技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。附图是用来提供对本公开的进一步理解,并且构成说明书的一部分,与下面的具体实施方式一起用于解释本公开,但并不构成对本公开的限制。在附图中:
45.图1为根据一示例性实施例示出的一种内容审核方法的流程图;
46.图2为根据一示例性实施例示出的另一种内容审核方法的流程图;
47.图3为根据一示例性实施例示出的一种内容审核装置的结构图;
48.图4为根据一示例性实施例示出的一种电子设备的结构图。
具体实施方式
49.下面将结合本技术实施例中的附图,对本技术实施例中的技术方案进行清楚、完整地描述。显然,所描述的实施例仅仅是本技术一部分实施例,而不是全部的实施例。基于本技术中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本技术保护的范围。另外,在本技术实施例中,“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。
50.本技术实施例公开了一种内容审核方法,满足了新增违规场景的内容审核需求。
51.参见图1,根据一示例性实施例示出的一种内容审核方法的流程图,如图1所示,包括:
52.s101:获取违规表征数据库;其中,所述违规表征数据库包括多个违规表征,所述违规表征基于对违规样本的表征提取得到;
53.本实施例的目的在于对待审核样本进行内容审核。
54.在本步骤中,获取违规表征数据库,其中包含多个基于对违规样本的表征提取得到的违规表征。此处的违规样本可以包括图像、单段文本、语音等形式,本实施例不进行具
体限定。此处的违规表征可以为包含多个维度的向量。
55.作为一种可行的实施方式,所述违规表征数据库为违规类型表征数据库,所述违规类型表征数据库包含多个违规类型的违规表征;所述获取违规表征数据库,包括:获取违规类型对应的多个违规样本,并提取多个所述违规样本的表征;计算多个所述违规样本的表征的簇心作为所述违规类型的违规表征,并将所述违规类型的违规表征添加至所述违规类型表征数据库。
56.在具体实施中,违规类型表征数据库包含多个违规类型对应的违规表征。在构建违规类型表征数据库时,可以对违规样本进行违规类型的标记,获取多个违规类型对应的少量的多个违规样本,利用单模态编码器提取多个违规样本的表征。若违规样本为违规图像,则利用图像编码器提取该违规图像的表征,若违规样本为违规文本,则利用文本编码器提取该违规文本的表征,若违规样本为违规语音,则利用语音编码器提取该违规语音的表征。上述的图像编码器、文本编码器和语音编码器为具备全局表征能力的模型。进一步的,将多个违规样本的表征按照违规类型进行聚类,形成每个违规类型对应的簇,计算每个簇的簇心作为对应的违规类型的违规表征,并将其添加至违规类型表征数据库中。在出现新的违规类型时,获取该新的违规类型的少量的多个违规样本,按照上述方式计算多个违规样本的表征的簇心作为该新的违规类型的违规表征,添加至违规类型表征数据库中,实现对违规类型表征数据库的扩展。
57.作为另一种可行的实施方式,所述表征数据库为违规样本表征数据库,所述违规样本表征数据库包含多个违规样本的违规表征;所述获取违规表征数据库,包括:获取违规样本,并提取所述违规样本的违规表征;将所述违规样本的违规表征添加至所述违规样本表征数据库。
58.在具体实施中,可以将每个违规样本分别作为单独的违规类型,提取每个违规样本的违规表征加入违规样本表征数据库中。
59.s102:当接收到待审核样本时,提取所述待审核样本的表征;
60.在本步骤中,当接收到待审核样本时,确定该待审核样本的类型,也即图像、单段文本、语音等,利用对应的编码器提取待审核样本的表征,具体的表征提取方法在上一步骤已详细介绍,在此不再赘述。
61.s103:计算所述待审核样本的表征与所述违规表征数据库中的违规表征之间的相似度;
62.在本步骤中,计算待审核样本的表征与违规表征数据库中的违规表征之间的相似度。本实施例不对相似度的具体计算方式进行限定,例如可以采用余弦的方式计算两个表征向量之间的相似度,具体的计算方式如下:
[0063][0064]
其中,a={a1,a2,
…
,an}为待审核样本的表征,b={b1,b2,
…
,bn}为违规表征数据库中的违规表征,n为a和b的维度,ai为a中第i个维度的元素,bi为b中第i个维度的元素,1≤
i≤n。
[0065]
当然,其他计算两个向量之间相似度的方式均在本实施例的保护范围内,在此不再赘述。
[0066]
s104:若所述待审核样本的表征与目标违规表征之间的相似度大于预设值,则判定所述待审核样本为违规样本。
[0067]
在本步骤中,判断待审核样本的表征与违规表征数据库中的每个违规表征之间的相似度是否大于预设值,以得到待审核样本的内容审核结果。若违规表征数据库中存在目标违规表征与待审核样本的表征之间的相似度大于预设值,则判定待审核样本为违规样本,否则判定待审核样本为非违规样本。
[0068]
对于上述预设值,审核人员可以根据经验灵活设置,也可以按照预设算法进行自动计算,不同的违规表征对应的预设值可以相同也可以不同,在此不进行具体限定。
[0069]
作为一种可行的实施方式,预设值的计算过程包括:获取样本库,提取所述样本库中样本的表征;计算所述表征数据库中的违规表征与所述样本的表征之间的相似度,按所述相似度由大至小对所述样本库中的多个样本进行排序,将排序结果中的前预设数量个样本作为目标样本;确定所述目标样本的违规标记;其中,所述违规标记包括违规和非违规;将所述排序结果中最后一个样本的表征与所述违规表征之间的相似度确定为所述预设值。
[0070]
在具体实施中,样本库中包含多个样本,计算每个样本的表征与表征数据库中的违规表征之间的相似度,按相似度由大至小对样本库中的多个样本进行排序,审核人员对排序结果中的前预设数量个目标样本进行违规标记,将排序结果中最后一个样本的表征与违规表征之间的相似度确定为预设值。举例说明,样本库包含500万张图片,计算表征数据库中的违规表征与每个图片之间的相似度,取相似度最大的前1000张图片,人为标记是否违规,若前90%的图片违规,则将第900张图片与违规表征之间的相似度作为预设值。
[0071]
进一步的,还可以对上述计算得到的预设值进行精度校验,所述确定所述目标样本的违规标记之后,还包括:根据所述违规标记确定所述目标样本中违规样本的比例;判断所述比例是否大于预设比例,若是,则判定所述预设值满足精度要求。
[0072]
在具体实施中,根据违规标记确定目标样本中违规样本的比例,当该比例大于预设比例时,判定计算得到的预设值满足精度要求,否则计算得到的预设值不满足精度要求,需要重新计算。在上述例子中,若预设比例为80%,由于90%>80%,因此判定计算得到的预设值满足精度要求。
[0073]
当所述违规表征数据库为违规类型表征数据库时,则本步骤包括:若所述待审核样本的表征与所述违规类型表征数据库中目标违规类型的第一目标违规表征之间的相似度大于第一预设值,则判定所述待审核样本属于所述目标违规类型的违规样本。
[0074]
在具体实施中,判断待审核样本的表征与违规类型表征数据库中的每个违规表征之间的相似度是否大于第一预设值。若违规类型表征数据库中存在第一目标违规表征与待审核样本的表征之间的相似度大于第一预设值,则判定待审核样本属于第一目标违规表征对应的目标违规类型的违规样本,否则判定待审核样本为非违规样本。
[0075]
可见,违规类型表征数据库的方案,违规样本表征数据库包含的违规表征可以表示一个违规类型的样本,因此在对待审核样本进行内容审核时召回率高,内容审核的精度较高。
[0076]
当所述违规表征数据库为违规样本表征数据库时,则本步骤包括:若所述待审核样本的表征与所述违规样本表征数据库中目标违规样本的第二目标违规表征之间的相似度大于第二预设值,则判定所述待审核样本为违规样本。
[0077]
在具体实施中,判断待审核样本的表征与违规样本表征数据库中的每个违规表征之间的相似度是否大于第二预设值。若违规样本表征数据库中存在第二目标违规表征与待审核样本的表征之间的相似度大于第二预设值,则判定待审核样本为违规样本,否则判定待审核样本为非违规样本。
[0078]
可见,违规样本表征数据库的方案,由于以单个违规样本作为单独的违规类型,在构建违规样本表征数据库时,不需要计算多个表征的簇心,速度较快。在对待审核样本进行内容审核时,违规样本表征数据库包含的违规表征并不一定与待审核样本的表征匹配,召回率低,但一旦匹配成功,说明待审核样本与违规样本表征数据库中某一违规表征对应的违规样本非常相似,其为违规样本的可能性非常高,内容审核的精度较高。
[0079]
本技术实施例提供的内容审核方法,在新增违规类型时,只需将新的违规类型的违规表征添加至违规表征数据库,在下一次内容审核时,即判断审核样本是否属于这一新的违规类型。由此可见,本技术实施例提供的内容审核方法,部署简单,效率较高,可以满足新增违规场景的内容审核需求。
[0080]
本技术实施例公开了一种内容审核方法,相对于上一实施例,本实施例对技术方案作了进一步的说明和优化。具体的:
[0081]
参见图2,根据一示例性实施例示出的另一种内容审核方法的流程图,如图2所示,包括:
[0082]
s201:获取违规类型对应的多个违规样本,并提取多个所述违规样本的违规表征;
[0083]
s202:将多个所述违规样本的违规表征添加至违规样本表征数据库;
[0084]
s203:计算多个所述违规样本的表征的簇心作为所述违规类型的违规表征,并将所述违规类型的违规表征添加至违规类型表征数据库;
[0085]
在本实施例中,分别构建违规样本表征数据库和违规类型表征数据库,违规类型表征数据库包含多个违规类型对应的违规表征,违规样本表征数据库包含多个违规样本的违规表征,具体的构建方式已在上一实施例中进行详细介绍,在此不再赘述。
[0086]
s204:当接收到待审核样本时,提取所述待审核样本的表征;
[0087]
s205:计算所述待审核样本的表征与所述违规样本表征数据库中的违规表征之间的第一相似度,计算所述待审核样本的表征与所述违规类型表征数据库中的违规表征之间的第二相似度;
[0088]
s206:若所述待审核样本的表征与所述违规类型表征数据库中目标违规类型的第一目标违规表征之间的相似度大于第一预设值,和/或,所述待审核样本的表征与所述违规样本表征数据库中目标违规样本的第二目标违规表征之间的相似度大于第二预设值,则判定所述待审核样本为违规样本。
[0089]
在本实施例中,当接收到待审核样本时,提取该待审核样本的表征,分别计算待审核样本的表征与违规样本表征数据库中的违规表征之间的第一相似度、待审核样本的表征与违规类型表征数据库中的违规表征之间的第二相似度,分别判断第一相似度是否大于第一预设值、第二相似度是否大于第二预设值,根据判断结果确定待审核样本的内容审核结
果。需要说明的是,本实施例中的第一预设值和第二预设值可以相同也可以不同,在此不进行具体限定。
[0090]
作为一种可行的实施方式,当任一项判断结果为是时判定待审核样本为违规样本,否则判定待审核样本为非违规样本。作为另一种可行的实施方式,当两项判断结果均为是时判定待审核样本为违规样本,否则判定待审核样本为非违规样本。
[0091]
下面介绍本技术提供的一种应用实施例,具体包括以下步骤:
[0092]
步骤1:线上人工审核发现10张机器审核通过的卡通接吻违规图,利用clip图像编码器将每张卡通接吻图转化为10
×
768维向量表征;
[0093]
步骤2:利用10
×
768维向量表征计算得到1
×
768维向量,作为卡通接吻违规类型簇心表征;
[0094]
步骤3:将10
×
768维向量表征加入黑样本库;
[0095]
步骤4:将1
×
768维簇心表征入黑簇心库;
[0096]
步骤5:某待审核图像经过模型得到待审核样本表征;
[0097]
步骤6:计算待审核样本表征与所述黑样本库中每个表征之间的相似度s1;
[0098]
步骤7:计算待审核样本表征与所述黑簇心库中每个表征之间的相似度s2;
[0099]
步骤8:判断待审核样本是否违规,如果相似度s1大于给定阈值z1或相似度s2大于给定阈值z2,则判定待审核图像违规,否则判定待审核样本不图像。
[0100]
下面对本技术实施例提供的一种内容审核装置进行介绍,下文描述的一种内容审核装置与上文描述的一种内容审核方法可以相互参照。
[0101]
参见图3,根据一示例性实施例示出的一种内容审核装置的结构图,如图3所示,包括:
[0102]
第一获取模块301,用于获取违规表征数据库;其中,所述违规表征数据库包括多个违规表征,所述违规表征基于对违规样本的表征提取得到;
[0103]
提取模块302,用于当接收到待审核样本时,提取所述待审核样本的表征;
[0104]
第一计算模块303,用于计算所述待审核样本的表征与所述违规表征数据库中的违规表征之间的相似度;
[0105]
审核模块304,用于当所述待审核样本的表征与目标违规表征之间的相似度大于预设值时,判定所述待审核样本为违规样本。
[0106]
本技术实施例提供的内容审核装置,在新增违规类型时,只需将新的违规类型的违规表征添加至违规表征数据库,在下一次内容审核时,即判断审核样本是否属于这一新的违规类型。由此可见,本技术实施例提供的内容审核装置,部署简单,效率较高,可以满足新增违规场景的内容审核需求。
[0107]
在上述实施例的基础上,作为一种优选实施方式,所述违规表征数据库为违规类型表征数据库,所述违规类型表征数据库包含多个违规类型的违规表征;
[0108]
所述第一获取模块301具体用于:获取违规类型对应的多个违规样本,并提取多个所述违规样本的表征;计算多个所述违规样本的表征的簇心作为所述违规类型的违规表征,并将所述违规类型的违规表征添加至所述违规类型表征数据库。
[0109]
在上述实施例的基础上,作为一种优选实施方式,所述审核模块304具体用于:若所述待审核样本的表征与所述违规类型表征数据库中目标违规类型的第一目标违规表征
之间的相似度大于第一预设值,则判定所述待审核样本属于所述目标违规类型的违规样本。
[0110]
在上述实施例的基础上,作为一种优选实施方式,所述表征数据库为违规样本表征数据库,所述违规样本表征数据库包含多个违规样本的违规表征;
[0111]
所述第一获取模块301具体用于:获取违规样本,并提取所述违规样本的违规表征;将所述违规样本的违规表征添加至所述违规样本表征数据库。
[0112]
在上述实施例的基础上,作为一种优选实施方式,所述审核模块304具体用于:若所述待审核样本的表征与所述违规样本表征数据库中目标违规样本的第二目标违规表征之间的相似度大于第二预设值,则判定所述待审核样本为违规样本。
[0113]
在上述实施例的基础上,作为一种优选实施方式,所述违规表征数据库为违规类型表征数据库和违规样本表征数据库,所述违规类型表征数据库包含多个违规类型的违规表征,所述违规样本表征数据库包含多个违规样本的违规表征;
[0114]
所述审核模块304具体用于:若所述待审核样本的表征与所述违规类型表征数据库中目标违规类型的第一目标违规表征之间的相似度大于第一预设值,和/或,所述待审核样本的表征与所述违规样本表征数据库中目标违规样本的第二目标违规表征之间的相似度大于第二预设值,则判定所述待审核样本为违规样本。
[0115]
在上述实施例的基础上,作为一种优选实施方式,还包括:
[0116]
第二获取模块,用于获取样本库,提取所述样本库中样本的表征;
[0117]
第二计算模块,用于计算所述表征数据库中的违规表征与所述样本的表征之间的相似度,按所述相似度由大至小对所述样本库中的多个样本进行排序,将排序结果中的前预设数量个样本作为目标样本;
[0118]
第一确定模块,用于确定所述目标样本的违规标记;其中,所述违规标记包括违规和非违规;
[0119]
第二确定模块,用于将所述排序结果中最后一个样本的表征与所述违规表征之间的相似度确定为所述预设值。
[0120]
在上述实施例的基础上,作为一种优选实施方式,还包括:
[0121]
判断模块,用于根据所述违规标记确定所述目标样本中违规样本的比例;判断所述比例是否大于预设比例,若是,则判定所述预设值满足精度要求。
[0122]
关于上述实施例中的装置,其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。
[0123]
基于上述程序模块的硬件实现,且为了实现本技术实施例的方法,本技术实施例还提供了一种电子设备,图4为根据一示例性实施例示出的一种电子设备的结构图,如图4所示,电子设备包括:
[0124]
通信接口1,能够与其它设备比如网络设备等进行信息交互;
[0125]
处理器2,与通信接口1连接,以实现与其它设备进行信息交互,用于运行计算机程序时,执行上述一个或多个技术方案提供的内容审核方法。而所述计算机程序存储在存储器3上。
[0126]
当然,实际应用时,电子设备中的各个组件通过总线系统4耦合在一起。可理解,总线系统4用于实现这些组件之间的连接通信。总线系统4除包括数据总线之外,还包括电源
总线、控制总线和状态信号总线。但是为了清楚说明起见,在图4中将各种总线都标为总线系统4。
[0127]
本技术实施例中的存储器3用于存储各种类型的数据以支持电子设备的操作。这些数据的示例包括:用于在电子设备上操作的任何计算机程序。
[0128]
可以理解,存储器3可以是易失性存储器或非易失性存储器,也可包括易失性和非易失性存储器两者。其中,非易失性存储器可以是只读存储器(rom,read only memory)、可编程只读存储器(prom,programmable read-only memory)、可擦除可编程只读存储器(eprom,erasable programmable read-only memory)、电可擦除可编程只读存储器(eeprom,electrically erasable programmable read-only memory)、磁性随机存取存储器(fram,ferromagnetic random access memory)、快闪存储器(flash memory)、磁表面存储器、光盘、或只读光盘(cd-rom,compact disc read-only memory);磁表面存储器可以是磁盘存储器或磁带存储器。易失性存储器可以是随机存取存储器(ram,random access memory),其用作外部高速缓存。通过示例性但不是限制性说明,许多形式的ram可用,例如静态随机存取存储器(sram,static random access memory)、同步静态随机存取存储器(ssram,synchronous static random access memory)、动态随机存取存储器(dram,dynamic random access memory)、同步动态随机存取存储器(sdram,synchronous dynamic random access memory)、双倍数据速率同步动态随机存取存储器(ddrsdram,double data rate synchronous dynamic random access memory)、增强型同步动态随机存取存储器(esdram,enhanced synchronous dynamic random access memory)、同步连接动态随机存取存储器(sldram,synclink dynamic random access memory)、直接内存总线随机存取存储器(drram,direct rambus random access memory)。本技术实施例描述的存储器3旨在包括但不限于这些和任意其它适合类型的存储器。
[0129]
上述本技术实施例揭示的方法可以应用于处理器2中,或者由处理器2实现。处理器2可能是一种集成电路芯片,具有信号的处理能力。在实现过程中,上述方法的各步骤可以通过处理器2中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器2可以是通用处理器、dsp,或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。处理器2可以实现或者执行本技术实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者任何常规的处理器等。结合本技术实施例所公开的方法的步骤,可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于存储介质中,该存储介质位于存储器3,处理器2读取存储器3中的程序,结合其硬件完成前述方法的步骤。
[0130]
处理器2执行所述程序时实现本技术实施例的各个方法中的相应流程,为了简洁,在此不再赘述。
[0131]
在示例性实施例中,本技术实施例还提供了一种存储介质,即计算机存储介质,具体为计算机可读存储介质,例如包括存储计算机程序的存储器3,上述计算机程序可由处理器2执行,以完成前述方法所述步骤。计算机可读存储介质可以是fram、rom、prom、eprom、eeprom、flash memory、磁表面存储器、光盘、cd-rom等存储器。
[0132]
本领域普通技术人员可以理解:实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成,前述的程序可以存储于一计算机可读取存储介质中,该程序
在执行时,执行包括上述方法实施例的步骤;而前述的存储介质包括:移动存储设备、rom、ram、磁碟或者光盘等各种可以存储程序代码的介质。
[0133]
或者,本技术上述集成的单元如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。基于这样的理解,本技术实施例的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台电子设备(可以是个人计算机、服务器、网络设备等)执行本技术各个实施例所述方法的全部或部分。而前述的存储介质包括:移动存储设备、rom、ram、磁碟或者光盘等各种可以存储程序代码的介质。
[0134]
以上所述,仅为本技术的具体实施方式,但本技术的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本技术揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本技术的保护范围之内。因此,本技术的保护范围应以所述权利要求的保护范围为准。
技术特征:
1.一种内容审核方法,其特征在于,包括:获取违规表征数据库;其中,所述违规表征数据库包括多个违规表征,所述违规表征基于对违规样本的表征提取得到;当接收到待审核样本时,提取所述待审核样本的表征;计算所述待审核样本的表征与所述违规表征数据库中的违规表征之间的相似度;若所述待审核样本的表征与目标违规表征之间的相似度大于预设值,则判定所述待审核样本为违规样本。2.根据权利要求1所述内容审核方法,其特征在于,所述违规表征数据库为违规类型表征数据库,所述违规类型表征数据库包含多个违规类型的违规表征;所述获取违规表征数据库,包括:获取违规类型对应的多个违规样本,并提取多个所述违规样本的表征;计算多个所述违规样本的表征的簇心作为所述违规类型的违规表征,并将所述违规类型的违规表征添加至所述违规类型表征数据库。3.根据权利要求2所述内容审核方法,其特征在于,若所述待审核样本的表征与目标违规表征之间的相似度大于预设值,则判定所述待审核样本为违规样本,包括:若所述待审核样本的表征与所述违规类型表征数据库中目标违规类型的第一目标违规表征之间的相似度大于第一预设值,则判定所述待审核样本属于所述目标违规类型的违规样本。4.根据权利要求1所述内容审核方法,其特征在于,所述表征数据库为违规样本表征数据库,所述违规样本表征数据库包含多个违规样本的违规表征;所述获取违规表征数据库,包括:获取违规样本,并提取所述违规样本的违规表征;将所述违规样本的违规表征添加至所述违规样本表征数据库。5.根据权利要求4所述内容审核方法,其特征在于,若所述待审核样本的表征与目标违规表征之间的相似度大于预设值,则判定所述待审核样本为违规样本,包括:若所述待审核样本的表征与所述违规样本表征数据库中目标违规样本的第二目标违规表征之间的相似度大于第二预设值,则判定所述待审核样本为违规样本。6.根据权利要求1所述内容审核方法,其特征在于,所述违规表征数据库为违规类型表征数据库和违规样本表征数据库,所述违规类型表征数据库包含多个违规类型的违规表征,所述违规样本表征数据库包含多个违规样本的违规表征;若所述待审核样本的表征与目标违规表征之间的相似度大于预设值,则判定所述待审核样本为违规样本,包括:若所述待审核样本的表征与所述违规类型表征数据库中目标违规类型的第一目标违规表征之间的相似度大于第一预设值,和/或,所述待审核样本的表征与所述违规样本表征数据库中目标违规样本的第二目标违规表征之间的相似度大于第二预设值,则判定所述待审核样本为违规样本。7.根据权利要求1所述内容审核方法,其特征在于,还包括:获取样本库,提取所述样本库中样本的表征;计算所述表征数据库中的违规表征与所述样本的表征之间的相似度,按所述相似度由
大至小对所述样本库中的多个样本进行排序,将排序结果中的前预设数量个样本作为目标样本;确定所述目标样本的违规标记;其中,所述违规标记包括违规和非违规;将所述排序结果中最后一个样本的表征与所述违规表征之间的相似度确定为所述预设值。8.根据权利要求7所述内容审核方法,其特征在于,所述确定所述目标样本的违规标记之后,还包括:根据所述违规标记确定所述目标样本中违规样本的比例;判断所述比例是否大于预设比例,若是,则判定所述预设值满足精度要求。9.一种内容审核装置,其特征在于,包括:第一获取模块,用于获取违规表征数据库;其中,所述违规表征数据库包括多个违规表征,所述违规表征基于对违规样本的表征提取得到;提取模块,用于当接收到待审核样本时,提取所述待审核样本的表征;第一计算模块,用于计算所述待审核样本的表征与所述违规表征数据库中的违规表征之间的相似度;审核模块,用于当所述待审核样本的表征与目标违规表征之间的相似度大于预设值时,判定所述待审核样本为违规样本。10.一种电子设备,其特征在于,包括:存储器,用于存储计算机程序;处理器,用于执行所述计算机程序时实现如权利要求1至8任一项所述内容审核方法的步骤。11.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至8任一项所述内容审核方法的步骤。
技术总结
本申请公开了一种内容审核方法、装置及一种电子设备和计算机可读存储介质,该方法包括:获取违规表征数据库;其中,所述违规表征数据库包括多个违规表征,所述违规表征基于对违规样本的表征提取得到;当接收到待审核样本时,提取所述待审核样本的表征;计算所述待审核样本的表征与所述违规表征数据库中的违规表征之间的相似度;若所述待审核样本的表征与目标违规表征之间的相似度大于预设值,则判定所述待审核样本为违规样本。由此可见,本申请提供的内容审核方法,部署简单,效率较高,可以满足新增违规场景的内容审核需求。满足新增违规场景的内容审核需求。满足新增违规场景的内容审核需求。
技术研发人员:丁顺意 林明安 张璐 陶明
受保护的技术使用者:上海任意门科技有限公司
技术研发日:2023.04.25
技术公布日:2023/8/21
版权声明
本文仅代表作者观点,不代表航家之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)
航空之家 https://www.aerohome.com.cn/
飞机超市 https://mall.aerohome.com.cn/
航空资讯 https://news.aerohome.com.cn/