一种可转化专利的识别方法、系统及设备
未命名
10-19
阅读:110
评论:0
1.本发明涉及大数据分析技术领域,具体涉及一种专利识别方法、系统及设备。
背景技术:
2.目前,大部分专利不能直接转化为现实生产力,面对海量“沉睡”专利和不断产生的新的专利资源,如何更好地利用专利信息来进行可转化专利的识别,提升我国知识产权转化活跃度,是塑造我国未来发展新优势,实现高质量发展的关键。
3.随着大数据、人工智能时代的到来,相当多的学者已经利用了机器学习算法(ai for science)进行了一系列研究和应用,同时也有不少学者利用了融合模型进行了相应的研究与应用,但是在识别专利是否可以转化方面,很少有利用机器学习算法结合自然语言处理等技术识别专利是否可以转化,且大多数学者在如何选择基分类器方面没有进行过多涉猎。
技术实现要素:
4.针对现有技术中的缺陷,本发明提供一种可转化专利的识别方法、系统及设备。
5.第一方面,一种可转化专利的识别方法,步骤包括:
6.1.构建基于stacking算法改进的识别模型;
7.2.取待识别数据;所述待识别数据包括可转化专利数据;
8.3.采用所述识别对所述待识别数据进行识别,得到识别结果;所述识别结果包括专利是否能发生转化。
9.进一步地,所述构建基于stacking算法改进的识别模型,具体为:
10.采用至少两个基分类器对所述数据集进行分类,得到至少两个分类结果;
11.若所述分类结果未达到设定的阈值,则剔除所述分类结果对应的基分类器;
12.若所述分类结果达到设定的阈值,则通过jc指标选出目标分类器;
13.采用所述目标分类器构建所述识别模型,并对所述识别模型进行验证。这是通过实际情况设定阈值,有利于筛选出识别率高的基学习器,再利用jc指标选出目标分类器改进stacking集成学习模型。
14.进一步地,所述通过jc指标选出目标分类器,具体为:
15.针对两两基分类器,计算jc指标值;
16.将所述jc指标值较小的作为所述目标分类器。这是通过对基分类器间的相似度计算可以对比出每两个基分类器的相似度,相似度越高,融合效果越差,因此须保证基分类器间的差异性,进而为改进stacking集成学习模型提供理论支持。
17.进一步地,所述计算jc指标值,具体为:
18.选取将已发生转化的专利样本数据,并提取所述专利样本数据的特征数据;所述特征数据包括数字特征和文本特征;
19.所述数字特征包括:申请人数量、发明人数量、被引证数、被审查员引证数、引证专
利数、引用非专利文献数、权项数、主权项字数、说明书页数、innojoy同族数、innojoy布局国家数、剩余有效期;
20.所述文本特征包括:专利名称、专利类型、申请人类型、pct国际申请和美日欧三方专利;
21.将所述特征数据分别输入至两个基分类器,得到第一分类结果和第二分类结果;
22.采用所述第一分类结果、第二分类结果及scipy库中的pdist函数计算出jaccard距离,并根据所述jaccard距离计算出jaccard系数;
23.采用所述第一分类结果、第二分类结果及scipy库中的cosine函数计算出余弦相似度;
24.将所述jaccard距离与余弦相似度相乘,得到jc指标值。这是找出相似性最小的一对分类器和与这对分类器相似性最小的其他基分类器,目的是为了使融合模型效果更好,改进stacking集成学习模型。
25.第二方面,一种可转化专利的识别系统,步骤包括:
26.1.模型构建模块:用于构建基于stacking算法改进的识别模型,包括以下单元:
27.第一单元,用于获取数据集及至少两个基分类器;
28.第二单元,用于采用至少两个基分类器对所述数据集进行分类,得到至少两个分类结果;
29.第三单元,用于若所述分类结果未达到设定的阈值,则剔除所述分类结果对应的基分类器;
30.第四单元,用于若所述分类结果达到设定的阈值,则通过jc指标选出目标分类器;
31.第五单元,用于采用所述目标分类器构建所述识别模型,并对所述识别模型进行验证。
32.2.获取模块:用于获取待识别数据;所述待识别数据包括可转化专利数据;
33.3.识别模块:用于采用所述识别对所述待识别数据进行识别,得到识别结果;所述识别结果包括专利是否会发生转化。
34.进一步地,所述第四单元,用于若所述分类结果达到设定的阈值,则通过jc指标选出目标分类器,具体用于:
35.若所述分类结果达到设定的阈值,则针对两两基分类器,计算jc指标值;
36.将所述jc指标值较小的作为所述目标分类器;
37.其中,计算jc指标值,具体为:
38.选取所述已发生转化的专利样本数据,并提取所述专利样本数据的特征数据;将所述特征数据分别输入两个基分类器,得到第一分类结果和第二分类结果;
39.采用所述第一分类结果、第二分类结果及scipy库中的pdist函数计算出jaccard距离,并根据所述jaccard距离计算出jaccard系数;
40.采用所述第一分类结果、第二分类结果及scipy库中的cosine函数计算出余弦相似度;将所述jaccard距离与余弦相似度相乘,得到jc指标值;
41.通过每对基分类器间的相似度对比,找出相似性最小的一对基分类器作为一对分类器,利用层次聚类方法计算其他基分类器与这对分类器之间的相似性,通过层次聚类方法挑选出三个相似性最小的基分类器。
42.本发明实施例提供了一种设备,包括处理器、输入设备、输出设备和存储器,所述处理器、输入设备、输出设备和存储器相互连接,所述存储器用于存储计算机程序,所述计算机程序包括程序指令,所述处理器被配置用于调用所述程序指令,执行上述实施例描述的方法。
43.本发明实施例提供了一种计算机可读存储介质,所述计算机存储介质存储有计算机程序,所述计算机程序包括程序指令,所述程序指令当被处理器执行时使所述处理器执行上述实施例描述的方法。
44.本发明的有益效果
45.与基学习器及stacking集成学习模型相比,该基于stacking算法改进的识别模型利用jc指标自适应的选择出目标分类器,在保证准确率的前提下,提高初级学习器之间的差异性,使得改进后的模型能够更准确的识别出可转化专利,提升我国知识产权转化活跃度。
附图说明
46.为了更清楚地说明本发明具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍。在所有附图中,类似的元件或部分一般由类似的附图标记标识。附图中,各元件或部分并不一定按照实际的比例绘制。
47.图1为本发明实施例提供的可转化专利的识别方法流程图;
48.图2是构建基于stacking算法改进的识别模型流程图;
49.图3为本发明提供一种可转化专利的识别系统流程图;
50.图4为本发明的一种设备的结构框图。
具体实施方式
51.下面将结合附图对本发明技术方案的实施例进行详细的描述。以下实施例仅用于更加清楚地说明本发明的技术方案,因此只作为示例,而不能以此来限制本发明的保护范围。
52.需要注意的是,除非另有说明,本技术使用的技术术语或者科学术语应当为本发明所属领域技术人员所理解的通常意义。
53.实施例一
54.请参考图1,本发明实施例提供可转化专利的识别方法,步骤包括:
55.s1,请参考图2,构建基于stacking算法改进的识别模型。
56.(1)获取数据集及至少三个基分类器
57.通过检索,获取大量已发生转化专利数据,使用输入设备输入已发生转化专利数据构成数据集,其中包括文本数据和数字数据,再采用bert模型和textrnn模型利用处理器对可转化专利数据集提取数据特征,如下表所示,共计35个数据特征。
58.表1专利文本中提取的特征
[0059][0060][0061]
优选地,选取knn、逻辑回归、朴素叶贝斯、支持向量机、决策树、随机森林和xgboost等分类算法,利用所述训练集和分类算法构造至少三个基分类器,再对基分类器进
行验证,并且调参,再采用5折交叉验证,就是将数据集数据分成5等份,对其中4等份进行训练,剩余1等份用于测试,反复5次求出auc值的平均值,最后通过验证后确定auc值。auc值越高,表明对可转化专利识别的识别率越高。
[0062]
(2)根据设定阈值筛选基分类器
[0063]
如下表所示,根据基分类器验证后的auc值决定阈值,通过实际情况设置达到预期识别效果的阈值。设定阈值为0.8,选取达到阈值的基分类器分别为:knn、逻辑回归和朴素贝叶斯。剔除未达到阈值的基分类器。通过实际情况设定阈值,有利于筛选出识别率高的基学习器。
[0064]
表2不同模型的auc值
[0065][0066]
(3)融合基分类器组成stacking集成学习模型
[0067]
可选地,以knn、逻辑回归和朴素贝叶斯基分类器作为初级学习器,以逻辑回归基分类器作为次级学习器进行融合,构成stacking集成学习模型;
[0068]
优选地,利用autogluon库中的tabularpredictor模块来实现所述的stacking集成学习模型,再将训练好的stacking集成学习模型参数融合后进行五折交叉验证,最后得出auc值达到0.8423,高于一般的基分类器;因此在此利用基分类器堆叠思想组成的stacking集成学习模型。
[0069]
(4)计算jc指标
[0070]
通过处理器计算初级学习器间的相似度,即jc指标值。jc指标由jaccard系数和余弦相似度两部分组成。包括:
[0071]
①
jaccard系数
[0072]
用于比较有限样本集之间的相似性与差异性。jaccard系数值越大,样本相似度越高。jaccard系数定义为:
[0073]
[0074]
②
余弦相似度
[0075]
通过计算两个向量之间的余弦值,可以反映出它们之间的相似程度。余弦值大代表两个向量之间的相似性高。余弦相似度定义为:
[0076][0077]
③
jaccard系数与余弦相似度之积
[0078]
jaccard系数与余弦相似度在取值较小时都代表了两个向量有较高差异性,因此将两个指标做乘法运算,得到一个新的衡量向量间相似度的指标——jc指标。
[0079]
jc=j(a,b)*cosθ
[0080]
④
在计算机中计算jc指标
[0081]
优选地,将测试集挑选出来后把这些数据特征分别输入进已调整参数后的knn基分类器和逻辑回归基分类器中,得到预测结果的向量集合分别记为和
[0082]
进一步地,利用scipy库中的pdist函数计算出jaccard距离,进而计算出jaccard系数:
[0083][0084]
进一步地,利用scipy库中的cosine函数计算出和间的余弦相似度:
[0085][0086]
进一步地,将jaccard系数与余弦相似度相乘,得到衡量和间相似度的jc指标值:s(a,逻辑回归)=min(s),该值即为knn与逻辑回归两个基分类器间的相似性。
[0087]
同理,依上述方法可以得到任意两个基分类器的相似性,将相似性数值记录下表中。
[0088]
表3任意两个机器学习模型间的auc值
[0089]
[0090][0091]
(5)改进stacking集成学习模型
[0092]
依表3可知,相似性最小的两个学习器是朴素贝叶斯单一机器学习模型与knn单一机器学习模;。
[0093]
进一步地,找到相似性最小的初级学习器;将所述相似性最小的一对初级学习器作为一对分类器,利用层次聚类方法计算其他学习器与这对分类器之间的相似性;
[0094]
具体地,按照某个层次对样本进行聚类操作,将多个类簇进行多次迭代。相当于设置簇a(knn,朴素叶贝斯),计算簇a分别与逻辑回归、支持向量机、随机森林、xgboost等分类器之间的相似性。
[0095]
即通过计算将knn模型、朴素叶贝斯模型分别与辑回归、支持向量机、随机森林、xgboost等分类器的最小相似值作为簇a分别与逻辑回归、支持向量机、随机森林、xgboost等分类器的相似性。通过找出相似性最小的分类器能使融合模型效果更好。
[0096]
s(a,逻辑回归)=min(s(knn,逻辑回归),s(朴素叶贝斯,逻辑回归))=0.1786
[0097]
s(a,支持向量机)=min(s(knn,支持向量机),s(朴素叶贝斯,支持向量机))=0.3666
[0098]
s(a,随机森林)=min(s(knn,随机森林),s(朴素叶贝斯,随机森林))=01777
[0099]
s(a,xgboost)=min(s(knn,xgboost),s(朴素叶贝斯,xgboost))=0.1727
[0100]
由处理器计算可知,xgboost与簇a之间的相似度为0.1727,相似性最小,模型融合性最好,模型泛化性能更好。
[0101]
进一步地,通过jc指标自适应选出的初级学习器为knn、朴素贝叶斯和xgboost,利用他们组成stacking2集成学习模型,交叉验证后模型的auc值为0.8531;
[0102]
所述stacking2集成学习模型对可转化专利识别的识别效果高于stacking集成学习模型和基分类器,因此将所述基于stacking集成学习模型改进的stacking2集成学习模型作为识别可转化专利的实施模型。
[0103]
s2,获取待识别数据。
[0104]
采用bert模型和textrnn模型利用处理器提取待识别的专利文件的数字特征,文本特征和著录项目特征,所述待识别数据包括已发生转化专利数据。
[0105]
s3,对所述待识别数据进行识别。
[0106]
采用所述识别对所述待识别数据进行识别,得到识别结果;所述识别结果包括专利是否能发生转化。
processing unit,cpu),该处理器还可以是其他通用处理器、数字信号处理器(digital signal processor,dsp)、专用集成电路(application specific integrated circuit,asic)、现成可编程门阵列(field-programmable gate array,fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
[0124]
输入设备102可以包括键盘等,输出设备103可以包括显示器(lcd等)、扬声器等。
[0125]
该存储器104可以包括只读存储器和随机存取存储器,并向处理器101提供指令和数据。存储器104的一部分还可以包括非易失性随机存取存储器。例如,存储器104还可以存储设备类型的信息。
[0126]
具体实现中,本发明实施例中所描述的处理器101、输入设备102、输出设备103可执行本发明实施例提供的一种可转化专利的识别方法及系统的实施例中所描述的实现方式,在此不再赘述。
[0127]
需要说明的是,关于设备更为具体的工作流程描述,请参考前述方法实施例部分,在此不再赘述。
[0128]
此外,对应前述方法实施例及设备,本发明实施例提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序包括程序指令,所述程序指令被处理器执行时实现:一种可转化专利的识别方法及系统。
[0129]
所述计算机可读存储介质可以是前述任一实施例所述的设备内部存储单元,例如系统的硬盘或内存。所述计算机可读存储介质也可以是所述系统的外部存储设备,例如所述系统上配备的插接式硬盘,智能存储卡(smart media card,smc),安全数字(secure digital,sd)卡,闪存卡(flash card)等。进一步地,所述计算机可读存储介质还可以既包括所述系统的内部存储单元也包括外部存储设备。所述计算机可读存储介质用于存储所述计算机程序以及所述系统所需的其他程序和数据。所述计算机可读存储介质还可以用于暂时地存储已经输出或者将要输出的数据。
[0130]
前述的存储介质包括:u盘、移动硬盘、只读存储器(rom,read-only memory)、随机存取存储器(ram,random access memory)、磁碟或者光盘等各种可以存储程序代码的介质。
[0131]
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围,其均应涵盖在本发明的权利要求和说明书的范围当中。
技术特征:
1.一种可转化专利的识别方法,其特征在于,包括:构建基于stacking算法改进的识别模型;获取待识别数据;所述待识别数据包括可转化专利数据;采用所述识别对所述待识别数据进行识别,得到识别结果;所述识别结果包括专利是否能发生转化。2.如权利要求1所述的识别方法,其特征在于,构建基于stacking算法改进的识别模型,具体为:获取数据集及至少两个基分类器;采用至少两个基分类器对所述数据集进行分类,得到至少两个分类结果;若所述分类结果未达到设定的阈值,则剔除所述分类结果对应的基分类器;若所述分类结果达到设定的阈值,则通过jc指标选出目标分类器;采用所述目标分类器构建所述识别模型,并对所述识别模型进行验证。3.如权利要求2所述的识别方法,其特征在于,通过jc指标选出目标分类器,具体为:针对两两基分类器,计算jc指标值;将所述jc指标值较小的作为所述目标分类器。4.如权利要求3所述的识别方法,其特征在于,计算jc指标值,具体为:选取将已发生转化的专利样本数据,并提取所述专利样本数据的特征数据;所述特征数据包括数字特征和文本特征;所述数字特征包括:申请人数量、发明人数量、被引证数、被审查员引证数、引证专利数、引用非专利文献数、权项数、主权项字数、说明书页数、innojoy同族数、innojoy布局国家数、剩余有效期;所述文本特征包括:专利名称、专利类型、申请人类型、pct国际申请和美日欧三方专利;将所述特征数据分别输入至两个基分类器,得到第一分类结果和第二分类结果;采用所述第一分类结果、第二分类结果及scipy库中的pdist函数计算出jaccard距离,并根据所述jaccard距离计算出jaccard系数;采用所述第一分类结果、第二分类结果及scipy库中的cosine函数计算出余弦相似度;将所述jaccard距离与余弦相似度相乘,得到jc指标值。5.一种可转化专利的识别系统,其特征在于,包括:模型构建模块,用于构建基于stacking算法改进的识别模型;获取模块,用于获取待识别数据;所述待识别数据包括可转化专利数据;识别模块,用于采用所述识别对所述待识别数据进行识别,得到识别结果;所述识别结果包括专利是否会发生转化。6.如权利要求5所述的识别系统,其特征在于,所述模型构建模块具体包括:第一单元,用于获取数据集及至少两个基分类器;第二单元,用于采用至少两个基分类器对所述数据集进行分类,得到至少两个分类结果;第三单元,用于若所述分类结果未达到设定的阈值,则剔除所述分类结果对应的基分类器;
第四单元,用于若所述分类结果达到设定的阈值,则通过jc指标选出目标分类器;第五单元,用于采用所述目标分类器构建所述识别模型,并对所述识别模型进行验证。7.如权利要求6所述的识别系统,其特征在于,所述第四单元具体用于:若所述分类结果达到设定的阈值,则针对两两基分类器,计算jc指标值;将所述jc指标值较小的作为所述目标分类器;其中,计算jc指标值,具体为:选取已发生转化的专利样本数据,并提取所述专利样本数据的特征数据;所述特征数据包括数字特征和文本特征;将所述特征数据分别输入两个基分类器,得到第一分类结果和第二分类结果;采用所述第一分类结果、第二分类结果及scipy库中的pdist函数计算出jaccard距离,并根据所述jaccard距离计算出jaccard系数;采用所述第一分类结果、第二分类结果及scipy库中的cosine函数计算出余弦相似度;将所述jaccard距离与余弦相似度相乘,得到jc指标值。8.一种可转化专利的识别设备,其特征在于,包括处理器、输入设备、输出设备和存储器,所述处理器、输入设备、输出设备和存储器相互连接,其中,所述存储器用于存储计算机程序,所述计算机程序包括程序指令,所述处理器被配置用于调用所述程序指令,执行如权利要求1-4任一项所述的方法步骤。9.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序包括程序指令,其特征在于,所述程序指令被处理器执行时实现如权利要求1-4任一项所述的方法步骤。
技术总结
本发明公开了一种可转化专利的识别方法、系统及设备,属于大数据分析技术领域,尤其涉及一种专利识别方法、系统及设备;本发明公开了一种可转化专利的识别方法,包括:构建基于Stacking算法改进的识别模型;获取待识别数据;所述待识别数据包括可转化专利数据;采用所述识别对所述待识别数据进行识别,得到识别结果;所述识别结果包括专利是否能发生转化;本发明在保证准确率的前提下,构建基于Stacking算法改进的识别模型,使得改进后的模型能够更准确的识别出可转化专利。型能够更准确的识别出可转化专利。型能够更准确的识别出可转化专利。
技术研发人员:嵇少林 商慧珺 郝立峰
受保护的技术使用者:山东大学
技术研发日:2023.07.27
技术公布日:2023/10/15
版权声明
本文仅代表作者观点,不代表航家之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)
航空之家 https://www.aerohome.com.cn/
航空商城 https://mall.aerohome.com.cn/
航空资讯 https://news.aerohome.com.cn/