建立疾病预测的决策树的方法、电子系统及程序产品与流程
未命名
09-02
阅读:116
评论:0

1.本公开是有关于协助疾病预测的方法,特别有关于建立用于协助疾病预测的决策树的方法、电子系统及计算机程序产品。
背景技术:
2.目前医师只能用经验判断病人是否罹患疾病,才会做进一步抽血或计算机断层等检查。但大部分医师会先让病人吃止痛或消炎药暂缓症状,可能增加延误就医的机率。因此,需要导入fhir(fast healthcare interoperability resources,快速医疗互操作性资源)这种国际通用格式,使病人到各地医疗院所能提供完整的病历,减少误判机率,能多争取黄金治疗时间。
3.现在越来越多医疗机构导入人工智能帮忙判断影像,减少病理科医师的负担及增加提早检测出疾病的可能性。在年轻医师经验较不足的情况下,也可使用人工智能辅助疾病判断能力,减少经验学习时误判的可能性。因此,如何建立辅助疾病预测的机制变成一重要课题。
技术实现要素:
4.依据本公开实施例的建立用于协助疾病预测的决策树的方法,包括:接收与不同疾病相关的多个生理量测数据;根据用途分类生理量测数据;计算生理量测数据的至少一个切分点;分枝与该至少一个切分点对应的决策树;以及剪枝决策树而完成决策树的建立。
5.如上所述的方法,其中,计算生理量测数据的至少一个切分点的步骤,包括:利用关联于生理量测数据的一特定函数及一相关系数的绝对值,计算生理量测数据的至少一个切分点的一数值。
6.如上所述的方法,其中,分枝与该至少一个切分点对应的决策树的步骤,包括:找出具有最小数值的至少一个切分点作为决策树的一分枝节点;以及判断是否无法继续分枝。
7.如上所述的方法,其中,剪枝决策树而完成决策树的建立的步骤,包括:使用一赤池信息量准则(akaike information criterion:aic)对决策树进行剪支。
8.如上所述的方法,其中,根据用途分类该等生理量测数据的步骤包括:当生理量测数据是用于不同疾病发生机率的推算,则生理量测数据会被分类为分类型数据。
9.如上所述的方法,其中,当生理量测数据被分类为分类型数据,特定函数为一吉尼系数公式;吉尼系数公式为:
[0010][0011]
其中,xi为该等生理量测数据中对应于一种疾病的数据;p(xi)为该等生理量测数据中对应于该种疾病的数据的出现机率;以及n为该等生理量测数据中对应的疾病种类的数量。
[0012]
如上所述的方法,其中,相关系数为:
[0013][0014]
其中,i为该等生理量测数据的一者;n为该等生理量测数据的数据个数;xj为自变数且代表该等生理量测数据;为自变数平均且代表该等生理量测数据的平均;yj为应变数且代表对应于一疾病的该数值;以及为应变数平均且代表对应于该疾病的该数值的平均。
[0015]
如上所述的方法,其中,生理量测数据包括:性别、身体质量指数(body mass index:bmi)、尿酸、总胆固醇、白血球,以及血糖。
[0016]
如上所述的方法,其中,生理量测数据的至少一个切分点的该数值等于gini(d)
×
|r(i)|。
[0017]
如上所述的方法,其中,赤池信息量准则(aic)为:aic=-2
×
l+2
×
(k+1)其中,l为概似函数,k为参数的数量。
[0018]
如上所述的方法,还包括:计算决策树的对应于不同疾病的每个末支的正确率。
[0019]
如上所述的方法,其中,判断是否无法继续分支的步骤,包括:重复执行计算生理量测数据的至少一个切分点的数值的步骤,以及找出具有最小数值的至少一个切分点作为决策树的分支节点的步骤,直到无法继续分支;或者重复执行计算生理量测数据的至少一个切分点的数值的步骤,以及找出具有最小数值的至少一个切分点作为决策树的分支节点的步骤,直到分支节点所包含的该等生理量测数据的个数小于等于对应于每一疾病的该等生理量测数据的预设数据个数。
[0020]
如上所述的方法,其中,计算生理量测数据的至少一个切分点的数值的步骤,包括:将生理量测数据依据性别由女至男进行排序;将生理量测数据依据bmi的高低由低至高进行排序;将生理量测数据依据尿酸的高低由低至高进行排序;将生理量测数据依据总胆固醇的多寡由寡至多进行排序;将生理量测数据依据白血球的多寡由寡至多进行排序;以及将生理量测数据依据血糖的高低由低至高进行排序。
[0021]
如上所述的方法,其中,计算生理量测数据的至少一个切分点的数值的步骤,包括:依据生理量测数据的性别、bmi、尿酸、总胆固醇、白血球,以及血糖的排序,计算特定函数及相关系数的绝对值的乘积,用以得到生理量测数据的至少一个切分点的数值。
[0022]
依据本公开实施例的电子系统,用于建立协助疾病预测的一决策树,包括:一第一处理器、一数据库,以及一第二处理器。第一处理器接收来自医院端的与不同疾病相关的多个生理量测数据。数据库储存生理量测数据。第二处理器从数据库取得生理量测数据,用以执行:根据用途分类生理量测数据;计算生理量测数据的至少一个切分点;分枝与该至少一个切分点对应的决策树;以及剪枝决策树而完成决策树的建立。
[0023]
如上所述的电子系统,其中,第二处理器计算生理量测数据的至少一个切分点,包括:第二处理器利用关联于生理量测数据的一特定函数及一相关系数的绝对值,计算生理量测数据的该至少一个切分点的一数值。
[0024]
如上所述的电子系统,其中,当生理量测数据是用于不同疾病发生机率的推算,则
第二处理器将生理量测数据分类为分类型数据。
[0025]
如上所述的电子系统,其中,当第二处理器将生理量测数据分类为分类型数据,特定函数为一吉尼系数公式;吉尼系数公式为:
[0026][0027]
其中,xi为该等生理量测数据中对应于一种疾病的数据;p(xi)为该等生理量测数据中对应于该种疾病的数据的出现机率;以及n为该等生理量测数据中对应的疾病种类的数量。
[0028]
如上所述的电子系统,其中,相关系数为:
[0029][0030]
其中,i为该等生理量测数据的一者;n为该等生理量测数据的数据个数;xj为自变数且代表该等生理量测数据;为自变数平均且代表该等生理量测数据的平均;yj为应变数且代表对应于一疾病的该数值;以及为应变数平均且代表对应于该疾病的该数值的平均。
[0031]
如上所述的电子系统,其中,生理量测数据的至少一个切分点的数值等于gini(d)
×
|r(i)|。
[0032]
依据本公开实施例的计算机程序产品,用于建立协助疾病预测的一决策树,适用于具有一第一处理器、一第二处理器,以及一数据库的电子系统中,包括:一接收指令、一储存指令、一读取指令、一分类指令、一计算指令、一分枝指令,以及一剪枝指令。接收指令使得第一处理器接收来自医院端的与不同疾病相关的多个生理量测数据。储存指令使得数据库储存生理量测数据。读取指令使得第二处理器从数据库取得生理量测数据。分类指令使得第二处理器根据用途分类生理量测数据。计算指令使得第二处理器计算生理量测数据的至少一个切分点。分枝指令使得第二处理器分枝与该至少一个切分点对应的决策树。剪枝指令使得第二处理器剪枝决策树。当第一处理器执行完接收指令,数据库执行完储存指令,以及第二处理器执行完读取指令、分类指令、计算指令、分枝指令,以及剪枝指令后,则决策树被建立完成。
附图说明
[0033]
图1为本公开实施例的建立疾病预测的决策树的方法的流程图。
[0034]
图2为本公开实施例的决策树的示意图。
[0035]
图3为本公开实施例的用于建立疾病预测的决策树的电子系统的示意图。
[0036]
附图标记说明
[0037]
s100,s102,s104,s106,s108:步骤
[0038]
200,202,204:分支节点
[0039]
206,208,210,212:节点
[0040]
300:网路服务器
[0041]
302:数据库
[0042]
304:演算服务器
[0043]
306:(医院端)计算机
[0044]
308:医师
[0045]
310,314:处理器
具体实施方式
[0046]
本公开系参照所附图式进行描述,其中遍及图式上的相同参考数字标示了相似或相同的元件。上述图式并没有依照实际比例大小描绘,其仅仅提供对本公开的说明。一些公开的型态描述于下方作为图解示范应用的参考。这意味着许多特殊的细节,关系及方法被阐述来对这个公开提供完整的了解。无论如何,拥有相关领域通常知识的人将认识到若没有一个或更多的特殊细节或用其他方法,此公开仍然可以被实现。
[0047]
以其他例子来说,众所皆知的结构或操作并没有详细列出以避免对这公开的混淆。本公开并没有被阐述的行为或事件顺序所局限,如有些行为可能发生在不同的顺序亦或同时发生在其他行为或事件之下。此外,并非所有阐述的行为或事件都需要被执行在与现有公开相同的方法之中。
[0048]
图1为本公开实施例的建立疾病预测的决策树的方法的流程图。如图1所示,本公开的建立疾病预测的决策树的方法包括:接收与不同疾病相关的多个生理量测数据(步骤s100);根据用途分类生理量测数据(步骤s102);计算生理量测数据的至少一个切分点(步骤s104);分枝与该至少一个切分点对应的决策树(步骤s106);以及剪枝决策树而完成决策树的建立(步骤s108)。
[0049]
详细来说,在步骤s104中,本公开的建立疾病预测的决策树的方法还包括利用关联于生理量测数据的一特定函数及一相关系数的绝对值,计算生理量测数据的至少一个切分点的一数值。在步骤s106中,本公开的建立疾病预测的决策树的方法还包括找出具有最小该数值的该至少一个切分点作为该决策树的一分枝节点,以及判断是否无法继续分枝。在步骤s108中,本公开的建立疾病预测的决策树的方法还包括使用一赤池信息量准则(akaike information criterion:aic)对决策树进行剪支。
[0050]
在一些实施例中,本公开所建立用于协助疾病预测的决策树是为一分类和相关系数回归树(classification and correlation coefficient regression trees:ccrt)决策树。ccrt决策树是基于传统知名的分类和回归树(classification and regression trees:cart)决策树的改良版,其演算过程中加入相关系数做参数调整,用以提升ccrt决策树的疾病预测能力。在步骤s100中,生理量测数据是来自医院端的各个病人的病历数据。举例来说,一位病人的病历数据可包括性别、身体质量指数(body mass index:bmi)、尿酸、总胆固醇、白血球,以及血糖,但本公开不限于此。
[0051]
表一为来自医院端的五位病人对应于不同疾病的生理量测数据。表一的生理量测数据是作为例示。
[0052][0053]
如表一所示,1号病人是为女性,其bmi为18、尿酸为7.3、总胆固醇为150、白血球为15.3,以及血糖为201,并且医师判断1号病人所罹患的疾病为糖尿病。2号病人是为女性,其bmi为36、尿酸为9.8、总胆固醇为285、白血球为20.8,以及血糖为125,并且医师判断2号病人所罹患的疾病为动脉粥样硬化。3号病人是为男性,其bmi为32、尿酸为6.5、总胆固醇为201、白血球为8.51,以及血糖为100,并且医师判断3号病人所罹患的疾病为高血压。4号病人是为男性,其bmi为24、尿酸为5.7、总胆固醇为187、白血球为4.38,以及血糖为131,并且医师判断4号病人所罹患的疾病为脂肪肝。5号病人是为男性,其bmi为28、尿酸为7.4、总胆固醇为235、白血球为18.1,以及血糖为185,并且医师判断5号病人所罹患的疾病为糖尿病。
[0054]
在步骤s102中,当来自医院端的生理量测数据是用于不同疾病发生机率的推算,则生理量测数据会被分类为分类型数据。在一些实施例中,当来自医院端的生理量测数据是用于不同疾病的分类,则生理量测数据会被分类为数值型数据。本公开的ccrt决策树皆可对分类型数据及数值型数据进行处理。在一些实施例中,当在步骤s102中生理量测数据被分类为分类型数据时,则步骤s104中的关联于生理量测数据的特定函数为一吉尼系数公式。
[0055]
详细来说,吉尼系数公式为如下公式1。
[0056][0057]
xi为生理量测数据中对应于一种疾病的数据;p(xi)为该等生理量测数据中对应于该种疾病的数据的出现机率;以及n为该等生理量测数据中对应的疾病种类的数量。
[0058]
在步骤s104中,关联于生理量测数据的相关系数为如下公式2。
[0059][0060]
i为生理量测数据的一者;n为生理量测数据的数据个数;xj为自变数,即生理量测数据;为自变数平均,即生理量测数据的平均;yj为应变数,即对应于一疾病的数值;以及为应变数平均,即对应于该疾病的数值的平均。在一些实施例中,本公开的方法可将表一中的性别f转为数值2、性别m转为数值1、糖尿病转换为数值1、动脉粥样硬化转换为数值2、高血压转换为数值3,以及脂肪肝转换为数值4,但本公开不限于此。
[0061]
详细来说,在步骤s104中,生理量测数据的至少一个切分点的数值等于gini(d)
×
|r(i)|
ꢀꢀ
公式3。
[0062]
在一些实施例中,本公开的方法在计算吉尼系数公式gini(d)及相关系数的绝对
值|r(i)|的乘积之前,会先将生理量测数据依据性别由女至男进行排序、将生理量测数据依据bmi的高低由低至高进行排序、将生理量测数据依据尿酸的高低由低至高进行排序、将生理量测数据依据总胆固醇的多寡由寡至多进行排序、将生理量测数据依据白血球的多寡由寡至多进行排序,以及将生理量测数据依据血糖的高低由低至高进行排序。在一些实施例中,本公开的方法依据生理量测数据的性别、bmi、尿酸、总胆固醇、白血球,以及血糖的排序,计算吉尼系数公式gini(d)及相关系数的绝对值|r(i)|的乘积,用以得到生理量测数据的至少一个切分点的数值。
[0063]
以表一的生理量测数据作为例示。本公开的方法会依据性别,将1~5号病人的数据排列为(1,2,3,4,5),亦即其性别的排列顺序为(f,f,m,m,m)。之后,在步骤s104中,本公开的方法会计算1~5号病人数据中男性与女性的切分点的数值,如下公式3。
[0064][0065]
本公开的方法依据性别排序的生理量测数据的排序(f,f,m,m,m),将性别转换为数值后代入公式3、公式2,及公式1中,用以得到公式4。举例来说,本公开的方法将生理量测数据依性别栏位排序后,其切分点为2个f及3个m之间。在2个f数据中,其两者皆对应于不同的疾病(例如分别为糖尿病及动脉粥样硬化),因此机率各为因此,左分支为再乘上(5个数据中的2个)。同理,3个m数据中,其三者皆对应于不同的疾病(例如为高血压、脂肪肝,及糖尿病),因此机率各为因此,右分支为再乘上(5个数据中的3个)。依据公式4的结果可得到依据性别排序的切分点的数值为0.6。
[0066]
接着,本公开的方法会依据bmi,将1~5号病人的数据排列为(1,4,5,3,2),亦即其bmi的排列顺序为(18,24,28,32,36)。本公开的方法首先计算依据bmi的第一切分点,亦即的第一切分点,如下公式5。
[0067][0068]
举例来说,本公开的方法将生理量测数据依bmi栏位排序后,其第一切分点为18及24之间。在bmi为18的生理量测数据中(亦即1号病人),其对应的疾病为糖尿病,因此机率为因此,第一切分点的左分支为再乘上(5个数据中的1个)。同理,4个bmi分
别为24、28、32、36的生理量测数据中(亦即2~5号病人),其四者皆对应于不同的疾病(例如为动脉粥样硬化、高血压、脂肪肝,及糖尿病),因此机率各为因此,右分支为再乘上(5个数据中的4个)。依据公式5的结果可得到依据bmi排序的第一切分点的数值为0.6。
[0069]
接着,本公开的方法继续计算依据bmi的下一个切分点,亦即的第二切分点,如下公式6。
[0070][0071]
举例来说,本公开的方法将生理量测数据依bmi栏位排序后,其第二切分点为24及28之间。在bmi为18及24的生理量测数据中(亦即1号及4号病人),其对应的疾病为糖尿病及脂肪肝,因此机率各为因此,第二切分点的左分支为再乘上(5个数据中的2个)。同理,3个bmi分别为28、32、36的生理量测数据中(亦即2、3、5号病人),其三者皆对应于不同的疾病(例如为动脉粥样硬化、高血压,及糖尿病),因此机率各为因此,右分支为再乘上(5个数据中的3个)。依据公式6的结果可得到依据bmi排序的第二切分点的数值为0.6。
[0072]
接着,本公开的方法继续计算依据bmi的下一个切分点,亦即的第三切分点,如下公式7。
[0073][0074]
举例来说,本公开的方法将生理量测数据依bmi栏位排序后,其第三切分点为28及32之间。在bmi为18、24及28的生理量测数据中(亦即1号、4号及5号病人),其对应的疾病为糖尿病及脂肪肝,因此糖尿病的出现机率为并且脂肪肝的出现机率为因此,第三切分点的左分支为再乘上(5个数据中的3个)。同理,2个bmi分别为32、36的生理量测数据中(亦即2、3号病人),其两者皆对应于不同的疾病(例如为动脉粥样硬化,及高血压),因此机率各为因此,右分支为再乘上(5个数据中的2个)。依据公式7的结果可得到依据bmi排序的第三切分点的数值为0.054。
[0075]
接着,本公开的方法继续计算依据bmi的下一个切分点,亦即的第四切分点,如下公式8。
[0076][0077]
举例来说,本公开的方法将生理量测数据依bmi栏位排序后,其第四切分点为32及36之间。在bmi为18、24、28及32的生理量测数据中(亦即1号、3号、4号及5号病人),其对应的疾病为糖尿病、高血压及脂肪肝,因此糖尿病的出现机率为高血压的出现机率为并且脂肪肝的出现机率为因此,第四切分点的左分支为再乘上(5个数据中的4个)。同理,bmi为36的生理量测数据中(亦即2号病人),其对应的疾病为动脉粥样硬化,因此其机率为因此,右分支为再乘上(5个数据中的1个)。依据公式8的结果可得到依据bmi排序的第四切分点的数值为0.158。
[0078]
再者,本公开的方法会依据尿酸,将1~5号病人的数据排列为(4,3,1,5,2),亦即其尿酸的排列顺序为(5.7,6.5,7.3,7.4,9.8)。本公开的方法首先计算依据尿酸的第一切分点,亦即分点,亦即的第一切分点,如下公式9。
[0079][0080]
举例来说,本公开的方法将生理量测数据依尿酸栏位排序后,其第一切分点为5.7及6.5之间。在尿酸为5.7的生理量测数据中(亦即4号病人),其对应的疾病为脂肪肝,因此机率为因此,第一切分点的左分支为再乘上(5个数据中的1个)。同理,4个尿酸分别为6.5,7.3,7.4,9.8的生理量测数据中(亦即1~3、5号病人),其四者对应于糖尿病、动脉粥样硬化,及高血压,因此糖尿病的出现机率为动脉粥样硬化的出现机率为并且高血压的出现机率为因此,右分支为再乘上(5个数据中的4个)。依据公式9的结果可得到依据尿酸排序的第一切分点的数值为0.5。
[0081]
接着,本公开的方法继续计算依据尿酸的下一个切分点,亦即的第二切分点,如下公式10。
[0082][0083]
举例来说,本公开的方法将生理量测数据依尿酸栏位排序后,其第二切分点为6.5及7.3之间。在尿酸为5.7及6.5的生理量测数据中(亦即4号及3号病人),其对应的疾病为脂肪肝及高血压,因此机率各为因此,第二切分点的左分支为再乘上(5个数据中的2个)。同理,3个尿酸分别为7.3,7.4,9.8的生理量测数据中(亦即1、5、2号病人),其三者对应于糖尿病及动脉粥样硬化,因此糖尿病的出现机率为并且动脉粥样硬化的出现机率为因此,右分支为再乘上(5个数据中的3个)。依据公式10的结果可得到依据尿酸排序的第二切分点的数值为0.4667。
[0084]
接着,本公开的方法继续计算依据尿酸的下一个切分点,亦即的第三切分点,如下公式11。
[0085][0086]
举例来说,本公开的方法将生理量测数据依尿酸栏位排序后,其第三切分点为7.3及7.4之间。在尿酸为5.7、6.5及7.3的生理量测数据中(亦即4号、3号及1号病人),其三者皆对应于不同的疾病(例如为脂肪肝、高血压,及糖尿病),因此机率各为因此,第三切分点的左分支为再乘上(5个数据中的3个)。同理,2个尿酸分别为7.4、9.8的生理量测数据中(亦即5、2号病人),其两者皆对应于不同的疾病(例如为糖尿病,及动脉粥样硬化),因此机率各为因此,右分支为再乘上(5个数据中的2个)。依据公式11的结果可得到依据尿酸排序的第三切分点的数值为0.589。
[0087]
接着,本公开的方法继续计算依据尿酸的下一个切分点,亦即的第四切分点,如下公式12。
[0088]
[0089]
举例来说,本公开的方法将生理量测数据依尿酸栏位排序后,其第四切分点为7.4及9.8之间。在尿酸为5.7、6.5、7.3及7.4的生理量测数据中(亦即4号、3号、1号及5号病人),其对应的疾病为脂肪肝、高血压及糖尿病,因此脂肪肝的出现机率为高血压的出现机率为并且糖尿病的出现机率为因此,第四切分点的左分支为再乘上(5个数据中的4个)。同理,尿酸为9.8的生理量测数据中(亦即2号病人),其对应的疾病为动脉粥样硬化,因此其机率为因此,右分支为再乘上(5个数据中的1个)。依据公式12的结果可得到依据尿酸排序的第四切分点的数值为0.4938。
[0090]
之后,本公开的方法会依据总胆固醇,将1~5号病人的数据排列为(1,4,3,5,2),亦即其总胆固醇的排列顺序为(150,187,201,235,285)。本公开的方法首先计算依据总胆固醇的第一切分点,亦即的第一切分点,如下公式13。
[0091][0092]
举例来说,本公开的方法将生理量测数据依总胆固醇栏位排序后,其第一切分点为150及187之间。在总胆固醇为150的生理量测数据中(亦即1号病人),其对应的疾病为糖尿病,因此机率为因此,第一切分点的左分支为再乘上(5个数据中的1个)。同理,4个总胆固醇分别为187、201、235、285的生理量测数据中(亦即2~5号病人),其四者皆对应于不同的疾病(例如为动脉粥样硬化、高血压、脂肪肝,及糖尿病),因此机率各为因此,右分支为再乘上(5个数据中的4个)。依据公式13的结果可得到依据总胆固醇排序的第一切分点的数值为0.6。
[0093]
接着,本公开的方法继续计算依据总胆固醇的下一个切分点,亦即的第二切分点,如下公式14。
[0094][0095]
举例来说,本公开的方法将生理量测数据依总胆固醇栏位排序后,其第二切分点
为187及201之间。在总胆固醇为150及187的生理量测数据中(亦即1号及4号病人),其对应的疾病为糖尿病及脂肪肝,因此机率各为因此,第二切分点的左分支为再乘上(5个数据中的2个)。同理,3个总胆固醇分别为201、235、285的生理量测数据中(亦即2、3、5号病人),其三者皆对应于不同的疾病(例如为动脉粥样硬化、高血压,及糖尿病),因此机率各为因此,右分支为再乘上(5个数据中的3个)。依据公式14的结果可得到依据总胆固醇排序的第二切分点的数值为0.6。
[0096]
接着,本公开的方法继续计算依据总胆固醇的下一个切分点,亦即的第三切分点,如下公式15。
[0097][0098]
举例来说,本公开的方法将生理量测数据依总胆固醇栏位排序后,其第三切分点为201及235之间。在总胆固醇为150、187及201的生理量测数据中(亦即1号、4号及3号病人),其三者皆对应于不同的疾病(例如为脂肪肝、高血压,及糖尿病),因此机率各为因此,第三切分点的左分支为再乘上(5个数据中的3个)。同理,2个总胆固醇分别为235、285的生理量测数据中(亦即5、2号病人),其两者皆对应于不同的疾病(例如为糖尿病,及动脉粥样硬化),因此机率各为因此,右分支为再乘上(5个数据中的2个)。依据公式15的结果可得到依据尿酸排序的第三切分点的数值为0.4944。
[0099]
接着,本公开的方法继续计算依据总胆固醇的下一个切分点,亦即的第四切分点,如下公式16。
[0100][0101]
举例来说,本公开的方法将生理量测数据依总胆固醇栏位排序后,其第四切分点为235及285之间。在总胆固醇为150、187、201及235的生理量测数据中(亦即1号、4号、3号及
5号病人),其对应的疾病为脂肪肝、高血压及糖尿病,因此脂肪肝的出现机率为高血压的出现机率为并且糖尿病的出现机率为因此,第四切分点的左分支为再乘上(5个数据中的4个)。同理,总胆固醇为285的生理量测数据中(亦即2号病人),其对应的疾病为动脉粥样硬化,因此其机率为因此,右分支为再乘上(5个数据中的1个)。依据公式16的结果可得到依据尿酸排序的第四切分点的数值为0.01。
[0102]
接着,本公开的方法会依据白血球,将1~5号病人的数据排列为(4,3,1,5,2),亦即其总胆固醇的排列顺序为(4.38,8.51,15.3,18.1,20.8)。本公开的方法首先计算依据白血球的第一切分点,亦即的第一切分点,如下公式17。
[0103][0104]
举例来说,本公开的方法将生理量测数据依白血球栏位排序后,其第一切分点为4.38及8.51之间。在白血球为4.38的生理量测数据中(亦即4号病人),其对应的疾病为脂肪肝,因此机率为因此,第一切分点的左分支为再乘上(5个数据中的1个)。同理,4个白血球分别为8.51,15.3,18.1,20.8的生理量测数据中(亦即1~3、5号病人),其四者对应于糖尿病、动脉粥样硬化,及高血压,因此糖尿病的出现机率为动脉粥样硬化的出现机率为并且高血压的出现机率为因此,右分支为再乘上(5个数据中的4个)。依据公式17的结果可得到依据尿酸排序的第一切分点的数值为0.5。
[0105]
接着,本公开的方法继续计算依据白血球的下一个切分点,亦即的第二切分点,如下公式18。
[0106][0107]
举例来说,本公开的方法将生理量测数据依白血球栏位排序后,其第二切分点为8.51及15.3之间。在尿酸为4.38及8.51的生理量测数据中(亦即4号及3号病人),其对应的
疾病为脂肪肝及高血压,因此机率各为因此,第二切分点的左分支为再乘上(5个数据中的2个)。同理,3个白血球分别为15.3,18.1,20.8的生理量测数据中(亦即1、5、2号病人),其三者对应于糖尿病及动脉粥样硬化,因此糖尿病的出现机率为并且动脉粥样硬化的出现机率为因此,右分支为再乘上(5个数据中的3个)。依据公式18的结果可得到依据尿酸排序的第二切分点的数值为0.4667。
[0108]
接着,本公开的方法继续计算依据白血球的下一个切分点,亦即的第三切分点,如下公式19。
[0109][0110]
举例来说,本公开的方法将生理量测数据依白血球栏位排序后,其第三切分点为15.3及18.1之间。在白血球为4.38、8.51及15.3的生理量测数据中(亦即4号、3号及1号病人),其三者皆对应于不同的疾病(例如为脂肪肝、高血压,及糖尿病),因此机率各为因此,第三切分点的左分支为再乘上(5个数据中的3个)。同理,2个白血球分别为18.1、20.8的生理量测数据中(亦即5、2号病人),其两者皆对应于不同的疾病(例如为糖尿病,及动脉粥样硬化),因此机率各为因此,右分支为再乘上(5个数据中的2个)。依据公式19的结果可得到依据尿酸排序的第三切分点的数值为0.599。
[0111]
接着,本公开的方法继续计算依据白血球的下一个切分点,亦即的第四切分点,如下公式20。
[0112][0113]
举例来说,本公开的方法将生理量测数据依白血球栏位排序后,其第四切分点为18.1及20.8之间。在白血球为4.38、8.51、15.3及18.1的生理量测数据中(亦即4号、3号、1号
及5号病人),其对应的疾病为脂肪肝、高血压及糖尿病,因此脂肪肝的出现机率为高血压的出现机率为并且糖尿病的出现机率为因此,第四切分点的左分支为再乘上(5个数据中的4个)。同理,白血球为20.8的生理量测数据中(亦即2号病人),其对应的疾病为动脉粥样硬化,因此其机率为因此,右分支为再乘上(5个数据中的1个)。依据公式20的结果可得到依据尿酸排序的第四切分点的数值为0.4916。
[0114]
本公开的方法会依据血糖,将1~5号病人的数据排列为(3,2,4,5,1),亦即其总胆固醇的排列顺序为(100,125,131,185,201)。本公开的方法首先计算依据血糖的第一切分点,亦即点,亦即的第一切分点,如下公式21。
[0115][0116]
举例来说,本公开的方法将生理量测数据依血糖栏位排序后,其第一切分点为100及125之间。在血糖为100的生理量测数据中(亦即3号病人),其对应的疾病为高血压,因此机率为因此,第一切分点的左分支为再乘上(5个数据中的1个)。同理,4个血糖分别为125,131,185,201的生理量测数据中(亦即2、4、5、1号病人),其四者对应于糖尿病、动脉粥样硬化,及高血压,因此糖尿病的出现机率为动脉粥样硬化的出现机率为并且高血压的出现机率为因此,右分支为再乘上(5个数据中的4个)。依据公式21的结果可得到依据尿酸排序的第一切分点的数值为0.5。
[0117]
接着,本公开的方法继续计算依据血糖的下一个切分点,亦即的第二切分点,如下公式22。
[0118][0119][0120]
举例来说,本公开的方法将生理量测数据依血糖栏位排序后,其第二切分点为125及131之间。在血糖为100及125的生理量测数据中(亦即3号及2号病人),其对应的疾病为脂肪肝及动脉粥样硬化,因此机率各为因此,第二切分点的左分支为
再乘上(5个数据中的2个)。同理,3个血糖分别为131,185,201的生理量测数据中(亦即4、5、1号病人),其三者对应于糖尿病及脂肪肝,因此糖尿病的出现机率为并且脂肪肝的出现机率为因此,右分支为再乘上(5个数据中的3个)。依据公式22的结果可得到依据尿酸排序的第二切分点的数值为0.4667。
[0121]
接着,本公开的方法继续计算依据血糖的下一个切分点,亦即的第三切分点,如下公式23。
[0122][0123]
举例来说,本公开的方法将生理量测数据依血糖栏位排序后,其第三切分点为131及185之间。在血糖为100、125及131的生理量测数据中(亦即3号、2号及4号病人),其三者皆对应于不同的疾病(例如为脂肪肝、高血压,及动脉粥样硬化),因此机率各为因此,第三切分点的左分支为再乘上(5个数据中的3个)。同理,2个血糖分别为185、201的生理量测数据中(亦即5、1号病人),其两者皆对应相同的疾病(例如为糖尿病),因此机率为因此,右分支为再乘上(5个数据中的2个)。依据公式23的结果可得到依据尿酸排序的第三切分点的数值为0.073。
[0124]
接着,本公开的方法继续计算依据血糖的下一个切分点,亦即的第四切分点,如下公式24。
[0125][0126]
举例来说,本公开的方法将生理量测数据依血糖栏位排序后,其第四切分点为185及201之间。在血糖为100、125、131及185的生理量测数据中(亦即3号、2号、4号及5号病人),其分别对应不同的疾病(例如为脂肪肝、高血压、动脉粥样硬化及糖尿病),因此脂肪肝的出现机率为高血压的出现机率为动脉粥样硬化的出现机率为并且糖尿病的出现机率为因此,第四切分点的左分支为再乘上(5个数据中的4个)。同理,血糖为201的生理量测数据中(亦即1号病人),其对应的疾病为糖尿病,因
此其机率为因此,右分支为再乘上(5个数据中的1个)。依据公式24的结果可得到依据尿酸排序的第四切分点的数值为0.4048。至此,本公开的方法已完成图1的步骤s104。
[0127]
在步骤s104中,本公开的方法得到依据性别排序的切分点的数值为0.6,依据bmi排序的第一、第二、第三,及第四切分点的数值为0.6、0.6、0.054,及0.158,依据尿酸排序的第一、第二、第三,及第四切分点的数值为0.5、0.4667、0.589、0.4938,依据总胆固醇排序的第一、第二、第三,及第四切分点的数值为0.6、0.6、0.4944,及0.01,依据白血球排序的第一、第二、第三,及第四切分点的数值为0.5、0.4667、0.599,及0.4916,以及依据血糖排序的第一、第二、第三,及第四切分点的数值为0.5、0.4667、0.073,及0.4048。
[0128]
接着,在图1的步骤s106中,本公开的方法从上述所有切分点中,找出具有最小数值的切分点作为本公开决策树的一分支节点。换句话说,由于依据总胆固醇排序的第四切分点的数值为0.01,为上述所有切分点中的最小,因此本公开将依据总胆固醇排序的第四切分点(即)设置为决策树的分支节点。
[0129]
图2为本公开实施例的决策树的示意图。延续上一段的内容,本公开的方法可得到依据总胆固醇排序的第四切分点的数值为最小(0.01),因此分支节点200设置为总胆固醇。分支节点200的左分支为总胆固醇《260的生理量测数据(例如为1、3~5号病人的数据),分支节点200的右分支为总胆固醇》=260的生理量测数据(例如为2号病人的数据)。接着,依据前面几段的方法继续分支,系可得到图2的决策树。由于分支节点200的右分支剩下一个对应于动脉粥样硬化的生理量测数据(例如为2号病人的数据),节点206所包含的生理量测数据的个数(例如为1个)小于等于对应于疾病(例如为动脉粥样硬化)的生理量测数据的预设数据个数(例如为1个,即2号病人的数据),因此本公开的方法将节点206设置为末支节点(即节点206无法继续分支),并且将动脉粥样硬化设置于节点206中。
[0130]
由于分支节点200的左分支(总胆固醇《260)剩下4个生理量测数据(1~3、5号病人的数据),本公开的方法同样执行步骤s104、s106,并且得到依据bmi排序的第三切分点是具有最小的数值,因此分支节点202系设置为bmi。分支节点202的左分支为bmi《30的生理量测数据(例如为1、4、5号病人的数据),分支节点202的右分支为bmi》=30的生理量测数据(例如为3号病人的数据)。在步骤s106中,由于分支节点202的右分支剩下一个对应于高血压的生理量测数据(例如为3号病人的数据),节点208所包含的生理量测数据的个数(例如为1个)小于等于对应于疾病(例如为高血压)的生理量测数据的预设数据个数(例如为1个,即3号病人的数据),因此本公开的方法将节点208设置为末支节点(即节点208无法继续分支),并且将高血压设置于节点208中。
[0131]
由于分支节点202的左分支(bmi《30)剩下3个生理量测数据(1、4、5号病人的数据),本公开的方法同样执行步骤s104、s106,并且得到依据血糖排序的第一切分点是具有最小的数值,因此分支节点204系设置为血糖。分支节点204的左分支为血糖《158的生理量测数据(例如为4号病人的数据),分支节点204的右分
支为血糖》=158的生理量测数据(例如为1、5号病人的数据)。在步骤s106中,由于分支节点204的右分支剩下两个对应于高血压的生理量测数据(例如为1、5号病人的数据),节点208所包含的生理量测数据的个数(例如为2个)小于等于对应于疾病(例如为糖尿病)的生理量测数据的预设数据个数(例如为2个,即1、5号病人的数据),因此本公开的方法将节点212设置为末支节点(即节点212无法继续分支),并且将糖尿病设置于节点212中。
[0132]
再者,由于分支节点204的左分支剩下一个对应于脂肪肝的生理量测数据(例如为4号病人的数据),节点210所包含的生理量测数据的个数(例如为1个)小于等于对应于疾病(例如为脂肪肝)的生理量测数据的预设数据个数(例如为1个,即4号病人的数据),因此本公开的方法将节点210设置为末支节点(即节点210无法继续分支),并且将脂肪肝设置于节点210中。简单来说,分支节点200、202、204是在图1的步骤s106中被判断为「否」所获得,而节点206、208、210、212(末支节点)是在图1的步骤s106中被判断为「是」所获得。
[0133]
在步骤s108中,赤池信息量准则(aic)是用来检视图2的决策树是否过度拟合的标准。在一些实施例中,赤池信息量准则(aic)为:
[0134]
aic=-2
×
l+2
×
(k+1)
ꢀꢀꢀ
公式25
[0135]
在公式25中,l为概似函数,k为参数的数量。在一些实施例中,本公开的方法更计算图2决策树对应于不同疾病的每个末支(例如,图2的节点206、208、210,及212)的正确率。
[0136]
本公开的方法将以下表二的3个预测数据输入于图2的决策树中,用以得到病患a的预测结果:疾病1,病患b的预测结果:疾病2,以及病患c的预测结果:疾病3。
[0137][0138]
表三为图2的决策树对疾病特征的判断。
[0139][0140][0141]
依据表三,本公开的方法可得到病患a的胆固醇低于260,并且bmi高于等于30,因此病患a可能罹患高血压。以此类推,病患b可能罹患糖尿病,并且病患c可能有脂肪肝。上述结果可作为医师诊断时的辅助条件。
[0142]
图3为本公开实施例的用于建立协助疾病预测的决策树的电子系统的示意图。如
图3所示,本公开的电子系统可包括一网路服务器300、一数据库302,以及一演算服务器304。网路服务器300包括一处理器310,演算服务器304包括一处理器314。在一些实施例中,网路服务器300的处理器310可执行图1的步骤s100。在一些实施例中,步骤s100中与不同疾病相关的生理量测数据是来自于医院端的计算机306,并且计算机306中的生理量测数据是来自于医师308对不同病人的量测及诊断结果。数据库302可储存生理量测数据。演算服务器304的处理器314可执行图1中的步骤s104、s106,以及s108。在一些实施例中,演算服务器304的处理器314可将其疾病预测结果传送至网路服务器300,用以将其疾病预测结果公布给所有人。
[0143]
本公开更提供一种计算机程序产品,用于建立协助疾病预测的一决策树(例如图2的决策树),适用于具有第一处理器(例如图3的处理器310)、一第二处理器(例如图3的处理器314),以及一数据库(例如图3的数据库302)的电子系统(例如图3的电子系统)。本公开的计算机程序产品包括一接收指令、一储存指令、一读取指令、一分类指令、一计算指令、一分枝指令,以及一剪枝指令。在一些实施例中,接收指令使得处理器310可执行图1的步骤s100。储存指令使得数据库302可储存步骤s100中的与不同疾病相关的生理量测数据。读取指令使得处理器314可从数据库302中取得生理量测数据。分类指令使得处理器314可执行图1的步骤s102。
[0144]
计算指令使得处理器314可执行图1的步骤s104。分枝指令使得处理器314可执行图1的步骤s106。剪枝指令使得处理器314可执行图1的步骤s108。当处理器310执行完接收指令,数据库302执行完储存指令,以及处理器314执行完读取指令、分类指令、计算指令、分枝指令,以及剪枝指令后,则图2的决策树被建立完成(对应于图1的步骤s108)。
[0145]
当来自医院端的生理量测数据愈多,则本公开的建立用于协助疾病预测的决策树的方法、电子系统及计算机程序产品所得到的预测结果会愈准确,能够辅助医师的医疗诊断,依据预测结果提前给予预防措施,将决策树各末支的数据进行计算,得到单一疾病机率,可提升更多疾病预测的准确率。
[0146]
虽然本公开的实施例如上述所描述,我们应该明白上述所呈现的只是范例,而不是限制。依据本实施例上述示范实施例的许多改变是可以在没有违反发明精神及范围下被执行。因此,本公开的广度及范围不该被上述所描述的实施例所限制。更确切地说,本公开的范围应该要以权利要求书及其等同替代对象来定义。
[0147]
尽管上述公开已被一或多个相关的执行来图例说明及描绘,等效的变更及修改将被依据上述规格及附图且熟悉这领域的其他人所想到。此外,尽管本公开实施例的一特别特征已被相关的多个执行之一所示范,上述特征可能由一或多个其他特征所结合,以致于可能有需求及有助于任何已知或特别的应用。
[0148]
除非有不同的定义,所有本文所使用的用词(包含技术或科学用词)是可以被属于上述公开的技术中拥有一般技术的人士做一般地了解。我们应该更加了解到上述用词,如被定义在众所使用的字典内的用词,在相关技术的上下文中应该被解释为相同的意思。除非有明确地在本文中定义,上述用词并不会被解释成理想化或过度正式的意思。
技术特征:
1.一种建立疾病预测的决策树的方法,包括:接收与不同疾病相关的多个生理量测数据;根据用途分类所述生理量测数据;计算所述生理量测数据的至少一个切分点;分枝与该至少一个切分点对应的决策树;以及剪枝该决策树而完成该决策树的建立。2.如权利要求1的方法,其中,计算所述生理量测数据的至少一个切分点的步骤,包括:利用关联于所述生理量测数据的一特定函数及一相关系数的绝对值,计算所述生理量测数据的该至少一个切分点的一数值。3.如权利要求2的方法,其中,分枝与该至少一个切分点对应的决策树的步骤,包括:找出具有最小该数值的该至少一个切分点作为该决策树的一分枝节点;以及判断是否无法继续分枝。4.如权利要求1的方法,其中,剪枝该决策树而完成该决策树的建立的步骤,包括:使用一赤池信息量准则对该决策树进行剪支。5.如权利要求2的方法,其中,根据用途分类所述生理量测数据的步骤,包括:当所述生理量测数据是用于不同疾病发生机率的推算,则所述生理量测数据会被分类为分类型数据。6.如权利要求5的方法,其中,当所述生理量测数据被分类为分类型数据,该特定函数为一吉尼系数公式;该吉尼系数公式为:其中,x
i
为所述生理量测数据中对应于一种疾病的数据;p(x
i
)为所述生理量测数据中对应于该种疾病的数据的出现机率;以及n为所述生理量测数据中对应的疾病种类的数量。7.如权利要求6的方法,其中,该相关系数为:其中,i为所述生理量测数据的一者;n为所述生理量测数据的数据个数;x
j
为自变数且代表所述生理量测数据;为自变数平均且代表所述生理量测数据的平均;y
j
为应变数且代表对应于一疾病的该数值;以及为应变数平均且代表对应于该疾病的该数值的平均。8.如权利要求1的方法,其中,所述生理量测数据包括:性别、身体质量指数、尿酸、总胆固醇、白血球,以及血糖。9.如权利要求7的方法,其中,所述生理量测数据的该至少一个切分点的该数值等于gini(d)
×
|r(i)|。10.如权利要求4的方法,其中,该赤池信息量准则为:aic=-2
×
l+2
×
(k+1)其中,l为概似函数,k为参数的数量。11.如权利要求1的方法,还包括:
计算该决策树的对应于不同疾病的每个末支的正确率。12.如权利要求3的方法,其中,判断是否无法继续分支的步骤,包括:重复执行计算所述生理量测数据的该至少一个切分点的该数值的步骤,以及找出具有最小该数值的该至少一个切分点作为该决策树的该分支节点的步骤,直到无法继续分支;或者重复执行计算所述生理量测数据的该至少一个切分点的该数值的步骤,以及找出具有最小该数值的该至少一个切分点作为该决策树的该分支节点的步骤,直到该分支节点所包含的所述生理量测数据的个数小于等于对应于每一疾病的所述生理量测数据的预设数据个数。13.如权利要求8的方法,计算所述生理量测数据的该至少一个切分点的该数值的步骤,包括:将所述生理量测数据依据性别由女至男进行排序;将所述生理量测数据依据bmi的高低由低至高进行排序;将所述生理量测数据依据尿酸的高低由低至高进行排序;将所述生理量测数据依据总胆固醇的多寡由寡至多进行排序;将所述生理量测数据依据白血球的多寡由寡至多进行排序;以及将所述生理量测数据依据血糖的高低由低至高进行排序。14.如权利要求13的方法,计算所述生理量测数据的该至少一个切分点的该数值的步骤,包括:依据所述生理量测数据的性别、身体质量指数、尿酸、总胆固醇、白血球,以及血糖的排序,计算该特定函数及该相关系数的绝对值的乘积,用以得到所述生理量测数据的该至少一个切分点的该数值。15.一种电子系统,用于建立协助疾病预测的决策树,包括:一第一处理器,接收来自医院端的与不同疾病相关的多个生理量测数据;一数据库,储存所述生理量测数据;以及一第二处理器,从该数据库取得所述生理量测数据,用以执行:根据用途分类所述生理量测数据;计算所述生理量测数据的至少一个切分点;分枝与该至少一个切分点对应的决策树;以及剪枝该决策树而完成该决策树的建立。16.如权利要求15的电子系统,其中,该第二处理器计算所述生理量测数据的该至少一个切分点,包括:该第二处理器利用关联于所述生理量测数据的一特定函数及一相关系数的绝对值,计算所述生理量测数据的该至少一个切分点的一数值。17.如权利要求16的电子系统,其中,当所述生理量测数据是用于不同疾病发生机率的推算,则该第二处理器将所述生理量测数据分类为分类型数据。18.如权利要求17的电子系统,其中,当该第二处理器将所述生理量测数据分类为分类型数据,该特定函数为一吉尼系数公式;该吉尼系数公式为:
其中,x
i
为所述生理量测数据中对应于一种疾病的数据;p(x
i
)为所述生理量测数据中对应于该种疾病的数据的出现机率;以及n为所述生理量测数据中对应的疾病种类的数量。19.如权利要求18的电子系统,其中,该相关系数为:其中,i为所述生理量测数据的一者;n为所述生理量测数据的数据个数;x
j
为自变数且代表所述生理量测数据;为自变数平均且代表所述生理量测数据的平均;y
j
为应变数且代表对应于一疾病的该数值;以及为应变数平均且代表对应于该疾病的该数值的平均。20.如权利要求19的电子系统,其中,所述生理量测数据的该至少一个切分点的该数值等于gini(d)
×
|r(i)|。21.一种计算机程序产品,用于建立协助疾病预测的决策树,适用于具有第一处理器、第二处理器,以及数据库的电子系统中,包括:一接收指令,使得该第一处理器接收来自医院端的与不同疾病相关的多个生理量测数据;一储存指令,使得该数据库储存所述生理量测数据;一读取指令,使得该第二处理器从该数据库取得所述生理量测数据;一分类指令,使得该第二处理器根据用途分类所述生理量测数据;一计算指令,使得该第二处理器计算所述生理量测数据的至少一个切分点;一分枝指令,使得该第二处理器分枝与该至少一个切分点对应的决策树;一剪枝指令,使得该第二处理器剪枝该决策树;其中,当该第一处理器执行完该接收指令,该数据库执行完该储存指令,以及该第二处理器执行完该读取指令、该分类指令、该计算指令、该分枝指令,以及该剪枝指令后,则该决策树被建立完成。
技术总结
一种建立疾病预测的决策树的方法,包括:接收与不同疾病相关的多个生理量测数据;根据用途分类生理量测数据;计算该等生理量测数据的至少一个切分点;分枝与该至少一个切分点对应的决策树;以及剪枝该决策树而完成该决策树的建立。本公开可辅助医生的医疗诊断,依据预测结果提前给予预防措施,将决策树各末支的数据进行计算,得到单一疾病机率,可提升更多疾病预测的准确率。病预测的准确率。病预测的准确率。
技术研发人员:罗莉雯
受保护的技术使用者:纬创资通股份有限公司
技术研发日:2022.04.14
技术公布日:2023/8/31
版权声明
本文仅代表作者观点,不代表航家之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)
航空之家 https://www.aerohome.com.cn/
飞机超市 https://mall.aerohome.com.cn/
航空资讯 https://news.aerohome.com.cn/