2. 400714 重庆, 中国科学院重庆绿色智能技术研究院
2. Chongqing Institute of Green and Intelligent Technology, Chinese Academy of Sciences, Chongqing, 400714, China
术后认知功能障碍(postoperative cognitive dysfunction,POCD)是老年人最常见的围手术期并发症之一,主要表现为记忆力、执行能力和信息加工速度等能力减退[1-2]。据报道,POCD的发生率因研究和手术类型而异,其发生率从8.9%到46.1%不等[3],且出院3个月后患POCD者在1年内死亡率几乎是无POCD者的2倍[4]。影响POCD发生的危险因素包括患者年龄、饮酒史、术前并发症、日常生活活动能力(activity of daily living,ADL)等[5-6]。目前POCD的发病机制不明且缺乏有效的治疗措施,早期风险评估、降低围手术期风险和专门的围手术期护理措施可能是防治POCD的有效方法[7]。近年来,机器学习越来越多地运用于医学研究中,用来分析复杂的医疗数据[8-9],具有极大的潜力。RACINE等[10]收集患者围手术期指标并使用机器学习算法建立预测模型,来预测ICU患者谵妄的发生率。HUANG等[11]建立模型来预测老年人接受胃肠肿瘤切除术后发生POCD的风险,该模型具有良好的效能(AUC: 0.710,95%CI:0.645~0.775)。将基于机器学习算法建立的预测模型应用于临床可以估计手术病人术后可能患某病的概率,便于医护人员能够及时发现高危人群并早期做出预防措施。本研究应用套索算法(least absolute shrinkage and selection operator, LASSO)筛选POCD危险因素,并利用术前指标基于机器学习算法建立非心脏手术POCD的风险预测模型,为术前风险评估提供参考。
1 资料与方法 1.1 研究对象采用病例-对照研究设计方案。从本院的医疗大数据平台中严格按照纳入排除标准筛选2014年1月至2019年1月行非心脏手术术后发生POCD的患者。纳入标准:①≥45岁;②在全身麻醉下接受除心脏手术外任何类型的手术;③术后住院时间>24 h;④无认知功能障碍病史。排除标准:①手术前入住ICU;②美国麻醉医师协会(American society of anesthesio-logists,ASA)分级Ⅴ级;③重要病历资料缺失>30%。根据第十版国际疾病分类(international classification of diseases-tenth revision, ICD-10)最终92例患者纳入POCD组进行分析,在同样的大数据平台上依照POCD组手术类型和年龄段,按1∶3比例随机匹配同时间段的276例术后未发生POCD且治愈出院的患者纳入非POCD组。
本研究通过了陆军军医大学第一附属医院伦理委员会的批准(KY201936)并在中国临床试验注册中心网址完成注册(ChiCTR1900023927)。
1.2 方法 1.2.1 建模选择指标本研究主要收集术前临床指标,其由一般资料、相关评分表、手术相关信息和术前检验指标(术前最近一次结果)组成。一般资料包括年龄、性别、体质指数(body mass index, BMI)、吸烟史、饮酒史和根据基础疾病计算出的年龄校正版查尔森共病指数(age-adjusted CHARLSON comorbidity index,aCCI)[12];相关评分表包括营养评分(nutrition risk screening-2002,NRS-2002)和ADL评分;手术相关信息包括手术类型(神外手术、骨科手术、胸科手术、腹部手术、其他手术)、ASA分级和急诊。术前检验指标包括白细胞计数(WBC)、血小板计数(PLT)、血红蛋白(Hb)、钾离子(K+)、肌酐(Cre)、总胆红素(TBIL)、谷草转氨酶(AST)、谷丙转氨酶(ALT)、白蛋白(Alb)、血糖(Glu)、血浆凝血酶原时间(PT)、活化部分凝血活酶时间(APTT)、国际标准化比值(INR)。
1.2.2 数据预处理首先在R软件上用mice包对缺失率≤30%的指标进行多重插补,完成数据收集和插补后对所有指标行数据预处理,便于提高机器学习计算效率。对于连续变量行Z-score归一化处理来中心化和标准化数据,处理后数据的均值为0,标准差为1。针对吸烟史等分类变量,行one-hot顺序编码,转换为[1, 0]、[0, 1],用来分别表示是、否。将纳入统计的所有数据,按7∶3的比例随机拆分为建模组和验证组。为了数据的平衡,在建模组中使用LASSO方法进行特征选择并且进行10折交叉验证,筛选和确定独立且有效的危险因素。
1.2.3 预测模型构建与评估机器学习算法建模过程在R软件上进行。在R软件上运行caret包、party包,选择Logistic回归(logistic regression,LR)、支持向量机(support vector machine,SVM)、决策树(Decision Tree)这3种机器学习算法建立预测模型。在建模组中,输入预测指标,运行相应算法,进行监督学习,通过交叉验证确定最优参数。在验证组中,通过敏感度、特异度、F1分数、AUC评估预测模型效能,不同模型间AUC比较采用Delong检验。
1.3 统计学分析采用SPSS 26.0和R 3.6.1软件共同进行统计分析。根据数据分布,正态分布的计量资料以x±s来表示,组间比较采用两独立样本t检验,而偏态分布的计量资料以M(P25,P75)表示,比较采用Mann-Whitney U 检验。对于计数资料,组间比较采用χ2检验或Fisher确切概率。本研究中,所有统计检验都是双侧的,P < 0.05表示具有统计学意义。
2 结果 2.1 患者临床资料本研究一共纳入368例患者,POCD组与非POCD组间临床资料比较可见年龄、BMI、aCCI、营养评分、ADL评分、手术类型、急诊、ASA分级、WBC、PLT、Hb、Glu、PT差异有统计学意义(P<0.05,表 1)。建模组和验证组各指标比较无统计学意义(P≥0.05,表 2),表明两组间指标分布无差异。
变量 | POCD组(n=92) | 非POCD组(n=276) | P |
年龄/岁 | 63.0(53.0,68.0) | 52.0(49.0,54.0) | 0.000 |
BMI/kg·m-2 | 22.5(20.6,24.5) | 23.6(21.3,25.9) | 0.026 |
性别 | 0.061 | ||
男性 | 58(63.0) | 143(51.8) | |
女性 | 34(37.0) | 133(48.2) | |
吸烟史 | 0.070 | ||
是 | 36(39.1) | 80(29.0) | |
否 | 56(60.9) | 196(71.0) | |
饮酒史 | 0.170 | ||
是 | 29(31.5) | 67(24.3) | |
否 | 63(68.5) | 209(75.7) | |
aCCI | 0.000 | ||
0~1分 | 8(8.7) | 167(60.5) | |
2~3分 | 28(30.4) | 70(25.4) | |
≥4分 | 56(60.9) | 39(14.1) | |
营养评分 | 0.000 | ||
<3分 | 76(82.6) | 268(97.1) | |
≥3分 | 16(17.4) | 8(2.9) | |
ADL评分 | 0.000 | ||
100分 | 42(45.7) | 165(59.8) | |
99~61分 | 11(12.0) | 58(21.0) | |
60~41分 | 5(5.4) | 14(5.1) | |
≤40分 | 34(36.9) | 39(14.1) | |
手术类型 | 0.000 | ||
神外手术 | 53(57.6) | 2(0.7) | |
骨科手术 | 8(8.7) | 69(25.0) | |
胸科手术 | 2(2.2) | 9(3.3) | |
腹部手术 | 23(25.0) | 115(41.7) | |
其他手术 | 6(6.5) | 81(29.3) | |
急诊 | 0.000 | ||
是 | 32(34.8) | 39(14.1) | |
否 | 60(65.2) | 237(85.9) | |
ASA分级 | 0.000 | ||
Ⅰ | 0(0.0) | 16(5.8) | |
Ⅱ | 56(60.9) | 243(88.0) | |
Ⅲ | 31(33.7) | 13(4.7) | |
Ⅳ | 5(5.4) | 4(1.5) | |
术前检验指标 | |||
WBC/×109·L-1 | 8.0(6.1,11.1) | 6.7(5.4,9.1) | 0.008 |
PLT/×1012·L-1 | 182.5(132.5,226.3) | 214.5(166.3,279.0) | 0.000 |
Hb/g·L-1 | 116.0(101.5,133.8) | 129.0(112.0,138.8) | 0.001 |
Cre/μmol·L-1 | 65.0(56.3,81.9) | 64.0(54.0,75.0) | 0.297 |
K+/mmol·L-1 | 4.0(3.8,4.3) | 4.0(3.8,4.2) | 0.408 |
TBIL/μmol·L-1 | 20.7(13.2,30.3) | 20.7(14.9,28.7) | 0.783 |
AST/U·L-1 | 22.2(18.4,27.8) | 22.5(18.0,31.9) | 0.628 |
ALT/U·L-1 | 19.9(13.9,27.5) | 21.7(14.0,34.7) | 0.163 |
Alb/g·L-1 | 38.3(32.1,42.7) | 39.5(35.0,43.5) | 0.059 |
Glu/mmol·L-1 | 6.0(5.1,7.3) | 5.4(4.8,6.0) | 0.000 |
PT/s | 11.5(10.9,14.1) | 11.2(10.6,12.7) | 0.003 |
APTT/s | 26.3(23.9,29.4) | 26.5(24.0,28.5) | 0.778 |
INR | 1.0(0.9,1.1) | 1.0(0.9,1.0) | 0.117 |
变量 | 建模组(n=259) | 验证组(n=109) | P |
年龄/岁 | 53.0(50.0, 56.0) | 53.0(50.0, 56.0) | 0.807 |
BMI/kg·m-2 | 23.0(21.0,25.9) | 23.4(21.6,25.5) | 0.557 |
性别 | 0.418 | ||
男性 | 145(56.0) | 56(51.4) | |
女性 | 114(44.0) | 53(48.6) | |
吸烟史 | 0.515 | ||
是 | 85(32.8) | 32(29.4) | |
否 | 174(67.2) | 77(70.6) | |
饮酒史 | 0.397 | ||
是 | 65(25.1) | 32(29.4) | |
否 | 194(74.9) | 77(70.6) | |
aCCI | 0.884 | ||
0~1分 | 123(47.4) | 51(46.8) | |
2~3分 | 68 (26.3) | 31(28.4) | |
≥4分 | 68(26.3) | 27(24.8) | |
营养评分 | 0.960 | ||
<3分 | 242(93.4) | 102(93.6) | |
≥3分 | 17(6.6) | 7(6.4) | |
ADL评分 | 0.948 | ||
100分 | 148(57.2) | 60(55.0) | |
99~61分 | 48(18.5) | 21(19.3) | |
60~41分 | 13(5.0) | 7(6.4) | |
≤40分 | 50 (19.3) | 21(19.3) | |
手术类型 | 0.767 | ||
神外手术 | 37(14.3) | 18(16.5) | |
骨科手术 | 53(20.4) | 24(22.0) | |
胸科手术 | 9(3.5) | 2(1.8) | |
腹部手术 | 101(39.0) | 37(34.0) | |
其他手术 | 59(22.8) | 28(25.7) | |
急诊 | 0.779 | ||
是 | 49(18.9) | 22(20.2) | |
否 | 210(81.1) | 87(79.8) | |
ASA分级 | 0.357 | ||
Ⅰ | 10(3.9) | 6(5.5) | |
Ⅱ | 209(80.7) | 90(82.6) | |
Ⅲ | 35(13.5) | 9(8.2) | |
Ⅳ | 5(1.9) | 4(3.7) | |
术前检验指标 | |||
WBC/×109·L-1 | 6.9(5.4,9.4) | 7.2(5.9,10.1) | 0.209 |
PLT/×1012·L-1 | 204.0(158.0,262.0) | 208.0(156.0,285.5) | 0.522 |
Hb/g·L-1 | 126.0(111.0,137.0) | 124.0(107.5,139.0) | 0.938 |
Cre/μmol·L-1 | 65.0(54.7,78.0) | 63.2(53.9,75.7) | 0.470 |
K+/mmol·L-1 | 4.0 (3.8,4.3) | 4.0 (3.8,4.3) | 0.640 |
TBIL/μmol·L-1 | 21.4(15.1,29.2) | 20.4(13.9,29.4) | 0.294 |
AST/U·L-1 | 21.0(13.9,33.1) | 20.9(15.1,32.1) | 0.722 |
ALT/U·L-1 | 18.0(12.0,25.0) | 18.5(13.0,29.0) | 0.755 |
Alb/g·L-1 | 39.1(34.6,43.1) | 39.3(33.1,43.6) | 0.471 |
Glu/mmol·L-1 | 5.4(4.8,6.2) | 5.5(4.9,6.4) | 0.453 |
PT/s | 11.2(10.7,12.0) | 11.1(10.6,12.3) | 0.573 |
APTT/s | 26.3(23.8,28.8) | 27.0(24.4,29.7) | 0.315 |
INR | 1.0(0.9,1.0) | 1.0(0.9,1.0) | 0.179 |
2.2 特征变量筛选结果
在建模组中,采用LASSO方法对POCD相关术前指标进行筛选,选择回归系数不为零的特征指标,随着λ值增大,模型压缩程度增大,λ=1se给出的就是一个具备优良性能且自变量个数最少的模型。最终选择λ=1se筛选出的特征指标,包括年龄、aCCI、营养评分、手术类型、ASA分级、急诊、Glu、PT(表 3)。
指标 | λ=1se | λ=min |
年龄 | 0.123 | 0.284 |
BMI | 0.000 | -0.012 |
性别 | 0.000 | 0.143 |
吸烟史 | 0.000 | -0.056 |
饮酒史 | 0.000 | 0.000 |
aCCI | 0.869 | 1.786 |
营养评分 | 0.140 | 1.212 |
ADL评分 | 0.000 | 0.000 |
手术类型 | -0.951 | -2.744 |
急诊 | 0.361 | 2.762 |
ASA分级 | 0.619 | 0.093 |
WBC | 0.000 | 0.113 |
PLT | 0.000 | 0.001 |
Hb | 0.000 | -0.016 |
Cre | 0.000 | 0.000 |
K+ | 0.000 | 0.685 |
TBIL | 0.000 | -0.011 |
AST | 0.000 | 0.000 |
ALT | 0.000 | -0.024 |
Alb | 0.000 | 0.000 |
Glu | 0.037 | 0.000 |
PT | 0.067 | 0.195 |
APTT | 0.000 | 0.000 |
INR | 0.000 | 1.600 |
λ为LASSO回归方法的特征指数;λ=min指在所有的λ值中,得到最小目标参量均值的那一个λ值;λ=1se指在一个方差范围内得到最简单模型的那一个λ值 |
2.3 预测模型的建立与验证
在R软件上,输入LASSO方法选出的特征指标,基于LR、SVM、Decision Tree 3种不同算法构建POCD预测模型,通过敏感性、特异性、F1分数、AUC对其模型效能进行评估。在验证组中,针对敏感度而言,LR(96.3%)和Decision Tree(96.3%)稍高于SVM(92.6%);针对特异度而言,SVM(98.8%)优于LR(92.7%)和Decision Tree(93.9%)。在建模组和验证组中,3种机器学习算法AUC皆>0.9,Delong检验显示3种机器学习算法建立的预测模型之间AUC无差异(P>0.05)。3种模型在建模组中F1分数分别为0.985、0.977、0.977;在验证组中F1分数分别为0.881、0.943、0.897。综合考虑模型的敏感度、特异度和F1分数,结果表明基于SVM算法构建的预测模型更适合本研究数据集(表 4)。选取基于SVM算法建立的预测模型,通过R软件绘制其在建模组和验证组中的ROC曲线(图 1)。
算法 | 组别 | 敏感度(%) | 特异度(%) | F1分数 | AUC,95%CI |
LR | 建模组 | 98.5 | 99.5 | 0.985 | 0.999,0.998~1.000 |
验证组 | 96.3 | 92.7 | 0.881 | 0.949,0.886~0.864 | |
SVM | 建模组 | 98.5 | 99.0 | 0.977 | 0.987,0.970~1.000 |
验证组 | 92.6 | 98.8 | 0.943 | 0.957,0.905~1.000 | |
Decision Tree | 建模组 | 98.5 | 99.0 | 0.977 | 0.987,0.970~1.000 |
验证组 | 96.3 | 93.9 | 0.897 | 0.951,0.906~0.996 |
![]() |
图 1 基于SVM算法建立的非心脏手术POCD预测模型的ROC曲线 |
3 讨论
POCD是老年人中相对常见的术后并发症,往往患者的住院时间更长,医疗费用更高,死亡和永久性认知障碍或痴呆的风险也更高[2, 13]。在临床工作中,长期缺乏能帮助医务人员整理大量围术期指标和预测围术期疾病发展趋势的准确可靠、方便快捷的评估工具。近年来,机器学习广泛应用于医疗健康领域,在挖掘、处理医疗数据时具有极大潜力[14]。将机器学习运用于POCD预测,为早期风险评估提供新工具、为术中麻醉管理和术后护理措施带来预警信号。
据文献报道POCD发生率从8.9%到46.1%不等[3],其中中国研究团队的发生率结果大于20%[11, 15]。本研究POCD组与非POCD组按照1∶3比例随机匹配,既避免了检验效能不佳,又降低了收集数据和统计分析的难度[16]。基于已发表的国内外文献筛选出与POCD相关的术前指标,再经过LASSO方法及交叉验证进行特征指标选择,结果发现年龄、aCCI、营养评分、手术类型、ASA分级、急诊、Glu、PT可能与POCD的发生有关,这与既往相关研究基本符合。美国老年医学会研究表明,高龄以及术前合并症是POCD的危险因素[17]。手术类型和ASA分级与POCD的关系也有相关研究阐明[18-20]。另外,有研究证明术前营养不良也是POCD独立危险因素之一[21]。
本研究选择的3种机器学习算法,优缺点分别包括:LR计算起来方便简洁,是医疗健康领域最常使用的方法,但是对于处理有缺失的特征数据或者复杂数据时表现效果不佳且容易发生过拟合;SVM在处理非线性、小样本及二分类数据时有优势,但是对缺失数据敏感且在大规模样本中难以实施;Decision Tree运行速度快,但是容易发生过拟合。本研究结果显示:在建模组和验证组中,基于SVM算法建立的模型AUC均>0.9,且数值接近,提示该模型具有稳定性能。同时敏感度、特异度和F1分数皆高,表明该预测模型效能好。基于3种机器学习算法建立的预测模型之间AUC无统计学意义(P≥0.05),AUC值相近或无差异的情况下,F1分数越高越好。结合模型敏感度、特异度和F1分数的比较,发现基于SVM算法建立的非心脏手术POCD风险预测模型为最佳模型。目前已有的POCD预测模型大多数是基于传统统计学方法建立的简单线性模型[15, 22],利用机器学习算法建立POCD预测模型是新颖的方式,其对临床应用有价值。本实验通过R软件基于机器学习算法建立早期风险预测模型,可在术前快速识别非心脏手术POCD的高危患者,为优化患者围术期治疗方案及护理管理措施提供一个参考。
本研究存在几个局限性。首先,随访时间长,导致重要病例资料丢失,最终纳入患者数量减少。其次,本研究只对非心脏手术这一大类手术进行了讨论,未对具体手术类型进行细化研究。最后,本文样本量较小,患者入选偏移难以避免,模型容易出现过拟合情况。因此在后续的研究中应开展前瞻性、大样本、多中心、细化手术类型且具有外部验证的研究,继续探讨和验证预测模型的临床价值。
综上所述,本研究成功基于机器学习算法建立了非心脏手术POCD风险预测模型,其具有较高的预测效能和临床应用价值。
[1] |
ZOU Y, SHAO L J Z, XUE F S. New nomenclature of peri-operative cognitive impairments: possible impacts on further practice and research[J]. Chin Med J (Engl), 2019, 132(15): 1859-1861. |
[2] |
EVERED L, SILBERT B, KNOPMAN D S, et al. Recommendations for the nomenclature of cognitive change associated with anaesthesia and surgery-2018[J]. Anesthesiology, 2018, 129(5): 872-879. |
[3] |
ANDROSOVA G, KRAUSE R, WINTERER G, et al. Biomarkers of postoperative delirium and cognitive dysfunction[J]. Front Aging Neurosci, 2015, 7: 112. |
[4] |
LESLIE M. The post-op brain[J]. Science, 2017, 356(6341): 898-900. |
[5] |
ANDRO M, LE SQUERE P, ESTIVIN S, et al. Anaemia and cognitive performances in the elderly: a systematic review[J]. Eur J Neurol, 2013, 20(9): 1234-1240. |
[6] |
RUNDSHAGEN I. Postoperative cognitive dysfunction[J]. Dtsch Arztebl Int, 2014, 111(8): 119-125. |
[7] |
JIN Z S, HU J, MA D Q. Postoperative delirium: perioperative assessment, risk reduction, and management[J]. Br J Anaesth, 2020, 125(4): 492-504. |
[8] |
TOPOL E J. High-performance medicine: the convergence of human and artificial intelligence[J]. Nat Med, 2019, 25(1): 44-56. |
[9] |
ESMAILY H, TAYEFI M, DOOSTI H, et al. A comparison between decision tree and random forest in determining the risk factors associated with type 2 diabetes[J]. J Res Health Sci, 2018, 18(2): e00412. |
[10] |
RACINE A M, TOMMET D, D'AQUILA M L, et al. Machine learning to develop and internally validate a predictive model for post-operative delirium in a prospective, observational clinical cohort study of older surgical patients[J]. J Gen Intern Med, 2021, 36(2): 265-273. |
[11] |
HUANG H, CHOU J, TANG Y, et al. Nomogram to predict postoperative cognitive dysfunction in elderly patients undergoing gastrointestinal tumor resection[J]. Front Aging Neurosci, 2022, 14: 1037852. |
[12] |
CHARLSON M, SZATROWSKI T P, PETERSON J, et al. Validation of a combined comorbidity index[J]. J Clin Epidemiol, 1994, 47(11): 1245-1251. |
[13] |
SAUËR A C, VELDHUIJZEN D S, OTTENS T H, et al. Association between delirium and cognitive change after cardiac surgery[J]. Br J Anaesth, 2017, 119(2): 308-315. |
[14] |
BENKE K, BENKE G. Artificial intelligence and big data in public health[J]. Int J Environ Res Public Health, 2018, 15(12): E2796. |
[15] |
WANG M, WANG J R, LI X J, et al. A predictive model for postoperative cognitive dysfunction in elderly patients with gastric cancer: a retrospective study[J]. Am J Transl Res, 2022, 14(1): 679-686. |
[16] |
支鸿羽, 辜梦月, 李雨捷, 等. 利用术前指标基于机器学习算法预测腹部手术后死亡风险模型的建立[J]. 中华麻醉学杂志, 2019, 39(11): 1287-1290. ZHI H Y, GU M Y, LI Y J, et al. Establishment of model for predicting mortality risk after abdominal surgery using preoperative indices based on different machine learning algorithms[J]. Chin J Anaesth, 2019, 39(11): 1287-1290. |
[17] |
AMERICAN GERIATRICS SOCIETY EXPERT PANEL ON POSTOPERATIVE DELIRIUM IN OLDER ADULTS. American Geriatrics Society abstracted clinical practice guideline for postoperative delirium in older adults[J]. J Am Geriatr Soc, 2015, 63(1): 142-150. |
[18] |
WANG Y Y, YUE J R, XIE D M, et al. Effect of the tailored, family-involved hospital elder life program on postoperative delirium and function in older adults: a randomized clinical trial[J]. JAMA Intern Med, 2020, 180(1): 17-25. |
[19] |
ALDECOA C, BETTELLI G, BILOTTA F, et al. European Society of Anaesthesiology evidence-based and consensus-based guideline on postoperative delirium[J]. Eur J Anaesthesiol, 2017, 34(4): 192-214. |
[20] |
KOTEKAR N, SHENKAR A, NAGARA J R. Postoperative cognitive dysfunction—current preventive strategies[J]. Clin Interv Aging, 2018, 13: 2267-2273. |
[21] |
MAZZOLA P, WARD L, ZAZZETTA S, et al. Association between preoperative malnutrition and postoperative delirium after hip fracture surgery in older adults[J]. J Am Geriatr Soc, 2017, 65(6): 1222-1228. |
[22] |
李超, 何农, 曾娜, 等. 老年髋部骨折围手术期神经认知障碍预测模型的初步建立[J]. 临床和实验医学杂志, 2020, 19(5): 537-541. LI C, HE N, ZENG N, et al. Preliminary establishment of a prediction model of perioperative neurocognitive disorders in elderly patients with hip fracture[J]. J Clin Exp Med, 2020, 19(5): 537-541. |