2. 北京,北京大学:临床研究所真实世界证据评价中心;
3. 315100 浙江 宁波,宁波市鄞州区疾病预防控制中心;
4. 100191 北京,分子心血管学教育部重点实验室
2. Center of Real-world Evidence Evaluation, Peking University Clinical Research Institute, Peking University Health Science Center, Peking University, Beijing, 100191;
3. Yinzhou District Center for Disease Control and Prevention, Ningbo, Zhejiang Province, 315100;
4. Key Laboratory of Molecular Cardiovascular (Peking University), Ministry of Education, Beijing, 100191, China
心血管病是目前我国及全球最主要的疾病负担之一[1],基于预测模型开展风险评估的策略已被发达国家的心血管病一级预防指南广泛应用[2]。2型糖尿病是心血管病最重要的危险因素之一[3],目前的指南直接将具有2型糖尿病病史的患者作为高风险人群进行管理;但由于疾病的异质性,这种根据病史简单划分风险等级的做法不利于对糖尿病人群进行精准管理,尤其在心血管病高风险的糖尿病人群中。例如,本课题组前期研究发现,在中国北方农村人群中进行心血管病风险预测模型的应用评估时,模型预测的效果尚可,但最高风险组的预测准确性并不理想[4],提示应针对心血管病高风险的2型糖尿病人群进行定量的疾病风险评估。
目前国内相关的研究较少,且研究受样本量、人群代表性等限制,研究结果无法很好的指导临床实践。考虑到模型参数的可获得性和模型应用的广泛性,本研究将分别采用基于一般人群构建的美国弗明汉(Framingham)心血管病预测模型[5]和基于2型糖尿病患者构建的新西兰糖尿病队列研究(diabetes cohort study, DCS)心血管病预测模型[6],在我国2型糖尿病人群中评估心血管病风险预测的准确性,为模型在风险评估中的实际应用提供证据。
1 资料与方法 1.1 研究对象本研究的2型糖尿病人群来自于中国鄞州电子健康档案研究项目(Chinese electronic health records research in yinzhou, CHERRY)[7]中构建的2型糖尿病人群队列。CHERRY研究以宁波市鄞州区区域卫生信息平台为基础,涵盖了调查对象基本信息数据库、电子病历数据库、体检数据库、疾病管理数据库、死亡数据库等,各数据库间通过去标识后的研究对象唯一识别码进行链接。纳入标准为:①2010年1月1日至2018年12月31日在区域卫生信息系统中有医疗记录;②年龄在30~74岁的当地户籍居民;③糖尿病患者。排除标准:①1型糖尿病、妊娠期糖尿病和营养不良相关性糖尿病患者;②基线患有任何心血管病的患者。随访观察至2018年12月31日,共计48 063名2型糖尿病患者进入最终的统计分析,研究对象选择的流程如图 1所示。本研究已获得北京大学生物医学伦理委员会的批准(IRB00001052-20086)。
1.2 危险因素定义
Framingham模型共纳入年龄、性别、是否吸烟、糖尿病、收缩压、总胆固醇(total cholesterol, TC)、高密度脂蛋白胆固醇(high density lipoprotein cholesterol, HDL)等7个变量;DCS模型纳入了年龄、性别、吸烟状态(现在吸烟、已戒烟、过去吸烟)、糖化血红蛋白(glycated hemoglobin A1C, HbA1c)、收缩压、总胆固醇/高密度脂蛋白胆固醇比值(TC/HDL)、尿白蛋白/尿肌酐比值(urine albumin to creatinine ratio, ACR)、糖尿病病程、降压治疗等9个变量。本研究中所涉及的研究对象的一般人口学测量信息来自基本信息数据库和疾病管理数据库;实验室检测信息主要来自于疾病管理数据库、体检数据库和电子病历(住院)数据库;病史信息主要来自基本信息数据库和电子病历(住院)数据库。
1.3 随访及结局事件定义CHERRY研究中研究对象的信息每年更新一次。随访截止时间为研究对象首次出现结局事件、死亡、失访或研究终止时间(2018年12月31日)中最早的时间记录。参照Framingham模型及DCS模型中结局事件的定义,本研究中的心血管病事件的定义主要包括脑卒中和冠心病的发病和死亡。脑卒中定义为急性进行性的血管源性的中枢神经系统局灶性或大范围的功能障碍(包括出血性、缺血性脑卒中,ICD-10编码为I60~I64, I67, I69);冠心病定义为由冠状动脉器质性(动脉粥样硬化或动力性血管痉挛)狭窄或阻塞引起的心肌缺血缺氧(心绞痛)或心肌坏死(心肌梗死)(ICD-10编码为I20~I25)。
1.4 质量控制本研究中区域卫生信息系统的数据由万达信息股份有限公司进行链接及初步核查;研究者对来源于不同数据库的数据按照统一标准对其进行了清理及合并。结局事件方面,各个数据库的结局事件均采用标准国际疾病分类编码(第10版)(international classification of diseases, 10th version, ICD-10)记录疾病类型和死因,时间记录明确详细。
1.5 统计学分析连续变量采用x±s表示,分类变量采用百分比(%)表示。连续性变量和分类变量分别采用t检验和卡方检验比较基线时不同性别中各变量水平的差异。采用Kaplan-Meier方法判断研究对象5年结局事件的实际发病风险。将Framingham模型和DCS模型中研究对象的基线生存函数和各预测因子的平均水平替换为本队列人群的实际水平,得到再校准后的模型。模型的评价包括区分度和校准度[8]。区分度为在个体水平评估模型能否把发病的人与不发病的人(或发病早晚的人)正确区分开的能力,通过C统计量(C-index)进行反映,认为C统计量大于0.7时区分度较好。校准度反映了模型的预测风险与实际发病风险的一致程度。根据预测概率将研究对象分为10个亚组,计算每组的平均预测发病率和实际发病率并绘制校准图;同时采用Hosmer-Lemeshow法评价模型的校准度,认为χ2 < 20时校准度较好。计算模型预测发病风险与实际发病风险的比值(expected-observed ratio, EOR),EOR小于1表示低估风险,大于1表示高估风险,EOR为1表示预测准确。研究中的数据缺失机制假定为随机缺失(missing at random, MAR)[9]。针对研究中的缺失数据,采用两阶段的填补方式。第1阶段中,根据某变量的重复测量信息,采用混合效应模型对该变量的基线信息进行填补;第2阶段中,对于仍然缺失的基线变量,采用多重填补的方式对变量进行填补,最终研究估计的统计量将采用Rubin’s rule合成[9]。采用Stata 16.0软件进行统计分析,采用双侧检验,P < 0.05时认为差异有统计学意义。
2 结果 2.1 研究对象基本特征本研究共纳入基线时无心血管病史的30~74岁2型糖尿病患者48 063人,50.2%为女性。研究对象平均年龄为55.4岁,平均糖尿病病程为1.5年,基线特征如表 1所示。总体而言,男性的吸烟率、HbA1c水平、肾小球滤过率估计值(estimated glomerular filtration rate, eGFR)、基线胰岛素使用率高于女性,而TC水平、基线降压药和降脂药的治疗率低于女性(P < 0.05)。在中位5.9年的随访期间内,共出现2 867例新发心血管病事件,其中男性1 481例(6.2%),女性1 386例(5.7%)。Kaplan-Meier法调整后的5年心血管病事件发生率同样男性(4.5%)高于女性(3.8%),提示对于Framingham模型和DCS模型的验证需考虑性别的差异而在男性和女性中分别进行评估。
指标 | 总人群(n=48 063) | 男性(n=23 952) | 女性(n=24 111) | P值 |
基线特征 | ||||
年龄(x±s)/岁 | 55.4±9.7 | 54.7±10.0 | 56.0±9.4 | < 0.001 |
糖尿病病程(x±s)/年 | 1.5±3.3 | 1.3±3.0 | 1.7±3.5 | < 0.001 |
体质指数(x±s)/kg·m-2 | 24.1±3.0 | 24.1±2.8 | 24.1±3.2 | 1.000 |
城镇人口[n(%)] | 24 561(51.1) | 12 168(50.8) | 12 393(51.4) | < 0.001 |
收缩压(x±s)/mmHg | 130.5±11.4 | 130.3±11.1 | 130.6±11.6 | 0.104 |
吸烟[n(%)] | < 0.001 | |||
目前吸烟 | 10 468(21.8) | 10 323(43.1) | 145(0.6) | |
已戒烟 | 840(1.7) | 695(2.9) | 145(0.6) | |
从未吸烟 | 36 755(76.5) | 12 934(54.0) | 23 821(98.8) | |
HbA1ca(x±s)/% | 7.6±2.1 | 7.8±2.2 | 7.4±2.0 | < 0.001 |
TCb(x±s)/mmol·L-1 | 5.0±1.1 | 4.8±1.1 | 5.1±1.1 | < 0.001 |
TC/HDLc(x±s) | 3.9±1.4 | 4.0±1.5 | 3.9±1.4 | < 0.001 |
HDLd(x±s)/mmol·L-1 | 1.3±0.4 | 1.2±0.4 | 1.3±0.4 | < 0.001 |
non-HDLe(x±s)/mmol·L-1 | 3.6±1.1 | 3.5±1.1 | 3.7±1.1 | < 0.001 |
eGFRf(x±s)/mL·(min·1.73 m2)-1 | 100.0±15.5 | 99.7±15.8 | 98.3±15.2 | < 0.001 |
Ln(ACR)g(x±s)/mg·mmol-1 | 1.1±2.9 | 1.0±2.7 | 1.1±2.5 | < 0.001 |
房颤史[n(%)] | 26(0.05) | 18(0.08) | 8(0.03) | 0.048 |
视网膜病变史[n(%)] | 1 562(3.2) | 666(2.8) | 896(3.7) | < 0.001 |
心血管病家族史[n(%)] | 7 178(14.9) | 3 012(12.6) | 4 166(17.3) | < 0.001 |
胰岛素治疗[n(%)] | 2 044(4.3) | 1 179(4.9) | 865(3.6) | < 0.001 |
口服降糖药治疗[n(%)] | 24 644(51.3) | 12 362(51.7) | 12 282(50.9) | 0.14 |
降压药物治疗[n(%)] | 24 155(50.3) | 11 521(48.2) | 12 634(52.4) | < 0.001 |
降脂药物治疗[n(%)] | 8 623(17.9) | 4 105(17.2) | 4 518(18.7) | < 0.001 |
结局事件 | ||||
心血管病事件[n(%)] | 2 867(6.0) | 1 481(6.2) | 1 386(5.7) | 0.044 |
心血管病发生率/100 000人年 | 1 013.5 | 1083.7 | 947.9 | < 0.001 |
5年心血管病率(Kaplan-Meier) | 4.1% | 4.5% | 3.8% | — |
a: HbA1C,糖化血红蛋白;b: TC,总胆固醇;c: TC/HDL,总胆固醇/高密度脂蛋白胆固醇比值;d: HDL,高密度脂蛋白胆固醇;e: non-HDL,非高密度脂蛋白胆固醇;f: eGFR,肾小球滤过率估计值;g: ACR,尿白蛋白/尿肌酐比值 |
2.2 男性中Framingham模型与DCS模型验证结果的比较
男性中Kaplan-Meier法调整后的5年心血管病实际发生数为1 077.8例(表 2)。Framingham模型和DCS模型计算得到的预测事件数分别为1 039.4例和850.1例。进一步计算EOR发现,Framingham模型低估了风险的3.6%,DCS模型则低估了21.1%。区分度方面,DCS模型的C统计量和95%可信区间(CI)为0.716(0.702~0.730),而Framingham模型的C统计量则小于0.7(0.662,95% CI为0.648~0.677),提示Framingham模型的区分度较差。两个模型的校准度结果显示模型的总体校准情况均不理想。模型的校准图(图 2)显示,Framingham模型较为贴合45°的校准线,而DCS模型在预测风险较低的组别中校准表现尚可,但在风险最高的两组中分别低估了风险的36.6%和56.4%。
模型 | 预测事件数(N) | Kaplan-Meier 调整事件数(N) | 预测-观察比 (EOR) | 区分度 C-index (95% CI) | 校准度χ2 (P值) |
男性 | |||||
Framingham模型 | 1039.4 | 1077.8 | 0.964 | 0.662(0.648-0.677) | 21.3 (0.006) |
DCS模型 | 850.1 | 1077.8 | 0.789 | 0.716(0.702-0.730) | 361.0 (< 0.001) |
女性 | |||||
Framingham模型 | 716.5 | 906.6 | 0.790 | 0.686(0.673-0.700) | 83.2 (< 0.001) |
DCS模型 | 717.2 | 906.6 | 0.791 | 0.743(0.730-0.756) | 430.0 (< 0.001) |
2.3 女性中Framingham模型与DCS模型验证结果的比较
在女性中,Kaplan-Meier调整后的5年心血管病实际发生数为906.6例(表 2)。再校准的Framingham模型和DCS模型分别低估了风险的21.0%和20.9%。DCS模型在区分度(C统计量为0.743,95% CI为0.730~0.756)方面优于Framingham模型(C统计量为0.686,95% CI为0.673~0.700)。两个模型在女性中的校准度表现均不理想(P < 0.001)。校准图(图 2)显示,Framingham模型在女性中的校准度差于在男性中的结果。随着预测风险的升高,Framingham模型低估心血管病风险的趋势愈发明显。DCS模型在女性中的校准度结果与在男性中相似,在预测风险较高的组中偏离45°校准线较远,其在风险最高的两组中分别低估了风险的36.0%和60.0%。
3 讨论
对风险预测模型的校准和对人群绝对风险的准确评估将直接影响心血管病一级预防的风险分层及后续干预。最近的研究显示,在我国40岁以上的糖尿病患者中,超过半数者处于心血管病发病风险的高危水平[10],提示应特别重视对该人群的心血管病风险评估工作。目前可用于对2型糖尿病人群进行心血管病风险评估的模型主要分为两类,一类是基于一般人群建立的模型,另一类是基于2型糖尿病人群建立的模型。然而,该两类模型在2型糖尿病人群中的预测效果存在较大争议。本研究利用以人群为基础的2型糖尿病队列,对Framingham模型和DCS模型在中国糖尿病人群中的预测效果进行了验证,发现即使经过了再校准,两模型在男性和女性中仍然不同程度的低估了该人群的5年心血管病发病风险。相比之下,DCS模型的区分度优于Framingham模型,但其在校准度方面验证结果较差,尤其是在预测风险较高的组别中更为明显,提示Framingham模型和DCS模型不适用于我国2型糖尿病人群的心血管病风险评估。
Framingham模型仅将“是否患有糖尿病”作为预测变量纳入模型中,模型中没有其他反映糖代谢的指标。一项基于10 338名来自中国农村地区(糖尿病患者的比例为9.29%)的研究[11]发现,Framingham模型在男性和女性中的C统计量分别为0.776和0.756,区分度优于本研究结果,提示其在一般人群中的预测准确性更高。在本研究中,Framingham模型在男性和女性中均出现了不同程度的风险低估。以往研究同样发现包括Framingham模型在内的基于一般人群而建立的心血管病预测模型会低估2型糖尿病人群的发病风险[12]。由于糖尿病患者和非糖尿病患者在心血管病危险因素和社会经济学水平等方面存在较大差异,致使糖尿病对于心血管病发病风险的影响不能很好地在此类预测模型中反映出来。
与Framingham模型不同,DCS模型以2型糖尿病人群为特定目标人群而建立。再校准后的DCS模型在本研究人群中的区分度好于Framingham模型,但其在男性和女性中的整体校准度方面表现均不理想,这种情况可能与DCS的研究对象与本研究所纳入的研究对象在基线特征上存在较大的差异有关。与本研究相比,DCS模型中的研究对象的基线年龄(59.2岁)更高、HbA1c水平(7.2%)更低、吸烟率(15%)更低而糖尿病病程(3年)更高。这种差异有可能导致DCS模型中个体预测因素的权重与本研究人群的实际情况不一致。多数对于DCS模型的外部验证中报道了该模型会高估2型糖尿病人群心血管病风险[13]。这些外部验证的研究对象多为西方白人,提示不同种族的2型糖尿病人群存在心血管病危险因素水平的差异。
本研究发现再校准后的DCS模型在预测风险最高的两组中严重低估了2型糖尿病人群的发病风险。进一步分析男性中预测风险最高的两组研究对象的基线特征发现,其平均年龄(68.3岁)、糖尿病病程(2.2年)、降压药物使用率(72.0%)、降糖药物使用率(56.7%)和降脂药物使用率(22.6%)均高于整体男性的平均水平(P < 0.05);女性中该两组研究对象基线平均年龄为68.3岁,糖尿病病程为3.1年,降压药物使用率为74.4%,降糖药物使用率为56.3%,降脂药物使用率为22.5%,高于整体女性的平均水平(所有P < 0.05)。这提示2型糖尿病人群的年龄、患病病程及药物使用情况等因素对于其心血管病的风险预测具有较大影响,因此后续研究在建立我国2型糖尿病人群心血管病风险预测模型时,应重点关注研究对象的年龄、病程、药物治疗以及合并用药等信息。
本研究的局限性包括:①部分记录有缺失。本研究采用多重填补的方式对缺失数据进行了填补,最大程度地利用了研究对象的已有记录,避免了由于排除有数据缺失的研究对象而产生偏倚;②随访时间较短,因此仅验证了5年的心血管病发病风险;③本研究人群来自特定区域,结论的外推性有限。
综上所述,本研究发现针对2型糖尿病人群建立的DCS模型在应用于我国2型糖尿病人群时虽然区分度优于基于一般人群的Framingham模型,但是两个模型的校准度均不理想,提示Framingham模型和DCS模型不适用于中国2型糖尿病人群心血管病的发病风险预测。后续研究需综合考虑2型糖尿病人群的多种危险因素建立针对中国2型糖尿病人群的心血管病预测模型。
[1] |
GBD 2019 Diseases and Injuries Collaborators. Global burden of 369 diseases and injuries in 204 countries and territories, 1990-2019: a systematic analysis for the Global Burden of Disease Study 2019[J]. Lancet, 2020, 396(10258): 1204-1222. |
[2] |
LLOYD-JONES D M, BRAUN L T, NDUMELE C E, et al. Use of risk assessment tools to guide decision-making in the primary prevention of atherosclerotic cardiovascular disease: a special report from the American Heart Association and American College of Cardiology[J]. Circulation, 2019, 139(25): e1162-e1177. |
[3] |
WRIGHT A K, SUAREZ-ORTEGON M F, READ S H, et al. Risk factor control and cardiovascular event risk in people with type 2 diabetes in primary and secondary prevention settings[J]. Circulation, 2020, 142(20): 1925-1936. |
[4] |
唐迅, 张杜丹, 何柳, 等. China-PAR模型在北方农村人群中预测动脉粥样硬化性心血管疾病发病风险的应用[J]. 北京大学学报(医学版), 2017, 49(3): 439-445. TANG X, ZHANG D D, HE L, et al. Application of the China- PAR risk prediction model for atherosclerotic cardiovascular disease in a rural northern Chinese population[J]. J Peking Univ Heal Sci, 2017, 49(3): 439-445. |
[5] |
D'AGOSTINO R B, VASAN R S, PENCINA M J, et al. General cardiovascular risk profile for use in primary care: the Framingham Heart Study[J]. Circulation, 2008, 117(6): 743-753. |
[6] |
ELLEY C R, ROBINSON E, KENEALY T, et al. Derivation and validation of a new cardiovascular risk score for people with type 2 diabetes: the New Zealand diabetes cohort study[J]. Diabetes Care, 2010, 33(6): 1347-1352. |
[7] |
LIN H B, TANG X, SHEN P, et al. Using big data to improve cardiovascular care and outcomes in China: a protocol for the Chinese Electronic Health Records Research in Yinzhou (CHERRY) Study[J]. BMJ Open, 2018, 8(2): e019698. |
[8] |
ALBA A C, AGORITSAS T, WALSH M, et al. Discrimination and calibration of clinical prediction models: users' guides to the medical literature[J]. JAMA, 2017, 318(14): 1377-1384. |
[9] |
LITTLE R J A, RUBIN D B. Statistical analysis with missing data 3rd ed[M]. Hoboken: Wiley, 2020.
|
[10] |
李建新, 李莹, 刘芳超, 等. 中国≥40岁糖尿病患者的心血管疾病风险[J]. 中华心血管病杂志, 2020, 48(11): 968-974. LI J X, LI Y, LIU F C, et al. Cardiovascular disease risk in diabetes patients aged 40 years old and above in China[J]. Chin J Cardiol, 2020, 48(11): 968-974. |
[11] |
SUN C Q, XU F, LIU X T, et al. Comparison of validation and application on various cardiovascular disease mortality risk prediction models in Chinese rural population[J]. Sci Rep, 2017, 7: 43227. |
[12] |
VAN DIEREN S, BEULENS J W, KENGNE A P, et al. Prediction models for the risk of cardiovascular disease in patients with type 2 diabetes: a systematic review[J]. Heart, 2012, 98(5): 360-369. |
[13] |
READ S H, VAN DIEPEN M, COLHOUN H M, et al. Performance of cardiovascular disease risk scores in people diagnosed with type 2 diabetes: external validation using data from the national Scottish diabetes register[J]. Diabetes Care, 2018, 41(9): 2010-2018. |