目的 基于机器学习构建甘肃省平原风沙与黄土丘陵地区糖尿病性视网膜病变 (DR) 的临床预测模型并分析其影响因素. 方法 为横断面研究. 基于中国糖尿病并发症 (CNDCS) 研究 的甘肃省流行病学数据进行模型的建立与验证. 采用多阶段分层随机抽样的方法纳入 2 型糖尿病 (T2DM) 患者并按照7∶3的比例生成训练集和测试集. 收集平原风沙与黄土丘陵地区T2DM患者并发 DR的情况. 采用递归特征消除 (RFE) 的方法筛选出两地区的最优变量,选用逻辑回归 (LR), 决策树 (DT), 支持向量机 (SVM), 随机森林 (RF) 和极端梯度提升树 (XGBoost) 5种机器算法进行模型的训练, 采用曲线下面积 (AUC) 对5种机器算法进行比较,并筛选出最优模型,进一步采用沙普利可加性特征 解释 (SHAP) 分析法直观地解释最优机器学习模型的结果. 结果 共纳入1 739例T2DM患者. 其中 有 23.63% (411/1 739) 的患者并发 DR. RFE 法结果显示,平原风沙与黄土丘陵地区最终分别筛选出 8和 14个最优变量. 通过综合评价,平原风沙与黄土丘陵地区的最佳临床预测模型分别为 RF (训练 集 AUC=0.874,测试集 AUC=0.737) 和 XGBoost (训练集 AUC=0.899,测试集 AUC=0.783) . 进一步进行 的 SHAP分析法结果显示,RF模型中排在前 5位的重要区分特征为糖化血红蛋白 (HbA1c ), 糖尿病病 程, 心率, 尿微量白蛋白, 收缩压,XGBoost模型中排在前5位的重要区分特征为糖尿病病程, 尿微量白 蛋白, 血清白蛋白, 尿素氮, HbA1c. 结论 RF与XGBoost模型对DR风险指标的评估具有较高的可靠 性. 糖尿病病程, HbA1c, 尿微量白蛋白是DR的影响因素. [ABSTRACT FROM AUTHOR]