患者的流动反映了医疗资源和人口分布之间的错配,而目前少有基于大数据的大空间尺度相关研究。在这项北大城市与环境学院与健康医疗大数据国家研究院的合作研究中,我们利用中国400多万条慢性肾病(CKD)患者住院记录数据,探究了患者的流动模式及其影响因素。相关研究成果近期发表在城市研究期刊《Cities》上(中科院经济学1区Top,IF:6.077)。

1. 研究框架
在本研究中,我们处理了2014年至2018年间共计4353885份CKD患者的住院记录,提取了其中的起终点信息。我们首先探究了不同地理与经济水平分区的患者出行距离分布情况。随后,构建了跨城市患者流动网络(Intercity Patient Mobility Network, IPMN),并计算了一系列复杂网络指标,探究了其基本拓扑性质。利用多种社区检测算法,我们识别了IPMN的多尺度社区结构,并从中定义了医院服务模块(Hospital Service Modules, HSMs)作为研究的基本区划单元。在过往研究的基础上,我们基于结点核心度指数与参与指数,提出了一个角色识别框架,对IPMN中的城市结点进行了功能角色划分。最后,我们建立了城市多源特征数据集,并利用可解释机器学习方法完成了流动性建模与影响因素识别。

2. 主要研究结果
2.1 出行距离分布
与以往的人类移动性(Human mobility)的结果有所差异的是,我们发现,对于患者移动距离分布的尾部(150 km以上),截断幂律分布拟合情况显著优于其他几种分布(p值<0.001),其中β=1.81、k=1758.5:

此外,本研究也探究了不同患者群体之间的差异。我们根据各城市对国内生产总值(GDP)的贡献,将城市划分为了高收入、中等收入和低收入三个等级。结果表明,高收入城市的患者移动距离比其他城市的患者更长(图 2)。当P=0.2时,这一差异达到最大,这意味着大约有80%的中低收入城市患者移动距离小于300 km,而对于高收入城市,这一上限达到了800km。这表明中低收入城市大多数患者的流动局限于本省之内,而高收入城市的患者则有更多机会跨省寻求医疗服务。
本研究还检验了不同自然地理分区患者的行为差异。首先,我们使用“胡焕庸线”将中国分为人口稠密的东部和人口稀少的西部。结果表明,胡焕庸线以西的患者移动距离更长,两者之间的差异主要体现在超过200 km的出行(图 3c)。进一步,我们将中国划分为四个区域:南部、北部、西北部和青藏高原。结果显示,对于超过100 km的患者流动,南部地区患者的出行距离通常小于其他三个地区(图 3d)。其中,西北地区的患者出行距离最远,反映出该地区医疗资源的可及性较差。

2.2 IPMN的基本拓扑性质
我们计算了每条城际联系边5年间的平均权重,以此构建加权有向网络。IPMN的基本拓扑性质如图 4所示。IPMN是一个具有358个结点(即城市)和6824条边(即患者流)的网络。平均度数<K>为587.288,平均最短路径长度<L>为1.562。
同配系数可以理解为由网络边所连接的结点对之间特定属性的皮尔逊相关系数。它衡量了结点偏好与其他属性值相似的结点相连接的趋势。本文研究了连边两端之间的入度(in-degree)关系,用入同配系数As_in表示。对于出度(out-degree)关系,用出同配系数As_out表示。我们发现,IPMN显示出入度的弱异配性(As_in = -0.087),也就是说,高入度城市更有可能与低入度城市相连接。此外,出同配系数显示IPMN具有轻微的同配混合倾向(As_out = 0.135),即与高入度目的地相连的城市通常也有大量患者流入。
这种模式也在入度和出度地图中得到了验证。如图 4b所示,中国中部地区城市具有相对较高的出度,这些城市通常人口众多,经济状况相对较好,但医疗资源薄弱。相比之下,图 4c呈现了明显的两极分化,表明极少数城市聚集了大量优质医疗资源。
本研究还使用了Clauset等提出的统计方法检验了入度和出度的分布。结果显示对数正态分布与数据拟合较好,且显著优于幂律分布、指数分布和截断幂律分布(p值<0.001)。图 4d和图 4e展示了入度和出度的互补累积分布。

2.3 IPMN的多尺度社区结构
我们首先应用了两种固定尺度的社区检测算法,即模块度优化和Infomap。如图 5 a-b所示,两种算法得到了相似的分区结果。我们将社区检测的结果总结为“普遍的行政约束和少数的边界突破”。一般而言,因为有相似政策和文化背景,同一个省级行政区的城市倾向于聚类于一处。但是,我们同时也发现有几个城市与其他省份的联系更为紧密,突破了这一行政界限。我们将社区检测中的结果分为三种类型。A类模块:由单个省级区域组成;B类模块:由多个省级区域组成;C类模块:包含上述“边界突破”城市的聚类。
边界突破现象是区域发展中一种比较有意思的现象。例如,内蒙古是纬向地理距离最长的省份,两种算法都将其分为两个不同的模块,即C1模块和C2模块。模块度优化算法得到的C4模块位于云南和贵州省的两个边缘城市。Infomap算法得到的C4模块包括了甘肃的几个城市,C6模块包括了江西最南端的城市。这些城市人群被附近省份更丰富的医疗资源所吸引,从而减弱了省级行政区域的制约作用。
研究中,还应用了一种无分辨率限制的算法,constant Potts model(CPM)优化,并在更细的空间尺度上探索了IPMN的网络结构。通过调整分辨率参数,我们获得了IPMN的子模块划分(图 5 c-d)。
由于CPM优化的划分质量相对较高(模块度得分Q=0.736),产生的子模块在地理面积上相对均一,可作为提供实用政策建议的单元。因此,我们将这一结果作为“医院服务模块”(Hospital Service Modules, HSM)的划分,来研究患者寻求医疗服务行为的区域特征。

4 HSMs之间的流动情况
为了验证采用HSMs为基本分区单元的合理性,我们计算了模块内流量的比例。结果表明,HSMs内部的流量占比达到80.0%,而省级行政区内的流量占比为74.9%,这表明HSMs可以更好地描述IPMN的社区结构。
由于更长的距离隐含了更高的支付负担,因此,我们使用地理距离作为医疗支出的代理指标。此外,考虑到出发地和目的地之间支付能力的差异,使用两个城市之间的平均薪水的比例作为放缩因子,计算了放缩距离。该数据集来源于《中国城市统计年鉴》,覆盖了86%的患者流量数据。图 6显示了HSMs内外就医的连接权重(即流量)、距离和放缩距离的分布。值得注意的是,跨模块寻求医疗服务的流量占总流量的20%,而距离却占到总出行距离的52.5%。这表明一部分患者旅行了超远的距离来寻求医疗服务,这显示出整个系统相对不经济的特征。如果考虑到出发地和目的地之间的收入差距,跨区域就诊的患者出行放缩距离将上升到54.8%。这表明,大多数跨区域就诊患者来自经济条件较差的城市。而这种收入差距将进一步扩大非本地就医的负担。


2.5 城市在IPMN中的角色
基于城市间联系强度和分布,我们提出了一个网络角色识别框架。首先,使用两个核心度指数 和 ,分别测量一个结点与自身模块内外的其他结点的连接强度。然后,应用两个参与指数来描述结点与模块内外结点连接分布的广泛程度,表示为 和 。最后,我们得到了两个参数空间 和 ,分别从区域和全局的角度描述了每个结点在网络中的位置。由于本文处理的为有向图,我们最终得到了四个参数空间,对于输入流:
基于城市间联系强度和分布,我们提出了一个网络角色识别框架。首先,使用两个核心度指数 和 ,分别测量一个结点与自身模块内外的其他结点的连接强度。然后,应用两个参与指数来描述结点与模块内外结点连接分布的广泛程度,表示为 和 。最后,我们得到了两个参数空间 和,分别从区域和全局的角度描述了每个结点在网络中的位置。由于本文处理的为有向图,我们最终得到了四个参数空间,对于输入流: 空间和 空间。对于输出流: 空间和 空间。
根据城市在参数空间中的位置,我们将其分为四种类型。核心度指数大于2的城市被定义为中心城市。根据与其他城市的联系广泛程度,核心进一步分为三类。参与指数0-0.3的城市被定义为“专属性核心”,它们只与少数几个特定城市相连;参与指数0.3-0.6的城市被定义为“包容性核心”,这些城市拥有相对广泛的联系;参与指数0.6-1的城市定义为“广泛性核心”,具有最广泛的连接。结果如图 7所示,这些子图很好地捕捉了IPMN中城市的功能角色。
患者的流出反映了需求侧的情况(图 7 a-b)。我们首先关注跨模块流出的情况,因为它们代表了较远距离就诊行为。从图 7 a中,我们发现城市的核心程度受到人口和需求的影响。也就是说,人口众多或医疗资源较差的城市往往会成为流出核心。四个一线城市(北京、上海、广州和深圳)和重庆都被确定为核心城市,这些城市拥有着巨量人口。而跨模块就诊选择的多样性是由城市的经济条件驱动的。如图所示,经济较发达的城市往往有更多的选择和更高的参与指数。
相比之下,跨模块流入的参数空间也非常值得关注。在图 7c中,被确定为核心的城市承接了许多并非源自该模块内的流入量。其中,专属性核心和包容性核心属于区域性供给的中心,主要接收来自邻近省份的患者。而广泛性核心城市可以接受更多样化的流入,因此可以被视为国家级的核心。北京、上海和广州的核心度指数最高,彰显了其作为全国优质医疗中心的地位。作为一个快速发展的都市,深圳的医疗资源短缺也反映在其网络角色上,无论是从模块内还是跨模块流入的角度来看,深圳都没有被识别为中心。
省会城市的优势也反应在模块内流入和流出网络的功能角色上,如图 7 b和图 7 d所示。这两幅图呈现出对称的趋势。这意味着,患者在模块内的流动具有明显的偏好,这使得来自异地就医选择较少城市的患者大量涌入区域性的供给中心。图 7 b中确定的大多数流出核心都是相对不发达的城市,而在图 7 d中,相当多的省会城市被确定为供给中心,反映了它们的首位度优势。

2.6 流动性建模及其影响因素
为对患者流动性进行建模与影响因素识别,我们建立了一个传统的重力模型与三种机器学习模型,即支持向量机(SVM)、随机森林(RF)和极致梯度提升(XGBoost)。我们使用多源数据集构建了一个包含城市社会经济、医疗资源和交通便利性三方面特征的数据集。数据以7:3的比例随机分为训练集和测试集。模型的有效性通过测试集上的均方根误差(RMSE)和确定系数(R2)进行评估。模型验证的结果如图 8所示。其中,XGBoost模型的性能最好(R2=0.77,RMSE=59.0)。为了理解单个特征变量对模型预测的影响,我们采用了Shapley Additive Explanations(SHAP)框架来对XGBoost模型进行解释。

我们计算了每个特征对每个样本的预测值和基线值之间的差异的贡献,即SHAP值。平均SHAP绝对值最高的15个变量如图 9a所示。对模型预测影响最大的三个变量是两个城市之间的距离(Distance)、两个城市是否在同一个HSM内(Region_flag)以及目的地的人均高水平肾脏医生人数(Doc_Renal_per)。
如图 9b所示,距离的影响是非线性的,近距离导致的预测值增加最多超过了600,而长距离导致的预测值减少不超过200。我们使用Region_flag来编码这两个城市是否在同一个HSM中,1表示这两个城市都在同一个HSM中,0表示反之。作为一个与距离相关的变量,它仍然成为第二个最重要的特征,这表明该模型捕捉到了其隐含的其他信息,例如同一模块往往具有相似的文化背景或位于同一省级行政区内。我们从中国领先的在线医疗咨询平台上获取了每个城市的肾脏医生数量,并将其定义为水平较高者。结果表明,这种网络数据能够有效反映一个城市的高水平医疗服务能力。我们观察到,人均高水平医生数较多(Doc_Renal_per)的城市往往会成为患者的热门目的地,而较低的该值则会略微降低两个城市之间的患者流量。

图 10 中的每个子图详细说明了每个特征变量对模型预测的影响。我们特别关注SHAP值为0的分界点,因为这决定了特征变量对预测的影响是正向的(预测值高于基线值)还是负向的。这里,我们给出了三个最有影响力的特征的结果,它们代表了地理距离(Distance, Region_flag)和医疗资源(target.Doc_renal_per)的影响。我们发现,距离对模型预测的影响呈现出类幂律趋势,其对模型预测的负向影响随着距离的增加而稳定,200公里是决定其影响方向的分界点。图 10 c展示了Doc_renal_per的吸引力,我们观察到,当一个城市每百万人口中有超过20名高水平肾脏医生时,它将成为吸引非本地患者的目的地。

3意义
根据文献调研的结果,本文应当是目前首个在全国尺度上,利用现实世界数据关注患者流动行为的研究。人类移动性已经是一个得到广泛关注的话题,但作为人群的一个重要子集,关注患者移动性的研究相对来说要少一些。本文为采用跨学科方法进行患者移动性研究提供了方法上的参考。该框架也能够推广到其他国家和地区,以促进医疗资源的均等化。这项研究最重要的贡献是对患者这一特定人群的行为模式的新认识及其对公共卫生政策的启示。
从患者的出行距离来看,我们发现其分布形式与以往人类移动性的研究有所差别。比其他函数相比,截断幂律分布能够更好拟合患者的出行距离,但其尾部更陡,这表明寻求医疗服务的行为受到经济成本的强约束。从复杂网络的角度来看,我们发现IPMN的入度和出度均遵循对数正态分布,这与近期对大量真实世界网络的相关研究的结论是一致的。
本研究使用多种社区检测方法对IPMN的自组织社区结构进行了探索。其结果可以总结为“普遍的行政约束和少数的边界突破”。这一复杂网络特征受到行政区域、城市群、地理位置和医疗资源的共同影响。行为聚类和行政边界之间的不匹配现象在其他地区的医疗区划中也有出现,例如美国的医院服务区域(Hospital service area, HSA)。然而,与美国的HSAs或HRRs(医院转诊区域,Hospital referral region)相关研究相比,对于中国的医疗政策区划单元的研究相对较少。在应用公共卫生政策时,分区单位在决策中发挥着重要作用,例如区域医疗中心的建设或对口支援医院的指定,都需要对责任区进行划定。而我们的研究结果表明,与省界相比,HSMs能更好地描述患者行为的聚集模式。
得到HSMs之后,我们关注了每个城市在IPMN中所扮演的角色。我们根据城市在HSMs内外的核心度和参与度指数来确定城市的角色。考虑到中国城市发展的不平衡性,有必要根据每个城市的不同特点因城施策。例如,可以在同一HSMs中的供需核心城市之间建立长效的对口支持;区域医疗中心可以建设在供给核心城市以减轻其压力,或使其覆盖多个需求核心城市来减少不必要的长距离出行;可以加强需求核心城市的医疗资源,以减轻患者长途旅行的负担,尤其是跨模块的需求中心;对于参与指数较低的城市,应更多地关注完善其与热门目的地的异地医疗结算机制。
可解释机器学习建模结果显示,距离和医疗资源是推动患者异地就诊最重要的因素。距离(Distance)对患者出行行为具有类幂律影响。作为与距离一定相关的指标,模块标志(Region_flag)仍然能被识别为第二重要的特征变量,这验证了数据驱动的HSMs作为基本区划单元的合理性。我们使用了较为新颖的网络医疗服务平台数据来衡量每个城市的高水平医疗服务能力。而移动性模型的表现也验证了此类数据确实对真实世界的患者行为具有良好的解释力。结果显示,医疗资源高质量发展对于解决城际患者异地流动问题至关重要。
由于数据可用性的限制,本研究只使用了CKD患者的数据。然而,根据我们的计算,CKD患者的非本地就诊率(22%)远远高于此前国家卫健委所报告的平均值(8%)。此外,医疗资源的分配需要针对不同种类的疾病精细化管理,而本研究的框架也可以完全适用于其他疾病。未来研究可着眼于整合更大规模的数据集,以了解更为普遍的患者流动模式。此外,本研究以城市作为复杂网络的节点,导致在聚合过程中有一些位置信息的损失。未来也可在更为精细的空间单元进行分析,以促进城市间的合作。
城市化促进了资源的集聚,其中也包括了高质量的医疗服务资源。随着城市化的持续发展,人口、资源和信息在城市之间的流动将进一步加快。我们可以从病人流动网络的结构中观察到,它与其他类型的城市间网络有着不同的特点。例如,在IPMN中,权重最高的边大多局限于省级行政区域,而对于特定时段的全国人口流动网络来说,跨省的大流量人口流动则更为普遍。IPMN和人口流动网络的差异还表现在入度的分布上。IPMN中入度最高的城市吸收的病人流入量远远超过其他城市,反映出医疗资源的两极分化更加严重。相关研究曾证明,人类移动中的规模标度律(Scaling Law)与交通系统的层次性有关。然而,正如我们在本文中所发现的,患者的位移分布并不遵循这一规律,这说明IPMN具有不同的网络结构。患者的流动反映了在中国的城市化进程中不同资源的不平衡发展。如我们的研究所示,由于城际交通系统的便利,目前患者能够前往更远的城市寻求医疗服务。然而,只占总就诊量20%的跨单元就诊却占到了总旅行距离的50%以上,这也说明了区域医疗中心等相关政策在减少不必要的长途旅行方面的潜力。政府和学术界都应该努力进一步了解和优化患者流动网络。应努力减少患者的非本地就诊以及不必要的长途旅行,以提升公共卫生资源的平等性和可及性。
国家卫健委在2019年发布的《国家医学中心和国家区域医疗中心设置实施方案》中提到:“患者异地就医、跨区域流动是当前我国社会主要矛盾在医疗服务领域的体现”。研究患者移动性具有很强的现实意义,特别是对于医疗资源公平性相对较差的发展中国家来说,患者移动反映的是资源和人口之间的错配,优化患者流动格局应该成为政策制定者的目标之一。一些新兴的数据来源,如电子医疗记录、移动电话和出租车数据,为这类研究提供了前所未有的机会,有助于研究者在多个空间尺度上对病人的流动进行详细分析,最终建立一个以人为本、更加高效的医疗系统。