基于r语言的疾病制图中自适应核密度估计的阈值选择方法案例

2020-11-06 17:05 作者:拓端tecdat 0人读过 | 我要投稿

原文链接：http://tecdat.cn/?p=6863

背景

诸如核密度估计（KDE）的平滑方法被用于控制用于计算每种疾病率的空间支持的群体基础。平滑程度由用户定义的参数（带宽或阈值）控制，该参数影响疾病图的分辨率和计算的速率的可靠性。

方法

内核，带宽的大小，是影响在KDE [在地图上的平滑的程度的关键参数 ]。带宽可以是固定的也可以是可变的（自适应的）。对于固定带宽方法，内核具有固定大小的半径，并且所有内核（圆圈）具有相同的半径。在健康研究中，固定带宽方法可能不合适，因为人口不是均匀分布在地理空间中。此外，如果圆圈落入低人口密度区域，可能会导致不稳定的比率。类似地，在自适应带宽方法中，内核半径增大或缩小以适应不同的种群大小。用于定义内核带宽的最小种群大小，以及因此地图上的平滑程度，是用户定义的参数。我们将其称为阈值（h）。

图显示了使用疾病控制和预防中心（CDC），国家卫生统计中心（NCHS）获得的65岁及以上男性心脏病死亡率的空间分布。我们使用具有不同阈值的自适应核密度估计方法产生该映射。

# Adaptive smoothing;
bivariate. ( ,h0=1.5,hp=1,adapt=TRUE,davies.baddeley=0.025)
## bandwidth selection ##
## Global (for adaptive) bandwidth selection ##
# ~200 secs next line; use 'parallelise' for speedup
system.time( <- BOOT. (pbc,type=" ")) # minimal usage for adaptive bootstrap
hada
# ~80 secs line. Set custom h limits; increase reference bandwidth;
plot(hada);abline(v=hada[which.min(hada[,2]),1],col=2)

模拟基线速率和真实值（RMSE）之间的差异幅度随着L的增加而稳定。在本研究中，当L > 50时，所有年龄组均达到稳定状态。在这项研究中，我们使用了100次重复。由于估计过高和过低的百分比或多或少相等，我们可以得出结论，模拟是无偏见的。

## RMS error
plot(x, y,
, col = "lightgrey",
xaxt = "n", yaxt = "n", xaxs = "i", yaxs = "i",
axis(1, at = axp, labels = axp)
axis(2, at = axp, labels = axp)

模拟基线速率分布特征总结

年龄阶层

均值

覆盖率（％）

估计过高（％）

低估（％）

35-44

33.92

1.40

50.6

49.4

45-54

115.17

2.52

49.4

50.6

55-64

297.60

4.49

56.2

43.8

65岁以上

1245.93

10.21

47.6

52.4

35+

351.12

2.27

52.3

47.7

门槛选择对人口密度估计的影响

计算出的三个选择器 - 插件（h pi），平滑交叉验证（h scv），正常标度（h ns）和中位数的阈值如表所示。这些结果表明，对于相同的数据，不同的带宽选择器提供不同的阈值。对于这些数据，h pi和h scv推荐产生的图可以提供更大的地理细节（更低的平滑水平），但估计的速率也会产生更大的波动。相反，另外两个带宽选择器产生更高水平的平滑，但速率波动更少。

描述性结果和计算的阈值按年龄组分层

年龄组

总人口

范围

ZCTA数量

计算的阈值

具有指定最小人口的％ZCTA

h pi

h scv

h ns

中位数

≤100（％）

≤300（％）

35-44

1722904

[1,7925]

1911

280

327

45-54

1702639

[1,7407]

1910

255

399

55-64

1256976

[1,4948]

1906

177

342

65岁以上

1135517

[1,4792]

1902

156

330

总计（35 +）

5818036

[1,25,555]

1920

200

189

837

1411

在图，将应用每个阈值（h pi，h scv，h ns，中位数和六个任意选择-50,100,500,1000,5000,10,000）后获得的种群密度曲线与实际种群进行比较分配。对于每个图表，X轴表示仓大小为200的群体，Y轴是ZCTA的密度。

门槛选择对费率估计分布的影响

图说明了100次重复的每个阈值的估计状态速率（）的分布。由于h pi和h scv为所有年龄组提供了几乎相同的值，因此在该研究中仅使用h pi。 Y轴显示从模拟数据集获得的心脏病死亡率（每100,000人口），每个点代表每次模拟的估计状态率（）。模拟基线率（y i）和原油率也包括在每个图表中以供参考。粗略比率计算为每个单独ZCTA的模拟病例与人口比率的平均值。

表，使用h ns，中值和h > 500 获得的阈值为本研究中使用的年龄分层提供了最理想的密度曲线特征。此外，h > 500，h ns和h > 1000提供了35岁及以上年龄段的最理想的密度曲线特征。对于这些情况，虽然RMSE值没有明显不同。这对于在图的35+岁年龄组，尤其如此即在制作疾病地图时，需要平衡地图上描绘的地理细节数量和估计费率的准确性。虽然RMSE建议使用三个期望阈值产生的地图之间具有相似的准确度，但是在选择适当阈值时要考虑的剩余关键因素是地理变化程度。而且，与任意选择相比， h ns提供了一种估计适当阈值的一致方法。

结果

使用德克萨斯州35岁及以上男性心脏病死亡率的模拟数据集，我们评估了自动选择平滑参数的方法。我们的结果表明，虽然所有参数选择都准确地估计了整体状态速率，但它们在空间分辨率方面有所不同。

结论

我们表明适当的阈值取决于数据的特征，并且带宽选择器算法可用于指导关于映射参数的此类决策。

非常感谢您阅读本文，有任何问题请在下面留言！

标签：