欢迎光临散文网 会员登陆 & 注册

新冠肺炎变化趋势分析

2020-03-08 19:22 作者:fangquping  | 我要投稿

大家好,新冠肺炎也蔓延了很久,总感觉应该结束了,但确诊病例貌似没有想象的那么乐观,今天从统计学角度计算一下发展规律吧,无论谁说什么都是未知的,只有客观数据才值得信赖,也许那些数据已经告诉我们答案了。

首先要感谢大数据技术,有了它才能获得那么精确的病例数据,将确诊病例做成统计图,从1月25日到3月7日的确诊病例数量结果如下:

将1月25日作为起点,横轴表示每日,纵轴表示数量

发现这个曲线有点像正态分布,不妨用正态拟合一下,由于2月17日是最高峰值,就把那天当做坐标原点,使μ=0,2月17日的坐标为0,不过后半部分和前半部分有差别,后面更加光滑稳定,但频数较大很难估计σ,让峰值与3月6日的概率比值相近来估计σ,选取函数模型为

某天的确诊病例数多,说明在那天净确诊患者出现的概率大。


 分布拟合检验 

随便一个函数没有意义,用χ² 检验法试试吧,提出假设

H0:总体分布密度函数为f(x).

由于之前有一天数量暴增,这里选择那天之后的数据来分析,而且客观统计的函数不可能是完美的正态分布函数,因此选择部分抽样空间来分析,这里选择后几天,即x=9,12,14,16来检验,由于横坐标都是离散的,可以将概率看作是那几个点对应的f(x)值,将剩下的认定为x=0,p=1-∑f(xi),有如下数据:

x  |  频数  |  fi概率  |  pi(fi-npi)²/(npi)

0  |  1638415.402 | 0.9242 | 0

9  |  43352  |  0.0241  |  6.8530
12  |  35420  |  0.0200  |  0.3369
14  |  30096  |  0.0172  |  4.4055
16  |  25441  |  0.0144  |  0.1702
总计  |  1772724.402  |  1  |  χ²=11.77

自由度为4,查表得χ0.01²(4)>11.77>χ0.025²(4),概率比较小,可以拒绝H0,但如果选择显著水平α=0.01可以接受,毕竟客观的结果绝对不会完美吻合密度曲线,按照正态分布的趋势,峰值时应该是对称轴的位置,但根据实际曲线可知,后半部分明显比前期数值高,观察3月7日数据(x=19),确诊人数20616,与2月4日相近,说明7日数据对称的位置在x=-13,原点位置在x=-23向后推10天,那么将在3月17日回落到1月25日状态

但每天的确诊数量按照X~N(0,12.999)分析缺少实际样本容量,与实际有很大出入,平均每天相差几千例。为了估计准确可以采用拉格朗日插值法来研究。


 拉格朗日插值估计

因为插值越多越精确,前半部分和后半部分也有很大不同,因此平均选择后面位置作为插值点会更加精确,综上,选择插入5个点来估计,分别是2月17,22,27日和3月3,7日,对应的x=0,5,10,15,19。拉格朗日插值项如下:

可以估计f(x)=∑liyi,根据估计结果推算到3月14日的确诊病例如下表:


x      |17 |18 |19 |20  |21

日期 |  3-5  |  3-6  |  3-7  |  3-8  |3-9
实际 |  23872  |  22263  |  20616  |-
估计 |  23501  |  21890  |  20616  |  19733  |  19296

x       |22 |23|24|25|26

日期 | 3-10 | 3-11 | 3-12 | 3-13 | 3-14

估计 | 19363  |  19992  |  21246  |  23185  |  25875

拉格朗日插值法误差较小,每天大概300左右,其中3月7日是插值点,没有误差,而根据近阶段的函数规律,确诊人数是减函数,3月10的估计值的误差较大,到了3月12日,已经超过了插值区间半径,误差将更大,因此只可以根据插值法来确定大概范围,从而推测未来3天左右比较精确的确诊病例数值。这里只插了5个点,如果插值点更多,那么将更准确。

每天的数据都可以根据上述方法估计,要是有兴趣可以再做得精确些,但由于算力有限,目前只能精确到这里……

无论多崎岖的道路都会有尽头,做好自己迎接未来吧,困难很快过去!


新冠肺炎变化趋势分析的评论 (共 条)

分享到微博请遵守国家法律