新冠肺炎变化趋势分析
大家好,新冠肺炎也蔓延了很久,总感觉应该结束了,但确诊病例貌似没有想象的那么乐观,今天从统计学角度计算一下发展规律吧,无论谁说什么都是未知的,只有客观数据才值得信赖,也许那些数据已经告诉我们答案了。
首先要感谢大数据技术,有了它才能获得那么精确的病例数据,将确诊病例做成统计图,从1月25日到3月7日的确诊病例数量结果如下:

发现这个曲线有点像正态分布,不妨用正态拟合一下,由于2月17日是最高峰值,就把那天当做坐标原点,使μ=0,2月17日的坐标为0,不过后半部分和前半部分有差别,后面更加光滑稳定,但频数较大很难估计σ,让峰值与3月6日的概率比值相近来估计σ,选取函数模型为

某天的确诊病例数多,说明在那天净确诊患者出现的概率大。
分布拟合检验
随便一个函数没有意义,用χ² 检验法试试吧,提出假设
H0:总体分布密度函数为f(x).
由于之前有一天数量暴增,这里选择那天之后的数据来分析,而且客观统计的函数不可能是完美的正态分布函数,因此选择部分抽样空间来分析,这里选择后几天,即x=9,12,14,16来检验,由于横坐标都是离散的,可以将概率看作是那几个点对应的f(x)值,将剩下的认定为x=0,p=1-∑f(xi),有如下数据:
x | 频数 | fi概率 | pi(fi-npi)²/(npi)
0 | 1638415.402 | 0.9242 | 0
9 | 43352 | 0.0241 | 6.8530
12 | 35420 | 0.0200 | 0.3369
14 | 30096 | 0.0172 | 4.4055
16 | 25441 | 0.0144 | 0.1702
总计 | 1772724.402 | 1 | χ²=11.77
自由度为4,查表得χ0.01²(4)>11.77>χ0.025²(4),概率比较小,可以拒绝H0,但如果选择显著水平α=0.01可以接受,毕竟客观的结果绝对不会完美吻合密度曲线,按照正态分布的趋势,峰值时应该是对称轴的位置,但根据实际曲线可知,后半部分明显比前期数值高,观察3月7日数据(x=19),确诊人数20616,与2月4日相近,说明7日数据对称的位置在x=-13,原点位置在x=-23向后推10天,那么将在3月17日回落到1月25日状态。
但每天的确诊数量按照X~N(0,12.999)分析缺少实际样本容量,与实际有很大出入,平均每天相差几千例。为了估计准确可以采用拉格朗日插值法来研究。
拉格朗日插值估计
因为插值越多越精确,前半部分和后半部分也有很大不同,因此平均选择后面位置作为插值点会更加精确,综上,选择插入5个点来估计,分别是2月17,22,27日和3月3,7日,对应的x=0,5,10,15,19。拉格朗日插值项如下:

可以估计f(x)=∑liyi,根据估计结果推算到3月14日的确诊病例如下表:
x |17 |18 |19 |20 |21
日期 | 3-5 | 3-6 | 3-7 | 3-8 |3-9
实际 | 23872 | 22263 | 20616 |-
估计 | 23501 | 21890 | 20616 | 19733 | 19296
x |22 |23|24|25|26
日期 | 3-10 | 3-11 | 3-12 | 3-13 | 3-14
估计 | 19363 | 19992 | 21246 | 23185 | 25875
拉格朗日插值法误差较小,每天大概300左右,其中3月7日是插值点,没有误差,而根据近阶段的函数规律,确诊人数是减函数,3月10的估计值的误差较大,到了3月12日,已经超过了插值区间半径,误差将更大,因此只可以根据插值法来确定大概范围,从而推测未来3天左右比较精确的确诊病例数值。这里只插了5个点,如果插值点更多,那么将更准确。
每天的数据都可以根据上述方法估计,要是有兴趣可以再做得精确些,但由于算力有限,目前只能精确到这里……
无论多崎岖的道路都会有尽头,做好自己迎接未来吧,困难很快过去!
