网友成功预测上海近三日新增病例数,新冠疫情预测究竟靠不靠谱?

【网友成功预测上海近三日新增病例数,新冠疫情预测究竟靠不靠谱?】本文转自:上观
微博上有位网友通过自己的计算 , 成功预测了26、27日的上海新增病例(包括确诊和无症状)数——写文章时我看了下 , 28日的数据(29日上午公布)和他的估算也差得不多 。
作为一个数据爱好者 , 想说说这个预测有没有道理 。
首先来说下他的计算方式 , e^(x*d+y+ε)=确诊数 。这是一个指数模型算式 , 简单来说 , 作者从一段时期的数据(确切的说是12-15日这14天)推测 , 新增阳性病例是在按一个规律性的指数增长 , 然后他自己设计了回归模型 , 算出平均每天增长28%这个数字 。
这个算法有没有道理呢?其实如果对12-25日的数据作一个观测 , 肉眼就可发现每日新增病例数的增长率 , 围绕30%附近(下图红色直线)波动 。如果相信这是一种规律的话 , 算出来的增长指数差异不大 。比如我用另一种方法算了一下 , x1=[ln(P[25日])-ln(P[12日])]/13 , (这个公式没有用回归 , 比较粗暴) , 大概能算出新增病例每天增长31% , 如果我们用这个数字预测26日和27日 , 一个是2975例 , 一个是3516例 , 和实际数字2676和3500差距也不是很大 , 27日的预测甚至比这位网友还更准一点 。
网友成功预测上海近三日新增病例数,新冠疫情预测究竟靠不靠谱?
文章图片

文章图片

但如果我们把这根曲线再往前拉一拉 , 看2月底到3月初的数值(红框) , 就会发现之前的新增病例日增长率要高得多 , 而且有一个明显下降的过程 。
这首先说明 , 相比疫情之初 , 我们的防控手段起到了效用 , 有效压低了R0值 。
其次 , 最近这半个月的增长指数比较稳定 , 是不是就能预测之后的数据?
这里边有两个问题 , 一是这个指数能不能代表全市的情况?我并不能完全肯定 。一个猜测是检测人数在按指数级增长(管控范围在扩大) , 而病例在被检测人数中比例是比较稳定的 , 不过 , 这只能代表病例在检测人群中的比例 , 不能代表病例在全部人口中的比例 。这个我们可以看一下下图 , 在闭环隔离管控内的检测阳性数值 , 要大大高于风险人群筛查 , 而从绝对人数上 , 应该是风险人群的数量更大 。因此我认为全市性的病毒传播要远低于管控区的传播 , 4月5日以后我们可以来看下这个推测对不对 。
网友成功预测上海近三日新增病例数,新冠疫情预测究竟靠不靠谱?
文章图片

文章图片

第二个问题 , 即便相信这个指数代表着全市性的规律 , 那么是不是能预测更久的数据?比如按这位网友推测 , 4月1日上海的每日新增病例就会超过万例 , 4月3日达到1万9千多例 。
说实话我是不敢这么大胆的 。首先是这个用过去14天数据反推的模型实在太简单了 , 完全没有引入其他变量 , 比如我上面说的检测范围 。其次 , 14天的时间太短了 , 明显忽视了防控手段有一定的滞后效应 。就大家熟知的例子而言 , 大规模管控措施的实行成功令武汉的传染数从2.35降到接近于1 , 花了约4个月的时间 , 而当中也经历过病例稳定增长的瓶颈期 。
经验告诉我们 , 新冠疫情在一个人口庞大的区域的发展趋势 , 是很难预测的 。实际上2020年疫情爆发以来 , 全球各国医学专家弄出来的模型给出的预测结果 , 都不是太靠谱 , 有时上一周还很准确的模型 , 下一周可能就会谬以千里 。
为什么新冠疫情很难预测?这是因为第一 , 任何基础的指数 , 其微小的差距在一定时间后也会变得很大 。如果R0分别等于2.9和3.1 , 那么传播10轮对应的累计确诊就分别是22142和39030人 。随着传播轮数的增加 , 结果的差异性会放得更大 。