搜索

文章查询

x

留言板

尊敬的读者、作者、审稿人, 关于本刊的投稿、审稿、编辑和出版的任何问题, 您可以本页添加留言。我们将尽快给您答复。谢谢您的支持!

姓名
邮箱
手机号码
标题
留言内容
验证码

新型冠状病毒肺炎疫情确诊病例的统计分析及自回归建模

曹文静 刘小菲 韩卓 冯鑫 张琳 刘肖凡 许小可 吴晔

新型冠状病毒肺炎疫情确诊病例的统计分析及自回归建模

曹文静, 刘小菲, 韩卓, 冯鑫, 张琳, 刘肖凡, 许小可, 吴晔
PDF
HTML
导出引用
导出核心图
计量
  • 文章访问数:  402
  • PDF下载量:  34
  • 被引次数: 0
出版历程
  • 收稿日期:  2020-04-06
  • 修回日期:  2020-04-24
  • 刊出日期:  2020-05-01

新型冠状病毒肺炎疫情确诊病例的统计分析及自回归建模

  • 1. 北京邮电大学理学院, 北京 100876
  • 2. 河北地质大学管理科学与工程学院, 石家庄 050031
  • 3. 香港城市大学媒体与传播系, 香港 999077
  • 4. 大连民族大学信息与通信工程学院, 大连 116600
  • 5. 北京师范大学计算传播学研究中心, 北京 100875
  • 通信作者: 冯鑫, 149987543@qq.com ; 张琳, zhanglin2011@bupt.edu.cn
    基金项目: 国家自然科学基金(批准号: 11875005, 61976025, 11905042)、教育部人文社会科学研究青年基金(批准号: 16YJC630022)和河北省普通高等学校青年拔尖人才计划(批准号: BJ2018111)资助的课题

摘要: 基于安徽省卫生健康委员会截至2020年2月19日公布的800余例新型冠状病毒肺炎病例信息, 根据病例中公布的接触史构建确诊患者间的有向传播关系, 发现源传染患者中男性居多, 被传染患者中女性居多. 从病例信息中可知, 安徽省新型冠状病毒肺炎疫情的发展从初期的具有武汉居住或接触史的输入病例转入后期本地传播为主的小范围社区传播, 且严格的防控隔离措施有效切断了社区内的进一步传播. 源传染患者与被传染患者的确诊时间间隔可用Γ分布拟合, 确诊时间间隔的中位数为2 d, 平均值为2.67 d. 基于有向传播关系的统计特点, 构建安徽省疫情发展后期的自回归传播模型, 模型仿真结果与疫情发展数据符合. 对除湖北省的全国确诊病例数据同样采取自回归建模与仿真, 结果仍与疫情发展数据符合. 这一发现为控制疫情在湖北省以外区域的防控提供了参考: 通过严格的防控措施和隔离措施, 疫情在湖北省之外的传播具有很大的黏滞性, 多为家庭程度的密切接触传播, 且能有效控制新型冠状病毒肺炎在当地的传播深度, 有效控制了疫情的蔓延.

English Abstract

    • 2020年1月23日, 武汉封城当日, 湖北省累计确诊549例, 2020年2月23日, 湖北省累计确诊64084例, 累计死亡2346例, 确诊人数是一个月前的100倍以上. 2020年3月, 疫情在亚洲、欧洲、北美洲大肆爆发, 截至2020年3月20日, 全球累计确诊人数已超过24万, 累计死亡近2万人······, 相比2003年的SARS病毒最终全球感染8422例, 死亡349例, 新型冠状病毒肺炎(简称为新冠肺炎)疫情的目前严重程度已超过其30倍[1,2]. “钻石公主”号邮轮感染率逾20%[3]. 环球网2月24日报道, 战“疫”一线感染新冠肺炎病毒的医护工作者已达3387例[4]······新冠肺炎病毒传染性强、潜伏期长、治疗期长, 并且在无症状的潜伏期具有传染性[5-7], 使得疫情的防控工作困难重重.

      面对疫情, 一方面举全国医护工作者驰援武汉;另一方面, 严格防控部署, 各地居民小区实施严格管控措施, 严防输入, 十数亿民众主动居家隔离, 企事业单位远程办公, 全国大中小学生停课在线学习; 同时, 及时追踪确诊患者的密切接触者并进行隔离观察······ 诸多措施, 极大程度上斩断了新冠肺炎病毒的传播途径. 目前, 这场战“疫”, 已经取得了阶段性的显著成效. 全国各地每日新增确诊病例数降幅明显, 目前新增病例均为海外输入病例, 本地病例暂时已经实现零增长. 随着疫情信息通报透明化, 各地卫生健康委员会网站以及官方媒体及时公开确诊患者的患病过程信息及行动轨迹, 不仅有助于缓解群众的恐慌心理, 更有利于追踪密切接触人群进行及时隔离, 阻断传播途径, 进一步遏制疫情.

      目前已有许多论文讨论新冠肺炎疫情, 主要分为两方面. 一方面是从疾病控制角度, 研究平均潜伏期和基本再生数[8], 病例的临床统计信息[9-11]等. 另一方面, 以疫情传播的建模和预测为主[12-15], 主要以SEIR模型[16]和数据拟合为基础, 加以适当的异质性假设, 一定程度上能够复现疫情传播规律和规模, 为疫情发展和防控提供参考.

      然而SEIR模型与湖北省以外地区的疫情实际发展存在明显差异. 自2020年1月23日武汉封城开始, 至第一个14天的隔离期结束的2020年2月5日, 各地区的输入病例已经得到了有效的隔离和控制, 此后病毒绝大多数在家庭级别的密切接触程度内传播, 传播广度与深度均被切断. 在SEIR模型中, 即使加入时滞和受控因素, 其内在的根本逻辑仍是病毒经历很多代际的演化传播: SEIR模型的演化方程每迭代一次, 等价于病毒向前传播了一代[17-19]. 而实际情况是, 尽管有少数聚集病例经历多个代际的传播, 大部分患者只经历了一至两代传播就得到了有效隔离和救治, 也就是说, 病毒从输入患者到本地患者, 再在本地患者间传播的次数, 仅能有少数几次的传播机会, 不具备SEIR模型迭代所需要的传播深度. 因此, 基于SIR模型[20]的内在传染机制难以适用于新冠肺炎病毒在国内除湖北省以外地区演化方式的建模与分析.

      本文根据安徽省卫生健康委员会公开的800余病例信息, 得到有效的病缘传播关系病例数据233份, 分析了每日新增病例数中性别比例规律以及输入病例比例的规律. 同时通过对有病缘关系的确诊时间间隔进行分析发现了其统计特征, 并根据其统计特点对安徽省确诊数据和全国除湖北省的确诊数据进行了建模. 根据疫情传播的真实情况和确诊时间间隔的统计特点, 采用自回归模型建模, 有效刻画了疫情发展中后期的演化规律, 为理解疫情传播后期的内在机制提供帮助, 为疫情防控决策提供参考.

    • 据截至2020年2月19日安徽省卫生健康委员会公布具体病例文本信息887例, 统计每日新增病例的性别、是否具有武汉接触或居住史. 并从887例病例中提取有效的源传染患者与被传染患者的关联信息233条, 进行进一步分析与建模.

    • 将每日新增确诊人数按性别分别统计, 结果如图1所示. 从图1可见女性感染人数的变化趋势滞后于男性, 初步判断男性先感染, 随后传染给家庭内共同生活的女性. 每日新增确诊人数中男性占比如图2所示. 开始阶段男性占比明显高于女性, 在传染进入后期, 比例下降至0.5左右, 与图1结论符合.

      图  1  不同性别每日新增确诊人数

      Figure 1.  Number of newly confirmed patients per day of different genders.

      图  2  每日新增确诊男性的比例

      Figure 2.  Proportion of newly confirmed males per day.

    • 区分每日新增病例中, 输入病例与本地传播比例随时间变化趋势, 如图3所示. 从图3可见, 具有武汉居住和直接接触史的输入病例变化趋势领先于本地传播趋势, 输入病例防控严格, 武汉封城后, 快速降低. 后续病例转为本地传播, 并快速有效隔离. 图4为每日新增确诊输入病例的比例, 随着时间推移而下降至趋于0.

      图  3  不同来源每日新增确诊人数

      Figure 3.  Number of newly confirmed patients per day from different sources.

      图  4  每日新增确诊输入病例的比例

      Figure 4.  Proportion of newly confirmed imported cases per day

    • 3.1节结果可发现男性先感染, 女性后感染; 3.2节内容展示了疫情由输入转为本地传播. 本节进一步从病例数据中挖掘传染过程的病缘关系, 深入刻画源传染患者与被传染患者间的统计信息. 统计结果如表1表2所列. 表1显示, 在病缘关系的性别分析中, 男性传染给女性的比例最大, 为35.62%. 表2显示, 丈夫传染给妻子占比最多, 为15.38%, 是第二类妻子传染给丈夫的1.7倍. 如此进一步确认了男性先感染, 并随后传染给女性占比最多. 从表2也能发现, 在计入表2的感染关系大于等于5例的排序中, 共有9类关系计入, 并且全都是核心家庭关系, 发生在夫妻、父母与子女、以及兄弟之间. 由此可见病毒在家庭内部的传染性之强, 在居家环境下, 几乎无法隔离.

      源传染者-被传染者人数比例
      男-女830.3562
      男-男540.2318
      女-男560.2403
      女-女400.1717

      表 1  传播过程中源传染患者与被传染患者性别统计(有效样本233例)

      Table 1.  Gender statistics of source infected patients and infected patients during virus transmission. The number of valid sample is 233.

      源传染者-被传染者人数比例
      丈夫-妻子360.1538
      妻子-丈夫210.0897
      儿子-母亲110.0470
      母亲-儿子100.0427
      儿子-父亲100.0427
      母亲-女儿70.0299
      父亲-女儿50.0214
      哥哥-弟弟50.0214
      父亲-儿子50.0214

      表 2  病毒传播过程中源传染患者与被传染患者关系统计 (有效样本233, 仅截取统计样本量大于等于5的情况, 其中比例为每个类别内的人数除以有效样本数233得到)

      Table 2.  Relationship statistics between source infected patients and infected patients during virus transmission. The number of valid sample is 233. Use only statistical sample size greater than or equal to 5. The ratio is the number of people in each category divided by valid sample number 233.

    • 在病缘关系的有效病例样本数据中, 进一步提取确诊时间差, 得确诊时间差的分布直方图如图5所示. 确诊日期相差1 d和3 d居多. 疫情转为本地传播后, 进一步的传播普遍发生在核心家庭内部. 实施严格的防控措施, 能够有效地隔离具有传染性的确诊患者, 并且通过进一步地追踪其密切接触者并及时隔离, 能够有效地抑制疫情的进一步传播扩散.

      图  5  源传染患者与被传染患者间确诊时间差的分布直方图, 图中拟合密度参考线为Γ (10.84, 1.08)分布, 并向左平移9

      Figure 5.  Distribution histogram of the time interval of diagnosis between source infected patients and infected patients. In the figure, the fitting density reference line is the distribution of Γ (10.84, 1.08) and shifts 9 to the left.

      在严格的防控机制下, 基于SIR传播模型的迭代逻辑对于国内除湖北省以外地区的传播并不成立. 感染者并不是经历多代传播才患病的, 而是从输入病例开始, 加之较长的潜伏期, 潜伏期内无症状传播, 以及病毒在无法彻底隔离的共同生活的家人间传播, 共同作用的结果. 得益于严防死守的隔离措施, 患者一经发病就能够及时隔离治疗, 并有效追踪密切接触者, 彻底切断病毒传播途径.

      对确诊时间间隔的频率直方图采用Γ分布进行拟合. 由于Γ分布的取值为正值, 故将确诊时间数据用公式$x - \min (x) + 1$进行平移, 其中$x$表示确诊时间间隔, 得到拟合密度函数为Γ (10.84, 1.08), 再平移还原回原始确诊时间间隔数据. 出现负值的确诊时间间隔, 证实了病毒在无症状的潜伏期具有传染性, 且由于患者的免疫力不同, 病毒的潜伏期不同. Γ分布的拟合与负值确诊时间间隔都与已有的研究结果一致[21].

    • 结合第2部分的数据分析结果可知, 在具有武汉居住和接触史的输入病例发病确诊并隔离后, 疫情的演化主要由继发感染者决定. 而继发感染者的传播普遍在家庭内部发生, 且继发传染被有效的隔离措施阻断. 基于图5的统计结果, 源传染者与被传染者确诊时间间隔主要集中在1—3 d. 本节对安徽省和全国除湖北省以外的每日新增确诊人数序列进行自回归迭代建模. 考虑到每日新增人数序列与其滞后1—3 d序列间的强相关关系, 采用自回归模型进行建模.

      自回归模型是处理时间序列常用方法之一, 广泛应用于经济、信息、自然现象等领域的建模与预测. 模型基本形式为

      ${X_t} = c + \sum\nolimits_{i = 1}^p {{\varphi _i}{X_{t - i}} + {\varepsilon _t}} , $

      其中$c$为常数项, ${\varepsilon _t}$为随机误差, ${\varphi _i}$$i$阶滞后的系数. 结合上文确诊时间间隔的分布特征, 取p = 3. 将对安徽省和全国除湖北省以外每日新增确诊人数分别进行自回归建模, 用来展示新冠肺炎在严格防控的情况下, 在非湖北省的传播情况.

    • 安徽省每日新增数据的自回归拟合方程如下:

      $\begin{split} & {C_{t + 1}} - {C_t} \\ =\; & 0.166{\rm{}}\left( {{C_{t - 2}} - {C_{t - 3}}} \right) + 0.599\left( {{C_{t - 1}} - {C_{t - 2}}} \right)\\ & - 0.059\left( {{C_t} - {C_{t - 1}}} \right) - 2.763,\end{split}$

      其中${C_t}$为安徽省累计确诊人数, 数据从2020年2月6日开始. 初值取2月6日至2月9日累计确诊人数, 代入(2)式迭代, 得2月10日以后的每日新增确诊人数和累计确诊人数的仿真数据. 结果分别如图6图7所示. 仿真数据与真实数据高度符合.

      图  6  安徽省每日新增确诊人数及模型仿真

      Figure 6.  Number of newly confirmed patients per day and model simulation in Anhui province.

      图  7  安徽省累计确诊人数及模型仿真

      Figure 7.  Cumulative number of confirmed cases and model simulation in Anhui province.

      将安徽省的结论推广至全国, 对全国除湖北省的确诊病例数同样进行自回归建模, 拟合方程如下式:

      $\begin{split} \;& {C_{t + 1}} - {C_t} \\ ={}& 0.575( {{C_{t - 2}} - {C_{t - 3}}} ) + 0.104 ( {{C_{t - 1}} - {C_{t - 2}}}) \\ &+ 0.222 ( {{C_t} - {C_{t - 1}}} ) - 81.8,\end{split}$

      其中${C_t}$为除湖北省以外的全国累计确诊人数, 数据从2020年2月2日开始. 初值取2月2日至2月5日累计确诊人数, 代入(3)式迭代, 得2月6日以后的每日新增确诊人数和累计确诊人数的仿真数据. 结果分别如图8图9所示. 仿真数据与真实数据高度符合.

      图  8  每日新增确诊人数(除湖北省)及模型仿真

      Figure 8.  Number of newly confirmed patients per day (except in Hubei province) and model simulation.

      图  9  累计确诊人数(除湖北省)及模型仿真

      Figure 9.  Cumulative number of confirmed cases (excluding Hubei province) and model simulation.

    • 本文对从安徽省800余确诊病例数据中提取的新型冠状病毒传播的统计特征和有向传播关系进行分析发现, 源传染患者中男性居多, 被传染患者中女性居多, 发生最多的为丈夫传给妻子. 疫情的发展从早期的具有武汉居住或接触史的输入病例转入本地传播为主的小范围传播. 传染过程中, 源传染患者与被传染患者间的确诊时间差的中位数为2 d. 鉴于SIR模型的迭代机制的不适用性, 本文基于有向传播关系的统计特点和新冠肺炎防控的实际情况, 构建了安徽省和全国除湖北地区在疫情发展后期的自回归模型, 模型仿真结果与疫情发展数据能很好地符合. 通过病例数据中的发现, 建立符合实际情况的自回归模型, 能够为新冠肺炎疫情的传播机制提供参考. 同时为疫情的总体防控决策提供参考. 新冠肺炎疫情传染性强, 且潜伏期的无症状状态也具有传染性, 使得其防控形势困难重重. 中国的经验表明, 严格的防控措施是有效抑制新冠肺炎疫情扩散最重要的手段.

参考文献 (21)

目录

    /

    返回文章
    返回