新冠疫情预测模型--逻辑斯蒂回归拟合、SEIR模型

3周前 (11-12 21:29)阅读1回复0
海上森林一只猫
海上森林一只猫
  • 管理员
  • 注册排名5
  • 经验值86710
  • 级别管理员
  • 主题17342
  • 回复0
楼主

向AI转型的法式员都存眷了那个号👇👇👇

通过构建统计学模子、数学模子,或者操纵机器进修、深度进修办法拟合疫情开展趋向,操纵汗青数据对将来确实诊病例等疫情形势停止预测,好比说,逻辑斯蒂生长曲线拟合数据,预测将来几天可能的开展趋向;或者操纵时间序列模子构建预测模子;也可用LSTM构建预测模子,一种特殊的RNN收集。以上办法,除生长曲线外,其他模子,需要大量数据做训练,就目前情况看,数据量其实不大,即便构建出模子,参考价值其实不大,并没有与营业做交融,只是以数据理解数据。

  别的一个建模思绪,能够从传统疾病传布模子(SIS、SIR、SEIR等),成立流行症模子,连系此次冠状病毒的传布特征,操纵现有的样本数估量出一个大要的参数,成立恰当的流行症数学模子,能较为精准的预估疫情的开展趋向,当然那是一个较为复杂且专业的问题。近日,由钟南山院士团队研究构建的「具有饱和发病率(其解释,任何流行症都具有饱和发病率,即不成能完全被覆灭) SIQS 流行症模子」固然被国外权势巨子期刊退回,但研究功效仍是契合国内疫情开展趋向。

  据有关学者介绍,SIQS流行症模子现实上是在传统SEIR模子根底上,加上两个干涉因素,即国度的强力干涉和春节后的回程顶峰,别的,2020年2月28日,钟南山院士团队颁发了一篇名为《公共卫生干涉下COVID-19流行趋向的 SEIR和AI预测批改》,将2020年1月23日前后的生齿迁徙数据及最新的新冠肺炎流行病学数据整合到SEIR模子中生成流行曲线,同时,团队还操纵人工智能手艺,以2003年SARS数据为根底停止训练,从而更好地预测新冠疫情。研究团队还利用长短期记忆模子,预测新增传染数随时间的变革。关于根本训练数据集的处置,研究团队操纵 2003年4-6 月SARS的病例统计,纳入COVID-19流行病学参数。从钟南山院士团队的研究功效来看,假设是一收纯手艺团队,是无法做出解释性强、可信度高的预测模子,所以说数据建模不单单依靠的是手艺东西,更多的是营业理论布景,模子不该该是冰凉的手艺实现,更应该是有温度、有内涵的营业与手艺的交融。

  因本人不具备流行症、医疗专业范畴相关常识,从非专业角度,测验考试操纵Logistic生长曲线模仿泰安地域累计确诊病例数量,并试着简单论述传统疾病传布模子-SEIR。

  (一)Logistic生长曲线

逻辑斯蒂曲线是由比利时数据学家初次发现的特殊曲线,后来,生物学家皮尔(R.Pearl)和L·J·Reed按照那一理论研究生齿增长规则,因而,逻辑斯蒂生长曲线也被称为生长曲线或者珍珠德曲线。逻辑斯蒂生长曲线一般形式如下:

Yt=L1+ae-bt

L,a,b均为未知参数,需要按照汗青数据停止估量。生长曲线在现代贸易、消费行业、生物科学等方面有着十分普遍的应用。

我们操纵生长曲线模子,拟合上海2022年3月1日到4月30日累计确诊病例数据,成立生长曲线模子。数据拟合如下图所示,蓝色部门显示确实诊病例不雅测值,橙色部门显示的是确诊病例预测值,并计算出3天确实诊预测病例数据(5月7日,5月8日,5月9日)。

截行本论文完成时间(5月9号),新冠确诊的现实人数是55599、55921、56155(别离为5月7日、5月8日、5月9日的数据),而按照此模子预测那三天确实诊人数别离为55926、56179、56387,可见预测值与现实值根本一致。

逻辑斯蒂拟合的代码

从上图预测值生成的曲线来看,生长曲线模子整体呈现“S”型,根据相关参考文献申明,生长曲线能够分为初期、中期和末期三个阶段:

在初期,固然 t处于增长阶段,但是 y 的增长较为迟缓,那时曲线呈现较为平缓的上升;

在中期,跟着t的增长,y 的增长速度逐步增快,曲线呈现快速上升的态势;当到达拐点(t,Y)后,因函数饱和水平的增长到达末期,跟着t的增长 y 的增长较为迟缓,增长速度趋近于0,曲线呈程度状开展。

  在领会模子特点后,假设外部因素干涉事务开展,就会招致数据的突然增加或削减,会影响模子的预测精度。因而,logistic增长模子只是对疾病停止预估,其实不能准确判断,也并非更佳模子。当然能够通过模子优化,来进步预测精度,有的文献提出能够按照华罗庚提出的0.618选优法,对得到的模子停止优化(计算该模子能否能得到预测值和丈量值最小残差平方和)。那里我们就不再展开,能够后期停止切磋进修。

(二)疾病传布模子-SEIR

  查阅相关文献后,发现常见的流行症模子根据流行症类型分为SI、SIR、SIRS、SEIR 模子等,用于研究流行症的传布速度、空间范畴、传布路子等问题,用来指点对流行症的预防和控造。模子中涉及S、E、I、R、r、β、γ、α参数:

  S类:暗示易感者 (Susceptible),指未抱病者,但缺乏免疫才能,与传染者接触后容易遭到传染;E类:暗示表露者 (Exposed),指接触过传染者,但暂无才能传染给其别人的人,对暗藏期长的流行症适用;I类:暗示感病者 (Infectious),指染上流行症的人,能够传布给 S 类成员,将其变成 E 类或 I 类成员;R类:暗示康复者 (Recovered),指被隔离或因康复而具有免疫力的人。如免疫期有限,R类成员能够从头变成 S 类。

  r:传染患者(I)每天接触的易感者数目;β:传染系数,由疾病自己的传布才能,人群的防控才能决定;γ:恢复系数,一般为病程的倒数,例如流感的病程5天的话,那么它的γ就是1/5;α:暗藏者的发病概率,一般为暗藏期的倒数。

我们那里不再操纵收罗到的数据,模仿疫情开展形式,一方面原因是我们其实不能较好的估量模子中涉及到各个参数, 需要考虑的的参数较多,另一方面数据其实不能支持其模子推导,出格是疫情的政府干涉因素、社会舆情因素,对疫情开展趋向城市产生必然的影响,应将相关的因素考虑进去,所以那个问题相对来说是比力复杂的过程,我们那里不再停止过多切磋。各人有兴趣的能够去查找相关文献质料,停止深切研究进修。

SEIR模子代码

一个在线的SEIR模子可视化平台

基于GNN的新冠肺炎疫情开展预测

机器进修算法AI大数据手艺

搜刮公家号添加: datanlp

阅读过本文的人还看了以下文章:

TensorFlow 2.0深度进修案例实战

基于40万表格数据集TableBank,用MaskRCNN做表格检测

《基于深度进修的天然语言处置》中/英PDF

Deep Learning 中文版初版-周志华团队

【全套视频课】最全的目的检测算法系列讲解,通俗易懂!

《美团机器进修理论》_美团算法团队.pdf

《深度进修入门:基于Python的理论与实现》高清中文PDF+源码

《深度进修:基于Keras的Python理论》PDF和代码

特征提取与图像处置(第二版).pdf

python就业班进修视频,从入门到实战项目

2019最新《PyTorch天然语言处置》英、中文版PDF+源码

《21个项目玩转深度进修:基于TensorFlow的理论详解》完好版PDF+附书代码

《深度进修之pytorch》pdf+附书源码

PyTorch深度进修快速实战入门《pytorch-handbook》

【下载】豆瓣评分8.1,《机器进修实战:基于Scikit-Learn和TensorFlow》

《Python数据阐发与发掘实战》PDF+完好源码

汽车行业完好常识图谱项目实战视频(全23课)

李沐大神开源《脱手学深度进修》,加州伯克利深度进修(2019春)教材

条记、代码明晰易懂!李航《统计进修办法》最新资本全套!

《神经收集与深度进修》最新2018版中英PDF+源码

将机器进修模子摆设为REST API

yolo3 检测出图像中的不规则汉字

同样是机器进修算法工程师,你的面试为什么过不了?

前海征信大数据算法:风险概率预测

【Keras】完好实现‘交通标记’分类、‘票据’分类两个项目,让你掌握深度进修图像分类

特征工程(一)

特征工程(二) :文本数据的展开、过滤和分块

特征工程(三):特征缩放,从词袋到 TF-IDF

特征工程(四): 类别特征

特征工程(五): PCA 降维

特征工程(六): 非线性特征提取和模子堆叠

特征工程(七):图像特征提取和深度进修

若何操纵全新的决策树集成级联合构gcForest做特征工程并打分?

Machine Learning Yearning 中文翻译稿

蚂蚁金服2018秋招-算法工程师(共四面)通过

全球AI挑战-场景分类的角逐源码(多模子交融)

斯坦福CS230官方指南:CNN、RNN及利用技巧速查(打印保藏)

中科院Kaggle全球文本婚配竞赛华人第1名团队-深度进修与特征工程

不竭更新资本

深度进修、机器进修、数据阐发、python

搜刮公家号添加: datayx

0
回帖

新冠疫情预测模型--逻辑斯蒂回归拟合、SEIR模型 期待您的回复!

取消
载入表情清单……
载入颜色清单……
插入网络图片

取消确定

图片上传中
编辑器信息
提示信息