Сегодня: 22.01.2025
RU / EN
Последнее обновление: 27.12.2024

Регрессионные модели прогнозирования количества летальных исходов при новой коронавирусной инфекции

Д.В. Мелик-Гусейнов, Н.Н. Карякин, А.С. Благонравова, В.И. Климко, А.П. Баврина, О.В. Другова, Н.В. Саперкин, О.В. Ковалишена

Ключевые слова: коронавирусная инфекция; COVID-19; SARS-CoV-2; прогнозирование исхода инфекции; многомерная регрессионная модель; прогнозирование летальности инфекции.

Прогнозирование развития эпидемического процесса новой коронавирусной инфекции COVID-19 на международном и государственном уровнях в настоящее время крайне востребовано для определения нужд практического здравоохранения и проведения эффективных противоэпидемических и профилактических мероприятий. С учетом быстро меняющейся исходной информации и неоднозначного качества данных, получаемых из различных источников, необходимо оперативно оптимизировать применяемые прогностические модели, в том числе с использованием более сложных алгоритмов.

Цель исследования — оценить возможности прогнозирования тенденций эпидемического процесса с помощью разработанных оригинальных математических алгоритмов.

Материалы и методы. Для оценки ситуации в Китае, Италии и США использована первичная информация из открытых русско- и англоязычных источников, доступ к которым осуществляли с официальных сайтов. Применяли общепринятые описательные статистики, математическое моделирование было основано на линейной регрессии. Статистическую обработку данных выполняли с помощью программ IBM SPSS Statistics 24.0 и R (RStudio) 3.6.0.

Результаты. Установлены существенные эпидемиологические различия не только по формированию заболеваемости COVID-19 в рассматриваемых странах, но и по скорости появления летальных исходов. Особое внимание к риску возникновения смертей, ассоциированных с COVID-19, обусловлено существенным удельным весом тяжелых форм инфекции, появление которых фиксировалось во всех анализируемых странах.

Построено две предварительные регрессионные модели. Первая, исходная, модель базировалась на приросте новых случаев инфекции — данный фактор оказался статистически значимо связанным с исходом; регрессионный коэффициент составил 0,02 (95% ДИ 0,01–0,03). Во второй, расширенной, модели кроме прироста новых случаев также учитывали прирост числа тяжелых форм инфекции; регрессионные коэффициенты составили 0,017 (95% ДИ 0,012–0,022) и 0,01 (95% ДИ 0,008–0,011) соответственно. Добавление дополнительной переменной способствовало более полному описанию моделью имеющихся данных.

Заключение. Разработанные регрессионные модели для контроля инфекции и прогнозирования числа летальных исходов можно вполне успешно использовать в условиях распространения заболеваний из группы «новых инфекций», когда происходят быстрая смена первичных данных, получаемых из разных источников, а также уточнение этой информации. При этом исходная модель может служить для ориентировочной оценки ситуации, а расширенная — для повышения точности прогнозирования и совершенствования алгоритма анализа.


Введение

Коронавирусная инфекция, получившая название COVID-19, заняла особое место в группе «новых инфекций» и вызвала огромный интерес не только среди медицинского сообщества, но и в обществе, а также со стороны средств массовой информации. Заболевание это уже оказывает существенное влияние на социально-экономическое положение стран и ложится дополнительным бременем на их системы здравоохранения. Региональная эпидемическая ситуация, ограниченная юго-восточным Китаем, достаточно быстро вышла за пределы азиатского региона [1–3]. Интенсивный эпидемический процесс COVID-19 и существенная летальность в других государствах (Западная Европа, США, страны Персидского залива) в совокупности с продолжающимися заболеваниями в Китае дали повод ВОЗ определить данную патологию как чрезвычайную ситуацию в сфере общественного здоровья международного значения (30 января 2020 г.), а с 11 марта 2020 г. — говорить об этой инфекции в статусе пандемии [4].

Быстрое распространение COVID-19 на разных материках, в странах с разным уровнем дохода, в разных условиях (медицинские работники, пассажирские корабли), среди разных социальных и возрастных групп требует обеспечения готовности систем здравоохранения к адекватному ответу на данную угрозу [5, 6]. Эту задачу невозможно решить без разработки новых оптимальных методов прогнозирования дальнейшего развития ситуации, а также оценки факторов риска инфицирования, тяжести течения и летального исхода. Кроме того, достоверные научные факты в отношении этой инфекции позволяют снижать уровень социальной напряженности, бороться с дезинформацией и информационными «вбросами» в СМИ и Интернете, не допускать паники среди населения.

Проникновение вируса SARS-CoV-2, который и вызывает COVID-19, на территорию России 31 января 2020 г. [5] было связано с заносом инфекции двумя гражданами Китая в Забайкалье и Тюменскую область (оба случая закончились выздоровлением). Кроме того, задокументировано несколько случаев заражения российских туристов, находившихся на круизном лайнере Diamond Princess. Постепенно стали регистрировать факты наличия COVID-19 у граждан России, возвратившихся из поездок в неблагополучные по коронавирусной инфекции страны, а также единичные первичные и вторичные случаи передачи инфекции [7].

В наши задачи входила разработка на основе современных математических алгоритмов оригинальных моделей, использование которых позволяет прогнозировать тенденции развития инфекции и количество летальных исходов.

Материалы и методы

Исследование носит ретроспективный популяционный характер. Необходимую первичную информацию извлекали из ежедневных отчетов ВОЗ об эпидемиологической ситуации, ежедневных отчетов Национальной комиссии по здравоохранению КНР, отчетов Минздрава России, а также из материалов, публикуемых Европейским центром по контролю и предупреждению заболеваний (ECDC) и Центром по контролю и предупреждению болезней США (CDC). Использованы данные из открытых источников, доступ к которым осуществляли через официальные сайты в Интернете. Регулярно просматривались релевантные выпуски новостных служб и пресс-релизы. В Российской Федерации в настоящий момент данные по лицам с подтвержденным диагнозом COVID-19, по госпитализированным пациентам с признаками пневмонии, а также по людям, с ними контактировавшим, в целях предотвращения распространения коронавирусной инфекции заносятся медицинскими организациями в «Информационную систему учета информации», интегрированную в Единую государственную информационную систему в сфере здравоохранения (ЕГИСЗ) [8]. Собираемая информация охватывает данные о первичных и кумулятивных случаях COVID-19, приросте и кумулятивном числе летальных исходов, а также о приросте количества тяжелых форм инфекции среди заболевших.

Статистическую обработку данных проводили с помощью лицензионных программ IBM SPSS Statistics 24.0, R (RStudio) 3.6.0. Проверку нормальности распределения осуществляли с помощью критерия Колмогорова–Смирнова. Для поиска различий между группами использовали непараметрический критерий Манна–Уитни, силу связи оценивали с помощью коэффициента корреляции Спирмена, характер связи — с помощью простой и множественной линейной регрессии. Сравнение моделей проводили по информационному критерию Акаике (AIC). Результаты представлены в виде Ме [МКИ], где Ме — медиана, МКИ — межквартильный интервал (Q1–Q3), и в виде абсолютных значений в арифметической и логарифмической шкалах. Различия считали статистически значимыми при р≤0,05. Тот же уровень значимости принимали для корреляции. При необходимости рассчитывали 95% доверительный интервал (ДИ).

Результаты и обсуждение

По состоянию на 1 апреля 2020 г. в мире от COVID-19 пострадало 823 626 человек [9]. В России количество лабораторно подтвержденных случаев заболевания составило 3548 (с наибольшим числом выявленных в Москве — 2475), из них 235 человек выздоровело, в 30 случаях наступил летальный исход. Всего проведено 536 669 тестов [10]. Сравнение кумулятивных случаев COVID-19 (в период с середины января до конца марта 2020 г.) в Китае, Италии и США показало существенные эпидемиологические различия в формировании заболеваемости. Так, значительно отличалась по странам скорость накопления инфицированных новой коронавирусной инфекцией (рис. 1). В Китае наблюдалось медленное нарастание случаев COVID-19, которое вышло на плато через 42 дня после обнаружения первого случая, для Италии была характерна существенно бóльшая интенсивность выявления случаев заболевания. В США зафиксирован особенно быстрый рост абсолютного числа заболеваний (в частности, с 26 марта 2020 г.). На момент проведения исследования в последних двух странах плато не было сформировано и происходило дальнейшее нарастание случаев коронавирусной инфекции.


bavrina-ris-1.jpg Рис. 1. Кумулятивная заболеваемость COVID-19 в разных странах (в абсолютных числах) с января по март 2020 г.

Летальность, как известно, является важным, однозначно оцениваемым исходом заболевания, который часто применяется в эпидемиологических исследованиях. Анализ случаев летальных исходов, ассоциированных с SARS-CoV-2, также позволил выявить кумулятивные особенности, характерные для развития эпидемии в каждой стране (рис. 2).


bavrina-ris-2.jpg Рис. 2. Кумулятивная летальность, ассоциированная с SARS-CoV-2, в разных странах (в абсолютных числах) с января по март 2020 г.

Единичные летальные исходы в Китае стали выявляться с 20 января, но в течение 1–1,5 нед количество смертей показало тенденцию к экспоненциальному росту. Увеличение количества летальных исходов в Китае происходило практически в течение одного месяца (февраль), что, по всей вероятности, связано с несвоевременной диагностикой, поздним обращением за медицинской помощью и значительной долей тяжелых форм. Хотя с начала марта число ассоциированных с COVID-19 смертей удерживалось на высокой отметке (около 3 тыс.), последующего роста в динамике не отмечалось.

Существенные различия имела динамика выявления летальных исходов на территории Италии: за короткий промежуток времени число смертей превысило 1,5 тыс. и в дальнейшем имело выраженную тенденцию к росту, достигнув 11 591 случая.

В США для эпидемического процесса COVID-19 было характерно медленное нарастание случаев инфицирования, сочетающееся с достаточно медленным приростом числа летальных исходов, которое составило 2398 случаев.

Изучение инцидентных случаев коронавирусной инфекции в этом периоде позволило установить следующие закономерности распределения случаев заражения COVID-19 и новых (вновь выявленных) летальных исходов (табл. 1, рис. 3).


bavrina-tablitsa-1.jpg Таблица 1. Описательные статистики для вновь выявленных случаев COVID-19

bavrina-ris-3.jpg Рис. 3. Характеристика распределения новых летальных исходов в рассматриваемых странах

Распределение количества новых случаев заражения выявило наличие статистически значимых различий между всеми анализируемыми странами (р≤0,0001). В то же время при изучении новых летальных исходов установлены статистически значимые различия только между Италией и остальными анализируемыми странами (р≤0,001), ситуация в США и Китае статистически значимо не отличалась по этому показателю (р=0,09).

Кроме выявления статистически значимых различий в появлении новых летальных исходов между исследованными странами большой интерес представляет факт существования по данному признаку сильной положительной корреляции (рис. 4). Так, коэффициент корреляции в парах стран варьировал между 0,89 и 0,95 при р≤0,001.


bavrina-ris-4.jpg

Рис. 4. Диаграммы рассеивания, характеризующие сильную положительную связь между новыми летальными случаями:

а — в Китае и Италии (ρ=0,81; 95% ДИ 0,55–0,94; логарифмическая шкала); б — в Китае и США (ρ=0,82; 95% ДИ 0,78–0,98; логарифмическая шкала); в — в Италии и США (ρ=0,96; 95% ДИ 0,86–0,98; логарифмическая шкала); ρ — величина коэффициента корреляции Спирмена

Полученные положительные корреляции дают возможность говорить об однонаправленности появления новых летальных исходов во всех исследованных странах вне зависимости от различий по интенсивности эпидемического процесса. Данная особенность позволила провести регрессионный анализ на основе данных Китая с целью разработки модели, которую можно аппроксимировать на страны, не достигшие пика эпидемии. С помощью полученного регрессионного уравнения можно спрогнозировать количество новых летальных исходов в странах, в которых распространение инфекции на данный момент не имеет максимума, в том числе в России.

На начальном этапе регрессионного анализа была разработана первая, исходная, модель 1 (вариант 1), для которой были определены следующие константы регрессии — β0 и β1 (табл. 2). Данная модель имела критерий AIC, равный 709,6.


bavrina-tablitsa-2.jpg

Таблица 2. Результаты линейного регрессионного анализа (модель 1, вариант 1)


Общий вид уравнения линейной регрессии для этой модели таков:

Y=X·β10.

В нашем исследовании в качестве зависимой переменной Y выступило количество новых летальных исходов, в качестве независимой переменной X — количество новых случаев COVID-19. Таким образом, полученная модель 1 (вариант 1) на основе этого уравнения имеет следующий вид:

Y=X·0,02+31,02.

Важным здесь является факт, что полученная регрессионная модель характеризуется коэффициентом детерминации R=0,5, что говорит о корректном описании моделью исходных данных.

Следующим этапом регрессионного анализа было построение прогностической модели, в которой переменные прошли логарифмическое преобразование (модель 1, вариант 2), что позволяет с большей уверенностью говорить о выполнении условия линейности ассоциаций. В этом случае данные для построения модели будут иметь следующий вид (табл. 3).


bavrina-tablitsa-3.jpg

Таблица 3. Результаты линейного регрессионного анализа (модель 1, вариант 2)


В описываемом случае общий вид уравнения линейной регрессии для модели 1 (вариант 2) примет такой вид:

ln(Y)=ln(X)·β10.

После подстановки коэффициентов имеем:

ln(Y)=ln(X)·0,44+0,86.

После процедуры преобразования переменных методом логарифмирования коэффициент детерминации R регрессионной модели 1 (вариант 2) увеличился до 0,7, что свидетельствует об улучшении ее предсказательной способности.

При выполнении анализа была проведена проверка наличия линейной ассоциации между независимой и зависимой переменными. Факт выполнения этого условия подтверждается соответствующими графиками о распределении нестандартизованных остатков (рис. 5).


bavrina-ris-5.jpg Рис. 5. График квартилей QQ-plot для регрессионных остатков и распределение прогнозируемых значений в зависимости от остатков (для модели 1, вариант 2)

Отражено равномерное распределение числовых данных, при котором дисперсия остатков существенно не меняется с увеличением предсказываемой величины, а значит, условие линейности ассоциаций для регрессионной модели выполняется.

Проверка полученных моделей показала, что расчет новых летальных исходов с высокой точностью становится возможен, когда начинает наблюдаться устойчивое появление новых случаев COVID-19 — свыше 50 ежедневно в течение 14 дней. Например, при выявлении 894 заболевших коронавирусной инфекцией можно ожидать 49 новых летальных исходов, которые могли быть связаны с инфицированием SARS-CoV-2 (при этом допустим временной сдвиг выявления интересуемого исхода на 3–6 дней). В ситуации, когда Х становится равен нулю, можно говорить о спаде интенсивности распространения инфекции, а также о выходе кумулятивной смертности на плато. Число новых случаев летальных исходов в течение некоторого времени сохранится на уровне, равном β0 (31 летальный исход), а затем постепенно приблизится к нулю.

После поступления информации о росте ежедневного абсолютного числа тяжелых форм COVID-19, зарегистрированных в Китае, было решено расширить модель путем добавления этого дополнительного фактора, что явилось следующим этапом исследования. Доля тяжелых форм течения патологического процесса считается важным фактором риска развития летального исхода, и в текущей эпидемиологической ситуации служба здравоохранении Китая проводила первичный учет таких случаев, хотя качество данных может служить предметом дискуссии.

Множественная регрессионная модель (модель 2) строилась на основании данных табл. 4. Эта модель имела критерий AIC, равный 625,78.


bavrina-tablitsa-4.jpg Таблица 4. Результаты множественного регрессионного анализа (модель 2)

Общий вид уравнения множественной линейной регрессии (модель 2) будет следующим:

Y0+X1·β1 +X2·β2,

где X1 — количество инфицированных; X2 — количество тяжелых случаев; Y — количество новых летальных исходов.

После подстановки данных модель 2 примет следующий вид: Y=X1·0,017+X2·0,01–13,31.

После модернизации модели 2 коэффициент детерминации R увеличился до 0,8, что говорит о еще большем повышении ее точности.

Например, на пике эпидемии в Китае по состоянию на 4.02.2020 г. наблюдалось 64 летальных исхода и на 5.02.2020 г. — 66 летальных исходов. Подставляя результаты в разработанную модель, получаем:

Y=3235 инфицированных×0,017+2788 тяжелых случаев×0,01–13,31=69 летальных исходов. Полученный результат практически соответствует реальным значениям смертности в интервале 4.02–5.02.2020 г.

Кроме улучшения предсказательной способности важным достоинством расширенной модели 2 является отсутствие временнόго сдвига выявления интересуемого исхода, что можно будет учитывать при дальнейшем развитии моделей.

Заключение

Разработанные регрессионные модели для контроля инфекции и прогнозирования числа летальных исходов можно вполне успешно использовать и в России в условиях распространения заболеваний из группы «новых инфекций», когда происходят быстрая смена первичных данных, получаемых из разных источников, а также уточнение этой информации. При этом исходная модель может служить для ориентировочной оценки ситуации, а расширенная — для повышения точности прогнозирования и совершенствования алгоритма анализа.

Финансирование исследования и конфликт интересов. Исследование не финансировалось каким-либо источником, и конфликты интересов, связанные с данным исследованием, отсутствуют.


Литература

  1. Huang C., Wang Y., Li X., Ren L., Zhao J., Hu Y., Zhang L., Fan G., Xu J., Gu X., Cheng Z., Yu T., Xia J., Wei Y., Wu W., Xie X., Yin W., Li H., Liu M., Xiao Y., Gao H., Guo L., Xie J., Wang G., Jiang R., Gao Z., Jin Q., Wang J., Cao B. Clinical features of patients infected with 2019 novel coronavirus in Wuhan, China. Lancet 2020; 395(10223): 497–506, https://doi.org/10.1016/s0140-6736(20)30183-5.
  2. Verity R., Okell L.C., Dorigatti I., Winskill P., Whittaker C., Imai N., Cuomo-Dannenburg G., Thompson H., Walker P.G.T., Fu H., Dighe A., Griffin J.T., Baguelin M., Bhatia S., Boonyasiri A., Cori A., Cucunubá Z., FitzJohn R., Gaythorpe K., Green W., Hamlet A., Hinsley W., Laydon D., Nedjati-Gilani G., Riley S., van Elsland S., Volz E., Wang H., Wang Y., Xi X., Donnelly C.A., Ghani A.C., Ferguson N.M. Estimates of the severity of coronavirus disease 2019: a model-based analysis. Lancet Infect Dis 2020, https://doi.org/10.1016/s1473-3099(20)30243-7.
  3. Wu J.T., Leung K., Bushman M., Kishore N., Niehus R., de Salazar P.M., Cowling B.J., Lipsitch M., Leung G.M. Estimating clinical severity of COVID-19 from the transmission dynamics in Wuhan, China. Nat Med 2020, https://doi.org/10.1038/s41591-020-0822-7.
  4. World Health Organization. Coronavirus disease (COVID-19) outbreak situation. URL: https://www.who.int/emergencies/diseases/novel-coronavirus-2019.
  5. Распоряжение Правительства Российской Феде­рации от 30 января 2020 г. №140-р «О временном ограничении движения через пункты пропуска на отдельных участках государственной границы Российской Федерации с Китайской Народной Республикой».
  6. Постановление Главного государственного сани­тарного врача Российской Федерации от 30 марта 2020 г. №9 «О дополнительных мерах по недопущению распространения COVID-19».
  7. Министерство здравоохранения Российской Феде­рации. Профилактика, диагностика и лечение новой коронавирусной инфекции (COVID-19). Временные методические рекомендации. Версия 4 (27.03.2020). URL: https://static-3.rosminzdrav.ru/system/attachments/attaches/ 000/049/881/original/COVID19_recomend_v4.pdf.
  8. Министерство здравоохранения Российской Феде­рации. URL: https://www.rosminzdrav.ru/.
  9. World Health Organization. Coronavirus disease 2019 (COVID-19). Situation report — 72. URL: https://www.who.int/docs/default-source/ coronaviruse/situation-reports/20200401-sitrep-72- covid-19.pdf?sfvrsn=3dd8971b_2.
  10. Министерство здравоохранения Российской Федерации. Информационный ресурс о COVID-19. URL: https://covid19.rosminzdrav.ru/.


Журнал базах данных

pubmed_logo.jpg

web_of_science.jpg

scopus.jpg

crossref.jpg

ebsco.jpg

embase.jpg

ulrich.jpg

cyberleninka.jpg

e-library.jpg

lan.jpg

ajd.jpg

SCImago Journal & Country Rank