in Ingeniare
Análisis de curvas de Covid-19 en Colombia utilizando ajuste por mínimos cuadrados
RESUMEN
Este artículo presenta un análisis de curvas de Covid-19 en Colombia utilizando ajuste por mínimos cuadrados. Tomados los datos de contagios, recuperados y fallecidos de Covid-19 en Colombia, entre marzo y abril, se realizó un modelamiento. Mediante la suma de los datos de mayo, junio y julio se llevó a cabo un segundo modelamiento. También se realizaron predicciones que fueron comparadas con los datos reales de la pandemia a fin de validar el pronóstico. Finalmente, se realizó un tercer modelamiento sumando los datos del mes de agosto y se realizaron predicciones para septiembre. Los coeficientes de determinación de los primeros dos modelamientos estuvieron en un rango entre 0,7124 y 0,9985, y en el tercer modelamiento entre 0,9524 y 0,9955. Finalmente, se concluye que el Covid-19 en Colombia ha seguido los pronósticos establecidos por los modelos más acertados de este estudio con errores inferiores al 7 %; de seguir así, se espera una mitigación de la pandemia para inicios de septiembre, pero un aumento de contagios para finales del mismo mes. Se recomienda guardar los protocolos de bioseguridad establecidos por el Gobierno y reforzar las medidas de prevención en caso de presenciar el inicio de este aumento a mediados de septiembre.
Main Text
1. Introduction
Desde el momento en el que la Organización Mundial de la Salud declaró la pandemia generada por el Covid-19 como una emergencia de salud pública de carácter internacional [1], diversos investigadores [2], [3], [4] y [5] enfocaron su atención en el análisis de la pandemia desde un punto de vista matemático y estadístico. La estadística ha sido muy importante en la historia de la humanidad. Así, por ejemplo, científicos como Rudolf Clausius, James Clerk Maxwell y, de manera muy especial, Ludwig Boltzmann, realizaron sus aportes en el siglo XIX [6]. Estos aportes, junto con los de otros científicos, han sido la base teórica para llevar a cabo diversas investigaciones, como las hechas por Flórez y Laguado [7] en dinámica de fluidos computacional, la de Plaza [8] en el modelado de fenómenos físicos y naturales, o la de Vera, Delgado y Sepúlveda [9] en el modelado matemático de un panel solar.
Utilizar ajuste de curvas por mínimos cuadrados es un método de modelado no lineal [10]. Desarrollar este método de manera computacional es acertado, ya que las herramientas tecnológicas han sido fundamentales en el avance de la ciencia en diferentes áreas del conocimiento tales como la electrónica [11], la visión artificial [12], la termodinámica [13] o, incluso, en contextos educativos [14], [15] y [16]. Lo anterior si se tiene en cuenta que estas permiten en poco tiempo efectuar comparaciones que llevan a la correcta elección de un modelo adecuado que describa los datos, así como nos proporciona elementos de juicio suficientes para la toma de decisiones en condiciones de incertidumbre [17].
2. revisión de la literatura
Se consultaron fuentes sobre estadística [18], [19] y métodos numéricos [10] con el propósito de establecer los modelos adecuados para describir las curvas de la pandemia (contagios, recuperados y fallecidos por día) y realizar un pronóstico utilizando ajuste de curvas, ya que este método ha demostrado ser relevante en el estudio de la pandemia [3].
2.1 Modelo matemático
Un modelo matemático es una expresión que describe las características esenciales de un sistema físico o de un proceso. Por lo general, se representa mediante una función de la forma: variable dependiente = f (variables independientes, parámetros, funciones de fuerza).
Los modelos utilizados en la investigación se observan en la Tabla 1.Estos describen el comportamiento de la pandemia teniendo en cuenta que en otros países donde se presentaron los efectos del Covid primero que en Colombia esta ha demostrado ser una curva ascendente en el comienzo con un comportamiento exponencial y, al presentar un pico, desciende de la misma forma [4].
2.2 Ajuste de curvas
El modelamiento matemático consiste en tomar una serie de datos de un sistema, fenómeno físico o proceso y ajustar una curva (exponencial, gaussiana, logarítmica, etc.) que describa dicho comportamiento de manera aproximada. Es común que los datos se den como valores discretos a lo largo de un continuo. Sin embargo, quizá se requiera la estimación de un punto entre valores discretos. Una manera de hacerlo es calcular valores de la función en un número discreto de valores en el intervalo de interés. Después, se obtiene una función más simple para ajustar dichos valores. Estas dos aplicaciones se conocen como ajuste de curvas.
Existen dos métodos generales para el ajuste de curvas que se distinguen entre sí al considerar la cantidad de error asociado con los datos. Primero, si los datos exhiben un grado significativo de error o “ruido”, la estrategia será obtener una sola curva que represente la tendencia general de los datos. Dado que cualquier dato individual puede ser incorrecto, no se busca intersecar todos los puntos. En lugar de esto, se construye una curva que siga la tendencia de los puntos tomados como un grupo. Un procedimiento de este tipo se denomina “regresión por mínimos cuadrados”.
En la Figura 1 se pueden observar tres diferentes ajustes de curva a 10 puntos.
2.3 Coeficiente de determinación
Se conoce como coeficiente de determinación r cuadrado (r 2 ). Es una proporción que evidencia la exactitud del ajuste de un modelo a la variable que pretende explicar. Varía entre 0 y 1. Cuanto más cerca de 1 se sitúe su valor, mayor será el ajuste del modelo y cuanto más cerca de cero menos ajustado estará el modelo y menos acertado será.
El r cuadrado ajustado (o coeficiente de determinación ajustado) se utiliza para evidenciar el nivel de efectividad que tienen las variables independientes al explicar la variable dependiente. Este coeficiente nos dice qué porcentaje de variación de la variable dependiente es explicado colectivamente por todas las variables independientes.
Se usa porque al añadir variables a una regresión el coeficiente de determinación sin ajustar tiende a aumentar, aunque la contribución de cada una de las nuevas variables añadidas no tenga relevancia estadística y se puede sobreestimar el modelo [20].
3. Metodología
En la Figura 2 se puede observar la metodología descriptiva y aplicada utilizada en la investigación.
Los datos fueron tomados del sitio web oficial del Instituto Nacional de Salud [21], con los cuales se realizaron tres modelamientos.
3.1 Modelos marzo-abril
Se realizaron cuatro modelos de contagios, cuatro modelos de recuperados y cuatro modelos de fallecidos de los meses de marzo y abril. Asimismo, se ajustaron curvas de pronóstico para predecir el comportamiento del Covid-19 en mayo y se compararon los resultados con el comportamiento real de la pandemia.
3.2 Modelos marzo-julio
Se realizaron cuatro modelos de contagios, cuatro modelos de recuperados y cuatro modelos de fallecidos de los meses de marzo a julio y se ajustaron curvas de pronóstico para predecir el comportamiento del Covid-19 en agosto, así como se compararon los resultados con el comportamiento real de la pandemia.
3.3 Modelos marzo-agosto
Finalmente, se realizaron dos modelos gaussianos con los datos de marzo a agosto teniendo en cuenta que el Gobierno colombiano inició una etapa de aislamiento preventivo [21]. Un modelo pronostica aumento de contagios y el otro mitigación. Se ajustaron curvas de pronóstico y se realizaron predicciones para septiembre.
resultados y discusión
En la Tabla 2 se observan los coeficientes de determinación r 2 ajustado de los modelos exponencial, polinómico, potencial y gaussiano para contagios (Con), recuperados (Rec) y fallecidos (Fall) de los primeros dos modelamientos.
Cómo se observa en la Tabla 2, el modelo que mejor se ajustó, de acuerdo con el r cuadrado ajustado, fue el gaussiano. Para este modelo se obtuvieron los resultados que se observan en la Tabla 3.
El modelo con mejor ajuste entre marzo y abril fue la curva gaussiana de recuperados, descrita por la siguiente ecuación:
En la Figura 3 se puede observar la gráfica de residuos de dicho modelado.
El modelo con mejor ajuste entre marzo y julio fue la curva gaussiana de fallecidos, descrita por la siguiente ecuación:
En la Figura 4 se puede observar la gráfica de residuos de dicho modelado.
En la Tabla 4 se observan los coeficientes de determinación r 2 ajustado de las dos curvas gaussianas de contagios, recuperados y fallecidos para el tercer modelamiento. Una curva pronostica aumento de los efectos de la pandemia y la otra pronostica mitigación.
El modelo con mejor ajuste fue el gaussiano 1, que pronostica un aumento de los efectos de la pandemia para el mes de septiembre. Dicho modelo tuvo los resultados que se observan en la Tabla 5.
El modelo con mejor ajuste fue la curva gaussiana de fallecidos que está representada por la siguiente ecuación:
En la Figura 5 se observa la gráfica de residuos de dicho modelado.
4.1 Pronóstico vs. datos reales, modelos de marzo a abril
Las gráficas evidencian que el modelo más acertado en contagios y recuperados fue el exponencial, mientras que para fallecidos fue el potencial. Esto se puede ver en la Tabla 6, en la cual se muestran los errores para el pronóstico de contagios, recuperados y fallecidos acumulados para el 31 de mayo.
4.2 Pronóstico vs. datos reales, modelos de marzo a julio
Las gráficas evidencian que el modelo más acertado en contagios y fallecidos fue el gaussiano, y para recuperados el polinómico. Esto se puede ver en la Tabla 7, en la que se muestran los errores para el pronóstico de contagios, recuperados y fallecidos acumulados para el 31 de agosto.
4.3 Modelos marzo-agosto
En las gráficas anteriores se observa el comportamiento real de la pandemia en color naranja y dos modelamientos gaussianos que permiten pronosticar dos comportamientos diferentes para septiembre. Un pronóstico de un posible aumento de contagios y un pronóstico de una posible mitigación de la pandemia.
En la Tabla 8 se observan algunos pronósticos para fechas específicas del mes de septiembre.
5. Conclusiones
Los coeficientes de determinación mostraron la exactitud de los modelos al describir el comportamiento de las curvas y ser el modelo gaussiano el que mejor ajuste tuvo.
Contar con diferentes modelos no lineales permite elaborar un análisis más acertado, ya que se cuenta con diferentes formas de evaluación del comportamiento de la pandemia.
Este estudio es relevante en comparación con otros modelamientos de la pandemia, si se tiene en cuenta que se realizó de manera sistemática. Esto al tomar primero cuatro modelos con solo los datos de dos meses [22]. Luego se ajustaron y seleccionaron los modelos adecuados para un segundo modelamiento, con la suma de más datos de los meses posteriores. Se validó el proceso con los datos reales mediante el calculo de error en el pronóstico, el cual fue siempre inferior a 7 %; finalmente, se realizó un último pronóstico en el que se le sumaron los datos del mes de agosto.
Los pronósticos realizados para el mes de septiembre evidencian que si los contagios aumentan se puede llegar a presentar un pico mucho mayor que el primero. Se podría llegar a tener más de novecientos mil contagios y se podrían superar las veinticuatro mil muertes, por tanto, se recomienda a los ciudadanos acatar estrictamente los protocolos de bioseguridad establecidos por el Gobierno. A las autoridades se les sugiere, en caso de aumento de contagios a mediados de septiembre, reforzar las medidas de prevención con el fin de evitar un pico más alto que el primero a finales de mes.
RESUMEN
Main Text
1. Introduction
2. revisión de la literatura
2.1 Modelo matemático
2.2 Ajuste de curvas
2.3 Coeficiente de determinación
3. Metodología
3.1 Modelos marzo-abril
3.2 Modelos marzo-julio
3.3 Modelos marzo-agosto
resultados y discusión
4.1 Pronóstico vs. datos reales, modelos de marzo a abril
4.2 Pronóstico vs. datos reales, modelos de marzo a julio
4.3 Modelos marzo-agosto
5. Conclusiones