in Ingeniare
Aprendizaje automático para la predicción de calidad de agua potable
RESUMEN
La conservación y el cuidado del agua es uno de los problemas medioambientales más importantes en la actualidad. La calidad de agua hace referencia a los valores apropiados de los parámetros fisicoquímicos y/o biológicos del agua para un uso específico. Su monitoreo proporciona información útil a fin de procesarla por herramientas de aprendizaje automático con fines predictivos. Este documento tiene como objetivo presentar una revisión de las técnicas de aprendizaje automático utilizadas en la estimación de la calidad de agua. Los trabajos investigativos muestran que las redes neuronales (RN), los sistemas de inferencia neurodifusa (Anfis) y las máquinas de vectores de soporte (MVS) son las técnicas predictivas más utilizadas. Los resultados obtenidos en las medidas de exactitud evidencian la viabilidad de estimar la calidad de agua en ríos, cuencas y lagos, entre otros.
Main Text
1. Introduction
El agua potable como recurso natural limitado es una fuente vital para la supervivencia del ser humano y de otras especies. Nuestro planeta está compuesto de, aproximadamente, 70 % de agua, pero de esta solo un 3 % es agua dulce y se encuentra contenida, en su mayoría, en aguas subterráneas y casquetes polares [1]. La problemática ambiental que se ha incrementado en los últimos años hace que sus consecuencias se evidencien en la reducción del acceso y la disponibilidad al agua potable [2].
El término calidad de agua se asocia a un conjunto de parámetros físicos, químicos y biológicos cuyas mediciones proporcionan la información sobre el estado en el que se encuentra un cuerpo de agua [3] Garantizar las condiciones apropiadas para el consumo y tener una gestión eficiente de este recurso en cuanto a distribución, aprovechamiento y tratamiento del agua son algunos de los temas que más preocupan a las organizaciones mundiales y a la comunidad científica que trabaja por su conservación y cuidado [4].
Dentro de los procesos de análisis y control del agua, las acciones de monitoreo que se realizan normalmente ya no son estrategias suficientes para garantizar su calidad [5]. La medición de parámetros puede resultar una tarea compleja en la medida en que se requieren diferentes procesos, equipos y personal capacitado para realizar la toma de datos, por lo que contar con información de un sistema representa una enorme ventaja si esta se analiza de forma eficiente.
En este sentido, la predicción de la calidad de agua tiene un gran aporte en el campo medioambiental, así como en los sectores sociales y económicos que dependen de este preciado líquido [6]. La inserción de la tecnología y la inteligencia artificial han permitido desarrollar tanto algoritmos como técnicas de predicción que hacen posible estimar las condiciones de calidad de un cuerpo de agua a partir de datos que han sido recolectados previamente [7]. El presente trabajo propone un modelo híbrido predictivo capaz de utilizar datos y conocimiento para brindar los resultados, enriqueciéndolo, en el caso que así lo requiera, con recomendaciones que faciliten la toma de decisiones. Se utilizaron técnicas de Inteligencia Artificial para representar en un esquema ontológico el conocimiento obtenido al aplicar reglas de asociación. Tradicionalmente, los problemas de predicción se resuelven mediante modelos estadísticos de regresión tales como regresión simple o múltiple, dependiendo del número de variables [8]. Otro modelado que se encuentra con frecuencia son los árboles de regresión para series temporales [9]. Entre las técnicas utilizadas en la inteligencia artificial, las redes neuronales (RN) encabezan la lista de las más difundidas [10].
Este artículo tiene como objetivo presentar una revisión de técnicas utilizadas en la estimación de parámetros y calidad de agua, así como los planteamientos futuros de las tecnologías para este campo. El documento inicia con una breve descripción de la evaluación de la calidad de agua, la predicción y el aprendizaje automático, luego se expone la revisión de trabajos relacionados con la estimación para calidad de agua, la discusión de los resultados encontrados, las conclusiones y las referencias.
2.Metodología
La metodología para la selección de trabajos que se consideran en este documento estableció como criterios de inclusión artículos originales de los últimos cuatro años en idioma inglés, de las categorías calidad de agua potable, estimación de parámetros fisicoquímicos y/o biológicos, índices de calidad de agua y técnicas de aprendizaje automático. No se consideraron temáticas de predicción de caudal, consumo y distribución de agua, estimación de índices de contaminación y usos del agua diferentes al de consumo humano. La cadena de búsqueda general fue: “prediction” AND “water quality” OR “water quality index, WQI” AND “machine learning” en las bases de datos bibliográficas ScienceDirect y SpringerLink. El protocolo se desarrolló con base en las recomendaciones para revisiones sistemáticas [11]. Los trabajos encontrados se importaron al gestor de referencias Mendeley, en el cual se eliminaron duplicados y se clasificaron los artículos por tópicos de interés: parámetro estimado, toma de datos y variables de entrada (modelado), correlación de parámetros, técnicas de predicción y estrategias de validación. Este texto de investigación cuenta con más de cincuenta artículos seleccionados producto de la metodología expuesta.
3. Evaluación de la calidad del agua
La calidad de agua puede clasificarse de acuerdo con el uso final al que se destine. Es importante destacar que una vez haya cumplido su función, ella retorna nuevamente al sistema hidrológico, por lo que los tratamientos de potabilización son vitales a fin de minimizar riesgos potenciales por contaminación. De manera más práctica, los análisis de calidad de agua se basan en las mediciones de parámetros sobre fuentes hídricas (ríos, lagos, aguas subterráneas, etc.) realizadas por organismos medioambientales de control y se nutren con la información proporcionada por diferentes sectores en una recolección de datos sistémica, la cual puede utilizar los indicadores para su representación [12]. El agua que se destina para el consumo humano debe cumplir con los criterios admisibles reglamentados para cada parámetro. En el caso de los índices, estos se construyen a partir de dos o más parámetros; los índices de calidad (ICA) y contaminación del agua (ICO) son los más comunes [13]. La figura 1 muestra los escenarios de evaluación de la calidad de agua.
3.1. Estimación de variables y aprendizaje automático
El concepto de predicción se enfoca en la extracción de información de datos reales previos de un proceso a fin de predecir patrones de comportamiento o tendencias de posibles eventos futuros. Su aplicación se da en diferentes campos de la ciencia y en fenómenos naturales, no obstante, las tareas de predicción pueden llegar a ser complejas debido al número de variables, el grado de iteración y la dinámica desconocida del fenómeno que se estudia [14].
El procesamiento y el análisis de datos que se efectúa en un aprendizaje automático se lleva a cabo con una alta velocidad y con una mínima intervención humana en la toma de decisiones. Dependiendo de los requerimientos del problema es posible escoger entre distintos métodos y técnicas disponibles, capaces de seguir operando con alto rendimiento, incluso cuando se adicionan más valores durante su ejecución [15]. El aprendizaje supervisado es uno de los más comunes en este campo y se utiliza, generalmente, cuando se conocen los parámetros de la salida deseada; entre las tareas más frecuentes se encuentran la regresión y la clasificación. Los algoritmos no supervisados ajustan su modelo utilizando solo la información de entrada y no están predispuestos operativamente por los valores de salida esperados, lo que permite identificar o agrupar estructuras de un conjunto de datos [16]. En el proceso de aprendizaje, para el caso de los algoritmos supervisados, es posible identificar dos fases en las que es necesario dividir el total de datos en dos conjuntos: pruebas y entrenamiento, o mejor conocidos como testing and training [17].
Durante la fase de entrenamiento se construye el modelo utilizando uno de los dos conjuntos de datos a fin de supervisar la variable a estimar. De esta manera, el modelo aprende sobre las posibles causas que influyen en su comportamiento. En la fase de pruebas se verifica la validez del modelo sobre el otro conjunto, se calcula el error entre las predicciones del modelo y los valores reales. La fase de pruebas también permite evitar el sobreajuste que representa un ajuste muy bueno a los datos para los que se conoce el resultado esperado pero bajo rendimiento en nuevas estimaciones.
Otra estrategia utilizada para evitar el sobreajuste es la validación cruzada, en la cual se divide el conjunto de entrenamiento en k subconjuntos; una vez seleccionado un subconjunto k como conjunto de prueba, los datos restantes se utilizan como datos de entrenamiento, repitiendo el proceso para k iteraciones [18]. La medición de la precisión entre los valores reales y las estimaciones se realiza utilizando las medidas de exactitud, algunas de las cuales son MAPE, MAE, RMSE y [19].
3.2. Aprendizaje automático para la estimación de calidad de agua
Hoy en día es posible extraer una gran cantidad de información valiosa sobre los fenómenos que ocurren. En el caso de los ecosistemas hídricos, las investigaciones relacionadas con la estimación de variables utilizando técnicas de aprendizaje automático se han incrementado en los últimos años, lo que ha permitido obtener avances importantes. Estas estrategias también benefician la captura de datos que, en su mayoría, se realizan de forma digital y por métodos manuales, facilitando el estudio de cuerpos de agua en lugares remotos. La tabla 1 resume las características y las técnicas de los trabajos seleccionados de bases de datos bibliográficas como ScienceDirect y SpringerLink.
En la tabla 1 se presentan los trabajos de estimación de parámetros e índices de calidad de agua sobre diferentes cuerpos de agua, así como las técnicas utilizadas y los parámetros de entrada sobre los cuales se ha realizado la toma de datos, generalmente en sitio. En [20] se expone una estrategia para estimar en tiempo real el índice de calidad de agua sobre el río Peak en Malasia. Como se ha mencionado, una de las ventajas de la estimación es facilitar el acceso y el procesamiento de la información; para esto no se tienen en cuenta los parámetros de DBO (demanda biológica de oxígeno) y DQO (demanda química de oxígeno), ya que para estas no es posible obtener un valor por medición directa. En cuanto a las técnicas, se utiliza una red neuronal y múltiples redes neuronales, con lo cual se consigue mejorar los resultados de desempeño.
Otro ejemplo se da en [22], en el que se estima la temperatura, el oxígeno disuelto, el pH, la conductividad, la TN, la TP, la turbidez y la clorofila en una represa utilizando una red neuronal. Se obtienen buenos resultados de RMSE y para siete de los ocho parámetros estimados. En [23] se realiza un análisis de correlación con el fin de determinar el mejor conjunto de parámetros de entrada para el modelado. Se compararon los resultados entre las técnicas Anfis y Anfis híbrida, es decir, una combinación con la optimización de enjambre de partículas y colonia de hormigas, evidenciando un mejor desempeño en esta última; ejemplos similares se muestran en [28] y [30].
En cuanto a los índices, formados por dos o más parámetros, en [21] y [26]and its values were used as the dependent variable in stepwise multiple linear regression (MLR se estima el índice de calidad de agua sobre una fuente subterránea y un río a partir de diferentes parámetros de entrada aplicando las técnicas Anfis y regresión lineal, respectivamente. En el control de riesgos por contaminación es posible evaluar los drenajes y los vertimientos a una fuente de agua. La estimación puede aplicarse tanto en índices de calidad como de contaminación o en parámetros específicos, los cuales pueden ser importantes para un estudio o como referencia de control; la estimación del fósforo y el nitrógeno en un lago es un ejemplo de este tipo de análisis [24].
La calidad del agua también se ve afectada por factores externos que en algunos estudios se toman en consideración a fin de poder mejorar los resultados. Estas variables se identifican como categóricas y pueden estar relacionadas con la distribución geográfica, las estaciones del año y hasta información socioeconómica del sector. En [25] se evalúan diferentes técnicas de aprendizaje computacional tales como RN, MVS, árboles de decisión y regresión lineal, a fin de estimar un índice de calidad muy característico en embalses. En el estudio, además, se comparan los desempeños de diferentes software de modelado.
Estudios comparativos de técnicas de aprendizaje automático también se consideran en el campo medioambiental. En algunas de ellas es posible encontrar cambios de la estructura original, como es el caso de las redes neuronales que se combinan con otras estrategias para potenciar sus resultados. En [27] se realiza un estudio comparativo de RN, MVS y RN híbridas. Otra comparación se da en [32], en el que se estiman parámetros para evaluar la calidad de agua residual de vertimientos en cuencas, al comparar el desempeño de las MVS y los árboles de regresión.
La calidad de agua no es exclusiva para el consumo del ser humano. Los ecosistemas acuáticos también requieren que el agua cumpla ciertas condiciones que garanticen su conservación. Además de los parámetros fisicoquímicos, los bioindicadores pueden proporcionar información valiosa para controlar la calidad de agua dulce. En [33] los indicadores se estiman a partir de parámetros fisicoquímicos e información biológica del cuerpo de agua aplicando la técnica de MVS. De igual manera, se estima la calidad microbiana de un largo comparando dos técnicas de aprendizaje automático [34].
3.3 Evaluación del desempeño
Para evaluar la precisión en las estimaciones de un modelo predictivo es posible utilizar las medidas de exactitud, en donde es el valor real, el estimado y el número de muestras de datos, algunas de estas se enlistan y describen a continuación.
• Media de la desviación porcentual absoluta (MAPE). Mide en términos porcentuales el error absoluto, muy efectivo en el momento de identificar diferencias entre modelos; no se afecta por valores estimados o reales (0% representa un ajuste perfecto). Se calcula a partir de la ecuación 1
• Error absoluto medio (MAE). Mide el promedio de las medias absolutas entre los valores reales y los estimados. Es un valor lineal y no es muy sensible frente a valores atípicos; está dado por la ecuación 2
• Error cuadrático medio (MSE). Mide el error cuadrado promedio entre el valor estimado y el valor real para cada punto, y su resultado no es negativo (ecuación 3); es de más utilidad cuando se trata de grandes errores puesto que un valor de MSE alto también puede representar un buen ajuste.
• Raíz del error cuadrático medio (RMSE). Para dos conjuntos de datos, el RMSE mide el tamaño del error. Es la raíz cuadrada de la suma de errores entre un valor estimado y uno observado o real. Es eficiente al relevar diferencias muy notables y se da en términos de la variable analizada. Esta dada por ecuación 4.
• Coeficiente de determinación (). evalúa la calidad del modelo al proporcionar información sobre qué tan bien el modelo se aproxima a los valores observados. Se obtiene de la ecuación 5. El numerador representa la suma de cuadrados de los residuos y el denominador corresponde a la suma total de cuadrados, y se da entre 0 y 1, donde 1 denota que las estimaciones de regresión se ajustan perfectamente a los datos
En la tabla 2 se presenta un resumen de las técnicas, de los parámetros estimados y las medidas de exactitud en los trabajos seleccionados
De acuerdo con la Tabla 2, en la evaluación del desempeño, las medidas de y RMSE son las más utilizadas, seguidas por MAE, MAPE y MSE. Los resultados de estimación de las técnicas de aprendizaje automático se encuentran con valores por encima de 0,61 y alcanzan valores de 0,998 para , lo que muestra que es posible estimar parámetros o índices de calidad de agua con muy buena fiabilidad. Se observa también que los resultados de exactitud mejoran en los estudios comparativos en los que se contrasta la estructura original con una híbrida [19], [27] y [24].
Las técnicas más utilizadas de acuerdo con la información encontrada son las RN, MVS, Anfis, regresión lineal y árboles de regresión. Se evidencia también que, en la mayoría de los casos, los resultados de las técnicas híbridas son superiores a los que se obtienen con la técnica tradicional; algunas alternativas dependerán, entonces, del grado de complejidad que se pueda tener. La regresión lineal permite crear un modelo que describe la relación entre una variable de respuesta basada en una o más variables predictoras. En los árboles de regresión, la salida del modelo se estima con base en el aprendizaje de las reglas de decisión inferidas de las características de los datos. Las máquinas de vectores de soporte construyen un hiperplano a partir de un conjunto de muestras categorizadas, y el algoritmo puede predecir a qué categoría pertenece una nueva muestra. La técnica Anfis integra las redes neuronales y la lógica difusa, su sistema de inferencia responde a reglas difusas y es ideal para sistemas no lineales [35].
Otro elemento destacable es el número de datos utilizados para la estimación. Aunque no se especifica un valor mínimo o máximo para el modelado, es indispensable contar con una buena cantidad de datos, ya que normalmente estos se dividen tanto para la etapa de pruebas como de entrenamiento y validación. Pese a que no todos los artículos muestran una información detallada referente a la cantidad de datos, en la figura 2 se presenta una distribución en años del tamaño de la información utilizada en cada caso.
En la figura 2 se observa que los proyectos trabajan con bases de datos iguales o superiores a un año, once artículos entre uno y diez años y tres estudios con catorce, veintiuno y más de cincuenta años de información recolectada. El estudio ID [25], que no se muestra en el gráfico, presenta una distribución espacial y no temporal, es decir, en un día se tomó una muestra en 48 puntos diferentes a lo largo del río, lo que evidencia dos tipos de distribuciones para los análisis de calidad de agua en ríos [36].
4. Discusión
El aprendizaje automático se ha convertido en una buena herramienta para los procesos de estimación de calidad de agua, con mejores resultados en comparación con las técnicas estadísticas tradicionales. El uso de la tecnología facilita el tratamiento de los datos y la precisión de los modelos que se construyen. Pese a que se puede encontrar una gran variedad de estrategias, las redes neuronales han abarcado este campo con buenos resultados [37]. Los desafíos se centran ahora en combinar sus propiedades para modelar sistemas con características no lineales y no estacionarias. En el caso de los algoritmos genéticos (GA) y la optimización por enjambre de partículas (PSO), estos se emplean en la selección de subconjuntos y la optimización de parámetros de entrada [38]. De esta manera, los algoritmos de aprendizaje pueden realizar posteriormente las tareas de predicción.
Las MVS muestran mayor eficiencia en su entrenamiento, menor probabilidad de sobreajuste y un mejor comportamiento cuando no hay suficiente información de entrada. Las RN se aplican cuando existe una posible relación entre las entradas y las salidas del sistema, son flexibles y tienen buena respuesta ante patrones no lineales imprevistos [39]. Las técnicas Anfis, una combinación entre redes neuronales y lógica difusa, permiten incorporar conocimiento a priori mediante reglas difusas [40]. Estudios comparativos de técnicas pueden aportar información relevante a la hora de escoger la estrategia de modelado [41] to continually provide water to consumers with appropriate quality, quantity and pressure, water utilities require accurate and appropriate short-term water demand (STWD, algunos de estos evalúan el des- empeño de las técnicas, como es el caso de las redes neuronales frente a las máquinas de vectores de soporte [42] y otros métodos como, por ejemplo, los bayesianos [43], [44].
La estimación para calidad de agua se da, entonces, tanto para parámetros fisicoquímicos como biológicos e índices compuestos (p. ej., el ICA). La selección de la variable de salida dependerá de los objetivos de estudio, con qué datos se cuenta y el tipo de fuente hídrica que se analiza. Los valores de correlación son útiles para identificar las relaciones entre parámetros y así elegir la mejor combinación de entrada para el modelado. Algunas de ellas, como el TDS, se encuentran fuertemente correlacionadas con la conductividad, así como los sólidos totales con los sólidos suspendidos y disueltos. Otras relaciones importantes se dan entre turbidez, color conductividad y solidos totales, y entre DBO, oxígeno, temperatura y pH [45].
De acuerdo con los trabajos seleccionados, el pH, la conductividad, el oxígeno disuelto y la demanda bioquímica de oxígeno son los parámetros que más se estiman en calidad de agua, lo cual puede indicar que la incidencia sobre otros parámetros es significativa. La alcalinidad, por ejemplo, es un indicador de la capacidad de amortiguación del medio (resistencia a las variaciones en el pH) y es causada por la presencia de iones de bicarbonato, carbonato e hidroxilo, por lo que el pH aumenta más rápido en aguas altamente alcalinas [46]. Las temperaturas bajas favorecen los niveles de oxígeno disuelto en el agua que está relacionado con minerales tales como los carbonatos de calcio y magnesio. Además, la conductividad es sensible a la temperatura y puede apreciarse en los valores de correlación de los parámetros [47].
Factores socioeconómicos y geográficos pueden influir en la calidad de agua, lo que implica considerar estas variables categóricas como información importante para mejorar la exactitud de las predicciones[48]. Si bien los algoritmos de aprendizaje automático son capaces de procesar diferentes variables de entrada y un número considerable de datos en beneficio de la exactitud y la precisión, no siempre es fácil realizar la medición de todos los parámetros, porque se requieren equipos especializados, análisis posteriores en un laboratorio y las fuentes se encuentran en lugares remotos; por tanto, es importante la selección de los parámetros que mejor representen la dinámica del sistema. La implementación de los modelos predictivos a fin de obtener la información en tiempo real también puede representar una ventaja para el estudio de cuerpos de agua en zonas de difícil acceso [49].
Las técnicas de aprendizaje automático se aplican, en su mayoría, sobre ríos, lagos y fuentes de agua en movimiento. El agua almacenada, por su parte, se utiliza en sistemas de distribución, tratamiento y reserva que requieren, además, un control riguroso para su consumo humano. Las herramientas predictivas pueden ser útiles en este caso no solo para la predicción de parámetros, sino también en la estimación de los tiempos en los que se puedan conservar las condiciones mínimas de calidad [50]. Si bien en los sistemas hídricos se generan múltiples reacciones, estas no suelen evidenciarse de forma inmediata al hacer que los tiempos de respuesta sean largos y varíen de un medio a otro, lo que puede guardar relación, entre otros factores, con el volumen del agua [51].
De acuerdo con el análisis de la literatura encontrada, es posible aprovechar las ventajas predictivas en el estudio de la evolución temporal de parámetros fisicoquímicos, a fin de cuantificar el tiempo estimado en el que se pueden conservar las propiedades óptimas de una masa de agua para un uso definido.
5. Conclusiones
Las técnicas de aprendizaje automático de mayor aplicabilidad en el recurso hídrico, de acuerdo con la revisión bibliográfica realizada son las RN, MVS y Anfis con porcentajes del 36 %, 24 % y 16 %, respectivamente; el 24% restante corresponde a la implementación de otro tipo de estrategias. Es evidente que el modelado híbrido es una herramienta mejorada que arroja buenos resultados en comparación con técnicas predictivas tradicionales. Algunas propuestas investigativas podrían girar en torno a la comparación entre métodos híbridos, en la construcción de híbridos con otras metodologías e incluir características del entorno, así como la implementación de los modelos para aplicaciones en tiempo real, lo que contribuye a facilitar las actividades de muestreo. Las técnicas aquí mencionadas tienen diferentes ventajas, así como limitaciones; la selección dependerá, entonces, de las características del problema que se desea abordar y de las estrategias a implementar para mejorar la exactitud de las predicciones.
La estimación de calidad sobre agua almacenada es poco frecuente, sin embargo, estar en capacidad de conocer y cuantificar los tiempos en los que un cuerpo de agua puede permanecer en condiciones deseadas representa una ventaja para los procesos que manejan este tipo de depósitos.
En la investigación se encuentran aspectos comunes que podrían constituir una metodología en el proceso de predicción y que se convierten, además, en tópicos de interés. La medición y el tratamiento de datos, las fases de entrenamiento, pruebas, validación y ajuste son algunas de las etapas que se identifican. Por otra parte, los valores de correlación muestran el grado de relación entre parámetros y ayuda a determinar el conjunto de variables de entrada que brinden mejores resultados. En la validación, es posible utilizar diferentes medidas de exactitud, no obstante, el coeficiente de determinación es un factor válido para determinar el buen ajuste entre los valores reales y estimados.
RESUMEN
Main Text
1. Introduction
2.Metodología
3. Evaluación de la calidad del agua
3.1. Estimación de variables y aprendizaje automático
3.2. Aprendizaje automático para la estimación de calidad de agua
3.3 Evaluación del desempeño
4. Discusión
5. Conclusiones