Martes, 13 Noviembre 2018 09:54

‘Big Data’ para predecir el futuro

Escrito por UCC+i

Investigadores de la UCO consiguen mejorar los sistemas de predicción reduciendo el tamaño de la información
La tecnología avanza a pasos agigantados, y con ella, la información con la que la sociedad opera diariamente. No obstante, el volumen de datos necesita ser puesto en orden, analizarse y cruzarse para predecir ciertos patrones. Esta es una de las principales funciones de lo que se denomina ‘Big Data’, la gran ‘bola de cristal’ del siglo XXI que es capaz de predecir la respuesta a un determinado tratamiento médico, el funcionamiento de un edifico inteligente o incluso el comportamiento del sol a partir de determinadas variables.


Investigadores del grupo KIDS del Departamento de Informática y Análisis Numérico de la Universidad de Córdoba han conseguido mejorar los modelos que predicen varias variables simultáneamente a partir de un mismo conjunto de variables de entrada , reduciendo el tamaño de datos necesario para que el pronóstico se realice de forma precisa.  Un ejemplo de ello sería un método que predice varios parámetros relacionados con la calidad del suelo a partir de un conjunto de variables como los cultivos plantados, la labranza o el uso de pesticidas.
“Cuando manejas volúmenes grandes de datos hay dos soluciones, o añadir más potencia a las computadoras, lo cual es más costoso, o reducir la información necesaria para que el proceso se realice de forma adecuada”, destaca el investigador Sebastían Ventura, uno de los autores de la investigación.
A la hora de construir un modelo predictivo hay dos problemas que necesitan ser abordados: el número de variables que entra en juego y el número de ejemplos que se introduce al sistema para que sea fiable. Con la filosofía de que menos es más, el estudio ha conseguido reducir el número de ejemplos, eliminando aquellos redundantes y ruidosos y que, por tanto, no aportan información valiosa para la construcción de un mejor modelo predictivo
Según subraya el principal autor de la investigación, Óscar Reyes, “hemos desarrollado una técnica que te dice con cuál subconjunto de  ejemplos te tienes que quedar para que la predicción siga siendo fiable e incluso mejore”. En algunas bases de datos, de las 18 que han analizado, han llegado a reducir la información hasta un 80% sin que ello afecte al rendimiento predictivo, lo que supone dejar en menos de la mitad lo datos originales. Todo ello, apunta Reyes, “significa un ahorro de energía y dinero en la construcción del modelo, ya que necesitas máquinas menos potentes”. Además, también supone un ahorro de tiempo, lo cual es interesante en aplicaciones que trabajan a tiempo real, ya que “no tiene sentido que el modelo tarde en ejecutarse media hora si necesitas una predicción cada 5 minutos”.
Según destacan los autores de la investigación, estos sistemas que predicen varias variables simultáneamente (que pueden tener relación entre sí),  a partir de varias variables -conocidos como modelos de regresión multisalida- están adquiriendo una importancia notoria debido a la gran  gama de aplicaciones que “podrían ser analizadas bajo este paradigma de aprendizaje automático”, como, por ejemplo, aquellas relacionadas con la sanidad, calidad del agua, la refrigeración de edificios o estudios ecológicos.
Referencias:
Reyes, O; Fardoun, HM; Ventura, S. An ensemble-based method for the selection of instances in the multi-target regression problem. INTEGRATED COMPUTER-AIDED ENGINEERING. Vol. 25, no. 4, pp. 305-320, 2018. 5 September 2018. DOI: 10.3233/ICA-180581

Visto 11043 veces