Escuela de Doctorado - UAH

ESCUELA DE DOCTORADO

Tesis Doctorales de la Universidad de Alcalá

ON THE DESIGN OF DISTRIBUTED AND SCALABLE FEATURE SELECTION ALGORITHMS
Autor/a	Palma Mendoza, Raul Jose
Departamento	Ciencias de la Computación
Director/a	Marcos Ortega, Luis de
Codirector/a	Rodríguez García, Daniel
Fecha de defensa	03/10/2019
Calificación	Sobresaliente Cum Laude
Programa	Ingeniería de la Información y del Conocimiento (RD 99/2011)
Mención internacional	No
Resumen	La selección de atributos es una importante etapa en el preprocesamiento de los datos previo al entrenamiento de un modelo en minería de datos o como parte de cualquier proceso de análisis de datos. El objetivo de la selección de atributos consiste detectar dentro de un grupo de atributos cuáles son los más relevantes y cuáles son redundantes de acuerdo a alguna métrica establecida. Con esto se logra crear modelos de minería de datos de forma más eficiente y fáciles de interpretar, también, al detectar atributos pocos relevantes se puede ahorrar costo en futuras recolecciones de datos. Sin embargo, actualmente, de acuerdo al fenómeno ampliamente conocido como ¿big data¿, los conjuntos de datos que se desea analizar son cada vez mayores. Esto provoca que muchos algoritmos existentes para minería de datos sean incapaces de procesarlos completos e incluso, dependiendo de su tamaño, tampoco puedan ser procesados directamente por los mismos algoritmos de selección de atributos. Considerando que esta tendencia al crecimiento de los conjuntos de datos no se espera cesará, se vuelve necesaria la existencia de algoritmos de selección de atributos escalables que sean capaces de aumentar su capacidad de procesamiento aprovechando los recursos de clúster de computadoras. La siguiente disertación doctoral presenta el rediseño de dos algoritmos de selección de atributos ampliamente utilizados: ReliefF y CFS, ambos algoritmos fueron rediseñados con el propósito de ser escalables y capaces del procesamiento de grandes volúmenes de datos. Esto queda demostrado mediante una extensiva comparación de ambas propuestas con sus versiones originales así como también con otras versiones escalables diseñadas para propósitos similares. Todas las comparaciones se realizaron usando grandes conjuntos de datos de acceso público. Las implementaciones se realizaron utilizando la herramienta Apache Spark, que actualmente se ha convertido en todo un referente en el área del big data. El código fuente escrito se ha puesto disponible en un repositorio público de GitHub a nombre del autor .

Escuela de Doctorado de la Universidad de Alcalá

Universidad de Alcalá - Directorio - Mapa web - Protección de datos