ESCUELA DE DOCTORADO

 
Tesis Doctorales de la Universidad de Alcalá
ANÁLISIS Y EVALUACIÓN DE MÉTODOS Y TÉCNICAS EN LA CIENCIA DE DATOS: ESTADÍSTICA, PROCESAMIENTO DE LENGUAJE NATURAL Y APRENDIZAJE PROFUNDO
Autor/aHellín Asensio, Carlos Javier
DepartamentoCiencias de la Computación
Director/aTayebi Tayebi, Abdelhamid
Codirector/aGómez Pérez, Josefa
Fecha de depósito05-05-2025
Periodo de exposición pública5 a 19 de mayo de 2025
Fecha de defensa13-06-2025 - Sala de Grados de la Escuela Politécnica Superior a las 11:00 horas
ModalidadPresencial
ProgramaIngeniería de la Información y del Conocimiento (RD 99/2011)
Mención internacionalNo
ResumenEsta tesis doctoral tiene como objetivo analizar y evaluar métodos y técnicas en la Ciencia de Datos, enfocándose en Estadística, Procesamiento de Lenguaje Natural y Aprendizaje Profundo. Se ha desarrollado y evaluado un paquete educativo en R, LearningRlab, diseñado para la enseñanza de estadística en la ingeniería informática. La implementación de este paquete ha mostrado mejoras significativas en el proceso de aprendizaje, con un aumento notable en las calificaciones de los estudiantes que lo utilizaron. Además, se ha llevado a cabo un estudio comparativo de diferentes paquetes de R para minería de texto, evaluando su rendimiento en términos de tiempo de ejecución y uso de memoria. Este análisis proporciona una guía para seleccionar los paquetes más adecuados para tareas específicas de minería de texto, destacando la eficacia de ciertos paquetes en técnicas como Tokenización y Modelado de Tópicos. Por último, la tesis investiga el impacto del desequilibrio de clases en modelos de aprendizaje profundo para la clasificación de imágenes médicas usando paquetes de R, específicamente en diagnósticos basados en rayos X pulmonares. Los resultados demuestran que el desequilibrio de clases afecta significativamente la precisión de los modelos, subrayando la importancia de estrategias adecuadas de balanceo de clases para mejorar la evaluación y desempeño de los modelos en contextos médicos. En conjunto, esta investigación contribuye al avance del conocimiento en cómo aplicar y evaluar diversas técnicas y herramientas de ciencia de datos, mejorando tanto la educación en estadística, la eficiencia en la minería de texto, como la precisión en la clasificación de imágenes médicas.