Tesis Doctorales de la Universidad de Alcalá |
ANÁLISIS Y EVALUACIÓN DE MÉTODOS Y TÉCNICAS EN LA CIENCIA DE DATOS: ESTADÍSTICA, PROCESAMIENTO DE LENGUAJE
NATURAL Y APRENDIZAJE PROFUNDO | Autor/a | Hellín Asensio, Carlos Javier | Departamento | Ciencias de la Computación | Director/a | Tayebi Tayebi, Abdelhamid | Codirector/a | Gómez Pérez, Josefa | Fecha de depósito | 05-05-2025 | Periodo de exposición pública | 5 a 19 de mayo de 2025 | Fecha de defensa | 13-06-2025 - Sala de Grados de la Escuela Politécnica Superior a las 11:00 horas | Modalidad | Presencial | Programa | Ingeniería de la Información y del Conocimiento (RD 99/2011) | Mención internacional | No | Resumen | Esta tesis doctoral tiene como objetivo analizar y evaluar métodos y técnicas en la Ciencia de Datos, enfocándose en Estadística, Procesamiento de Lenguaje Natural y Aprendizaje Profundo. Se ha desarrollado y evaluado un paquete educativo en R, LearningRlab, diseñado para la enseñanza de estadística en la ingeniería informática. La implementación de este paquete ha mostrado mejoras significativas en el proceso de aprendizaje, con un aumento notable en las calificaciones de los estudiantes que lo utilizaron.
Además, se ha llevado a cabo un estudio comparativo de diferentes paquetes de R para minería de texto, evaluando su rendimiento en términos de tiempo de ejecución y uso de memoria. Este análisis proporciona una guía para seleccionar los paquetes más adecuados para tareas específicas de minería de texto, destacando la eficacia de ciertos paquetes en técnicas como Tokenización y Modelado de Tópicos.
Por último, la tesis investiga el impacto del desequilibrio de clases en modelos de aprendizaje profundo para la clasificación de imágenes médicas usando paquetes de R, específicamente en diagnósticos basados en rayos X pulmonares. Los resultados demuestran que el desequilibrio de clases afecta significativamente la precisión de los modelos, subrayando la importancia de estrategias adecuadas de balanceo de clases para mejorar la evaluación y desempeño de los modelos en contextos médicos.
En conjunto, esta investigación contribuye al avance del conocimiento en cómo aplicar y evaluar diversas técnicas y herramientas de ciencia de datos, mejorando tanto la educación en estadística, la eficiencia en la minería de texto, como la precisión en la clasificación de imágenes médicas. |
|