ESCUELA DE DOCTORADO

 
Tesis Doctorales de la Universidad de Alcalá
MINERÍA DE INTENTS EN SISTEMAS CONVERSACIONALES
Autor/aBenayas Alamos, Alberto José
Departamento
Director/aSicilia Urbán, Miguel Ángel
Codirector/aMora Cantallops, Marçal
Fecha de depósito13-04-2025
Periodo de exposición pública14 de abril a 8 de mayo de 2025
Fecha de defensaSin especificar
ProgramaIngeniería de la Información y del Conocimiento (RD 99/2011)
Mención internacionalNo
ResumenEn los últimos años, ha habido una rápida proliferación de Agentes Conversacionales. A pesar de sus variados diseños, todos los Agentes Conversacionales comparten un requisito fundamental: deben ser entrenados con intents y frases de entrenamiento correspondientes. Obtener datos adecuados que cubran suficientemente estos intents y frases representa un desafío significativo en el desarrollo de Agentes Conversacionales. Incluso cuando se dispone de datos históricos de conversaciones, identificar manualmente los intents y extraer las frases de entrenamiento no es ni eficiente en tiempo ni rentable. Por lo tanto, la automatización y escalabilidad de estas tareas es crítica para el desarrollo de Agentes Conversacionales. Esta tesis aborda este problema estudiando y analizando sistemáticamente varias técnicas de aprendizaje automático aplicadas a la minería de intents en sistemas conversacionales, evaluando el efecto de diferentes técnicas de extracción de variables en el rendimiento del sistema, diseñando y proponiendo una técnica de aprendizaje no supervisado para la extracción de intents y comparándola con metodologías existentes, evaluando el uso de técnicas de aumento de datos y enfoques para expandir el conjunto de datos de entrenamiento en escenarios de escasez de datos, y examinando arquitecturas y paradigmas de modelos para clasificadores de intents. Todas estas tareas se unen en un sistema automático que es capaz de extraer intents desde conjuntos datos sin procesar y generar conjuntos de datos etiquetados para entrenar modelos de clasificación de intents. Este sistema tiene como objetivo superar las limitaciones de la definición manual de intents y la naturaleza intensiva en recursos del etiquetado humano al automatizar el proceso de minería de intents. Los resultados obtenidos destacan la importancia de los transformadores en la generación de variables semánticas, mostrando su capacidad para capturar patrones complejos en datos lingüísticos. Además, la metodología de clustering propuesta demostró un mejor rendimiento en comparación con los métodos existentes, siendo más efectiva en la extracción de intents. La eficiencia de los modelos basados en encoders sobre los modelos basados en decoders para tareas de comprensión del lenguaje natural, particularmente la clasificación de intents, también fue evidente, subrayando su utilidad en este dominio. Además, se demostró el potencial transformador de los grandes modelos de lenguaje en la resolución de la escasez de datos, indicando su papel significativo en la mejora de la robustez y las capacidades de generalización de los clasificadores de intents. Las implicaciones de esta investigación son de gran alcance, particularmente en la aceleración del desarrollo de agentes conversacionales. El sistema propuesto reduce significativamente el tiempo y los recursos necesarios para el etiquetado manual, haciendo que el proceso de desarrollo sea más eficiente y rentable. En conclusión, esta tesis contribuye al campo en evolución de la Inteligencia Artificial Conversacional, proponiendo y evaluando un sistema automatizado para la minería y clasificación de intents. A través de una exploración exhaustiva de metodologías, desafíos y soluciones potenciales, allana el camino para sistemas más eficientes, precisos y escalables, facilitando la integración sin problemas de agentes conversacionales en diversos dominios.