Los humanos pueden adivinar cómo se siente alguien al otro lado de una llamada telefónica en función de cómo hablan, así como de lo que dicen. El reconocimiento de emociones del habla es la versión de inteligencia artificial de esta capacidad. En un intento por abordar la cuestión de la alineación de los canales en las aplicaciones de reconocimiento de emociones del habla de aguas abajo, un grupo de investigación de la Universidad Normal del Este de China en Shanghái desarrolló un módulo de desplazamiento temporal que supera a los métodos de vanguardia en escenarios de ajuste fino y extracción de características. La investigación del grupo se publicó el 21 de febrero en Intelligent Computing, una revista asociada de Science.
Según los autores, “esta mejora arquitectónica mejora el rendimiento sin imponer cargas computacionales”. Introdujeron tres modelos de desplazamiento temporal con diferentes arquitecturas: una red neuronal convolucional, un transformador y una red neuronal recurrente de memoria a corto plazo. Los experimentos enfrentaron estos modelos de desplazamiento temporal contra los modelos existentes en el gran conjunto de datos de referencia IEMOCAP y descubrieron que, en general, eran más precisos, especialmente en el escenario de ajuste fino. Los modelos de desplazamiento temporal también funcionaron bien en la extracción de características cuando se utilizó una capa de suma ponderada entrenable. Además, los modelos de desplazamiento temporal superaron a las líneas de base en tres conjuntos de datos pequeños, RAVDESS, SAVEE y CASIA. Además, el desplazamiento temporal, que sirve como módulo de red, supera el tipo de operaciones de desplazamiento comunes que se han utilizado para el aumento de datos.
El nuevo módulo de desplazamiento temporal logra un mejor rendimiento al permitir la mezcla de características pasadas, presentes y futuras. Aunque esta mezcla beneficia a la precisión, también puede causar desalineación, lo que perjudica a la precisión. Los autores emplearon dos estrategias para abordar esta compensación: control de la proporción de desplazamiento y selección de la colocación del desplazamiento. Los modelos se probaron con la mitad, la cuarta parte, la octava parte y la dieciseisava parte de todos los canales desplazados; una proporción mayor permite una mayor mezcla, pero provoca una mayor desalineación. Se probaron dos modelos de colocación diferentes: desplazamiento residual, en el que el módulo de desplazamiento temporal se ubica en una rama de la red y, por lo tanto, conserva los datos no desplazados junto con los datos desplazados, y desplazamiento in situ, que desplaza todos los datos. Después de investigar la proporción de desplazamiento y la colocación del desplazamiento, los autores eligieron las variantes de mayor rendimiento para cada una de las tres arquitecturas para realizar experimentos contra los modelos de vanguardia en el ajuste fino y la extracción de características.
Los métodos existentes de reconocimiento de emociones del habla que se basan en arquitecturas de redes neuronales profundas son efectivos, pero se enfrentan al desafío de la saturación de la precisión. Es decir, su precisión no aumenta con incrementos incrementales en el tamaño de la red. Una parte clave del problema es que la información de canal y la información temporal no se procesan de forma independiente.
El trabajo futuro puede investigar la influencia de la escala del conjunto de datos y la complejidad del modelo de aguas abajo en la precisión. Se merecen análisis cuantitativos tareas adicionales de aguas abajo, como la clasificación de audio. Además, sería ventajoso hacer que los parámetros de las futuras versiones del modelo de desplazamiento temporal sean aprendibles para permitir la optimización automática.