Dpto. Ingeniería de Comunicaciones

Tesis doctoral

T�tulo	Machine Learning for Bidirectional Translation between Different Sign and Oral Language
Estado	Finalizado
Autor	Muhammad Imran Saleem
Director/es	Miguel Ángel Luque Nieto
Universidad	Universidad de M�laga
Centro	Escuela T�cnica Superior de Ingenier�a de Telecomunicaci�n
Departamento	Ingenier�a de Comunicaciones
Fecha lectura	27-09-2023

Las personas sordomudas (D-M) son una parte integral de la sociedad, y es particularmente importante brindarles una plataforma para poder comunicarse sin necesidad de ning�n tipo de formaci�n o aprendizaje. Estos individuos D-M, que dependen del lenguaje de se�as, para una comunicaci�n efectiva esperan que otros puedan entender el lenguaje de signos. Aprender el lenguaje de signos es un desaf�o para quienes no tienen ninguna discapacidad. En la pr�ctica, los D-M se enfrentan a dificultades de comunicaci�n principalmente porque otros, que generalmente no conocen el lenguaje de signos, no pueden comunicarse con ellos. Esta tesis presenta una soluci�n a este problema a trav�s de (i) un sistema que permite a los no sordomudos (ND-M) comunicarse con los individuos D-M sin la necesidad de aprender el lenguaje de signos, y (ii) gestos con manos en diferentes idiomas. Los gestos con las manos de las personas D-M se adquieren y procesan mediante aprendizaje profundo (Deep Learning, DL), y el soporte de m�ltiples idiomas se logra mediante aprendizaje autom�tico supervisado (Machine Learning, ML). Las personas D-M cuentan con una interfaz de v�deo donde se adquieren los gestos de las manos y una interfaz de audio para convertir los gestos en voz. El habla de las personas ND-M se adquiere y se convierte en texto e im�genes de gestos con las manos. El sistema es f�cil de usar, de bajo costo, confiable, modular y est� basado en un dispositivo de movimiento de salto (LMD) comercial disponible (COTS). Se crea un conjunto de datos de ML supervisado que proporciona comunicaci�n en varios idiomas entre las personas D-M y ND-M, que incluye tres conjuntos de datos de lenguaje de signos: lenguaje americano (ASL), lenguaje paquistan� (PSL) y lenguaje espa�ol (SSL). El sistema propuesto ha sido validado a trav�s de una serie de experimentos, donde la precisi�n de detecci�n de gestos con las manos del sistema es superior al 90% para la mayor�a de ellos, mientras que para ciertos escenarios, se sit�a entre el 80% y el 90% debido a las variaciones en los gestos con las manos entre diferentes personas D-M.

Palabras clave

Personas sordomudas. Reconocimiento de gestos. Procesado multiling�e. Lenguaje de signos. Aprendizaje m�quina supervisado (ML supervised). Reconocimiento de voz.

Volver

Tesis doctoral

Men� destacado