banners

Tesis doctoral 

Título Procesado de voz cantada: Técnicas y aplicaciones
Estado Finalizado
Autor Emilio Molina Martínez  
Director/es Lorenzo José Tardón García ,   Ana Mª Barbancho Pérez
Universidad Universidad de Málaga
Centro Escuela Técnica Superior de Ingeniería de Telecomunicación
Departamento Ingeniería de Comunicaciones
Fecha lectura 07-07-2017
Archivo   PDF

La voz cantada es una componente esencial de la música en todas las culturas del

mundo, ya que se trata de una forma increíblemente natural de expresión musical.

En consecuencia, el procesado automático de voz cantada tiene un gran impacto

desde la perspectiva de la industria, la cultura y la ciencia. En este contexto, esta

Tesis contribuye con un conjunto variado de técnicas y aplicaciones relacionadas con

el procesado de voz cantada, así como con un repaso del estado del arte asociado

en cada caso.

En primer lugar, se han comparado varios de los mejores estimadores de tono conocidos

para el caso de uso de recuperación por tarareo. Los resultados demuestran que

[Boersma, 1993] (con un ajuste no obvio de parámetros) y [Mauch, 2014], tienen un

muy buen comportamiento en dicho caso de uso dada la suavidad de los contornos

de tono extraídos.

Además, se propone un novedoso sistema de transcripción de voz cantada basada en

un proceso de histéresis definido en tiempo y frecuencia, así como una herramienta

para evaluación de voz cantada en Matlab. El interés del método propuesto es que

consigue tasas de error cercanas al estado del arte con un método muy sencillo.

La herramienta de evaluación propuesta, por otro lado, es un recurso útil para

definir mejor el problema, y para evaluar mejor las soluciones propuestas por futuros

investigadores.

En esta Tesis también se presenta un método para evaluación automática de la interpretación vocal.

Usa alineamiento temporal dinámico para alinear la interpretación

del usuario con una referencia, proporcionando de esta forma una puntuación de

precisión de afinación y de ritmo. La evaluación del sistema muestra una alta correlación

entre las puntuaciones dadas por el sistema, y las puntuaciones anotadas

por un grupo de músicos expertos.

Por otro lado, se presenta un método para el cambio realista de intensidad de

voz cantada. Esta transformación se basa en un modelo paramétrico de la envolvente

espectral, y mejora sustancialmente la percepción de realismo al compararlo

con software comerciales como Melodyne o Vocaloid. El inconveniente del enfoque

propuesto es que requiere intervención manual, pero los resultados conseguidos arrojan

importantes conclusiones hacia la modificación automática de intensidad con

resultados realistas.

Por último, se propone un método para la corrección de disonancias en acordes

aislados. Se basa en un análisis de múltiples F0, y un desplazamiento de la frecuencia

de su componente sinusoidal. La evaluación la ha realizado un grupo de músicos

entrenados, y muestra un claro incremento de la consonancia percibida después de

la transformación propuesta.


Volver