Procesamiento de voz

lptv
El procesamiento de voz es un campo de investigación que involucra el estudio de las señales de voz y de todos aquellos métodos que se necesitan para su procesamiento. Entre las diversas áreas de investigación abordadas en procesamiento de voz las más frecuentes son:

Reconocimiento de Voz

El reconocimiento automático de voz (ASR, Automatic Speech Recognition) es el proceso de convertir una señal de voz, capturada por un aparato telefónico o un micrófono conectado a un computador, a información fonética y lingüística pronunciada por un locutor. La voz es la manera más natural de interacción y el ASR se puede usar en servicios de telefonía, interfaces hombre-máquina para comandos establecidos, en máquinas de dictado, etc. Por lo general, las tecnologías desarrolladas en ASR se basan en HMM (Hidden Markov Models) los que son capaces de abordar lenguaje natural y voz continua.

Tecnologías de Voz para Aprendizaje de Idiomas

Una de las aplicaciones más importantes en tecnologías de voz tiene lugar en el área de aprendizaje de idiomas. Por ejemplo, en Chile un área de interés de investigación basada en tecnología de voz es aprendizaje de Inglés como segundo idioma. ASR y estimación de parámetros de prosodia se pueden investigar como herramientas para evaluar calidad de pronunciación.

Reconocimiento de Locutor

Reconocimiento de locutor es un proceso de reconocer automáticamente quién está hablando basado en la señal de voz como información biométrica. Reconocimiento de locutor se divide en identificación del locutor (SI, Speaker Identification) y verificación del locutor (SV, Speaker Verification). SI corresponde a la tarea de asociar la voz grabada con uno de los N locutores. Consecuentemente, SI es un problema de clasificación 1:N. Por otro lado, en SV, la idea es confirmar o rechazar la identidad demandada por un locutor. Como resultado, SV es un problema 1:1.

Procesamiento Robusto de Voz

La robustez es una de las principales áreas de interés en investigación en sistemas ASR y SV. Algunos problemas de interés en el campo de tecnologías de voz basados en robustez son ruido aditivo, desajuste de canal, y distorsión en codificación-decodificación.

QoS en Internet para Aplicación en Tiempo Real

Internet está diseñado para tráfico basado en TCP el que a su vez puede ajustar su tasa de transmisión de acuerdo a la condición de la red. Sin embargo, el desarrollo de varias nuevas aplicaciones de voz en tiempo real ha creado el problema de cómo garantizar niveles de calidad en el servicio (QoS Quality of Service).

Trasmisión de Voz sobre IP

La transmisión de voz sobre Internet se ve afectada por la pérdida de paquetes y la distorsión en codificación y decodificación. Ciertos problemas de interés de investigación en este campo basados en transmisión de voz sobre IP son la precisión de ASR y la evaluación subjetiva de la calidad de la red IP.

Evaluación de la Usabilidad de Sistemas de Diálogo