Procesamiento de voz

El procesamiento de voz es un campo de investigaciÃ³n que involucra el estudio de las seÃ±ales de voz y de todos aquellos mÃ©todos que se necesitan para su procesamiento. Entre las diversas Ã¡reas de investigaciÃ³n abordadas en procesamiento de voz las mÃ¡s frecuentes son:

Reconocimiento de Voz

El reconocimiento automÃ¡tico de voz (ASR, Automatic Speech Recognition) es el proceso de convertir una seÃ±al de voz, capturada por un aparato telefÃ³nico o un micrÃ³fono conectado a un computador, a informaciÃ³n fonÃ©tica y lingÃ¼Ãstica pronunciada por un locutor. La voz es la manera mÃ¡s natural de interacciÃ³n y el ASR se puede usar en servicios de telefonÃa, interfaces hombre-mÃ¡quina para comandos establecidos, en mÃ¡quinas de dictado, etc. Por lo general, las tecnologÃas desarrolladas en ASR se basan en HMM (Hidden Markov Models) los que son capaces de abordar lenguaje natural y voz continua.

TecnologÃas de Voz para Aprendizaje de Idiomas

Una de las aplicaciones mÃ¡s importantes en tecnologÃas de voz tiene lugar en el Ã¡rea de aprendizaje de idiomas. Por ejemplo, en Chile un Ã¡rea de interÃ©s de investigaciÃ³n basada en tecnologÃa de voz es aprendizaje de InglÃ©s como segundo idioma. ASR y estimaciÃ³n de parÃ¡metros de prosodia se pueden investigar como herramientas para evaluar calidad de pronunciaciÃ³n.

Reconocimiento de Locutor

Reconocimiento de locutor es un proceso de reconocer automÃ¡ticamente quiÃ©n estÃ¡ hablando basado en la seÃ±al de voz como informaciÃ³n biomÃ©trica. Reconocimiento de locutor se divide en identificaciÃ³n del locutor (SI, Speaker Identification) y verificaciÃ³n del locutor (SV, Speaker Verification). SI corresponde a la tarea de asociar la voz grabada con uno de los N locutores. Consecuentemente, SI es un problema de clasificaciÃ³n 1:N. Por otro lado, en SV, la idea es confirmar o rechazar la identidad demandada por un locutor. Como resultado, SV es un problema 1:1.

Procesamiento Robusto de Voz

La robustez es una de las principales Ã¡reas de interÃ©s en investigaciÃ³n en sistemas ASR y SV. Algunos problemas de interÃ©s en el campo de tecnologÃas de voz basados en robustez son ruido aditivo, desajuste de canal, y distorsiÃ³n en codificaciÃ³n-decodificaciÃ³n.

QoS en Internet para AplicaciÃ³n en Tiempo Real

Internet estÃ¡ diseÃ±ado para trÃ¡fico basado en TCP el que a su vez puede ajustar su tasa de transmisiÃ³n de acuerdo a la condiciÃ³n de la red. Sin embargo, el desarrollo de varias nuevas aplicaciones de voz en tiempo real ha creado el problema de cÃ³mo garantizar niveles de calidad en el servicio (QoS Quality of Service).

TrasmisiÃ³n de Voz sobre IP

La transmisiÃ³n de voz sobre Internet se ve afectada por la pÃ©rdida de paquetes y la distorsiÃ³n en codificaciÃ³n y decodificaciÃ³n. Ciertos problemas de interÃ©s de investigaciÃ³n en este campo basados en transmisiÃ³n de voz sobre IP son la precisiÃ³n de ASR y la evaluaciÃ³n subjetiva de la calidad de la red IP.

EvaluaciÃ³n de la Usabilidad de Sistemas de DiÃ¡logo

El concepto de usabilidad intenta medir cuÃ¡n bien una interfaz se puede utilizar por usuarios para obtener efectivamente objetivos especÃficos, de manera eficiente y con satisfacciÃ³n en el contexto especÃfico de su uso. La evaluaciÃ³n de usabilidad se estudia para optimizar el diseÃ±o de los sistemas de diÃ¡logo desde el punto de vista del usuario y para evaluar la confiabilidad de un servicio dado proporcionado por ASR o SV.

Procesamiento de voz

Research Areas

Contact us