El procesamiento de voz es un campo de investigación que involucra el estudio de las señales de voz y de todos aquellos métodos que se necesitan para su procesamiento. Entre las diversas áreas de investigación abordadas en procesamiento de voz las más frecuentes son:
El reconocimiento automático de voz (ASR, Automatic Speech Recognition) es el proceso de convertir una señal de voz, capturada por un aparato telefónico o un micrófono conectado a un computador, a información fonética y lingüÃstica pronunciada por un locutor. La voz es la manera más natural de interacción y el ASR se puede usar en servicios de telefonÃa, interfaces hombre-máquina para comandos establecidos, en máquinas de dictado, etc. Por lo general, las tecnologÃas desarrolladas en ASR se basan en HMM (Hidden Markov Models) los que son capaces de abordar lenguaje natural y voz continua.
TecnologÃas de Voz para Aprendizaje de Idiomas
Una de las aplicaciones más importantes en tecnologÃas de voz tiene lugar en el área de aprendizaje de idiomas. Por ejemplo, en Chile un área de interés de investigación basada en tecnologÃa de voz es aprendizaje de Inglés como segundo idioma. ASR y estimación de parámetros de prosodia se pueden investigar como herramientas para evaluar calidad de pronunciación.
Reconocimiento de locutor es un proceso de reconocer automáticamente quién está hablando basado en la señal de voz como información biométrica. Reconocimiento de locutor se divide en identificación del locutor (SI, Speaker Identification) y verificación del locutor (SV, Speaker Verification). SI corresponde a la tarea de asociar la voz grabada con uno de los N locutores. Consecuentemente, SI es un problema de clasificación 1:N. Por otro lado, en SV, la idea es confirmar o rechazar la identidad demandada por un locutor. Como resultado, SV es un problema 1:1.
La robustez es una de las principales áreas de interés en investigación en sistemas ASR y SV. Algunos problemas de interés en el campo de tecnologÃas de voz basados en robustez son ruido aditivo, desajuste de canal, y distorsión en codificación-decodificación.
QoS en Internet para Aplicación en Tiempo Real
Internet está diseñado para tráfico basado en TCP el que a su vez puede ajustar su tasa de transmisión de acuerdo a la condición de la red. Sin embargo, el desarrollo de varias nuevas aplicaciones de voz en tiempo real ha creado el problema de cómo garantizar niveles de calidad en el servicio (QoS Quality of Service).
La transmisión de voz sobre Internet se ve afectada por la pérdida de paquetes y la distorsión en codificación y decodificación. Ciertos problemas de interés de investigación en este campo basados en transmisión de voz sobre IP son la precisión de ASR y la evaluación subjetiva de la calidad de la red IP.
Evaluación de la Usabilidad de Sistemas de Diálogo
El concepto de usabilidad intenta medir cuán bien una interfaz se puede utilizar por usuarios para obtener efectivamente objetivos especÃficos, de manera eficiente y con satisfacción en el contexto especÃfico de su uso. La evaluación de usabilidad se estudia para optimizar el diseño de los sistemas de diálogo desde el punto de vista del usuario y para evaluar la confiabilidad de un servicio dado proporcionado por ASR o SV.