Corpus de habla
El corpus de voz ( corpus de sonido ) es una base de datos de archivos de audio y transcripciones de textos, un tipo de corpus de textos . En las tecnologías del habla , los corpus de voz se utilizan, entre otras cosas, para crear modelos acústicos (que luego pueden usarse en motores de reconocimiento de voz ). En lingüística , los corpus de habla se utilizan para la investigación en fonética , dialectología , análisis conversacional y otros campos.
Hay dos tipos de corpus de habla:
1. Bases de textos bien leídos, que incluyen:
- textos de libros;
- textos de difusión de noticias;
- listas de palabras;
- secuencias de números.
2. Bases de grabaciones de audio de habla espontánea, que incluyen:
- los diálogos son conversaciones entre dos o más personas;
- historias orales (por ejemplo, Buckeye Corpus [1] );
- explicaciones cartográficas: una persona explica la ruta en el mapa a los demás;
- Tareas de citas: dos personas están tratando de encontrar el tiempo total de la reunión en función de horarios separados.
Un tipo especial de corpus de habla es una base de datos de textos hablados por personas que no son hablantes nativos que contienen habla con acento extranjero .
Notas
- ↑ Corpus Buckeye . Consultado el 6 de abril de 2018. Archivado desde el original el 23 de marzo de 2018. (indefinido)
Literatura
- Edwards, Jane / Lampert, Martin (eds.) (1992): Talking Data - Transcripción y codificación en la investigación del discurso. Hillsdale: Erlbaum.
- Leech, Geoffrey / Myers, Greg / Thomas, Jenny (eds.) (1995): Inglés hablado en computadora: transcripción, marcado y aplicación. Harlow: Longman.
Enlaces