Corpus de habla

El corpus de voz ( corpus de sonido ) es una base de datos de archivos de audio y transcripciones de textos, un tipo de corpus de textos . En las tecnologías del habla , los corpus de voz se utilizan, entre otras cosas, para crear modelos acústicos (que luego pueden usarse en motores de reconocimiento de voz ). En lingüística , los corpus de habla se utilizan para la investigación en fonética , dialectología , análisis conversacional y otros campos.

Hay dos tipos de corpus de habla:
1. Bases de textos bien leídos, que incluyen:

textos de libros;
textos de difusión de noticias;
listas de palabras;
secuencias de números.

2. Bases de grabaciones de audio de habla espontánea, que incluyen:

los diálogos son conversaciones entre dos o más personas;
historias orales (por ejemplo, Buckeye Corpus [1] );
explicaciones cartográficas: una persona explica la ruta en el mapa a los demás;
Tareas de citas: dos personas están tratando de encontrar el tiempo total de la reunión en función de horarios separados.

Un tipo especial de corpus de habla es una base de datos de textos hablados por personas que no son hablantes nativos que contienen habla con acento extranjero .

Notas

↑ Corpus Buckeye . Consultado el 6 de abril de 2018. Archivado desde el original el 23 de marzo de 2018. (indefinido)

Literatura

Edwards, Jane / Lampert, Martin (eds.) (1992): Talking Data - Transcripción y codificación en la investigación del discurso. Hillsdale: Erlbaum.
Leech, Geoffrey / Myers, Greg / Thomas, Jenny (eds.) (1995): Inglés hablado en computadora: transcripción, marcado y aplicación. Harlow: Longman.

Enlaces

procesamiento natural del lenguaje
Definiciones generales	corpus de textos corpus de habla Para las palabras bolsa de palabras Integridad de la IA N-grama Cifrado de bigrama trigrama
Análisis de texto	Segmentación de texto Marcaje parcial análisis de superficie Procesamiento de textos compuestos Extracción de colocaciones derivación lematización Reconocimiento de entidad nombrada Resolución de correferencia Análisis de sentimiento de texto Extracción de conceptos analizando Resolución de la polisemia léxica Extraer terminología Extracción de información Identificación de idioma Definición de caso
Referencia	Extrayendo oraciones Generación abstracta Referenciación multi-documento Simplificación de texto
Traducción automática	automatizado Híbrido Interlingüístico Basado en reglas Basado en ejemplos Basado en diccionario Basado en la transformación neural Estadístico Sincrónico
Identificación y recogida de datos	Reconocimiento de voz síntesis de voz Reconocimiento óptico de caracteres Generación de texto
Modelo Temático	colocación de pachinko Colocación latente de Dirichlet Análisis semántico latente
revisión por pares	Evaluación automatizada de ensayos concordante Entrada de texto predictivo Corrector gramatical Corrector ortográfico Adivinanzas de sintaxis
Interfaz de lenguaje natural	asistente virtual Interlocutor virtual sistema de preguntas y respuestas interfaz de voz Literatura Interactiva