El Corpus of Contemporary American English ( COCA ) es un corpus electrónico de textos creado por el profesor de lingüística de corpus Mark Davis de la Universidad Brigham Young en 2000-2003, basado en textos de la revista Time escritos desde 1923 [1] .
Es el corpus de textos más grande (450 millones de palabras) en inglés americano y el único corpus disponible gratuitamente en este idioma, que incluye una amplia variedad de textos de diversos géneros . Está compuesto por más de 160.000 textos, incluyendo 20 millones de palabras cada año desde 1990 hasta 2011. Es el corpus estructurado de textos más utilizado, con aproximadamente 10.000 usuarios mensuales.
El corpus está compuesto por más de 275 000 artículos del archivo de la revista TIME, archivado el 20 de octubre de 2013 en Wayback Machine y contiene más de 100 millones de palabras de textos escritos entre 1923 y 2006. TIME Magazine Corpus está integrado en un sistema común de otros corpus creados por Mark Davis (que también incluye las bases de datos Corpus of Historical American English (COHA), Corpus del Español o Corpus of American Soap Operas) [2] .
La arquitectura del corpus se basa en el principio de otros proyectos de Mark Davis, como el Corpus of Contemporary American English (COCA) . Existe una base de datos central de n-gramas que contiene información sobre cada uno de los cien millones de palabras del corpus. Están vinculados a tablas que permiten el análisis de caso, así como tablas separadas para sinónimos, lemas y formas que aparecen con una palabra a lo largo del tiempo.
Los textos se marcaron utilizando el CLAWS-tagger (Sistema de etiquetado automático de palabras de probabilidad constituyente) [3] . El mismo programa se utilizó en la creación de otros Mark Davis Corps, así como el British National Corps .
El hardware para el corpus ha sido elegido para proporcionar búsquedas extremadamente rápidas, por lo general tarda menos de un segundo incluso para las consultas más complejas que contienen forma de palabra, parte del discurso, frecuencia y caso.
TIME Magazine Corpus le permite buscar tanto palabras y frases individuales, como formas gramaticales específicas o series de sinónimos, así como ver el contexto de su uso y el cambio en la frecuencia de uso.
El corpus le permite explorar:
El acceso al edificio es gratuito.
Es necesario registrarse con la provisión de una dirección de correo electrónico o información sobre la organización y el estado del usuario, según el nivel de acceso requerido. Hay cinco niveles de acceso en tres categorías: no investigador, semi-investigador, investigador. Todos ellos difieren en la cantidad de información proporcionada por día (si un usuario novato puede realizar 100 solicitudes por día, entonces un profesor o estudiante graduado registrado como investigador puede buscar 600 veces en el mismo período de tiempo).
Lenguaje del cuerpo | |
---|---|
corpus ingleses |
|
corpus en ruso |
|
Corporación en otros idiomas |
|
Organizaciones |