Corpus de inglés americano moderno

La versión actual de la página aún no ha sido revisada por colaboradores experimentados y puede diferir significativamente de la versión revisada el 6 de septiembre de 2021; las comprobaciones requieren 3 ediciones .

El Corpus of Contemporary American English ( COCA ) es un corpus electrónico de textos creado por el profesor de lingüística de corpus Mark Davis de la Universidad Brigham Young en 2000-2003, basado en textos de la revista Time escritos desde 1923 [1] .

Es el corpus de textos más grande (450 millones de palabras) en inglés americano y el único corpus disponible gratuitamente en este idioma, que incluye una amplia variedad de textos de diversos géneros . Está compuesto por más de 160.000 textos, incluyendo 20 millones de palabras cada año desde 1990 hasta 2011. Es el corpus estructurado de textos más utilizado, con aproximadamente 10.000 usuarios mensuales.

Composición

Otro Cuerpo Davis

Corpus de la revista TIME

El corpus está compuesto por más de 275 000 artículos del archivo de la revista TIME, archivado el 20 de octubre de 2013 en Wayback Machine y contiene más de 100 millones de palabras de textos escritos entre 1923 y 2006. TIME Magazine Corpus está integrado en un sistema común de otros corpus creados por Mark Davis (que también incluye las bases de datos Corpus of Historical American English (COHA), Corpus del Español o Corpus of American Soap Operas) [2] .

Cómo funciona

La arquitectura del corpus se basa en el principio de otros proyectos de Mark Davis, como el Corpus of Contemporary American English (COCA) . Existe una base de datos central de n-gramas que contiene información sobre cada uno de los cien millones de palabras del corpus. Están vinculados a tablas que permiten el análisis de caso, así como tablas separadas para sinónimos, lemas y formas que aparecen con una palabra a lo largo del tiempo.

Los textos se marcaron utilizando el CLAWS-tagger (Sistema de etiquetado automático de palabras de probabilidad constituyente) [3] . El mismo programa se utilizó en la creación de otros Mark Davis Corps, así como el British National Corps .

El hardware para el corpus ha sido elegido para proporcionar búsquedas extremadamente rápidas, por lo general tarda menos de un segundo incluso para las consultas más complejas que contienen forma de palabra, parte del discurso, frecuencia y caso.

Usos

TIME Magazine Corpus le permite buscar tanto palabras y frases individuales, como formas gramaticales específicas o series de sinónimos, así como ver el contexto de su uso y el cambio en la frecuencia de uso.

El corpus le permite explorar:

cambio en la frecuencia y contexto del uso de palabras y frases asociadas con cambios en la vida cultural y social de la sociedad
cambios en la morfología y construcciones gramaticales del lenguaje
fluctuaciones en la frecuencia de uso de ciertos grupos de palabras a lo largo del tiempo
cambios semánticos en las palabras a lo largo del siglo XX

Acceso

El acceso al edificio es gratuito.

Es necesario registrarse con la provisión de una dirección de correo electrónico o información sobre la organización y el estado del usuario, según el nivel de acceso requerido. Hay cinco niveles de acceso en tres categorías: no investigador, semi-investigador, investigador. Todos ellos difieren en la cantidad de información proporcionada por día (si un usuario novato puede realizar 100 solicitudes por día, entonces un profesor o estudiante graduado registrado como investigador puede buscar 600 veces en el mismo período de tiempo).

Véase también

Cuerpo Nacional Ruso

Notas

↑ Kauhanen, Henri The Corpus of Contemporary American English: Antecedentes e historia . VARIENG (21 de marzo de 2011). Consultado el 13 de octubre de 2011. Archivado desde el original el 12 de enero de 2012. (indefinido)
↑ Lista de corpus creados por Mark Davis . Archivado el 7 de noviembre de 2013 en Wayback Machine . Según Google Analytics a partir de marzo de 2012. Archivado el 6 de noviembre de 2013 en Wayback Machine , más de 100 000 usuarios únicos usan esta base de datos cada mes.
↑ Etiquetador de parte del discurso CLAWS para inglés . Consultado el 27 de octubre de 2013. Archivado desde el original el 2 de abril de 2019. (indefinido)

Enlaces

Lenguaje del cuerpo
corpus ingleses	Corpus Nacional de Inglés Americano banco de ingles Bergen Corpus of London Lenguaje adolescente cuerpo nacional británico Cuerpo Marrón corpus castaño de indias Corpus de inglés de Cambridge Corpus de inglés americano moderno Corpus de Enron Corpus internacional de inglés Corpus Lancaster-Oslo-Bergen Corpus de inglés de Oxford Banco de accesorios Corpus de inglés hablado HORA VerbNet Wellington Corpus de inglés hablado de Nueva Zelanda
corpus en ruso	Corpus general de Internet de la lengua rusa Cuerpo Nacional Ruso Corpus abierto de la lengua rusa SinTagRus Corpus de Tübingen de la lengua rusa Uppsala corpus de textos rusos Corpus anotado de Helsinki de la lengua rusa
Corporación en otros idiomas	Corpus de Bijankhan NIÑOS Corpus de croata Corpus Nacional Croata Corpus Europarl Cuerpo alemán de Mannheim Cuerpo Hamshahri Corpus Nacional Polaco Proyecto de corpus de texto neoasirio corpus coránico Corpus Nacional Escocés Corpus Nacional de Eslovenia hablar de banco Tatoeba Corpus monolingüe de Teherán Tekstaro de Esperanto Diccionario de sinónimos Linguae Graecae
Organizaciones	Consorcio BNC CONSTRUIR