Corpus de inglés americano moderno

La versión actual de la página aún no ha sido revisada por colaboradores experimentados y puede diferir significativamente de la versión revisada el 6 de septiembre de 2021; las comprobaciones requieren 3 ediciones .

El Corpus of Contemporary American English  ( COCA ) es un corpus electrónico de textos creado por el profesor de lingüística de corpus Mark Davis de la Universidad Brigham Young en 2000-2003, basado en textos de la revista Time escritos desde 1923 [1] .

Es el corpus de textos más grande (450 millones de palabras) en inglés americano y el único corpus disponible gratuitamente en este idioma, que incluye una amplia variedad de textos de diversos géneros . Está compuesto por más de 160.000 textos, incluyendo 20 millones de palabras cada año desde 1990 hasta 2011. Es el corpus estructurado de textos más utilizado, con aproximadamente 10.000 usuarios mensuales.

Composición

Otro Cuerpo Davis

Corpus de la revista TIME

El corpus está compuesto por más de 275 000 artículos del archivo de la revista TIME, archivado el 20 de octubre de 2013 en Wayback Machine y contiene más de 100 millones de palabras de textos escritos entre 1923 y 2006. TIME Magazine Corpus está integrado en un sistema común de otros corpus creados por Mark Davis (que también incluye las bases de datos Corpus of Historical American English (COHA), Corpus del Español o Corpus of American Soap Operas) [2] .

Cómo funciona

La arquitectura del corpus se basa en el principio de otros proyectos de Mark Davis, como el Corpus of Contemporary American English (COCA) . Existe una base de datos central de n-gramas que contiene información sobre cada uno de los cien millones de palabras del corpus. Están vinculados a tablas que permiten el análisis de caso, así como tablas separadas para sinónimos, lemas y formas que aparecen con una palabra a lo largo del tiempo.

Los textos se marcaron utilizando el CLAWS-tagger (Sistema de etiquetado automático de palabras de probabilidad constituyente) [3] . El mismo programa se utilizó en la creación de otros Mark Davis Corps, así como el British National Corps .

El hardware para el corpus ha sido elegido para proporcionar búsquedas extremadamente rápidas, por lo general tarda menos de un segundo incluso para las consultas más complejas que contienen forma de palabra, parte del discurso, frecuencia y caso.

Usos

TIME Magazine Corpus le permite buscar tanto palabras y frases individuales, como formas gramaticales específicas o series de sinónimos, así como ver el contexto de su uso y el cambio en la frecuencia de uso.

El corpus le permite explorar:

Acceso

El acceso al edificio es gratuito.

Es necesario registrarse con la provisión de una dirección de correo electrónico o información sobre la organización y el estado del usuario, según el nivel de acceso requerido. Hay cinco niveles de acceso en tres categorías: no investigador, semi-investigador, investigador. Todos ellos difieren en la cantidad de información proporcionada por día (si un usuario novato puede realizar 100 solicitudes por día, entonces un profesor o estudiante graduado registrado como investigador puede buscar 600 veces en el mismo período de tiempo).

Véase también

Notas

  1. Kauhanen, Henri The Corpus of Contemporary American English: Antecedentes e historia . VARIENG (21 de marzo de 2011). Consultado el 13 de octubre de 2011. Archivado desde el original el 12 de enero de 2012.
  2. Lista de corpus creados por Mark Davis . Archivado el 7 de noviembre de 2013 en Wayback Machine . Según Google Analytics a partir de marzo de 2012. Archivado el 6 de noviembre de 2013 en Wayback Machine , más de 100 000 usuarios únicos usan esta base de datos cada mes.
  3. Etiquetador de parte del discurso CLAWS para inglés . Consultado el 27 de octubre de 2013. Archivado desde el original el 2 de abril de 2019.

Enlaces