Corpus Nacional de Inglés Americano

El American National Corpus ( ANC) es un corpus de textos en inglés estadounidense que contiene 22 millones de palabras de fuentes escritas y orales publicadas desde 1990. El ANC incluye una serie de textos de nuevas fuentes, incluidos correos electrónicos , tweets y texto de páginas web , que no están incluidos en corpus en inglés anteriores, como el British National Corpus . Implementa concordancia de parte del discurso con lematización , incluidos nombres propios y análisis superficial .

ANC está disponible para los miembros del Consorcio de datos lingüísticos . Un recurso (subcorpus) que contiene 15 millones de palabras del corpus se denomina Open American National Corpus (OANC) y está disponible públicamente en el sitio web de ANC [1] .

Los textos del Corpus se forman de acuerdo con los requisitos del comité técnico ISO/TC 37 "Marco de Anotación Lingüística". Gracias a la herramienta de transducción ANC2Go disponible públicamente, los fragmentos de corpus generados por el usuario y las anotaciones se presentan en varios formatos, como CoNLL IOB, un formato XML que cumple con el estándar de codificación XCES (que se puede usar en el British National Corpus XAIRA motor de búsqueda ), formato compatible con UIMA y formatos adecuados para una amplia gama de programas de concordancia. Los complementos también están disponibles para importar anotaciones en el sistema de procesamiento de lenguaje natural GATE .

ANC se diferencia de otros corpus en inglés en su extensa anotación, que incluye varias etiquetas de parte del discurso (etiquetas Penn, etiquetas CLAWS5 y CLAWS7), anotaciones de análisis superficiales y anotaciones para varios tipos de objetos con nombre. Se agregan anotaciones adicionales a todo el corpus o partes de él a medida que está disponible, a menudo como resultado de otros proyectos. A diferencia de los corpus de texto en línea, que, debido a las restricciones de derechos de autor, solo brindan acceso a oraciones individuales, todo el corpus de ANC está disponible para investigación, incluido el desarrollo de modelos estadísticos de lenguaje y anotaciones lingüísticas de texto completo.

Las anotaciones ANC se generan automáticamente y no se validan. La sección de 500.000 palabras de OANC, conocida como el subcorpus ANC anotado a mano (MASC), contiene anotaciones para unos 20 tipos diferentes de anotaciones lingüísticas que se revisan o crean manualmente. Estos incluyen la anotación sintáctica Penn Treebank, las redes semánticas WordNet y FrameNet , y otras. Al igual que OANC, MASC está disponible gratuitamente para cualquier uso y puede descargarse del sitio web de ANC o del Consorcio de datos lingüísticos. También se distribuye con Natural Language Toolkit , un paquete de bibliotecas y programas para el procesamiento simbólico y estadístico del lenguaje natural .

El ANC y sus subcorpora difieren de corpus de texto similares principalmente en las características de las anotaciones lingüísticas y la inclusión de textos en géneros contemporáneos que no se encuentran en recursos como el British National Corpus , por ejemplo . Además, dado que el propósito original de ANC es desarrollar modelos de lenguaje estadístico, los datos completos y todas las anotaciones están disponibles para los usuarios de ANC, a diferencia del Corpus of Modern American English (COCA), cuyos textos solo están disponibles de forma selectiva a través de un navegador web.

El crecimiento de las bases de texto OANC y MASC continúa con la adición de datos y anotaciones producidas por las comunidades de lingüística computacional y lingüística de corpus .

Notas

↑ El Corpus Nacional Americano Abierto . Consultado el 7 de abril de 2018. Archivado desde el original el 24 de febrero de 2018. (indefinido)

Literatura

Ide, N. (2008). El Corpus Nacional Estadounidense: entonces, ahora y mañana . En Michael Haugh, Kate Burridge, Jean Mulder y Pam Peters (eds.), Actas seleccionadas del Taller HCSNet 2008 sobre el diseño del Corpus nacional australiano: Reunión de idiomas, Proyecto de actas de Cascadilla, Sommerville, MA.
Ide, N., Suderman, K. (2004). El primer lanzamiento del American National Corpus . Actas de la Cuarta Conferencia de Evaluación y Recursos Lingüísticos (LREC), Lisboa, 1681-84.
Ide, N., Baker, C., Fellbaum, C., Passonneau, R. (2010). El subcorpus anotado manualmente: un recurso comunitario para y por la gente

Enlaces

Lenguaje del cuerpo
corpus ingleses	Corpus Nacional de Inglés Americano banco de ingles Bergen Corpus of London Lenguaje adolescente cuerpo nacional británico Cuerpo Marrón corpus castaño de indias Corpus de inglés de Cambridge Corpus de inglés americano moderno Corpus de Enron Corpus internacional de inglés Corpus Lancaster-Oslo-Bergen Corpus de inglés de Oxford Banco de accesorios Corpus de inglés hablado HORA VerbNet Wellington Corpus de inglés hablado de Nueva Zelanda
corpus en ruso	Corpus general de Internet de la lengua rusa Cuerpo Nacional Ruso Corpus abierto de la lengua rusa SinTagRus Corpus de Tübingen de la lengua rusa Uppsala corpus de textos rusos Corpus anotado de Helsinki de la lengua rusa
Corporación en otros idiomas	Corpus de Bijankhan NIÑOS Corpus de croata Corpus Nacional Croata Corpus Europarl Cuerpo alemán de Mannheim Cuerpo Hamshahri Corpus Nacional Polaco Proyecto de corpus de texto neoasirio corpus coránico Corpus Nacional Escocés Corpus Nacional de Eslovenia hablar de banco Tatoeba Corpus monolingüe de Teherán Tekstaro de Esperanto Diccionario de sinónimos Linguae Graecae
Organizaciones	Consorcio BNC CONSTRUIR