Corpus Nacional de Inglés Americano

El American National Corpus ( ANC) es un corpus de textos en  inglés estadounidense que contiene 22 millones de palabras de fuentes escritas y orales publicadas desde 1990. El ANC incluye una serie de textos de nuevas fuentes, incluidos correos electrónicos , tweets y texto de páginas web , que no están incluidos en corpus en inglés anteriores, como el British National Corpus . Implementa concordancia de parte del discurso con lematización , incluidos nombres propios y análisis superficial .

ANC está disponible para los miembros del Consorcio de datos lingüísticos . Un recurso (subcorpus) que contiene 15 millones de palabras del corpus se denomina Open American National Corpus (OANC) y está disponible públicamente en el sitio web de ANC [1] .

Los textos del Corpus se forman de acuerdo con los requisitos del comité técnico ISO/TC 37 "Marco de Anotación Lingüística". Gracias a la herramienta de transducción ANC2Go disponible públicamente, los fragmentos de corpus generados por el usuario y las anotaciones se presentan en varios formatos, como CoNLL IOB, un formato XML que cumple con el estándar de codificación XCES (que se puede usar en el British National Corpus XAIRA motor de búsqueda ), formato compatible con UIMA y formatos adecuados para una amplia gama de programas de concordancia. Los complementos también están disponibles para importar anotaciones en el sistema de procesamiento de lenguaje natural GATE .

ANC se diferencia de otros corpus en inglés en su extensa anotación, que incluye varias etiquetas de parte del discurso (etiquetas Penn, etiquetas CLAWS5 y CLAWS7), anotaciones de análisis superficiales y anotaciones para varios tipos de objetos con nombre. Se agregan anotaciones adicionales a todo el corpus o partes de él a medida que está disponible, a menudo como resultado de otros proyectos. A diferencia de los corpus de texto en línea, que, debido a las restricciones de derechos de autor, solo brindan acceso a oraciones individuales, todo el corpus de ANC está disponible para investigación, incluido el desarrollo de modelos estadísticos de lenguaje y anotaciones lingüísticas de texto completo.

Las anotaciones ANC se generan automáticamente y no se validan. La sección de 500.000 palabras de OANC, conocida como el subcorpus ANC anotado a mano (MASC), contiene anotaciones para unos 20 tipos diferentes de anotaciones lingüísticas que se revisan o crean manualmente. Estos incluyen la anotación sintáctica Penn Treebank, las redes semánticas WordNet y FrameNet , y otras. Al igual que OANC, MASC está disponible gratuitamente para cualquier uso y puede descargarse del sitio web de ANC o del Consorcio de datos lingüísticos. También se distribuye con Natural Language Toolkit , un paquete de bibliotecas y programas para el procesamiento simbólico y estadístico del lenguaje natural .

El ANC y sus subcorpora difieren de corpus de texto similares principalmente en las características de las anotaciones lingüísticas y la inclusión de textos en géneros contemporáneos que no se encuentran en recursos como el British National Corpus , por ejemplo . Además, dado que el propósito original de ANC es desarrollar modelos de lenguaje estadístico, los datos completos y todas las anotaciones están disponibles para los usuarios de ANC, a diferencia del Corpus of Modern American English (COCA), cuyos textos solo están disponibles de forma selectiva a través de un navegador web.

El crecimiento de las bases de texto OANC y MASC continúa con la adición de datos y anotaciones producidas por las comunidades de lingüística computacional y lingüística de corpus .

Notas

  1. El Corpus Nacional Americano Abierto . Consultado el 7 de abril de 2018. Archivado desde el original el 24 de febrero de 2018.

Literatura

Enlaces