cuerpo nacional británico | |
---|---|
URL | www.natcorp.ox.ac.uk |
tipo de sitio | Literatura cientifica |
Idiomas) | Inglés británico |
ubicación del servidor | |
Autor | Oxford University Press , Longman , W. & R. Chambers |
Comienzo del trabajo | 1994 |
El British National Corpus ( BNC ) es un corpus de 100 millones de palabras de inglés británico escrito y hablado de una amplia gama de fuentes [1] [2] [3] . El corpus cubre el inglés británico de finales del siglo XX, representado por una amplia variedad de géneros , y pretende ser representativo del inglés británico típico hablado y escrito de la época.
Tres editoriales ( Oxford University Press como colaborador principal, y Longman y W. & R. Chambers ), dos universidades ( Oxford y Lancaster ) y la Biblioteca Británica [2] colaboraron en el proyecto para crear el BNC .
La creación de BNC comenzó en 1991 bajo el liderazgo del consorcio BNC y se completó en 1994. Después de 1994, no se agregaron nuevos ejemplos, pero BNC experimentó cambios menores antes del lanzamiento del segundo (BNC World, 2001) y tercero (BNC Edición XML, 2007) ediciones [4] .
Desde el punto de vista de los lingüistas computacionales , se suponía que BNC era un corpus moderno, en el momento de la compilación, que ocurría en el lenguaje de la vida real , ya sea hablado o escrito . Como resultado, el BNC se compiló en un formato compatible con la computadora para permitir la búsqueda y el procesamiento automáticos mediante métodos lingüísticos de corpus . Una de las diferencias entre la BNC y los corpus existentes en esa época era la apertura de los datos para su uso no solo en la investigación científica, sino también con fines comerciales y educativos [3] .
Los creadores limitaron el corpus solo al inglés británico , sin la intención de incluir ejemplos del uso del inglés mundial . Esto se hizo en parte porque una parte significativa del costo del proyecto fue pagada por el gobierno británico, que naturalmente estaba interesado en apoyar la documentación de la diversidad lingüística de su país [3] .
Construir un corpus del tamaño sin precedentes del BNC requirió financiamiento tanto de instituciones comerciales como académicas. A su vez, los datos de BNC posteriormente estuvieron disponibles para uso comercial e investigación científica [3] .
El BNC es un corpus monolingüe , ya que solo contiene muestras de inglés británico, aunque en ocasiones aparecen en los textos palabras y frases de otros idiomas. Este es un corpus sincrónico, ya que contiene ejemplos del uso de la lengua de un solo período de tiempo: finales del siglo XX. Por esta razón, el BNC no puede servir como fuente de datos sobre la historia del desarrollo del inglés británico [4] . Desde un principio, los involucrados en la recopilación de datos escritos buscaron hacer del BNC un corpus equilibrado y, en consecuencia, buscaron e incluyeron datos de varias fuentes [3] .
El 90% del corpus consta de ejemplos del uso de la lengua escrita . Estos ejemplos fueron tomados de periódicos regionales y nacionales, revistas científicas y publicaciones periódicas de diversos campos científicos, ficción y periodismo , tanto de materiales publicados como inéditos (como folletos, cartas, ensayos de estudiantes, guiones, discursos), así como de muchos otros fuentes [5] .
Corpus conversacionalEl 10 % restante del material de BNC son patrones de uso del lenguaje hablado que se presentaron y registraron mediante transcripción práctica .
El corpus conversacional consta de dos partes. La parte demográfica contiene una transcripción de conversaciones espontáneas que tuvieron lugar en condiciones reales con la participación de voluntarios de diversas edades, regiones y estratos sociales. Estas conversaciones tuvieron lugar en una variedad de situaciones, incluidas reuniones de negocios o gubernamentales y discusiones en transmisiones de radio o por teléfono [5] . Esto se hizo para tener en cuenta tanto la distribución demográfica del idioma hablado como la diversidad lingüística significativa del idioma debido al contexto [6] .
La segunda parte del corpus coloquial incluye muestras sensibles al contexto, como transcripciones de grabaciones preparadas durante reuniones o eventos especiales.
Todas las grabaciones originales transcritas para su inclusión en el BNC se han colocado en el Archivo de Sonido de la Biblioteca Británica . La mayoría de las entradas están disponibles en el sitio web del Laboratorio Fonético de la Universidad de Oxford .
El paquete BNC contiene marcas parciales . Para ello, al crear el casco, se utilizó el sistema de marcado CLAWS. Este sistema pasó por una serie de modificaciones antes de que se recibiera el último: CLAWS4, que se utilizó en el caso. El sistema CLAWS1 se basó en un modelo oculto de Markov y pudo marcar correctamente del 96% al 97% de cualquier texto. Al pasar de CLAWS1 a CLAWS2, ha desaparecido la necesidad de preparar manualmente el texto antes de iniciar el proceso de marcado. CLAWS4 incluye mejoras como una desambiguación léxica más poderosa y variación ortográfica. El trabajo adicional en el sistema de marcado se ha centrado en aumentar la tasa de éxito del marcado automático y reducir el trabajo manual de preparación de textos antes de iniciar el marcado mediante la introducción de software adicional para reemplazar el trabajo manual [2] [7] .
Posteriormente, se agregaron marcas para indicar la ambigüedad de ciertas palabras y expresiones. Al mismo tiempo, a pesar de la capacidad de CLAWS4 para determinar automáticamente los tipos de voz y los significados de las palabras, se mantuvo la necesidad del marcado manual, ya que CLAWS4 no admite otros idiomas además del inglés [8] [9] .
Se publicaron dos subgrupos (subconjuntos de datos BNC) con los nombres BNC Baby y BNC Sampler. Ambos subcorpus pueden obtenerse solicitándolos desde el sitio web de BNC [10] .
BNC Baby es un subcorpus de BNC que consta de cuatro conjuntos de muestras de un millón de palabras cada uno. Las palabras de cada conjunto corresponden a una categoría de género específica . Un conjunto de muestras contiene transcripciones de conversaciones, mientras que los tres conjuntos restantes contienen muestras de textos escritos de no ficción, ficción y periódicos . Al mismo tiempo, el marcado disponible en BNC [11] se conserva en el subcorpus . La última (tercera) edición se publicó en formato XML [12] .
El BNC Sampler es un subcuerpo que consta de dos partes. La primera parte contiene datos escritos, la segunda parte contiene habla coloquial. Cada parte contiene un millón de palabras. El BNC Sampler se usó originalmente para mejorar el proceso de marcado de BNC, lo que eventualmente condujo a la publicación de BNC World. A lo largo del proyecto, BNC Sampler ha mejorado a medida que aumenta la experiencia y el conocimiento del marcado. Como resultado, se creó el BNC Sampler que conocemos hoy [13] .
El corpus está marcado de acuerdo con las recomendaciones del consorcio Text Encoding Initiative (TEI) e incluye anotaciones lingüísticas completas e información contextual [14] .
Para usar el cuerpo de la herramienta de marcado parcial CLAWS4, debe comprar una licencia [15] . Como alternativa, puede utilizar el servicio de marcado proporcionado por la Universidad de Lancaster [16] .
BNC en sí se puede comprar con una licencia personal y colectiva. La edición BNC está disponible en formato XML y viene con el software del motor de búsqueda Xaira . El paquete se puede pedir a través del sitio web de BNC [17] .
Para la edición XML de BNC, se desarrolló un administrador de corpus BNCweb y está disponible en línea. Su interfaz es fácil de usar y admite consultas y análisis de materiales corpus [18] .
BNC fue el primer corpus de su tamaño disponible para una amplia audiencia. Quizás esto se debió a las formas estándar de acuerdos entre los titulares de los derechos de autor y el Consorcio, por un lado, y entre los usuarios del corpus y el Consorcio, por el otro. Los creadores del corpus buscaron celebrar un acuerdo de licencia estándar con los propietarios de los derechos de propiedad intelectual , una de cuyas disposiciones era la inclusión de material en el corpus sin pago de ninguna tarifa monetaria. Tal acuerdo fue facilitado por la originalidad y singularidad del caso [6] .
Sin embargo, ha resultado difícil mantener el anonimato de los colaboradores sin restar importancia a la importancia de su trabajo. Cualquier alusión opaca a la identidad del autor fue eliminada de los materiales del corpus. Al mismo tiempo, se consideró la posibilidad de reemplazar los nombres reales por otros nombres para preservar el anonimato, lo que, sin embargo, se consideró inadecuado [6] .
Además, inicialmente se pidió permiso a los autores para incluir solo versiones transcritas de su discurso, pero no para incluir el discurso en sí. Aunque dicho permiso podría solicitarse nuevamente, la búsqueda de los autores originales puede complicarse debido al proceso de anonimización en curso. Al mismo tiempo, se hicieron evidentes factores que agravaron la renuencia de los titulares de derechos de autor a donar sus materiales al corpus: los textos completos fueron excluidos del corpus, lo que llevó a una falta de motivación de los titulares de derechos de autor para distribuir información a través del corpus (especialmente debido a a su base no comercial) [6] .
A partir de 2001, el BNC aún carecía de una clasificación de los textos escritos que no sea por ámbito (periódicos, ficción, etc.), y una clasificación de los textos hablados que no sea por contexto y clase demográfica o socioeconómica de los participantes en la conversación. Por ejemplo, se incluyó en el corpus una gran variedad de muestras de texto ficticio ( novelas , cuentos , poemas , etc.) , pero faltaba información sobre sus subgéneros en los encabezados de muestra y la documentación BNC. Así, para los investigadores, el conocimiento de la diversidad de géneros era prácticamente inútil, ya que no les resultaba fácil obtener obras del subgénero buscado [19] .
En 2002, con el lanzamiento de una nueva versión del corpus - BNC World Edition, se intentó resolver el problema de la clasificación. Además de las esferas para textos orales y escritos, se identificaron 70 clases, lo que permitió a los investigadores extraer textos de un determinado género del corpus [20] .
Sin embargo, aún después de estas innovaciones, la implementación de la clasificación todavía tiene problemas, ya que la asignación de un género o subgénero a un texto se complica por varias sutilezas. La división en clases para los datos hablados es menos obvia que para los datos escritos, debido a la variedad mucho mayor de temas involucrados en las conversaciones. También existen problemas y ambigüedades con la definición de un subgénero de cualquier género, ya que la división en subgéneros en el corpus estaba predeterminada con fines de estandarización [20] .
Al crear el corpus, algunos textos se categorizaron incorrectamente, a menudo debido a encabezados engañosos. Por ejemplo, muchos textos con la palabra "conferencia" en el título son en realidad debates en el aula o seminarios educativos que involucran a pequeños grupos de personas, o conferencias populares dirigidas a una audiencia general (en lugar de conferencias para estudiantes universitarios ) [ 19] . Una de las razones de la clasificación errónea es que el género y el subgénero se pueden especificar para la mayoría de los textos, pero no para todos. Además, el texto en toda su extensión puede referirse a diferentes subgéneros, puede caer bajo la definición de diferentes géneros [20] .
La proporción de material escrito y hablado en BNC es 10:1 [6] . Esto se debe a que el costo de recopilar, transcribir y digitalizar un millón de palabras del mundo real es al menos 10 veces mayor que el costo de agregar un millón de palabras de los periódicos. Sin embargo, existe la opinión de que, dado que el habla oral y escrita son igualmente importantes, deben presentarse en proporciones iguales en el corpus [6] .
BNC no es muy útil para estudiar algunas características de la lengua hablada, ya que solo incluye transcripciones prácticas y las características paralingüísticas de la comunicación se indican muy superficialmente [21] .
Las relaciones entre algunas unidades léxicas son demasiado ambiguas para ser descubiertas de manera efectiva mediante consultas de búsqueda. Cualquier intento de buscar cláusulas atributivas le dará al usuario datos erróneos, proporcionando instancias del uso de pronombres interrogativos y la palabra "eso". Además, generalmente no es posible mediante programación identificar cláusulas subordinadas en las que se omiten los pronombres (como, por ejemplo, en "el hombre que vi"). Por la misma razón, es difícil determinar el uso de algunas categorías semánticas y pragmáticas (duda, desacuerdo, reconocimiento) [21] .
Según los materiales del corpus, es posible determinar si un discurso es pronunciado por un hombre o una mujer, pero es imposible saber a partir de ellos si la persona que pronuncia el discurso se dirige a un hombre o a una mujer [21] .
El BNC es un corpus muy diverso y mixto, por lo que no es adecuado para el estudio de ningún tipo o género de texto muy específico, ya que tal tipo o género probablemente sea extremadamente limitado y los textos de este tipo no son fáciles de encontrar. en el corpus. Por ejemplo, hay muy pocas cartas comerciales o reuniones gubernamentales grabadas en BNC, por lo que para estudiar sus detalles, es conveniente recopilar un corpus más pequeño que consista solo en textos de este tipo [21] .
Hay dos formas principales de utilizar el corpus en la enseñanza de idiomas: la creación de materiales metodológicos y el aprendizaje a través del análisis [21] .
Material didácticoLos editores e investigadores pueden usar las muestras del corpus para crear recomendaciones para el aprendizaje de idiomas, planes de estudios y otros materiales didácticos.
Por ejemplo, BNC fue utilizado por un grupo de investigadores japoneses como herramienta en el desarrollo de un sistema basado en la web para aprender inglés en ciertas áreas (negocios, medicina) [22] . El sistema proporcionó a los estudiantes acceso a las plantillas de oraciones más utilizadas para aprender de estos ejemplos. La fuente de tales propuestas en el sistema era BNC (las propuestas iban acompañadas de referencias a BNC para probar la realidad de la aplicación).
Aprendizaje a través del análisisEl análisis de corpus se puede incorporar directamente a los métodos de enseñanza de idiomas. En este caso, los estudiantes tienen la oportunidad de clasificar de forma independiente los datos lingüísticos del corpus y, por lo tanto, formarse una idea de los patrones y capacidades del idioma que se estudia en función de esta clasificación. Los datos de los corpus que se utilizan en este método de enseñanza son relativamente pequeños y, por lo tanto, pueden conducir a una generalización de ideas sobre el idioma que se estudia, que puede tener poco que ver con el estado real de las cosas [21] .
VariosBNC se puede utilizar como fuente de referencias al crear y analizar textos, por ejemplo, al estudiar el uso de palabras individuales en diferentes contextos. Esto le permite familiarizarse con diferentes formas de usar las mismas palabras [21] .
Además de la información relacionada con el idioma, el BNC también puede servir como fuente de datos enciclopédicos, como la cultura británica y los estereotipos populares en el Reino Unido [21] .
En India, en 2012, se utilizaron más de 12 000 palabras y frases de BNC para desarrollar 22 diccionarios de traducción de los idiomas locales al inglés. El desarrollo se llevó a cabo como parte del movimiento para reformar el sistema educativo y preservar las lenguas de los pueblos pequeños de la India [23] .
BNC, debido a su tamaño, es excelente para usar como material para pruebas de software [24] . Por ejemplo, se utilizó para probar las especificaciones del lenguaje de marcado de la Iniciativa de codificación de texto (TEI). Además, se utilizaron 20 millones de palabras del BNC para evaluar el sistema de asignación de subcategorías en el proyecto de análisis de significado de palabras Senseval [25] .
Un estudio de 2000 realizado por Hofmann y Lehmann que analizó los mecanismos que permiten a los humanos manejar libremente su enorme conjunto de colocaciones . En particular, se han estudiado dos mecanismos, uno de los cuales permite que las colocaciones estén siempre listas para usar, y el otro permite que las personas expandan fácilmente las colocaciones gramatical o sintácticamente para adaptarse a una situación específica. Para estos fines, raras combinaciones de palabras se han extraído de BNC [26] .
Un estudio de 2002 realizado por Fernández y Ginzburg, que examinó diálogos llenos de expresiones que terminaban solo intuitivamente y no contenían información fuera de contexto. Básicamente, estas son las típicas respuestas cortas a las preguntas. En el curso del estudio, se usaron fragmentos de datos BNC para compilar una clasificación completa y teóricamente sólida de tales declaraciones [27] .
Procesamiento del lenguaje naturalBNC se usa ampliamente en trabajos en el campo del procesamiento morfológico (una rama del procesamiento del lenguaje natural ). En particular, los datos de BNC se utilizan para probar la precisión, confiabilidad y velocidad de las herramientas de procesamiento de marcadores morfológicos en inglés británico [28] . Además, los datos del BNC se han utilizado para crear un amplio depósito de información sobre marcadores morfológicos en inglés [28] .
Generalmente se acepta entre los lingüistas computacionales y de corpus que BNC es un logro sobresaliente, un corpus de enorme tamaño. Gracias a los enormes esfuerzos para recopilar y procesar una gran cantidad de datos, BNC se ha convertido en uno de los corpus más valiosos. El BNC se considera un corpus modelo a partir del cual se desarrollan corpus posteriores (por ejemplo , corpus nacionales estadounidenses , checos y polacos ) [29] [30] .
En julio de 2014, Cambridge University Press y el Center for Corpus Approach to the Social Sciences de la Universidad de Lancaster anunciaron que se estaba trabajando para crear un nuevo British National Corpus [31] . La primera etapa del proyecto conjunto de estas dos instituciones fue la compilación de un nuevo corpus coloquial de inglés británico desde principios hasta mediados de la década de 2010 [32] .
Lenguaje del cuerpo | |
---|---|
corpus ingleses |
|
corpus en ruso |
|
Corporación en otros idiomas |
|
Organizaciones |