La lingüística de corpus [1] es una rama de la lingüística que se ocupa del desarrollo, creación y uso de corpus textuales . El término se introdujo en la década de 1960 en relación con el desarrollo de la práctica de crear casos que, desde la década de 1980, se vio facilitada por el desarrollo de la tecnología informática.
Un corpus lingüístico o lingüístico de textos es un conjunto de datos lingüísticos de gran formato legible por máquina, unificado, estructurado, marcado y filológicamente competente, diseñado para resolver problemas lingüísticos específicos [2] . Las principales características del corpus moderno son un formato legible por máquina, la representatividad y la presencia de información metalingüística [2] . La representatividad se logra mediante un procedimiento especial de selección de textos.
Un corpus lingüístico es una colección de textos recopilados de acuerdo con ciertos principios, marcados de acuerdo con un estándar determinado y provistos de un motor de búsqueda especializado. . A veces, un corpus ("corpus de primer orden") se llama simplemente cualquier colección de textos unidos por alguna característica común (lengua, género , autor, período de creación de textos).
La conveniencia de crear corpus de texto se explica por:
Brown Corpus (BK, inglés Brown Corpus , BC), que fue creado en la década de 1960 en la Universidad de Brown y contenía 500 fragmentos de textos de 2 mil palabras cada uno, que fueron publicados en inglés en Estados Unidos en 1961. Como resultado, estableció el estándar de 1 millón de usos de palabras para crear corpus representativos en otros idiomas. Según un modelo cercano a BK, en la década de 1970, se creó un diccionario de frecuencias de la lengua rusa Zasorina , construido sobre la base de un corpus de textos con un volumen de también 1 millón de palabras e incluyendo proporciones aproximadamente iguales de textos sociopolíticos. , ficción, textos científicos y de divulgación científica de diferentes áreas y dramaturgia. El cuerpo ruso, creado en la década de 1980 en la Universidad de Uppsala , Suecia, también se construyó sobre un modelo similar.
Un tamaño de un millón de palabras es suficiente para una descripción lexicográfica de sólo las palabras más frecuentes , ya que las palabras y construcciones gramaticales de frecuencia media ocurren varias veces por millón de palabras (desde un punto de vista estadístico, una lengua es un conjunto grande de eventos raros ). Entonces, cada una de las palabras ordinarias como inglés. educado (cortés) o ing. sunshine (sol) ocurre en BC solo 7 veces, la expresión es inglesa. carta cortés solo una vez, y expresiones tan estables como el inglés. conversación cortés, sonrisa, petición - nunca.
Por estas razones, y en relación con el crecimiento de la potencia informática capaz de trabajar con grandes volúmenes de textos, en la década de 1980 se realizaron varios intentos en todo el mundo para crear corpus más grandes. En el Reino Unido, tales proyectos fueron el Bank of English (Bank of English) de la Universidad de Birmingham y el British National Corpus ( British National Corpus , BNC). En la URSS, tal proyecto fue el Fondo de Máquinas del Idioma Ruso , creado por iniciativa de A. P. Ershov .
La presencia de una gran cantidad de textos en formato electrónico facilitó enormemente la tarea de crear grandes corpus representativos de decenas y cientos de millones de palabras, pero no eliminó los problemas: recopilar miles de textos, eliminar los problemas de derechos de autor, reunir todos los textos en un forma única, equilibrar el corpus por tema y género lleva mucho tiempo. Existen corpus representativos (o se están desarrollando) para alemán, polaco, checo, esloveno, finlandés, griego moderno, armenio, chino, japonés, búlgaro y otros idiomas.
El Corpus Nacional de la Lengua Rusa , creado en la Academia Rusa de Ciencias , actualmente contiene más de 500 millones de usos de palabras [4] .
Junto con corpus representativos que cubren una amplia gama de géneros y estilos funcionales, las colecciones oportunistas de textos se utilizan a menudo en la investigación lingüística, como periódicos (a menudo The Wall Street Journal y The New York Times ), fuentes de noticias ( Reuters ), colecciones de ficción ( Biblioteca de Maxim Moshkov o Proyecto Gutenberg ).
El corpus consta de un número finito de textos, pero está diseñado para reflejar adecuadamente los fenómenos lexicogramáticos propios de todo el volumen de textos en la lengua (o sublengua ) correspondiente. Para la representatividad, tanto el tamaño como la estructura del caso son importantes. El tamaño representativo depende de la tarea, ya que está determinado por la cantidad de ejemplos que se pueden encontrar para los fenómenos en estudio. Debido a que, desde un punto de vista estadístico, el idioma contiene una gran cantidad de palabras relativamente raras ( Ley de Zipf ), para estudiar las primeras cinco mil palabras más frecuentes (por ejemplo, pérdida, disculpa ), un corpus de aproximadamente Se requieren 10-20 millones de usos de palabras, mientras que cómo describir las primeras veinte mil palabras ( sin pretensiones, latido del corazón, enjambre ) ya requiere un corpus de más de cien millones de usos de palabras.
El marcado primario de textos incluye los pasos necesarios para cada corpus:
En grandes corpus, surge un problema que antes era irrelevante: una consulta de búsqueda puede producir cientos e incluso miles de resultados (contextos de uso), que son simplemente físicamente imposibles de ver en un tiempo limitado. Para resolver este problema, se están desarrollando sistemas que permiten agrupar los resultados de búsqueda y dividirlos automáticamente en subconjuntos ( agrupamiento de resultados de búsqueda ), o dar las frases más estables ( colocaciones ) con una evaluación estadística de su significado.
Una gran cantidad de textos disponibles en Internet se pueden utilizar como corpus (es decir, miles de millones de usos de palabras para los principales idiomas del mundo). Para los lingüistas, la forma más común de trabajar con Internet sigue siendo realizar consultas a un motor de búsqueda e interpretar los resultados ya sea por el número de páginas encontradas o por los primeros enlaces devueltos. Esta metodología se llama Googleología [5] . Cabe señalar que este enfoque es adecuado para resolver una clase limitada de problemas, ya que las herramientas de marcado de texto utilizadas en la web no describen una serie de características lingüísticas del texto (énfasis indicativo , clases gramaticales, límites de frase , etc.) . Además, el asunto se complica por la baja prevalencia de la disposición semántica .
En la práctica, las limitaciones de este enfoque conducen al hecho de que es más fácil verificar, por ejemplo, la compatibilidad de dos palabras a través de una consulta como "palabra1 palabra2". Con base en los resultados obtenidos, se puede juzgar qué tan común es esta combinación y en qué textos es más común. Véase también consultar estadísticas .
La segunda forma es extraer automáticamente una gran cantidad de páginas de Internet y luego usarlas como un corpus regular, lo que permite marcarlo y usar parámetros lingüísticos en las consultas. Este método le permite crear rápidamente un corpus representativo para cualquier idioma suficientemente representado en Internet, pero su diversidad de géneros y temáticas reflejará los intereses de los usuarios de Internet [6] .
El uso de Wikipedia como cuerpo de textos está ganando cada vez más popularidad en la comunidad científica [7] .
En 2006, apareció el sitio Tatoeba (Tatoeba), que le permite agregar libremente oraciones nuevas y cambiar oraciones existentes en varios idiomas, relacionadas en significado. Se basó solo en el corpus anglo-japonés, y ya ahora la cantidad de idiomas supera los 80, y la cantidad de oraciones es de 600,000 [8] . Cualquiera puede agregar nuevas oraciones y sus traducciones, y si es necesario, descargar todo o parte de todos los corpus de idiomas de forma gratuita.
De interés es el proyecto del corpus abierto de la lengua rusa , que no solo utiliza textos publicados bajo licencias libres, sino que también permite que cualquiera que quiera participe en el marcado lingüístico del corpus. Esta forma de crowdsourcing es posible al dividir la tarea de marcado en pequeñas tareas, la mayoría de las cuales pueden ser manejadas por una persona sin formación lingüística especial [9] . El corpus se actualiza constantemente, todos los textos y software relacionados con el mismo están disponibles bajo las licencias GNU GPL v2 y CC-BY-SA .
Lenguaje del cuerpo | |
---|---|
corpus ingleses |
|
corpus en ruso |
|
Corporación en otros idiomas |
|
Organizaciones |