Lenguaje del cuerpo

La lingüística de corpus [1]  es una rama de la lingüística que se ocupa del desarrollo, creación y uso de corpus textuales . El término se introdujo en la década de 1960 en relación con el desarrollo de la práctica de crear casos que, desde la década de 1980, se vio facilitada por el desarrollo de la tecnología informática.

Un corpus lingüístico o lingüístico de textos  es un conjunto de datos lingüísticos de gran formato legible por máquina, unificado, estructurado, marcado y filológicamente competente, diseñado para resolver problemas lingüísticos específicos [2] . Las principales características del corpus moderno son un formato legible por máquina, la representatividad y la presencia de información metalingüística [2] . La representatividad se logra mediante un procedimiento especial de selección de textos.

Un corpus lingüístico es una colección de textos recopilados de acuerdo con ciertos principios, marcados de acuerdo con un estándar determinado y provistos de un motor de búsqueda especializado. . A veces, un corpus ("corpus de primer orden") se llama simplemente cualquier colección de textos unidos por alguna característica común (lengua, género , autor, período de creación de textos).

La conveniencia de crear corpus de texto se explica por:

Historia

Brown Corpus (BK, inglés  Brown Corpus , BC), que fue creado en la década de 1960 en la Universidad de Brown y contenía 500 fragmentos de textos de 2 mil palabras cada uno, que fueron publicados en inglés en Estados Unidos en 1961. Como resultado, estableció el estándar de 1 millón de usos de palabras para crear corpus representativos en otros idiomas. Según un modelo cercano a BK, en la década de 1970, se creó un diccionario de frecuencias de la lengua rusa Zasorina , construido sobre la base de un corpus de textos con un volumen de también 1 millón de palabras e incluyendo proporciones aproximadamente iguales de textos sociopolíticos. , ficción, textos científicos y de divulgación científica de diferentes áreas y dramaturgia. El cuerpo ruso, creado en la década de 1980 en la Universidad de Uppsala , Suecia, también se construyó sobre un modelo similar.

Un tamaño de un millón de palabras es suficiente para una descripción lexicográfica de sólo las palabras más frecuentes , ya que las palabras y construcciones gramaticales de frecuencia media ocurren varias veces por millón de palabras (desde un punto de vista estadístico, una lengua es un conjunto grande de eventos raros ). Entonces, cada una de las palabras ordinarias como inglés.  educado (cortés) o ing.  sunshine (sol) ocurre en BC solo 7 veces, la expresión es inglesa.  carta cortés solo una vez, y expresiones tan estables como el inglés.  conversación cortés, sonrisa, petición  - nunca.

Por estas razones, y en relación con el crecimiento de la potencia informática capaz de trabajar con grandes volúmenes de textos, en la década de 1980 se realizaron varios intentos en todo el mundo para crear corpus más grandes. En el Reino Unido, tales proyectos fueron el Bank of English (Bank of English) de la Universidad de Birmingham y el British National Corpus ( British National Corpus , BNC). En la URSS, tal proyecto fue el Fondo de Máquinas del Idioma Ruso , creado por iniciativa de A. P. Ershov .

Estado actual

La presencia de una gran cantidad de textos en formato electrónico facilitó enormemente la tarea de crear grandes corpus representativos de decenas y cientos de millones de palabras, pero no eliminó los problemas: recopilar miles de textos, eliminar los problemas de derechos de autor, reunir todos los textos en un forma única, equilibrar el corpus por tema y género lleva mucho tiempo. Existen corpus representativos (o se están desarrollando) para alemán, polaco, checo, esloveno, finlandés, griego moderno, armenio, chino, japonés, búlgaro y otros idiomas.

El Corpus Nacional de la Lengua Rusa , creado en la Academia Rusa de Ciencias , actualmente contiene más de 500 millones de usos de palabras [4] .

Junto con corpus representativos que cubren una amplia gama de géneros y estilos funcionales, las colecciones oportunistas de textos se utilizan a menudo en la investigación lingüística, como periódicos (a menudo The Wall Street Journal y The New York Times ), fuentes de noticias ( Reuters ), colecciones de ficción ( Biblioteca de Maxim Moshkov o Proyecto Gutenberg ).

Problemas

El problema de la representatividad

El corpus consta de un número finito de textos, pero está diseñado para reflejar adecuadamente los fenómenos lexicogramáticos propios de todo el volumen de textos en la lengua (o sublengua ) correspondiente. Para la representatividad, tanto el tamaño como la estructura del caso son importantes. El tamaño representativo depende de la tarea, ya que está determinado por la cantidad de ejemplos que se pueden encontrar para los fenómenos en estudio. Debido a que, desde un punto de vista estadístico, el idioma contiene una gran cantidad de palabras relativamente raras ( Ley de Zipf ), para estudiar las primeras cinco mil palabras más frecuentes (por ejemplo, pérdida, disculpa ), un corpus de aproximadamente Se requieren 10-20 millones de usos de palabras, mientras que cómo describir las primeras veinte mil palabras ( sin pretensiones, latido del corazón, enjambre ) ya requiere un corpus de más de cien millones de usos de palabras.

El problema del marcado

El marcado primario de textos incluye los pasos necesarios para cada corpus:

Problema de presentación

En grandes corpus, surge un problema que antes era irrelevante: una consulta de búsqueda puede producir cientos e incluso miles de resultados (contextos de uso), que son simplemente físicamente imposibles de ver en un tiempo limitado. Para resolver este problema, se están desarrollando sistemas que permiten agrupar los resultados de búsqueda y dividirlos automáticamente en subconjuntos ( agrupamiento de resultados de búsqueda ), o dar las frases más estables ( colocaciones ) con una evaluación estadística de su significado.

La web como corpus

Uso de motores de búsqueda

Una gran cantidad de textos disponibles en Internet se pueden utilizar como corpus (es decir, miles de millones de usos de palabras para los principales idiomas del mundo). Para los lingüistas, la forma más común de trabajar con Internet sigue siendo realizar consultas a un motor de búsqueda e interpretar los resultados ya sea por el número de páginas encontradas o por los primeros enlaces devueltos. Esta metodología se llama  Googleología [5] . Cabe señalar que este enfoque es adecuado para resolver una clase limitada de problemas, ya que las herramientas de marcado de texto utilizadas en la web no describen una serie de características lingüísticas del texto (énfasis indicativo , clases gramaticales, límites de frase , etc.) . Además, el asunto se complica por la baja prevalencia de la disposición semántica .

En la práctica, las limitaciones de este enfoque conducen al hecho de que es más fácil verificar, por ejemplo, la compatibilidad de dos palabras a través de una consulta como "palabra1 palabra2". Con base en los resultados obtenidos, se puede juzgar qué tan común es esta combinación y en qué textos es más común. Véase también consultar estadísticas .

Uso de páginas web

La segunda forma es extraer automáticamente una gran cantidad de páginas de Internet y luego usarlas como un corpus regular, lo que permite marcarlo y usar parámetros lingüísticos en las consultas. Este método le permite crear rápidamente un corpus representativo para cualquier idioma suficientemente representado en Internet, pero su diversidad de géneros y temáticas reflejará los intereses de los usuarios de Internet [6] .

El uso de Wikipedia como cuerpo de textos está ganando cada vez más popularidad en la comunidad científica [7] .

El Proyecto Tatoeba

En 2006, apareció el sitio Tatoeba (Tatoeba), que le permite agregar libremente oraciones nuevas y cambiar oraciones existentes en varios idiomas, relacionadas en significado. Se basó solo en el corpus anglo-japonés, y ya ahora la cantidad de idiomas supera los 80, y la cantidad de oraciones es de 600,000 [8] . Cualquiera puede agregar nuevas oraciones y sus traducciones, y si es necesario, descargar todo o parte de todos los corpus de idiomas de forma gratuita.

Corpus abierto ruso

De interés es el proyecto del corpus abierto de la lengua rusa , que no solo utiliza textos publicados bajo licencias libres, sino que también permite que cualquiera que quiera participe en el marcado lingüístico del corpus. Esta forma de crowdsourcing es posible al dividir la tarea de marcado en pequeñas tareas, la mayoría de las cuales pueden ser manejadas por una persona sin formación lingüística especial [9] . El corpus se actualiza constantemente, todos los textos y software relacionados con el mismo están disponibles bajo las licencias GNU GPL v2 y CC-BY-SA .

Véase también

Notas

  1. Hay acentos tanto en la primera como en la penúltima sílaba. “... el adjetivo debe pronunciarse con acento en la primera sílaba -“ cuerpo ”(Gran Diccionario Explicativo de la Lengua Rusa, San Petersburgo, 1998). Al mismo tiempo, un análisis del uso de los especialistas hasta ahora atestigua a favor de las formas "cuerpo", "cuerpo", "cuerpo", que se usan a menudo, por lo que aparentemente podemos decir con cautela que en la actualidad esta pregunta sigue abierta. No existen reglas que regulen el uso de una u otra forma en relación con la lingüística de corpus, aunque parece que debería ganar la variante “corpus”, ya que distingue el significado terminológico de la palabra de su sentido común. En el libro de texto, los autores utilizarán esta opción. Zakharov V.P., Bogdanova S.Yu. Lingüística del corpus Archivado el 3 de julio de 2019 en Wayback Machine . San Petersburgo, 2013
  2. 1 2 Zakharov, Bogdanova, 2013 , p. 5.
  3. Dovnar P.Yu., Vorontsov A.V. Procesador lingüístico del idioma chino. Características de desarrollo  // Congreso Internacional de Informática: Sistemas y Tecnologías de la Información: Actas del Congreso Científico Internacional 31 de octubre. – 3 de noviembre 2011 - Minsk: BGU: BGU, 2011.
  4. Estadísticas. Corpus Nacional de la Lengua Rusa . www.ruscorpora.ru Consultado el 27 de diciembre de 2019. Archivado desde el original el 29 de diciembre de 2019.
  5. Kilgarriff A. La googleología es mala ciencia. Archivado el 8 de septiembre de 2008 en Wayback Machine Computational Linguistics , 33(1), 2007.
  6. Baroni M. y Bernardini S. (editores). ¡Chiflado! Documentos de trabajo en la Web como Corpus. Archivado el 31 de marzo de 2022 en Wayback Machine Gedit, Bolonia, 2006.
  7. Ver trabajos: Wikipedia en estudios académicos
  8. Lista de sugerencias por idioma . Fecha de acceso: 16 de diciembre de 2010. Archivado desde el original el 11 de marzo de 2011.
  9. Bocharov V.V., Granovsky D.V. Software para el trabajo colectivo sobre el marcaje morfológico del corpus  // Actas del congreso internacional "Corpus Linguistics - 2011". - San Petersburgo: San Petersburgo: Universidad Estatal de San Petersburgo. Universidad, Facultad de Filología, 2011.

Literatura

Enlaces