Lenguaje del cuerpo

La lingüística de corpus [1] es una rama de la lingüística que se ocupa del desarrollo, creación y uso de corpus textuales . El término se introdujo en la década de 1960 en relación con el desarrollo de la práctica de crear casos que, desde la década de 1980, se vio facilitada por el desarrollo de la tecnología informática.

Un corpus lingüístico o lingüístico de textos es un conjunto de datos lingüísticos de gran formato legible por máquina, unificado, estructurado, marcado y filológicamente competente, diseñado para resolver problemas lingüísticos específicos [2] . Las principales características del corpus moderno son un formato legible por máquina, la representatividad y la presencia de información metalingüística [2] . La representatividad se logra mediante un procedimiento especial de selección de textos.

Un corpus lingüístico es una colección de textos recopilados de acuerdo con ciertos principios, marcados de acuerdo con un estándar determinado y provistos de un motor de búsqueda especializado. . A veces, un corpus ("corpus de primer orden") se llama simplemente cualquier colección de textos unidos por alguna característica común (lengua, género , autor, período de creación de textos).

La conveniencia de crear corpus de texto se explica por:

presentación de datos lingüísticos en un contexto real;
representatividad suficientemente grande de los datos (con un gran volumen del cuerpo);
la posibilidad de uso múltiple de un corpus una vez creado para la resolución de diversos problemas lingüísticos, como, por ejemplo, la implementación del análisis de textos grafemáticos y léxico-gramaticales, etc. [3]

Historia

Brown Corpus (BK, inglés Brown Corpus , BC), que fue creado en la década de 1960 en la Universidad de Brown y contenía 500 fragmentos de textos de 2 mil palabras cada uno, que fueron publicados en inglés en Estados Unidos en 1961. Como resultado, estableció el estándar de 1 millón de usos de palabras para crear corpus representativos en otros idiomas. Según un modelo cercano a BK, en la década de 1970, se creó un diccionario de frecuencias de la lengua rusa Zasorina , construido sobre la base de un corpus de textos con un volumen de también 1 millón de palabras e incluyendo proporciones aproximadamente iguales de textos sociopolíticos. , ficción, textos científicos y de divulgación científica de diferentes áreas y dramaturgia. El cuerpo ruso, creado en la década de 1980 en la Universidad de Uppsala , Suecia, también se construyó sobre un modelo similar.

Un tamaño de un millón de palabras es suficiente para una descripción lexicográfica de sólo las palabras más frecuentes , ya que las palabras y construcciones gramaticales de frecuencia media ocurren varias veces por millón de palabras (desde un punto de vista estadístico, una lengua es un conjunto grande de eventos raros ). Entonces, cada una de las palabras ordinarias como inglés. educado (cortés) o ing. sunshine (sol) ocurre en BC solo 7 veces, la expresión es inglesa. carta cortés solo una vez, y expresiones tan estables como el inglés. conversación cortés, sonrisa, petición - nunca.

Por estas razones, y en relación con el crecimiento de la potencia informática capaz de trabajar con grandes volúmenes de textos, en la década de 1980 se realizaron varios intentos en todo el mundo para crear corpus más grandes. En el Reino Unido, tales proyectos fueron el Bank of English (Bank of English) de la Universidad de Birmingham y el British National Corpus ( British National Corpus , BNC). En la URSS, tal proyecto fue el Fondo de Máquinas del Idioma Ruso , creado por iniciativa de A. P. Ershov .

Estado actual

La presencia de una gran cantidad de textos en formato electrónico facilitó enormemente la tarea de crear grandes corpus representativos de decenas y cientos de millones de palabras, pero no eliminó los problemas: recopilar miles de textos, eliminar los problemas de derechos de autor, reunir todos los textos en un forma única, equilibrar el corpus por tema y género lleva mucho tiempo. Existen corpus representativos (o se están desarrollando) para alemán, polaco, checo, esloveno, finlandés, griego moderno, armenio, chino, japonés, búlgaro y otros idiomas.

El Corpus Nacional de la Lengua Rusa , creado en la Academia Rusa de Ciencias , actualmente contiene más de 500 millones de usos de palabras [4] .

Junto con corpus representativos que cubren una amplia gama de géneros y estilos funcionales, las colecciones oportunistas de textos se utilizan a menudo en la investigación lingüística, como periódicos (a menudo The Wall Street Journal y The New York Times ), fuentes de noticias ( Reuters ), colecciones de ficción ( Biblioteca de Maxim Moshkov o Proyecto Gutenberg ).

Problemas

El problema de la representatividad

El corpus consta de un número finito de textos, pero está diseñado para reflejar adecuadamente los fenómenos lexicogramáticos propios de todo el volumen de textos en la lengua (o sublengua ) correspondiente. Para la representatividad, tanto el tamaño como la estructura del caso son importantes. El tamaño representativo depende de la tarea, ya que está determinado por la cantidad de ejemplos que se pueden encontrar para los fenómenos en estudio. Debido a que, desde un punto de vista estadístico, el idioma contiene una gran cantidad de palabras relativamente raras ( Ley de Zipf ), para estudiar las primeras cinco mil palabras más frecuentes (por ejemplo, pérdida, disculpa ), un corpus de aproximadamente Se requieren 10-20 millones de usos de palabras, mientras que cómo describir las primeras veinte mil palabras ( sin pretensiones, latido del corazón, enjambre ) ya requiere un corpus de más de cien millones de usos de palabras.

El problema del marcado

El marcado primario de textos incluye los pasos necesarios para cada corpus:

tokenización (dividir en palabras de ortografía)
lematización (llevar las formas de las palabras a la forma del diccionario)
Análisis morfológico

Problema de presentación

En grandes corpus, surge un problema que antes era irrelevante: una consulta de búsqueda puede producir cientos e incluso miles de resultados (contextos de uso), que son simplemente físicamente imposibles de ver en un tiempo limitado. Para resolver este problema, se están desarrollando sistemas que permiten agrupar los resultados de búsqueda y dividirlos automáticamente en subconjuntos ( agrupamiento de resultados de búsqueda ), o dar las frases más estables ( colocaciones ) con una evaluación estadística de su significado.

La web como corpus

Uso de motores de búsqueda

Una gran cantidad de textos disponibles en Internet se pueden utilizar como corpus (es decir, miles de millones de usos de palabras para los principales idiomas del mundo). Para los lingüistas, la forma más común de trabajar con Internet sigue siendo realizar consultas a un motor de búsqueda e interpretar los resultados ya sea por el número de páginas encontradas o por los primeros enlaces devueltos. Esta metodología se llama Googleología [5] . Cabe señalar que este enfoque es adecuado para resolver una clase limitada de problemas, ya que las herramientas de marcado de texto utilizadas en la web no describen una serie de características lingüísticas del texto (énfasis indicativo , clases gramaticales, límites de frase , etc.) . Además, el asunto se complica por la baja prevalencia de la disposición semántica .

En la práctica, las limitaciones de este enfoque conducen al hecho de que es más fácil verificar, por ejemplo, la compatibilidad de dos palabras a través de una consulta como "palabra1 palabra2". Con base en los resultados obtenidos, se puede juzgar qué tan común es esta combinación y en qué textos es más común. Véase también consultar estadísticas .

Uso de páginas web

La segunda forma es extraer automáticamente una gran cantidad de páginas de Internet y luego usarlas como un corpus regular, lo que permite marcarlo y usar parámetros lingüísticos en las consultas. Este método le permite crear rápidamente un corpus representativo para cualquier idioma suficientemente representado en Internet, pero su diversidad de géneros y temáticas reflejará los intereses de los usuarios de Internet [6] .

El uso de Wikipedia como cuerpo de textos está ganando cada vez más popularidad en la comunidad científica [7] .

El Proyecto Tatoeba

En 2006, apareció el sitio Tatoeba (Tatoeba), que le permite agregar libremente oraciones nuevas y cambiar oraciones existentes en varios idiomas, relacionadas en significado. Se basó solo en el corpus anglo-japonés, y ya ahora la cantidad de idiomas supera los 80, y la cantidad de oraciones es de 600,000 [8] . Cualquiera puede agregar nuevas oraciones y sus traducciones, y si es necesario, descargar todo o parte de todos los corpus de idiomas de forma gratuita.

Corpus abierto ruso

De interés es el proyecto del corpus abierto de la lengua rusa , que no solo utiliza textos publicados bajo licencias libres, sino que también permite que cualquiera que quiera participe en el marcado lingüístico del corpus. Esta forma de crowdsourcing es posible al dividir la tarea de marcado en pequeñas tareas, la mayoría de las cuales pueden ser manejadas por una persona sin formación lingüística especial [9] . El corpus se actualiza constantemente, todos los textos y software relacionados con el mismo están disponibles bajo las licencias GNU GPL v2 y CC-BY-SA .

Véase también

Notas

↑ Hay acentos tanto en la primera como en la penúltima sílaba. “... el adjetivo debe pronunciarse con acento en la primera sílaba -“ cuerpo ”(Gran Diccionario Explicativo de la Lengua Rusa, San Petersburgo, 1998). Al mismo tiempo, un análisis del uso de los especialistas hasta ahora atestigua a favor de las formas "cuerpo", "cuerpo", "cuerpo", que se usan a menudo, por lo que aparentemente podemos decir con cautela que en la actualidad esta pregunta sigue abierta. No existen reglas que regulen el uso de una u otra forma en relación con la lingüística de corpus, aunque parece que debería ganar la variante “corpus”, ya que distingue el significado terminológico de la palabra de su sentido común. En el libro de texto, los autores utilizarán esta opción. Zakharov V.P., Bogdanova S.Yu. Lingüística del corpus Archivado el 3 de julio de 2019 en Wayback Machine . San Petersburgo, 2013
↑ 1 2 Zakharov, Bogdanova, 2013 , p. 5.
↑ Dovnar P.Yu., Vorontsov A.V. Procesador lingüístico del idioma chino. Características de desarrollo // Congreso Internacional de Informática: Sistemas y Tecnologías de la Información: Actas del Congreso Científico Internacional 31 de octubre. – 3 de noviembre 2011 - Minsk: BGU: BGU, 2011. (Ruso)
↑ Estadísticas. Corpus Nacional de la Lengua Rusa . www.ruscorpora.ru Consultado el 27 de diciembre de 2019. Archivado desde el original el 29 de diciembre de 2019. (indefinido)
↑ Kilgarriff A. La googleología es mala ciencia. Archivado el 8 de septiembre de 2008 en Wayback Machine Computational Linguistics , 33(1), 2007.
↑ Baroni M. y Bernardini S. (editores). ¡Chiflado! Documentos de trabajo en la Web como Corpus. Archivado el 31 de marzo de 2022 en Wayback Machine Gedit, Bolonia, 2006.
↑ Ver trabajos: Wikipedia en estudios académicos
↑ Lista de sugerencias por idioma . Fecha de acceso: 16 de diciembre de 2010. Archivado desde el original el 11 de marzo de 2011. (indefinido)
↑ Bocharov V.V., Granovsky D.V. Software para el trabajo colectivo sobre el marcaje morfológico del corpus // Actas del congreso internacional "Corpus Linguistics - 2011". - San Petersburgo: San Petersburgo: Universidad Estatal de San Petersburgo. Universidad, Facultad de Filología, 2011. (Ruso)

Literatura

Zakharov V.P., Bogdanova S.Yu. Corpus lingüística: un libro de texto para estudiantes de la dirección "Lingüística" . - 2ª ed., revisada. y adicional - San Petersburgo. : Universidad Estatal de San Petersburgo . Río. Facultad de Filología ., 2013. - 148 p.

Enlaces

Libro de texto de lingüística de corpus [1]
Cuerpo Nacional Ruso
Corpus abierto de la lengua rusa
Sitio web del seminario sobre corpus y lingüística computacional realizado en el Instituto de Estudios Lingüísticos de la Academia Rusa de Ciencias
Colección de corpus en corpus.leeds.ac.uk
Corpus Collections en el sitio web de David Lee
Cuerpo de Uppsala
Cuerpo HANKO: formulario de búsqueda
Grupo de Interés Especial en Web como Corpus
Archivo de lista de correo de Corpora-List
Sitio web del Proyecto Tatoeba
Colecciones etiquetadas para la tarea de extracción de información (en el sitio del Centro de Investigación de Inteligencia Artificial)

Lenguaje del cuerpo
corpus ingleses	Corpus Nacional de Inglés Americano banco de ingles Bergen Corpus of London Lenguaje adolescente cuerpo nacional británico Cuerpo Marrón corpus castaño de indias Corpus de inglés de Cambridge Corpus de inglés americano moderno Corpus de Enron Corpus internacional de inglés Corpus Lancaster-Oslo-Bergen Corpus de inglés de Oxford Banco de accesorios Corpus de inglés hablado HORA VerbNet Wellington Corpus de inglés hablado de Nueva Zelanda
corpus en ruso	Corpus general de Internet de la lengua rusa Cuerpo Nacional Ruso Corpus abierto de la lengua rusa SinTagRus Corpus de Tübingen de la lengua rusa Uppsala corpus de textos rusos Corpus anotado de Helsinki de la lengua rusa
Corporación en otros idiomas	Corpus de Bijankhan NIÑOS Corpus de croata Corpus Nacional Croata Corpus Europarl Cuerpo alemán de Mannheim Cuerpo Hamshahri Corpus Nacional Polaco Proyecto de corpus de texto neoasirio corpus coránico Corpus Nacional Escocés Corpus Nacional de Eslovenia hablar de banco Tatoeba Corpus monolingüe de Teherán Tekstaro de Esperanto Diccionario de sinónimos Linguae Graecae
Organizaciones	Consorcio BNC CONSTRUIR