Corpus general de Internet de la lengua rusa

Corpus general de Internet de la lengua rusa
URL	webcorpora.ru
Comercial	No
tipo de sitio	proyecto educativo/científico
Registro	sí : requerido para acceder a la búsqueda
Idiomas)	ruso
ubicación del servidor	Rusia
Comienzo del trabajo	año 2012
Estado actual	trabaja y se desarrolla

El Corpus General de Internet de la Lengua Rusa (GIKRYA) es un corpus electrónico en línea de búsqueda de textos rusos de Internet. Inaugurado en 2013 . El corpus incluye materiales de texto de la blogósfera , redes sociales , de los mayores recursos de noticias y de revistas literarias .

Objetivos del proyecto

El proyecto tiene el estatus de educativo y científico, y muchos problemas de lingüística computacional son resueltos por investigadores independientes y grupos científicos sobre la base del material recibido por el GICR. Mientras que otros proyectos de corpus se centran en la ficción y los textos editados , el Corpus general de Internet brinda a los lingüistas rusos una oportunidad oportuna [1] de estudiar el idioma tal como es, con todas las características regionales y de jerga .

El cuerpo permite:

Estudios lingüísticos de amplio espectro: estudios dialectológicos , el estudio de la distribución de las palabras, el estudio del lenguaje de las redes sociales , el estudio de la influencia del género , la edad y otros factores en el lenguaje , la frecuencia de las palabras, las expresiones fijas y diversas construcciones, características estilísticas de textos de diferentes segmentos de Internet, etc.;
Análisis de redes sociales ;
Aprendizaje automático basado en corpus [2] , mejora de los algoritmos de etiquetado automático.

En varios momentos, estudiantes, estudiantes de posgrado y empleados de la Universidad Estatal de Moscú , el Instituto de Física y Tecnología de Moscú , la Universidad Estatal Rusa de Humanidades , la Universidad Estatal de Novosibirsk y la Universidad Nacional de Investigación llevaron a cabo investigaciones e investigaciones independientes sobre el material del proyecto. Escuela Superior de Economía , Instituto de Investigación Nuclear, Academia Rusa de Ciencias , Universidad Federal del Sur , ChSU , VGPU , ISAA MSU .

Supervisores científicos del proyecto:

Belikov V. I. - Universidad Estatal de Moscú, Universidad Humanitaria Estatal de Rusia , Moscú , Rusia ;
Selegey V.P. - Universidad Estatal Rusa de Humanidades ; MIPT ; ABBYY , Moscú , Rusia ;
Sharov S. A. - Universidad Estatal Rusa de Humanidades , Moscú , Rusia ; Universidad de Leeds , Reino Unido [3] .

Las siguientes personas participaron en la creación y apoyo del proyecto:

El volumen y la composición del cuerpo

El volumen del corpus para el verano de 2016 es de 19 800 millones de usos de palabras, de los cuales el 49 % están en Vkontakte , el 40 % en LiveJournal , otro 4 % en [email protected] y News, y el 2 % en Journal hall [4] . El segmento de noticias contiene materiales de fuentes: RIA Novosti , Regnum , Lenta.ru , Rosbalt . Los textos se proporcionan con metamarcado (por fecha de creación del texto, género, lugar y año de nacimiento del autor, género de Internet, etc.); todos los textos están equipados con marcado morfológico automático y lematizados [4] . La mayoría de los textos son creados por entradas de 2013-2014 , aunque algunos segmentos, por ejemplo, en el Journal Hall, contienen textos a partir de 1994 [5] .

subcuerpo	Palabras, millones	textos
[email protected]	707	9882120
En contacto con	9820	193770717
Diario en vivo	8110	73229158
sala de revistas	313	56547
Subcorpus de noticias ( RIA Novosti , Regnum , Lenta.ru , Rosbalt )	851	2964897
Todo el cuerpo	19801	279903439

GICR es uno de los pocos mega corpus que alcanza varios miles de millones de palabras.

Cuadro	Idiomas	Acceso	Sitio web	Volumen	Capacidades
COW: grandes corporaciones web gratuitas en idiomas europeos	Inglés , francés , alemán , español , sueco , holandés	gratis, después del registro, el acceso de prueba es posible sin registro	https://web.archive.org/web/20160221212019/https://webcorpora.org/	alrededor de 30 mil millones de palabras	Formato KWIC, marcado morph, búsqueda CQP, marcado y búsqueda por fecha, URL , país, ciudad, etc.
motor de dibujo	inglés , francés , alemán , italiano , árabe , ruso , español , portugués , coreano , japonés , chino ; más idiomas disponibles por una tarifa	por una tarifa, después del registro, es posible el acceso de prueba	https://www.sketchengine.co.uk/	86 mil millones de palabras	concordancias, gramática de bocetos, tesauros , KWIC, etiquetado morfológico, búsqueda CQP
Aranea Corpora	Inglés , ruso , finlandés , francés , alemán , húngaro , español , italiano , holandés , polaco , eslovaco	gratis, después del registro, el acceso de prueba es posible sin registro	http://sketch.juls.savba.sk/aranea_about/	alrededor de 14 mil millones de palabras	noSketch Engine, concordancias, gramática de bocetos, KWIC, morpho markup, búsqueda CQP, comparación de resultados de consultas en diferentes idiomas
GIKRYA Corpus general de Internet de la lengua rusa	ruso	gratis, inscripción previa solicitud	http://www.webcorpora.ru/	20 mil millones de palabras	Formato KWIC, morpho-markup, concordancias, búsqueda CQP, marcado y búsqueda por fecha, país, ciudad, segmento de runas , sexo, año y lugar de nacimiento del autor, envío de resultados entre usuarios
CORPUS DE INGLÉS GLOBAL BASADO EN LA WEB (GloWbE)	Inglés , especificación de 20 países	sin registrarse	http://corpus.byu.edu/glowbe/	1.9 mil millones de palabras	KWIC, concordancias, colocaciones , comparación de resultados por dialectos , CQP, todo el corpus se puede descargar

Acceso

La interfaz del corpus se encuentra actualmente en pruebas beta , por lo que se proporciona acceso a la búsqueda del corpus y es gratuito, sin embargo, previa solicitud.

Véase también

Notas

↑ VLADIMIR BELIKOV . Consultado el 26 de diciembre de 2019. Archivado desde el original el 16 de noviembre de 2019. (Ruso)
↑ Clasificación automática de textos web utilizando dimensiones de texto funcional . Consultado el 8 de junio de 2016. Archivado desde el original el 26 de junio de 2016. (indefinido)
↑ Equipo | GIKRYA . Consultado el 26 de diciembre de 2019. Archivado desde el original el 5 de enero de 2020. (Ruso)
↑ 1 2 Cuerpo | GIKRYA . Consultado el 26 de diciembre de 2019. Archivado desde el original el 3 de diciembre de 2019. (Ruso)
↑ #geekrya #geekrya_stats Para qué... | GIKRYA Corpus general de Internet de la lengua rusa | VK

Literatura

Enlaces

Sitio web oficial de GIKRYA

Lenguaje del cuerpo
corpus ingleses	Corpus Nacional de Inglés Americano banco de ingles Bergen Corpus of London Lenguaje adolescente cuerpo nacional británico Cuerpo Marrón corpus castaño de indias Corpus de inglés de Cambridge Corpus de inglés americano moderno Corpus de Enron Corpus internacional de inglés Corpus Lancaster-Oslo-Bergen Corpus de inglés de Oxford Banco de accesorios Corpus de inglés hablado HORA VerbNet Wellington Corpus de inglés hablado de Nueva Zelanda
corpus en ruso	Corpus general de Internet de la lengua rusa Cuerpo Nacional Ruso Corpus abierto de la lengua rusa SinTagRus Corpus de Tübingen de la lengua rusa Uppsala corpus de textos rusos Corpus anotado de Helsinki de la lengua rusa
Corporación en otros idiomas	Corpus de Bijankhan NIÑOS Corpus de croata Corpus Nacional Croata Corpus Europarl Cuerpo alemán de Mannheim Cuerpo Hamshahri Corpus Nacional Polaco Proyecto de corpus de texto neoasirio corpus coránico Corpus Nacional Escocés Corpus Nacional de Eslovenia hablar de banco Tatoeba Corpus monolingüe de Teherán Tekstaro de Esperanto Diccionario de sinónimos Linguae Graecae
Organizaciones	Consorcio BNC CONSTRUIR