Corpus general de Internet de la lengua rusa

Corpus general de Internet de la lengua rusa
URL webcorpora.ru
Comercial No
tipo de sitio proyecto educativo/científico
Registro sí : requerido para acceder a la búsqueda
Idiomas) ruso
ubicación del servidor Rusia
Comienzo del trabajo año 2012
Estado actual trabaja y se desarrolla

El Corpus General de Internet de la Lengua Rusa (GIKRYA) es un corpus  electrónico en línea de búsqueda de textos rusos de Internet. Inaugurado en 2013 . El corpus incluye materiales de texto de la blogósfera , redes sociales , de los mayores recursos de noticias y de revistas literarias .

Objetivos del proyecto

El proyecto tiene el estatus de educativo y científico, y muchos problemas de lingüística computacional son resueltos por investigadores independientes y grupos científicos sobre la base del material recibido por el GICR. Mientras que otros proyectos de corpus se centran en la ficción y los textos editados , el Corpus general de Internet brinda a los lingüistas rusos una oportunidad oportuna [1] de estudiar el idioma tal como es, con todas las características regionales y de jerga .

El cuerpo permite:

En varios momentos, estudiantes, estudiantes de posgrado y empleados de la Universidad Estatal de Moscú , el Instituto de Física y Tecnología de Moscú , la Universidad Estatal Rusa de Humanidades , la Universidad Estatal de Novosibirsk y la Universidad Nacional de Investigación llevaron a cabo investigaciones e investigaciones independientes sobre el material del proyecto. Escuela Superior de Economía , Instituto de Investigación Nuclear, Academia Rusa de Ciencias , Universidad Federal del Sur , ChSU , VGPU , ISAA MSU .

Supervisores científicos del proyecto:

Las siguientes personas participaron en la creación y apoyo del proyecto:

El volumen y la composición del cuerpo

El volumen del corpus para el verano de 2016 es de 19 800 millones de usos de palabras, de los cuales el 49 % están en Vkontakte , el 40 % en LiveJournal , otro 4 % en [email protected] y News, y el 2 % en Journal hall [4] . El segmento de noticias contiene materiales de fuentes: RIA Novosti , Regnum , Lenta.ru , Rosbalt . Los textos se proporcionan con metamarcado (por fecha de creación del texto, género, lugar y año de nacimiento del autor, género de Internet, etc.); todos los textos están equipados con marcado morfológico automático y lematizados [4] . La mayoría de los textos son creados por entradas de 2013-2014 , aunque algunos segmentos, por ejemplo, en el Journal Hall, contienen textos a partir de 1994 [5] .

subcuerpo Palabras, millones textos
[email protected] 707 9882120
En contacto con 9820 193770717
Diario en vivo 8110 73229158
sala de revistas 313 56547
Subcorpus de noticias ( RIA Novosti , Regnum , Lenta.ru , Rosbalt ) 851 2964897
Todo el cuerpo 19801 279903439

GICR es uno de los pocos mega corpus que alcanza varios miles de millones de palabras.

Cuadro Idiomas Acceso Sitio web Volumen Capacidades
COW: grandes corporaciones web gratuitas en idiomas europeos Inglés , francés , alemán , español , sueco , holandés gratis, después del registro, el acceso de prueba es posible sin registro https://web.archive.org/web/20160221212019/https://webcorpora.org/ alrededor de 30 mil millones de palabras Formato KWIC, marcado morph, búsqueda CQP, marcado y búsqueda por fecha, URL , país, ciudad, etc.
motor de dibujo inglés , francés , alemán , italiano , árabe , ruso , español , portugués , coreano , japonés , chino ; más idiomas disponibles por una tarifa por una tarifa, después del registro, es posible el acceso de prueba https://www.sketchengine.co.uk/ 86 mil millones de palabras concordancias, gramática de bocetos, tesauros , KWIC, etiquetado morfológico, búsqueda CQP
Aranea Corpora Inglés , ruso , finlandés , francés , alemán , húngaro , español , italiano , holandés , polaco , eslovaco gratis, después del registro, el acceso de prueba es posible sin registro http://sketch.juls.savba.sk/aranea_about/ alrededor de 14 mil millones de palabras noSketch Engine, concordancias, gramática de bocetos, KWIC, morpho markup, búsqueda CQP, comparación de resultados de consultas en diferentes idiomas
GIKRYA Corpus general de Internet de la lengua rusa ruso gratis, inscripción previa solicitud http://www.webcorpora.ru/ 20 mil millones de palabras Formato KWIC, morpho-markup, concordancias, búsqueda CQP, marcado y búsqueda por fecha, país, ciudad, segmento de runas , sexo, año y lugar de nacimiento del autor, envío de resultados entre usuarios
CORPUS DE INGLÉS GLOBAL BASADO EN LA WEB (GloWbE) Inglés , especificación de 20 países sin registrarse http://corpus.byu.edu/glowbe/ 1.9 mil millones de palabras KWIC, concordancias, colocaciones , comparación de resultados por dialectos , CQP, todo el corpus se puede descargar

Acceso

La interfaz del corpus se encuentra actualmente en pruebas beta , por lo que se proporciona acceso a la búsqueda del corpus y es gratuito, sin embargo, previa solicitud.

Véase también

Notas

  1. VLADIMIR BELIKOV . Consultado el 26 de diciembre de 2019. Archivado desde el original el 16 de noviembre de 2019.
  2. Clasificación automática de textos web utilizando dimensiones de texto funcional . Consultado el 8 de junio de 2016. Archivado desde el original el 26 de junio de 2016.
  3. Equipo | GIKRYA . Consultado el 26 de diciembre de 2019. Archivado desde el original el 5 de enero de 2020.
  4. 1 2 Cuerpo | GIKRYA . Consultado el 26 de diciembre de 2019. Archivado desde el original el 3 de diciembre de 2019.
  5. #geekrya #geekrya_stats Para qué... | GIKRYA Corpus general de Internet de la lengua rusa | VK

Literatura

Enlaces