Corpus general de Internet de la lengua rusa | |
---|---|
URL | webcorpora.ru |
Comercial | No |
tipo de sitio | proyecto educativo/científico |
Registro | sí : requerido para acceder a la búsqueda |
Idiomas) | ruso |
ubicación del servidor | Rusia |
Comienzo del trabajo | año 2012 |
Estado actual | trabaja y se desarrolla |
El Corpus General de Internet de la Lengua Rusa (GIKRYA) es un corpus electrónico en línea de búsqueda de textos rusos de Internet. Inaugurado en 2013 . El corpus incluye materiales de texto de la blogósfera , redes sociales , de los mayores recursos de noticias y de revistas literarias .
El proyecto tiene el estatus de educativo y científico, y muchos problemas de lingüística computacional son resueltos por investigadores independientes y grupos científicos sobre la base del material recibido por el GICR. Mientras que otros proyectos de corpus se centran en la ficción y los textos editados , el Corpus general de Internet brinda a los lingüistas rusos una oportunidad oportuna [1] de estudiar el idioma tal como es, con todas las características regionales y de jerga .
El cuerpo permite:
En varios momentos, estudiantes, estudiantes de posgrado y empleados de la Universidad Estatal de Moscú , el Instituto de Física y Tecnología de Moscú , la Universidad Estatal Rusa de Humanidades , la Universidad Estatal de Novosibirsk y la Universidad Nacional de Investigación llevaron a cabo investigaciones e investigaciones independientes sobre el material del proyecto. Escuela Superior de Economía , Instituto de Investigación Nuclear, Academia Rusa de Ciencias , Universidad Federal del Sur , ChSU , VGPU , ISAA MSU .
Supervisores científicos del proyecto:
Las siguientes personas participaron en la creación y apoyo del proyecto:
El volumen del corpus para el verano de 2016 es de 19 800 millones de usos de palabras, de los cuales el 49 % están en Vkontakte , el 40 % en LiveJournal , otro 4 % en [email protected] y News, y el 2 % en Journal hall [4] . El segmento de noticias contiene materiales de fuentes: RIA Novosti , Regnum , Lenta.ru , Rosbalt . Los textos se proporcionan con metamarcado (por fecha de creación del texto, género, lugar y año de nacimiento del autor, género de Internet, etc.); todos los textos están equipados con marcado morfológico automático y lematizados [4] . La mayoría de los textos son creados por entradas de 2013-2014 , aunque algunos segmentos, por ejemplo, en el Journal Hall, contienen textos a partir de 1994 [5] .
subcuerpo | Palabras, millones | textos |
[email protected] | 707 | 9882120 |
En contacto con | 9820 | 193770717 |
Diario en vivo | 8110 | 73229158 |
sala de revistas | 313 | 56547 |
Subcorpus de noticias ( RIA Novosti , Regnum , Lenta.ru , Rosbalt ) | 851 | 2964897 |
Todo el cuerpo | 19801 | 279903439 |
GICR es uno de los pocos mega corpus que alcanza varios miles de millones de palabras.
Cuadro | Idiomas | Acceso | Sitio web | Volumen | Capacidades |
---|---|---|---|---|---|
COW: grandes corporaciones web gratuitas en idiomas europeos | Inglés , francés , alemán , español , sueco , holandés | gratis, después del registro, el acceso de prueba es posible sin registro | https://web.archive.org/web/20160221212019/https://webcorpora.org/ | alrededor de 30 mil millones de palabras | Formato KWIC, marcado morph, búsqueda CQP, marcado y búsqueda por fecha, URL , país, ciudad, etc. |
motor de dibujo | inglés , francés , alemán , italiano , árabe , ruso , español , portugués , coreano , japonés , chino ; más idiomas disponibles por una tarifa | por una tarifa, después del registro, es posible el acceso de prueba | https://www.sketchengine.co.uk/ | 86 mil millones de palabras | concordancias, gramática de bocetos, tesauros , KWIC, etiquetado morfológico, búsqueda CQP |
Aranea Corpora | Inglés , ruso , finlandés , francés , alemán , húngaro , español , italiano , holandés , polaco , eslovaco | gratis, después del registro, el acceso de prueba es posible sin registro | http://sketch.juls.savba.sk/aranea_about/ | alrededor de 14 mil millones de palabras | noSketch Engine, concordancias, gramática de bocetos, KWIC, morpho markup, búsqueda CQP, comparación de resultados de consultas en diferentes idiomas |
GIKRYA Corpus general de Internet de la lengua rusa | ruso | gratis, inscripción previa solicitud | http://www.webcorpora.ru/ | 20 mil millones de palabras | Formato KWIC, morpho-markup, concordancias, búsqueda CQP, marcado y búsqueda por fecha, país, ciudad, segmento de runas , sexo, año y lugar de nacimiento del autor, envío de resultados entre usuarios |
CORPUS DE INGLÉS GLOBAL BASADO EN LA WEB (GloWbE) | Inglés , especificación de 20 países | sin registrarse | http://corpus.byu.edu/glowbe/ | 1.9 mil millones de palabras | KWIC, concordancias, colocaciones , comparación de resultados por dialectos , CQP, todo el corpus se puede descargar |
La interfaz del corpus se encuentra actualmente en pruebas beta , por lo que se proporciona acceso a la búsqueda del corpus y es gratuito, sin embargo, previa solicitud.
Lenguaje del cuerpo | |
---|---|
corpus ingleses |
|
corpus en ruso |
|
Corporación en otros idiomas |
|
Organizaciones |