Cuerpo Hamshahri

El corpus Hamshahri ( persa پیکره همشهری ‎) es un corpus de textos en persa basado en el contenido del periódico iraní Hamshahri , una de las primeras publicaciones en línea en persa . Recopilado y compilado originalmente por Ehsan Darrudi del Grupo DBRG [1] , con sede en la Universidad de Teherán . Posteriormente, un grupo liderado por Ali Ahmad [2] a partir de este corpus creó la primera base de datos de textos persas adecuada para tareas de recuperación de información.

El corpus de Hamshahri se creó escaneando artículos de noticias del sitio web del periódico Hamshahri y luego procesando páginas HTML para crear un corpus de texto estándar adecuado para la recuperación de información estándar.

Versión 1.0

Esta versión contenía más de 160.000 artículos que cubrían las siguientes categorías temáticas: política, noticias de la ciudad, economía, informes, editoriales, literatura, ciencia, sociedad, noticias extranjeras, deportes, etc. Los documentos varían en tamaño desde noticias breves (menos de 1 KB) hasta artículos bastante largos (unos 140 KB) con una media de 1,8 KB.

El corpus está disponible en varios formatos de descarga [2] :

texto con etiquetas: 560 MB
En tablas de SQL Server 2000 : 712 MB.

Versión 2.0

Esta versión fue lanzada el 20 de octubre de 2008, respecto a la anterior, presenta varias novedades:

En otras noticias: 323.616 historias de texto en 3.206 archivos XML (archivo para cada día);
Ampliación del plazo de publicación: del 22 de junio de 1996 al 13 de mayo de 2007;
Mayor capacidad: 1,42 GB sin comprimir;
Codificación estándar: Unicode XML;
Imágenes incluidas: las imágenes se han extraído de las noticias y se han guardado (disponible en un paquete opcional), lo que las hace adecuadas para tareas de búsqueda de imágenes;
Noticias categorizadas: las noticias se clasificaron de forma semiautomática (para tareas de clasificación y categorización de texto).

El corpus está disponible para su descarga en formato XML .

Notas

↑ DBRG News Archivado el 15 de mayo de 2017 en Wayback Machine Database Research Group.
↑ 1 2 Hamshahri Archivado el 14 de mayo de 2017 en Wayback Machine Database Research Group.

Enlaces

Página de inicio del Corpus Hamshahri
Página de inicio de la colección irBlogs

Lenguaje del cuerpo
corpus ingleses	Corpus Nacional de Inglés Americano banco de ingles Bergen Corpus of London Lenguaje adolescente cuerpo nacional británico Cuerpo Marrón corpus castaño de indias Corpus de inglés de Cambridge Corpus de inglés americano moderno Corpus de Enron Corpus internacional de inglés Corpus Lancaster-Oslo-Bergen Corpus de inglés de Oxford Banco de accesorios Corpus de inglés hablado HORA VerbNet Wellington Corpus de inglés hablado de Nueva Zelanda
corpus en ruso	Corpus general de Internet de la lengua rusa Cuerpo Nacional Ruso Corpus abierto de la lengua rusa SinTagRus Corpus de Tübingen de la lengua rusa Uppsala corpus de textos rusos Corpus anotado de Helsinki de la lengua rusa
Corporación en otros idiomas	Corpus de Bijankhan NIÑOS Corpus de croata Corpus Nacional Croata Corpus Europarl Cuerpo alemán de Mannheim Cuerpo Hamshahri Corpus Nacional Polaco Proyecto de corpus de texto neoasirio corpus coránico Corpus Nacional Escocés Corpus Nacional de Eslovenia hablar de banco Tatoeba Corpus monolingüe de Teherán Tekstaro de Esperanto Diccionario de sinónimos Linguae Graecae
Organizaciones	Consorcio BNC CONSTRUIR