Cuerpo Hamshahri

El corpus Hamshahri ( persa پیکره همشهری ‎) es un corpus de textos en persa basado en el contenido del periódico iraní Hamshahri , una de las primeras publicaciones en línea en persa . Recopilado y compilado originalmente por Ehsan Darrudi del Grupo DBRG [1] , con sede en la Universidad de Teherán . Posteriormente, un grupo liderado por Ali Ahmad [2] a partir de este corpus creó la primera base de datos de textos persas adecuada para tareas de recuperación de información.

El corpus de Hamshahri se creó escaneando artículos de noticias del sitio web del periódico Hamshahri y luego procesando páginas HTML para crear un corpus de texto estándar adecuado para la recuperación de información estándar.

Versión 1.0

Esta versión contenía más de 160.000 artículos que cubrían las siguientes categorías temáticas: política, noticias de la ciudad, economía, informes, editoriales, literatura, ciencia, sociedad, noticias extranjeras, deportes, etc. Los documentos varían en tamaño desde noticias breves (menos de 1 KB) hasta artículos bastante largos (unos 140 KB) con una media de 1,8 KB.

El corpus está disponible en varios formatos de descarga [2] :

Versión 2.0

Esta versión fue lanzada el 20 de octubre de 2008, respecto a la anterior, presenta varias novedades:

El corpus está disponible para su descarga en formato XML .

Notas

  1. DBRG News Archivado el 15 de mayo de 2017 en Wayback Machine Database Research Group.
  2. 1 2 Hamshahri Archivado el 14 de mayo de 2017 en Wayback Machine Database Research Group.

Enlaces