El análisis de citas es el estudio de la frecuencia, los patrones y los horarios de las citas en los documentos. Utiliza el patrón de citas, enlaces de un documento a otro documento, para descubrir las propiedades de los documentos. Un objetivo típico es identificar los documentos más importantes de una colección. Un ejemplo clásico es la cita entre artículos académicos y libros. [1] [2] Las decisiones judiciales en el ordenamiento jurídico anglosajón , con el fin de confirmar sus decisiones, se refieren a decisiones tomadas en casos anteriores, por lo que el análisis de la citación en un contexto legal es importante. Otro ejemplo son las patentes que contienen invenciones anteriores, patentes citadas anteriormente relacionadas con la reivindicación actual.
Los documentos se pueden asociar con muchas otras características además de las citas, como autores, editores, revistas, así como sus textos reales. El análisis general de colecciones de documentos se llama bibliometría , y el análisis de citas es una parte clave de esta dirección. Por ejemplo, la vinculación y el intercambio bibliográfico son métricas asociadas basadas en el análisis de citas (citas compartidas o citas compartidas). Las citas en una colección de artículos también se pueden presentar en la forma de los siguientes gráficos de citas, como señaló Derek de Solla Price en el artículo de 1965 "Networks of Scientific Papers". [3] Esto significa que el análisis de citas se basa en aspectos del análisis de redes sociales y la ciencia de redes.
Un ejemplo temprano de indexación automática de citas fue CiteSeer , que se usó para citas en informes científicos, y Google Scholar es un ejemplo de un sistema moderno que incluye más que solo libros y artículos académicos y refleja una gama más amplia de fuentes de información. Hoy en día, la indexación de citas automatizada [4] ha cambiado la naturaleza de la investigación del análisis de citas, lo que permite analizar millones de citas para modelos a gran escala y descubrimiento de conocimiento. Los científicos pueden utilizar las herramientas de análisis de citas para calcular varios grados de impacto en función de los datos del índice de citas . [5] [6] [7] Tienen aplicaciones que van desde la identificación de jueces expertos hasta la revisión de documentos y propuestas de subvenciones, pasando por proporcionar datos transparentes para respaldar decisiones sobre mérito académico, permanencia en el cargo y toma de decisiones. Esta competencia por recursos limitados puede conducir a un comportamiento éticamente cuestionable para el aumento de las citas. [8] [9]
La práctica de utilizar ingenuamente el análisis de citas para comparar el impacto de diferentes artículos científicos sin tener en cuenta otros factores que pueden influir en los patrones de citas ha sido muy criticada. [10] Entre las críticas, una se centra constantemente en la "independencia de la industria", es decir, el hecho de que las prácticas de citación en un campo de la ciencia difieren de la práctica en otro e incluso entre ramas de investigación dentro de una disciplina. [once]
Si bien los índices de citas se desarrollaron originalmente para la recuperación de información , se utilizan cada vez más para estudios bibliométricos y de otro tipo relacionados con la evaluación de la investigación. Los datos de citas también son la base del coeficiente de influencia de una revista popular .
Existe una gran cantidad de literatura sobre el análisis de citas, a veces denominada cienciometría , un término acuñado por Vasily Nalimov , o más específicamente bibliometría . La industria comenzó a florecer con la llegada del Science Citation Index, que cubre la literatura publicada desde 1900. Las revistas líderes de la industria son Scientometrics , Informatics y Journal of the Association for Information Science and Technology. Este último también organiza una lista de correo electrónico llamada Sigmetrica en ATIT. [12] Este método se está reviviendo a través de la adopción generalizada de bases de datos, suscripciones a Web Science y Scopus en muchas universidades, y herramientas públicas de citas gratuitas como CiteBase, CiteSeerX , Google Scholar y el antiguo programa Windows Live Academic (ahora disponible con funciones adicionales como como Microsoft Academic Search). Los métodos de investigación del análisis de citas incluyen enfoques cualitativos, cuantitativos y computacionales. Los enfoques principales de tales estudios cienciométricos han sido la evaluación comparativa del rendimiento, las clasificaciones de investigación institucional, la clasificación de revistas [13] con respecto al establecimiento de factores de rendimiento y estándares de propiedad, [14] la evaluación del impacto de los principales artículos científicos, [15] el seguimiento de la trayectoria de una ciencia o industria tecnológica [16] , y desarrollo de perfiles de autores e instituciones líderes en términos de resultados de investigación. [17]
El análisis de citas legales es una técnica de análisis de citas para analizar documentos legales que facilita la comprensión de documentos normativos relacionados mediante el examen de citas que vinculan una disposición con otras disposiciones en el mismo documento o entre diferentes documentos. El análisis de citas legales utiliza un gráfico de citas tomado de un documento normativo que puede complementar el descubrimiento electrónico, un proceso que influye en la innovación tecnológica en el análisis de big data . [18] [19] [20] [21]
En un artículo de 1965, Derek de Solla Price describió la propiedad vinculante inherente del SCI como "una red de artículos científicos". Los vínculos entre las citas y los artículos citados se volvieron dinámicos cuando SCI comenzó a publicar en línea. El Social Science Citation Index fue una de las primeras bases de datos instaladas en el sistema Dialog [22] en 1972. Con la llegada de los CD, las referencias se han vuelto aún más simples, lo que permite el uso de enlaces bibliográficos para encontrar registros relacionados. En 1973, Henry Small publicó su trabajo clásico sobre el análisis de citas conjuntas, que se convirtió en un sistema de clasificación autoorganizado que condujo a experimentos con agrupación de documentos y, finalmente, al Atlas de la ciencia, que luego se convirtió en Research Reviews.
Ralph Garner (Universidad de Drexel) describió en 1965 la naturaleza topológica y gráfica inherente de la red mundial de citas que es inherente a la literatura científica. [23]
El uso de puntajes de citas en revistas clasificadas era una práctica común en la primera mitad del siglo XIX, pero Eugene Garfield, del Instituto de Información Científica, quien también se convirtió en la fuente principal, inició la medición sistemática continua de estos puntajes para revistas académicas. por usar estos puntajes para calificar autores y artículos. En un artículo histórico de 1965, él e Irving Sher mostraron la relación entre la frecuencia y el crecimiento de las citas, demostrando que los ganadores del Premio Nobel publicaron sus artículos cinco veces en promedio, mientras que sus artículos fueron citados entre 30 y 50 veces en promedio. Garfield informó de este fenómeno en una larga serie de ensayos sobre el Nobel y otros premios. La puntuación final habitual se conoce como índice de influencia , el número de citas en la revista en los dos años anteriores dividido por el número de artículos publicados en esos años. Es ampliamente utilizado tanto para fines ordinarios como especiales, en particular, su uso para la evaluación de autores y documentos es bastante controvertido .
En un estudio de principios de 1964 que utilizó el análisis de citas para escribir la historia del ADN , Garfield y Sher demostraron el potencial para producir historiografía , mapas topológicos de los principales pasos en la historia de los temas científicos. Este trabajo fue posteriormente automatizado por E. Garfield, A. I. Pudovkin del Instituto de Biología Marina de la Academia Nacional de Ciencias y V. S. Istomin del Centro de Enseñanza, Aprendizaje y Tecnología de la Universidad Estatal de Washington y condujo a la creación del software Histcite [ 24] en 2002.
La indexación automática de citas fue introducida en 1998 por Lee Giles, Steve Lawrence y Kurt Bollacker y permitió la eliminación algorítmica automática y la agrupación de citas para cualquier documento académico y científico digital. Donde el retiro previo de citas era un proceso manual, las tasas de citas ahora pueden incrementarse y calcularse para cualquier rama o lugar académico, no solo aquellos asignados por organizaciones como ISI. Esto condujo a la creación de nuevos sistemas para indexar citas públicas y automáticas, el primero de los cuales fue CiteSeer (ahora CiteSeerX , pronto heredado por el sistema Cora, que se centró principalmente en informática y ciencias de la computación . Más tarde, los principales sistemas de nombres de dominio académicos como como Google Scholar y Microsoft Academic Esta indexación de citas fuera de línea aún no se ha perfeccionado en la extracción de citas o el agrupamiento de citas con una tasa de error estimada en alrededor del 10%, aunque aún no se ha realizado un muestreo estadístico cuidadoso. Autores como Ann Arbor , Milton Keynes y Walton Hall han producido una gran cantidad de resultados académicos.25 SCI afirma crear una indexación automática de citas a través de métodos puramente programáticos. Incluso las entradas más antiguas tienen el mismo margen de error.
El análisis de citas para documentos legales es un enfoque que ayuda a comprender y analizar documentos normativos relacionados mediante el examen de citas que vinculan una disposición con otras disposiciones dentro del mismo documento y entre diferentes documentos. El análisis de citas utiliza un gráfico de citas derivado de un documento normativo que podría complementar el descubrimiento electrónico, un proceso que impulsa la innovación tecnológica en el análisis de big data. [26]
Publicaciones electrónicas . Debido al aumento sin precedentes en la disponibilidad de recursos electrónicos, una de las preguntas candentes que ahora se están estudiando se ha convertido en la pregunta "¿con qué frecuencia se citan los recursos electrónicos en Internet en mi industria?". [27] Por ejemplo, se ha argumentado que el acceso en línea a la literatura de ciencias de la computación conduce a tasas de citas más altas, [28] sin embargo , los artículos de humanidades pueden verse afectados si no existen impresos.
Autocitado . La práctica de los autores de “jugar” con el sistema acumulando citas, sobre citándose a sí mismos [29] , ha sido muy criticada . Al mismo tiempo, por ejemplo, se encontró que los hombres se citan a sí mismos con más frecuencia que las mujeres.