La base de datos ImageNet es un proyecto para crear y mantener una base de datos masiva de imágenes anotadas, diseñada para desarrollar y probar métodos de reconocimiento de imágenes y visión artificial . A partir de 2016, se registraron en la base de datos alrededor de diez millones de URL con imágenes, que se anotaron manualmente para ImageNet, las anotaciones enumeraron los objetos que caían sobre la imagen y los rectángulos con sus coordenadas. [1] Una base de datos de imágenes anotadas y URL de terceros está disponible directamente a través de ImageNet, pero las imágenes en sí no son propiedad del proyecto [2] . Desde 2010 está en marcha el proyecto ILSVRC ( ImageNet Large Scale Visual Recognition Challenge ) , en el que varios productos de software compiten anualmente en la clasificación y reconocimiento de objetos y escenas en la base de datos de ImageNet.
ImageNet utiliza crowdsourcing para la anotación de imágenes.
Las anotaciones al nivel de las propias imágenes muestran la presencia o ausencia de un objeto de esta clase (por ejemplo, "hay un tigre en la imagen" o "no hay tigres en la imagen"). A nivel de objeto, la anotación incluye un rectángulo con las coordenadas de la parte visible del objeto. ImageNet utiliza una variante de la red semántica de WordNet para categorizar objetos, que es bastante detallada, por ejemplo, las razas de perros están representadas por 120 clases. Cada nodo de WordNet tiene cientos o miles de imágenes asociadas, pero el promedio para 2016 es de unas 500 imágenes [3] .
A partir de agosto de 2017, ImageNet tiene 14 197 122 imágenes divididas en 21 841 categorías.
Desde 2010, en el marco del proyecto ILSVRC, se realizan concursos entre grupos de investigación en la clasificación de objetos. ILSVCR se inspiró en la pequeña campaña PASCAL VOC de 2005, que tenía un conjunto de 20 000 imágenes y 20 clases de características [3] . En 2010 se lograron avances significativos en el reconocimiento de patrones. En 2011, un error de clasificación del 25 % se consideró un buen resultado. En 2012, un sistema de aprendizaje profundo basado en una red neuronal convolucional logró un error del 16 %; y en los años siguientes el error se redujo a un pequeño porcentaje [4] . En 2015, los investigadores afirmaron que los programas en ciertas tareas del proyecto ILSVRC superaron las capacidades humanas [5] . Sin embargo, como señaló Olga Russakovskaya, una de las organizadoras de la campaña, los programas todavía tienen que determinar objetos para una de las mil categorías, y las personas pueden reconocer más categorías y (a diferencia de los programas) también pueden indicar el contexto de las imágenes [6 ] .
En 2014, más de 50 organizaciones se sumaron a la campaña [3] . En 2015, los investigadores del proyecto Baidu fueron suspendidos por un año porque ingresaron al proyecto con varios nombres diferentes para eludir el límite de dos semanas [7] [8] . Baidu declaró más tarde que el líder del equipo había sido despedido y que se reuniría un grupo asesor científico especial [9] .