Aprendizaje profundo

La versión actual de la página aún no ha sido revisada por colaboradores experimentados y puede diferir significativamente de la versión revisada el 5 de junio de 2022; las comprobaciones requieren 7 ediciones .

Aprendizaje profundo ( aprendizaje profundo ; aprendizaje profundo ing.  ): un conjunto de métodos de aprendizaje automático ( con un maestro , con participación parcial de un maestro , sin maestro , con refuerzo ) basado en representaciones de aprendizaje (aprendizaje de características / representación ing. ), y algoritmos no especializados bajo tareas específicas. Muchos métodos de aprendizaje profundo se conocían en la década de 1980 (e incluso antes [1] ), pero los resultados no fueron impresionantes [2] hasta que los avances en la teoría de las redes neuronales artificiales (entrenamiento previo de redes neuronales utilizando un caso especial de un modelo gráfico no direccional, la llamada máquina limitada Boltzmann ) y la potencia informática de mediados de la década de 2000 (incluidos los que utilizan aceleradores de gráficos , matrices de puertas programables por el usuario y diversas formas de procesadores neuronales ) no permitieron la creación de tecnologías complejas. arquitecturas de redes neuronales que tengan un rendimiento suficiente y permitan resolver una amplia gama de problemas que antes no podían ser resueltos de manera efectiva, por ejemplo, en visión por computadora , traducción automática , reconocimiento de voz , y la calidad de la solución en muchos casos ahora es comparable, y en algunos casos supera la eficiencia humana [3] .  

Historia

A pesar de que el término " aprendizaje profundo " apareció en la comunidad científica de aprendizaje automático recién en 1986 después del trabajo de Rina Dekhter [4] , el primer algoritmo de trabajo general para perceptrones multicapa de avance profundo se publicó en el libro de Soviet científicos Alexei Grigorievich Ivakhnenko y Valentin Grigorievich Lapa "Dispositivos predictivos cibernéticos", allá por 1965 [5]

Otras arquitecturas profundas, especialmente las especializadas en el reconocimiento de patrones , tienen su origen en el neocognitrón desarrollado por Kunihiko Fukushima.en 1980. En 1989, Jan LeCun logró usar el algoritmo de retropropagación para entrenar redes neuronales profundas para resolver el problema de reconocer códigos postales escritos a mano [6] . A pesar de la experiencia exitosa, tomó tres días entrenar el modelo, lo que limitó significativamente la aplicabilidad de este método. La baja tasa de aprendizaje está asociada con muchos factores, incluido el problema de los gradientes que se desvanecen debido a la gran dispersión en los valores de los parámetros entrenables, que fue analizado en 1991 por Jörgen Schmidhuber y Sepp Hochreiter. Debido a estos problemas, las redes neuronales dieron paso a las máquinas vectoriales en la década de 1990 .

En 1991, estos sistemas se utilizaron para reconocer dígitos escritos a mano en 2D aislados, y el reconocimiento de objetos en 3D se logró haciendo coincidir imágenes en 2D con un modelo de objeto en 3D hecho a mano. En 1992, se creó un modelo de cresceptrón [7] [8] [9] para el reconocimiento de objetos tridimensionales en escenas desordenadas.

En 1994, André de Carvalho, junto con Mike Fairhurst y David Bisset, publicaron los resultados experimentales de una red neuronal booleana multicapa, también conocida como red neuronal ingrávida, que consiste en un módulo de red neuronal autoorganizado de tres capas para la extracción de características ( SOFT) y luego una clasificación de módulo de red neuronal en capas (GSN). Cada módulo se sometió a un entrenamiento independiente. Cada capa del módulo recuperó objetos con una complejidad creciente en relación con la capa anterior. [diez]

En 1995, Brendan Frey demostró que era posible entrenar (en dos días) una red que contenía seis capas completamente conectadas y varios cientos de unidades ocultas utilizando un algoritmo de sueño-vigilia desarrollado con Peter Dayan y Hinton [11] . Muchos factores contribuyen a la velocidad lenta, incluido el problema del gradiente de fuga analizado en 1991 por Sepp Hochreiter [12] [13] .

Los modelos más simples que utilizan el trabajo manual específico de la tarea, como los filtros Gabor y las máquinas de vectores de soporte (SVM), fueron opciones populares en las décadas de 1990 y 2000 debido al costo computacional de las redes neuronales artificiales (ANN). .ANN) y la falta de comprensión de cómo el cerebro vincula sus redes biológicas.

Tanto el aprendizaje superficial como el profundo (p. ej., redes recurrentes), las ANN se han estudiado durante muchos años [14] [15] [16] . Estos métodos nunca han superado los modelos heterogéneos mixtos gaussianos y de Markov ocultos basados ​​en modelos de habla generativa entrenados discriminatoriamente [17] . Se analizaron las principales dificultades, incluida la reducción del gradiente [12] y la débil estructura de correlación temporal en los modelos predictivos neurales [18] [19] . Las dificultades adicionales fueron la falta de datos de entrenamiento y el poder de cómputo limitado.

El aprendizaje profundo ganó popularidad a mediados de la década de 2000 cuando todo se unió: las computadoras se volvieron lo suficientemente poderosas para entrenar grandes redes neuronales (aprendieron a delegar cálculos a las GPU , lo que aceleró el proceso de aprendizaje en un orden de magnitud), los conjuntos de datos se volvieron lo suficientemente grandes como para entrenar grandes redes tenía sentido, y se produjo otro avance en la teoría de las redes neuronales artificiales: artículos de Hinton , Osinderero y Tae [20] , así como de Bengio [21] , en los que los autores demostraron que es posible preentrenar eficazmente una red neuronal multicapa si cada capa se entrena por separado usando una máquina Boltzmann limitada y luego se vuelve a entrenar usando el método de retropropagación .

La revolución del aprendizaje profundo

En 2012, un equipo dirigido por George E. Dahl ganó el Desafío de actividad molecular de Merck utilizando redes neuronales profundas multitarea para predecir el objetivo biomolecular de un solo fármaco [22] . En 2014, el grupo de Hochreiter utilizó el aprendizaje profundo para identificar los efectos no deseados y tóxicos de los productos químicos ambientales en nutrientes, productos para el hogar y medicamentos, y ganó el "Desafío de datos Tox21" de los Institutos Nacionales de Salud de EE. UU. , Administración de Alimentos y Medicamentos de EE. UU. calidad de alimentos y medicamentos y NCATS [23] .

Se sintió un desarrollo significativo en el reconocimiento de imágenes u objetos entre 2011 y 2012. Si bien las redes neuronales convolucionales retropropagadas (CNN) han existido durante décadas, y las GPU han estado implementando redes neuronales durante muchos años, incluidas las CNN, se han utilizado implementaciones rápidas de CNN en la GPU para avanzar en la visión por computadora. En 2011, este enfoque logró un rendimiento sobrehumano por primera vez en una competencia de reconocimiento de patrones visuales. También en 2011 ganó el concurso de caligrafía ICDAR y en mayo de 2012 el concurso de segmentación de imágenes ISBI [24] . Hasta 2011, las CNN no jugaron un papel importante en las conferencias de visión por computadora, pero en junio de 2012, una presentación de Ciresan [25] en la conferencia insignia de CVPR mostró cómo la máxima integración de CNN en una GPU puede mejorar significativamente muchos resultados de referencia. En octubre de 2012, Krizhevsky [26] desarrolló un sistema similar , cuyo equipo ganó la competencia ImageNet a gran escala por un margen significativo sobre los métodos de aprendizaje automático de superficie. En noviembre de 2012, el equipo de Ciresan también ganó el concurso ICPR de análisis de imágenes médicas grandes para la detección del cáncer y, al año siguiente, el Gran Desafío MICCAI sobre el mismo tema [27] . En 2013 y 2014, la tasa de error en la tarea de ImageNet con aprendizaje profundo se redujo aún más debido a una tendencia similar en el reconocimiento de voz a gran escala. Steven Wolfram publicó estas mejoras como parte del Proyecto de identificación de imágenes [28] .

La clasificación de imágenes se amplió luego a la tarea más compleja de generar descripciones (títulos) para imágenes, a menudo como una combinación de CNN y LSTM [29] [30] [31] [32] .

Algunos investigadores creen que la victoria de ImageNet en octubre de 2012 marcó el comienzo de una "revolución del aprendizaje profundo" que cambió la industria de la IA [33] .

En marzo de 2019, Yoshua Bengio , Geoffrey Hinton y Yann LeCun recibieron el Premio Turing por avances conceptuales y de ingeniería que han hecho de las redes neuronales profundas un componente crítico de la informática.

Redes neuronales

Las redes neuronales artificiales (ANN)  son sistemas computacionales basados ​​en los principios de las redes neuronales biológicas que componen el cerebro animal. Dichos sistemas aprenden (mejoran gradualmente sus habilidades) a realizar tareas, generalmente sin estar programados para resolver tareas específicas. Por ejemplo, en el reconocimiento de imágenes de gatos, pueden aprender a reconocer imágenes que contienen gatos analizando ejemplos de imágenes que se han etiquetado manualmente como "gato" o "sin gato" y utilizando los resultados del análisis para identificar gatos en otras imágenes. Las ANN han encontrado su mayor uso en aplicaciones de software que son difíciles de expresar con un algoritmo informático tradicional que utiliza programación basada en reglas .

Las ANN se basan en un conjunto de unidades conectadas llamadas neuronas artificiales (similares a las neuronas biológicas en el cerebro biológico). Cada conexión (sinapsis) entre neuronas puede transmitir una señal a otra neurona. La neurona receptora (postsináptica) puede procesar la(s) señal(es) y luego enviar señales a las neuronas conectadas a ella. Las neuronas pueden tener un estado, generalmente representado por números reales, generalmente entre 0 y 1. Las neuronas y las sinapsis también pueden tener pesos que cambian durante el aprendizaje, lo que puede aumentar o disminuir la fuerza de la señal que envía.

Por lo general, las neuronas se organizan en capas. Diferentes capas pueden realizar diferentes tipos de transformaciones. Las señales viajan desde la primera (entrada) hasta la última capa (salida), posiblemente después de pasar por las capas varias veces.

El objetivo original del enfoque de red neuronal era resolver problemas de la misma manera que lo hace el cerebro humano. Con el tiempo, la atención se ha centrado en la selección de ciertas habilidades intelectuales, lo que ha llevado a desviaciones de la biología, como la retropropagación, o la transmisión de información en dirección opuesta y la creación de una red para reflejar esta información.

Las redes neuronales se utilizan para una variedad de tareas, que incluyen visión artificial, reconocimiento de voz, traducción automática, filtrado de redes sociales, videojuegos y diagnósticos médicos.

A partir de 2017, las redes neuronales suelen tener de unos pocos miles a unos pocos millones de unidades y millones de conexiones. A pesar de que este número es varios órdenes de magnitud menor que el número de neuronas en el cerebro humano, estas redes pueden realizar muchas tareas a un nivel que excede las capacidades de los humanos (por ejemplo, reconocimiento facial, jugar al go ) [34] .

Redes neuronales profundas

Una red neuronal profunda (DNN, DNN - Red neuronal profunda) es una red neuronal artificial (ANN) con varias capas entre las capas de entrada y salida [35] [36] . El GNN encuentra el método de transformación matemática correcto para convertir la entrada en una salida, independientemente de si la correlación es lineal o no lineal . La red se mueve a través de las capas, calculando la probabilidad de cada salida. Por ejemplo, un DNN que está entrenado para reconocer razas de perros recorrerá una imagen dada y calculará la probabilidad de que un perro en la imagen pertenezca a una raza en particular. El usuario puede ver los resultados y seleccionar las probabilidades que debe mostrar la red (por encima de un cierto umbral, por ejemplo) y devolver una etiqueta sugerida a la red. Cada transformación matemática se considera una capa, y las GNN complejas tienen muchas capas, de ahí el nombre de redes "profundas" o "profundas".

Las GNN pueden modelar relaciones no lineales complejas. Las arquitecturas GNN generan modelos compositivos en los que un objeto se expresa como una composición multinivel de primitivas [37] . Las capas adicionales permiten que los elementos se compongan a partir de niveles más bajos, potencialmente modelando datos complejos con menos unidades que una red fina con métricas similares [35] .

La arquitectura profunda incluye muchas variaciones de varios enfoques básicos. Cada arquitectura ha tenido éxito en ciertas áreas. No siempre es posible comparar el rendimiento de múltiples arquitecturas a menos que hayan sido evaluadas en los mismos conjuntos de datos.

Las GNN suelen ser redes de avance en las que los datos se transfieren desde una capa de entrada a una capa de salida sin retroalimentación. Primero, la GNN crea un mapa de neuronas virtuales y asigna valores numéricos aleatorios o "pesos" a las conexiones entre ellas. Los pesos y los datos de entrada se multiplican y devuelven una señal de salida de 0 a 1. Si la red no reconoce con precisión un patrón en particular, el algoritmo ajustará los pesos hasta que determine los coeficientes que procesan correctamente los datos. [38]

Definiciones

Algoritmos de aprendizaje automático

El aprendizaje profundo se caracteriza como una clase de algoritmos de aprendizaje automático que [39] :

Todas las definiciones afirman

  1. la presencia de varias capas de procesamiento no lineal
  2. el aprendizaje supervisado o no supervisado presentó cada capa, formando una jerarquía de niveles bajos a altos [39] .

La composición de capas no lineales específicas depende del problema que se está resolviendo. Se utilizan tanto capas ocultas de la red neuronal como capas de transformaciones lógicas complejas [40] . El sistema puede incluir variables latentes organizadas en capas en modelos generativos profundos, como nodos en una red profunda de confianza y una máquina de Boltzmann restringida profunda .

Los algoritmos de aprendizaje profundo se oponen a los algoritmos de aprendizaje superficial en términos de la cantidad de transformaciones parametrizadas que encuentra la señal a medida que se propaga desde la capa de entrada a la capa de salida, donde una transformación parametrizada se considera una unidad de procesamiento de datos que tiene parámetros entrenables como como pesos o umbrales [41] . La cadena de transformaciones de entrada a salida se llama CAP - mediante la transferencia de responsabilidad ( ruta de asignación de créditos en inglés  , CAP ). Los CAP describen posibles relaciones causales a lo largo de la red desde la entrada hasta la salida, y la ruta en diferentes ramas puede tener diferentes longitudes. Para una red neuronal feedforward, la profundidad del CAP no difiere de la profundidad de la red y es igual al número de capas ocultas más una (la capa de salida también está parametrizada). Para redes neuronales recurrentes , en las que la señal puede saltar a través de capas sin pasar por las intermedias, CAP tiene una longitud potencialmente ilimitada debido a la retroalimentación. No existe un umbral universalmente acordado para la profundidad de división del aprendizaje superficial del aprendizaje profundo, pero generalmente se considera que el aprendizaje profundo se caracteriza por múltiples capas no lineales (CAP> 2). Jorgen Schmidhuber también destaca el "aprendizaje muy profundo" cuando CAP > 10 [41] .

Contenidos

El aprendizaje profundo es un algoritmo de aprendizaje automático para modelar abstracciones de alto nivel utilizando múltiples transformaciones no lineales [39] [40] [41] [42] [43] .

En primer lugar, el aprendizaje profundo incluye los siguientes métodos y sus variaciones:

Al combinar estos métodos, se crean sistemas complejos que corresponden a varias tareas de inteligencia artificial .

El aprendizaje profundo es una selección validada de una amplia familia de métodos de aprendizaje automático para representar los datos que mejor se adaptan a la naturaleza del problema. Una imagen, por ejemplo, se puede representar de muchas maneras, como un vector de intensidad de valores por píxel, o (de una forma más abstracta) como un conjunto de primitivas, regiones de cierta forma, etc. Representaciones de datos exitosas facilitar la resolución de problemas específicos, por ejemplo, reconocimiento facial y expresiones faciales [44] ). En los sistemas de aprendizaje profundo, automatiza el proceso de selección y ajuste de características, realizando el aprendizaje de características sin un maestro o con la participación parcial de un maestro , utilizando algoritmos eficientes y extracción jerárquica de características [45] para esto .

La investigación en esta área ha mejorado los modelos para trabajar con grandes volúmenes de datos sin etiquetar. Han surgido algunos enfoques a partir de los avances en el campo de la neurociencia , los avances en la interpretación del procesamiento de la información, la construcción de modelos de comunicación en el sistema nervioso , como la codificación neuronal asociada con la determinación de la relación entre el estímulo y las respuestas neuronales, y la relación de la actividad eléctrica entre neuronas en el cerebro [46] .

Los sistemas de aprendizaje profundo han encontrado aplicación en áreas como la visión por computadora , el reconocimiento de voz , el procesamiento del lenguaje natural , el reconocimiento de audio, la bioinformática , donde se demostraron resultados significativamente mejores que los anteriores para una serie de tareas.

A pesar del éxito del uso del aprendizaje profundo, todavía tiene una limitación fundamental: los modelos de aprendizaje profundo están limitados en lo que pueden representar, y la mayoría de los programas no se pueden expresar como una transformación geométrica continua de una variedad de datos [47] .

Sin embargo, sigue existiendo la noción escéptica de que el aprendizaje profundo  no es más que una palabra de moda o un cambio de marca para las redes neuronales [48] [49] .

Véase también

Notas

  1. De hecho, las primeras redes profundas aparecieron a mediados de la década de 1960: las redes en forma de perceptrones profundos se describieron en los trabajos de los científicos soviéticos A. G. Ivakhnenko y V. G. Lapa; consulte la sección Historia a continuación.
  2. El investigador de redes neuronales John Denker observó en 1994: "Las redes neuronales son la segunda mejor manera de hacer casi cualquier cosa".
  3. Ciresan, Dan; Meier, U.; Schmidhuber, J. Redes neuronales profundas de varias columnas para la clasificación de imágenes  //  Conferencia IEEE 2012 sobre visión artificial y reconocimiento de patrones: revista. - 2012. - Junio. - Pág. 3642-3649 . -doi : 10.1109/ cvpr.2012.6248110 .
  4. Rina Dechter (1986). Aprender mientras se busca en problemas de satisfacción de restricciones. Archivado el 19 de abril de 2016 en Wayback Machine . Universidad de California, Departamento de Ciencias de la Computación, Laboratorio de Sistemas Cognitivos.
  5. Ivakhnenko A. G. , Lapa V. G. Dispositivos predictivos cibernéticos. - K. : "Naukova Dumka", 1965. - 216 p. - ISBN 978-5-458-61159-6 .
  6. Yann LeCun et al. Retropropagación aplicada al reconocimiento de códigos postales escritos a mano (enlace no disponible) . Consultado el 28 de agosto de 2014. Archivado desde el original el 29 de mayo de 2015. 
  7. J. Weng, N. Ahuja y TS Huang. Cresceptron: una red neuronal autoorganizada que crece de forma adaptativa  // Proc. Conferencia Conjunta Internacional sobre Redes Neuronales, Baltimore, Maryland, vol I, págs. 576-581. - junio de 1992. Archivado desde el original el 21 de septiembre de 2017.
  8. J. Weng, N. Ahuja y TS Huang,. Aprendizaje de reconocimiento y segmentación de objetos 3D a partir de imágenes 2D  // Proc. IV Conf. Internacional Computer Vision, Berlín, Alemania, págs. 121-128. - mayo de 1993. Archivado desde el original el 21 de septiembre de 2017.
  9. J. Weng, N. Ahuja y TS Huang,. Aprendizaje de reconocimiento y segmentación utilizando Cresceptron  // International Journal of Computer Vision, vol. 25, núm. 2, págs. 105-139. Nov. 1997. Archivado desde el original el 25 de enero de 2021.
  10. de Carvalho, André CLF; Fairhurst, Mike C.; Bisset, David (1994-08-08). Una red neuronal booleana integrada para la clasificación de patrones  // Letras de reconocimiento de patrones... — págs. 807–813 . -doi : 10.1016 / 0167-8655(94)90009-4. . Archivado desde el original el 25 de agosto de 2019.
  11. Hinton, Geoffrey E.; Dayán, Peter; Frey, Brendan J.; Neal, Radford. El algoritmo de despertar-dormir para redes neuronales no supervisadas  // Ciencia. 268 (5214): 1158–1161 .. - 26 de mayo de 1995. doi : 10.1126 / ciencia.7761831. . Archivado desde el original el 25 de agosto de 2019.
  12. ↑ 1 2 S. Hochreiter. Untersuchungen zu dynamischen neuronalen Netzen  // Tesis de diploma. instituto f. Informática, Technische Univ. Munich. Asesor: J. Schmidhuber. - 1991. Archivado el 6 de marzo de 2015.
  13. Hochreiter, S.; et al. Flujo de gradiente en redes recurrentes: la dificultad de aprender dependencias a largo plazo  // En Kolen, John F.; Kremer, Stefan C. (eds.). Una guía de campo para redes recurrentes dinámicas. John Wiley & Sons.- 15 de enero de 2001.- ISBN 978-0-7803-5369-5 . . Archivado desde el original el 19 de agosto de 2020.
  14. Morgan, Nelson; Bourlard, Herve; Riñones, Steve; Cohen, Michael; Franco, Horacio. Sistemas híbridos de redes neuronales/modelos ocultos de Markov para reconocimiento de voz continuo // Revista internacional de reconocimiento de patrones e inteligencia artificial.. — 1993-08-01. - Nº 07 (4): 899–916 . — ISSN 0218-0014 . -doi : 10.1142/ s0218001493000455 .
  15. Robinson, T. Un sistema de reconocimiento de palabras en red de propagación de errores recurrentes en tiempo real. — ICASSP. Icassp'92: 617–620 .. - 1992. - ISBN 9780780305328 ..
  16. Wabel, A.; Hanazawa, T.; Hinton, G.; Shikano, K.; Lang, KJ Reconocimiento de fonemas mediante redes neuronales de retardo de tiempo // Transacciones IEEE sobre acústica, voz y procesamiento de señales. 37(3): 328–339. - Marzo 1989. - ISSN 0096-3518 . -doi : 10.1109/29.21701 . hdl:10338.dmlcz/135496 .
  17. Panadero, J.; Deng, Li; Vidrio, Jim; Khudanpur, S.; Lee, C.-H.; Morgan, N.; O'Shaughnessy, D. 2009. Desarrollos de investigación y direcciones en reconocimiento y comprensión del habla, Parte 1 // Revista de procesamiento de señales IEEE.. - n.º 26 (3): 75–80 . -doi : 10.1109/ msp.2009.932166 .
  18. Bengio, Y. Redes neuronales artificiales y su aplicación al reconocimiento de voz/secuencias  // Universidad McGill Ph.D. tesis.. - 1991. Archivado desde el original el 9 de mayo de 2021.
  19. Deng, L.; Hassanein, K.; Elmasry, M. Análisis de la estructura de correlación para un modelo predictivo neuronal con aplicaciones al reconocimiento de voz // Redes neuronales. 7(2). - 1994. - S. 331-339 . - doi : 10.1016/0893-6080(94)90027-2 .
  20. Un algoritmo de aprendizaje rápido para redes de creencias profundas . Consultado el 24 de enero de 2018. Archivado desde el original el 23 de diciembre de 2015.
  21. Bengio, Yoshua (2012), Recomendaciones prácticas para el entrenamiento basado en gradientes de arquitecturas profundas, arΧiv : 1206.5533 . 
  22. Anuncio de los ganadores del Desafío de actividad molecular de Merck . Consultado el 27 de noviembre de 2019. Archivado desde el original el 21 de junio de 2017.
  23. NCATS anuncia los ganadores del desafío de datos Tox21 . Consultado el 27 de noviembre de 2019. Archivado desde el original el 8 de septiembre de 2015.
  24. Ciresan, Dan; Giusti, Alejandro; Gambardella, Luca M.; Schmidhuber, Juergen. Avances en sistemas de procesamiento de información neuronal  // Curran Associates, Inc. - 2012. - P. 2843–2851. . Archivado desde el original el 9 de agosto de 2017.
  25. Ciresan, D.; Meier, U.; Schmidhuber, J. Redes neuronales profundas de varias columnas para la clasificación de imágenes // Conferencia IEEE sobre visión artificial y reconocimiento de patrones. - 2012. - S. 3642–3649 . — ISBN 978-1-4673-1228-8 . -doi : 10.1109/ cvpr.2012.6248110 . - arXiv : 1202.2745. .
  26. Krizhevsky, Alex; Sutskever, Ilya; Hinton, Geoffrey. Clasificación de ImageNet con redes neuronales convolucionales profundas  // NIPS 2012: Sistemas de procesamiento de información neuronal, Lake Tahoe, Nevada. - 2012. Archivado el 10 de enero de 2017.
  27. Ciresan, D.; Giusti, A.; Gambardella, LM; Schmidhuber, J. Detección de mitosis en imágenes histológicas de cáncer de mama mediante redes neuronales profundas // Actas MICCAI. Apuntes de clase en informática. 7908 (Pt 2): 411–418. - 2013. - ISBN 978-3-642-38708-1 . -doi : 10.1007 / 978-3-642-40763-5_51 . — PMID 24579167 .
  28. ^ "El proyecto de identificación de imágenes de Wolfram Language". www.imageidentify.com. Consultado el 22 de marzo de 2017. . Consultado el 29 de noviembre de 2019. Archivado desde el original el 22 de julio de 2020.
  29. Vinyals, Oriol; Toshev, Alexander; Bengio, Samy; Erhan, Dumitru. Mostrar y contar: un generador de leyendas de imágenes neuronales // [cs.CV]. - 2014. - arXiv : 1411.4555 .
  30. Colmillo, Hao; Gupta, Saurabh; Iandola, Forrest; Srivastava, Rupesh; Deng, Li; Dólar, Piotr; Gao, Jianfeng; Él, Xiaodong; Mitchell, Margarita; Platt, John C; Lorenzo Zitnick, C; Zweig, Geoffrey. De los subtítulos a los conceptos visuales y atrás // [cs.CV]. - 2014. - arXiv : https://arxiv.org/abs/1411.4952 .
  31. Kiros, Ryan; Salakhutdinov, Ruslan; Zemel, Richard S. Unificación de incrustaciones semánticas visuales con modelos de lenguaje neuronal multimodal // [cs.LG]. - 2014. - arXiv : https://arxiv.org/abs/1411.2539 .
  32. Zhong, Sheng-hua; Liu, Yan; Liu, Yang. Aprendizaje profundo bilineal para la clasificación de imágenes // Actas de la 19.ª Conferencia internacional sobre multimedia de la ACM. MM'11. Nueva York, NY, EE. UU.: ACM. - 2011. - S. 343–352 . — ISBN 9781450306164 . -doi : 10.1145/ 2072298.2072344 .
  33. Por qué el aprendizaje profundo está cambiando repentinamente su vida . Fortune (2016. Consultado el 13 de abril de 2018). Consultado el 30 de noviembre de 2019. Archivado desde el original el 14 de abril de 2018.
  34. Plata, David; Huang, Aja; Madison, Chris J.; Guez, Arturo; Sifre, Laurent; Driessche, George van den; Schrittwieser, Julián; Antonoglou, Ioannis; Panneershelvam, Veda. Dominar el juego de Go con redes neuronales profundas y búsqueda de árboles // Nature: 529 (7587):. - Enero 2016. - ISSN 1476-4687 . -doi : 10.1038/ naturaleza16961 . — . — PMID 26819042 .
  35. ↑ 1 2 Bengio, Yoshua. Aprendizaje de arquitecturas profundas para IA  // Fundamentos y tendencias en aprendizaje automático. 2(1):1–127. - 2009. - doi : 10.1561/2200000006 .
  36. Schmidhuber, J. Aprendizaje profundo en redes neuronales: una descripción general // Redes neuronales. 61:85–117. - 2015. - doi : 10.1016/j.neunet.2014.09.003 . -arXiv : 1404.7828 . _ — PMID 25462637 .
  37. Szegedy, Christian; Toshev, Alexander; Erhan, Dumitru. Redes neuronales profundas para detección de objetos  // Avances en sistemas de procesamiento de información neuronal. - 2013. - S. 2553-2561 . Archivado desde el original el 29 de junio de 2017.
  38. Hof, Robert D. ¿Se está consolidando finalmente la inteligencia artificial?  // Revisión de tecnología del MIT. Consultado el 10 de julio de 2018. Archivado desde el original el 31 de marzo de 2019.
  39. 1 2 3 Deng, L.; Yu, D. Aprendizaje profundo: métodos y aplicaciones  (indefinido)  // Fundamentos y tendencias en el procesamiento de señales. - 2014. - V. 7 , N° 3-4 . - S. 1-199 . -doi : 10.1561 / 2000000039 .
  40. 1 2 Bengio, Yoshua. Aprendizaje de arquitecturas profundas para IA  (neopr.)  // Fundamentos y tendencias en aprendizaje automático. - 2009. - V. 2 , N º 1 . - S. 1-127 . -doi : 10.1561 / 2200000006 . Archivado desde el original el 4 de marzo de 2016. Copia archivada (enlace no disponible) . Consultado el 24 de noviembre de 2017. Archivado desde el original el 4 de marzo de 2016. 
  41. 1 2 3 Schmidhuber, J. Aprendizaje profundo en redes neuronales: una descripción general  (indefinido)  // Redes neuronales. - 2015. - T. 61 . - S. 85-117 . -doi : 10.1016/ j.neunet.2014.09.003 . -arXiv : 1404.7828 . _ — PMID 25462637 .
  42. Bengio, Y.; Courville, A.; Vincent, P. Aprendizaje de representación: una revisión y nuevas perspectivas  // IEEE Transactions on Pattern Analysis and Machine Intelligence  [  : revista. - 2013. - Vol. 35 , núm. 8 _ - Pág. 1798-1828 . -doi : 10.1109/ tpami.2013.50 . -arXiv : 1206.5538 . _
  43. Bengio, Yoshua; Le Cun, Yann; Hinton, Geoffrey. Aprendizaje profundo  (inglés)  // Naturaleza. - 2015. - Vol. 521 . - P. 436-444 . -doi : 10.1038/ naturaleza14539 . — PMID 26017442 .
  44. Glauner, P. (2015). Redes Neuronales Convolucionales Profundas para el Reconocimiento de Sonrisas (Tesis de Maestría). Imperial College London, Departamento de Informática. arXiv : 1508.06535 .
  45. Song, Lee, Procesamiento de información neuronal, 2013
  46. Olshausen, BA Aparición de propiedades de campo receptivo de células simples mediante el aprendizaje de un código disperso para imágenes naturales  //  Nature: revista. - 1996. - vol. 381 , núm. 6583 . - Pág. 607-609 . -doi : 10.1038/ 381607a0 . — . —PMID 8637596 .
  47. François Chollet. Capítulo 9, Sección 2 // Aprendizaje profundo con Python. - Manning, 2017. - 350 p. — ISBN 9781617294433 .
  48. Aprendizaje profundo para un análisis discriminativo eficiente . Tiempo desde el inicio de la fuente: 7min 45s. Archivado el 19 de octubre de 2020 en Wayback Machine .
  49. Gomes, el maestro de aprendizaje automático Michael Jordan sobre los delirios de Big Data y otros grandes esfuerzos de ingeniería

Literatura