Perceptrón multicapa de Rumelhart

La versión actual de la página aún no ha sido revisada por colaboradores experimentados y puede diferir significativamente de la versión revisada el 16 de mayo de 2021; las comprobaciones requieren 4 ediciones .

Un perceptrón multicapa  es un caso especial del perceptrón de Rosenblatt , en el que un algoritmo de retropropagación entrena todas las capas. El nombre, por razones históricas, no refleja las características de este tipo de perceptrón, es decir, no está relacionado con el hecho de que tenga varias capas (ya que el perceptrón de Rosenblatt también tenía varias capas). Una característica es la presencia de más de una capa entrenable (generalmente dos o tres). Se elimina la necesidad de un gran número de capas de entrenamiento, ya que teóricamente una sola capa oculta es suficiente para recodificar la representación de entrada de tal forma que se obtenga separabilidad lineal para la representación de salida. Se supone que al usar más capas, puede reducir la cantidad de elementos en ellas, es decir, la cantidad total de elementos en las capas será menor que si usa una capa oculta. Esta suposición se ha utilizado con éxito en tecnologías de aprendizaje profundo y tiene una justificación [1] .

La historia de la formación del concepto de un perceptrón multicapa

Todos los tipos de perceptrones propuestos por Rosenblatt desde 1958 son multicapa según la clasificación moderna. Sin embargo, el interés por los perceptrones disminuyó en la década de 1970 y en 1986 Rumelhart rediseñó el perceptrón multicapa. Al mismo tiempo, debido a las imprecisiones terminológicas de Rummelhart, la literatura [2] también difundió la idea de que el perceptrón original de Rosenblatt era primitivo y de una sola capa, y solo Rummelhart justificó la necesidad de introducir capas ocultas.

En su investigación, Rosenblatt utilizó principalmente un perceptrón elemental de tres capas, con los pesos de la primera capa (entre los elementos S y A) seleccionados al azar y luego fijos. La combinación de aleatoriedad y gran cantidad de neuronas en la capa A proporcionó una alta probabilidad de caer en ese hiperespacio, en el que había separabilidad lineal y la convergencia del proceso de aprendizaje estaba garantizada. Sin embargo, tal técnica no se estudió ni entendió lo suficiente en ese momento, y algunos científicos la percibieron incorrectamente como si tuviera solo una capa "de trabajo", y no se prestó la debida atención a la primera capa fija.

En 1969, Minsky y Papert revisaron críticamente el perceptrón elemental en su libro , identificando una serie de limitaciones que causaron una disminución en el interés por los perceptrones entre los investigadores. Volviendo al tema muchos años después, Rummelhart se propuso crear un perceptrón más eficiente y práctico, pero para ello era necesario al menos intentar demostrar la ausencia de las limitaciones descritas por Minsky.

En 1986, Rumelhart publicó una colección de artículos (monografía colectiva) [3] , donde vuelve a la discusión sobre los perceptrones y fundamenta la necesidad de un algoritmo de retropropagación de errores, cuya esencia es la necesidad de entrenar no solo el segundo, sino también la primera capa. Al mismo tiempo, cita un dibujo del libro de Minsky y Pipert y lo firma: "Perceptrón de una sola capa analizado por Minsky y Pipert". La inexactitud fue que Minsky y Pipert no analizaron un perceptrón de una sola capa; El perceptrón de Rosenblatt que se muestra en la figura fue presentado por Rumelhart como una sola capa, ya que la primera capa con pesos fijos no se tuvo en cuenta, lo que dejó el hecho de que la primera capa jugó un papel importante en la transformación de la señal de entrada en una multidimensional linealmente. espacio separable sin atención.

Como resultado, Rumelhart formula una conclusión errónea:

En su famoso libro Perceptrons, Minsky y Papert (1969) documentan las limitaciones del perceptrón. El ejemplo más simple de una función que no puede ser evaluada por un perceptrón es XOR.

Texto original  (inglés)[ mostrarocultar] En su famoso libro Perceptrons , Minsky y Papert (1969) documentan las limitaciones del perceptrón. El ejemplo más simple de una función que no puede ser calculada por el perceptrón es el o exclusivo (XOR).

La referencia a Minsky aquí no es lo suficientemente precisa: Minsky no mencionó el problema XOR en ninguna parte de su libro. Además, el perceptrón de Rosenblatt resuelve el problema XOR. Pero la aparición del término "perceptrón de una sola capa" se convirtió en la base de una serie de malentendidos y se incluyó en varias conferencias y libros de texto posteriores. Al mismo tiempo, Minsky hizo una declaración sin fundamento de que "el perceptrón funciona sin problemas solo bajo la condición de que el conjunto de datos iniciales sea linealmente separable ", lo que podría malinterpretarse en el futuro.

Pero ya en 1964 [4] , el propio autor de la hipótesis de la compacidad Braverman demostró cómo el perceptrón de Rosenblatt resuelve un problema arbitrario sin exigir la satisfacción de los datos iniciales a la hipótesis de la compacidad, y traduciendo a la terminología moderna, sólo la suficiencia y representatividad de se requirió la muestra de entrenamiento:

Al interpretar el funcionamiento del perceptrón desde el punto de vista del algoritmo potencial, no impusimos ningún requisito específico en los planos implementados por los elementos A. Éramos indiferentes a los coeficientes de los planos y la dirección de sus lados "positivos". Solo se requería que al movernos a lo largo de cualquier línea recta en el espacio de los receptores, cruzáramos "de más a menos" una cantidad suficientemente grande de planos. En otras palabras, debe haber una gran cantidad de planos orientados de manera diferente en el espacio de los receptores.

Además, de momento esta afirmación de Minsky ha sido refutada por S. S. Yakovlev, quien, analizando los trabajos de Rosenblatt, indicó qué características arquitectónicas debe tener un perceptrón (o cualquier otra red neuronal ) para formar un espacio de características que satisfaga las hipótesis de la compacidad . O lo que es lo mismo, describió las condiciones en las que se proporciona una alta probabilidad (más del 99,99%) de entrar en tal hiperespacio, en el que existe separabilidad lineal y se garantiza la convergencia del proceso de aprendizaje. [5]

Además, Rumelhart escribe:

Así vemos que XOR no se puede resolver en dos dimensiones, pero si agregamos una tercera dimensión apropiada, es decir, una característica nueva apropiada, el problema se puede resolver. Además, si está utilizando un perceptrón multicapa, es posible tomar el problema 2D original y convertirlo en el problema 3D correspondiente, haciéndolo solucionable. De hecho, Minsky y Papert sabían que siempre era posible transformar cualquier problema indecidible en uno solucionable en un perceptrón multicapa. En el caso más general de las redes multicapa, clasificamos los elementos en tres clases: elementos de entrada que reciben muestras de entrada directamente; elementos de salida para los que hay aprendizaje asociativo o entrada seleccionada; y elementos ocultos que no reciben entrada directamente y no tienen retroalimentación directa. Es un stock de elementos de los que se pueden derivar nuevas propiedades y nuevas representaciones internas. El problema es saber qué nuevas propiedades se necesitan para resolver el problema. En definitiva, necesitamos poder entrenar capas intermedias. La pregunta es ¿cómo? El procedimiento original de entrenamiento del perceptrón se aplica como máximo a una capa. Minsky y Papert creían que no se podía encontrar tal procedimiento general.

Texto original  (inglés)[ mostrarocultar] Así, vemos que el XOR no es solucionable en dos dimensiones, pero si añadimos la tercera dimensión apropiada, es decir, la característica nueva apropiada, el problema es solucionable. Además, como se indica en la Figura 4, si permite un perceptrón multicapa, es posible tomar el problema bidimensional original y convertirlo en el problema tridimensional apropiado para que pueda resolverse. De hecho, como sabían Minsky y Papert, siempre es posible convertir cualquier problema irresoluble en uno solucionable en un perceptrón multicapa. En el caso más general de redes multicapa, clasificamos las unidades en tres clases: unidades de entrada, que reciben los patrones de entrada directamente; unidades de salida, que tienen entradas de enseñanza o de destino asociadas; y unidades ocultas, que no reciben entradas directamente ni reciben retroalimentación directa. Este es el stock de unidades a partir del cual se pueden crear nuevas características y nuevas representaciones internas. El problema es saber qué nuevas características se requieren para resolver el problema en cuestión. En definitiva, debemos ser capaces de aprender capas intermedias. La pregunta es, ¿cómo? El procedimiento original de aprendizaje del perceptrón no se aplica a más de una capa. Minsky y Papert creían que no se podía encontrar tal procedimiento general.

Aquí Rumelhart ve la solución en " tomar el problema 2D original y transformarlo en un problema 3D correspondiente ", y justifica la importancia fundamental de las capas, creyendo erróneamente que el perceptrón de Rosenblatt no tiene esta cualidad. La única diferencia es que Rosenblatt pudo evitar entrenar la primera capa utilizando su proyección aleatoria en un espacio de alta dimensión. Además, Rosenblatt consideró un análogo completo del perceptrón multicapa de Rumelhart, llamado perceptrón con conexiones SA variables , donde, entre otras cosas, se demostró que un procedimiento de aprendizaje similar a la propagación hacia atrás de un error no siempre puede garantizar el logro de una solución (asegurar convergencia).

No solo Rumelhart desarrolló el método de retropropagación , sino que ya había trabajos teóricos de otros investigadores dedicados al mismo tema:

  1. Werbos PJ [6]
  2. Galushkin A. I. [7] .
  3. S. I. Bartsev y V. A. Okhonin, grupo de Krasnoyarsk, publican una versión más general del método de retropropagación: el principio de dualidad, que también es aplicable a sistemas de dimensión infinita, sistemas con retraso, etc. [8] [9]

pero fue el trabajo de Rummelhart el que revivió el interés práctico por los perceptrones.

Al respecto, Wasserman [10] dijo:

Si bien esta duplicación es común en todos los campos científicos, en las redes neuronales artificiales la situación es mucho más grave debido a la naturaleza límite del tema en sí. La investigación sobre redes neuronales se publica en una variedad tal de libros y revistas que incluso el investigador más calificado necesita un esfuerzo considerable para estar al tanto de todo el trabajo importante en esta área.

Debido a estas imprecisiones, se ha difundido en la literatura una opinión errónea sobre la primitividad del perceptrón de Rosenblatt, y que solo Rummelhart, habiendo creado su perceptrón multicapa, descubrió la posibilidad fundamental de la separación lineal y la solución del problema XOR, aunque el descubrimiento de Rummelhart consistió principalmente en la modificación práctica del circuito multicapa y el desarrollo de un método de aprendizaje fundamentalmente nuevo.

Diferencias entre un perceptrón multicapa y un perceptrón de Rosenblatt

En 1988, Minsky volvió a publicar el libro Perceptrons , que incluía nuevos capítulos. En particular, analizan las diferencias entre entrenar un perceptrón por el método de corrección de errores y entrenar un perceptrón multicapa Rumelhart por el método de retropropagación de errores . Minsky demostró que no existen diferencias cualitativas, ambos métodos resuelven problemas comparables y con la misma eficiencia y limitaciones. La diferencia está sólo en la forma en que se llega a la solución.

Existen las siguientes diferencias entre el perceptrón multicapa de Rumelhart y el perceptrón de Rosenblatt:

Un perceptrón multicapa tendrá ventajas funcionales sobre el perceptrón de Rosenblatt solo si, en respuesta a los estímulos, no solo se realizará algún tipo de reacción (pues ya se puede obtener cualquier tipo de reacción en el perceptrón ), sino que se expresará en un aumento en la eficiencia de generar tales reacciones . Por ejemplo, mejorará la capacidad de generalizar , es decir, a las reacciones correctas ante estímulos que el perceptrón no ha aprendido. Pero por el momento no existen tales teoremas generalizadores, solo hay muchos estudios de varias pruebas estandarizadas que comparan diferentes arquitecturas.

Véase también

Notas

  1. Yoshua Bengio, Aaron Courville, Pascal Vincent Representation Learning: A Review and New Perspectives Archivado el 23 de diciembre de 2015 en Wayback Machine , 2014
  2. por ejemplo, en Wasserman, F. Neurocomputer Engineering: Theory and Practice = Neural Computing. teoría y práctica. — M .: Mir, 1992. — 240 p. — ISBN 5-03-002115-9 . Copia archivada (enlace no disponible) . Consultado el 1 de junio de 2011. Archivado desde el original el 30 de junio de 2009. 
  3. Procesamiento distribuido en paralelo: Exploraciones en las microestructuras de la cognición / Ed. por Rumelhart DE y McClelland JL—Cambridge, MA: MIT Press, 1986.
  4. Aprendiendo la máquina de clasificación de objetos, Arkadiev A. G., Braverman E. M., Nauka Publishing House, Edición principal de literatura física y matemática, M., 1971, 192 páginas.
  5. S. Jakovlev. Arquitectura de perceptrón que garantiza la descripción de patrones compactos // Procedimientos científicos de la Universidad Técnica de Riga, RTU. — Riga, 2009.
  6. Werbos PJ 1974. Más allá de la regresión: nuevas herramientas para la predicción y el análisis en las ciencias del comportamiento. Tesis doctoral, Universidad de Harvard
  7. Galushkin I.A. Síntesis de sistemas de reconocimiento de imágenes multicapa. - M.: "Energía", 1974.
  8. Bartsev S.I., Okhonin V.A. Redes adaptativas de procesamiento de información. Krasnoyarsk: Instituto de Física SO AN URSS, 1986. Preprint N 59B. — 20 s.
  9. Gorban A.N., Entrenamiento de redes neuronales . Archivado el 9 de agosto de 2010 en Wayback Machine . M.: ed. Empresa conjunta URSS-EE. UU. "Párrafo", 1990. 160 p.
  10. Wasserman, F. Ingeniería de neurocomputadoras: teoría y práctica = computación neuronal. teoría y práctica. — M.: Mir, 1992. — 240 p.

Literatura

Enlaces