Perceptrón

Perceptron , o perceptron [nb 1] ( ing. perceptron del lat. perceptio  - percepción ; germen . Perzeptron ) - un modelo matemático o informático de percepción de información por parte del cerebro ( modelo cibernético del cerebro ), propuesto por Frank Rosenblatt en 1958 y implementado por primera vez en forma de máquina electrónica "Mark-1" [nb 2] en 1960 . El Perceptron se convirtió en uno de los primeros modelos de redes neuronales , y Mark-1 se convirtió en la primera neurocomputadora del mundo .    

El perceptrón consta de tres tipos de elementos, a saber: las señales provenientes de los sensores se transmiten a los elementos asociativos y luego a los elementos reactivos . Por lo tanto, los perceptrones le permiten crear un conjunto de "asociaciones" entre los estímulos de entrada y la respuesta de salida deseada. En términos biológicos, esto corresponde a la transformación de, por ejemplo, información visual en una respuesta fisiológica de las neuronas motoras . Según la terminología moderna, los perceptrones se pueden clasificar como redes neuronales artificiales:

  1. con una capa oculta; [nota 3]
  2. con función de transferencia de umbral ;
  3. con propagación directa de la señal .

En el contexto de la creciente popularidad de las redes neuronales en 1969, se publicó un libro de Marvin Minsky y Seymour Papert , que mostraba las limitaciones fundamentales de los perceptrones. Esto ha llevado a un cambio en el interés de los investigadores de inteligencia artificial en el área de la computación simbólica , frente a las redes neuronales [nb 4] . Además, debido a la complejidad del estudio matemático de los perceptrones, así como a la falta de una terminología generalmente aceptada, han surgido diversas inexactitudes y conceptos erróneos .

Posteriormente, se reanudó el interés por las redes neuronales y, en particular, por el trabajo de Rosenblatt. Entonces, por ejemplo, la biocomputación se está desarrollando rápidamente , que en su base teórica de cálculos, entre otras cosas, se basa en redes neuronales, y el perceptrón se reproduce sobre la base de películas que contienen bacteriorrodopsina .

El advenimiento del perceptrón

En 1943, Warren McCulloch y Walter Pitts propusieron el concepto de una red neuronal artificial en su artículo "Un cálculo lógico de ideas relacionadas con la actividad neuronal" [1] . En particular, propusieron un modelo de neurona artificial . Donald Hebb en su artículo de 1949 "Organización del comportamiento" [2] describió los principios básicos del aprendizaje neuronal.

Estas ideas fueron desarrolladas unos años más tarde por el neurofisiólogo estadounidense Frank Rosenblatt . Propuso un esquema para un dispositivo que simulaba el proceso de percepción humana y lo llamó "perceptrón". El perceptrón transmitía señales desde fotocélulas , que eran un campo sensorial, a bloques de células de memoria electromecánica. Estas celdas se conectaron aleatoriamente entre sí de acuerdo con los principios del conectivismo . En 1957, en el Laboratorio de Aeronáutica de Cornell, se completó con éxito una simulación del funcionamiento de un perceptrón en una computadora IBM 704 , y dos años después, el 23 de junio de 1960, en la Universidad de Cornell , se demostró la primera neurocomputadora  : Mark-1. , que fue capaz de reconocer algunas letras del alfabeto inglés [3] [4] .

Para "enseñar" al perceptrón a clasificar imágenes, se desarrolló un método iterativo especial de aprendizaje por ensayo y error, que recuerda el proceso de aprendizaje humano: el método de corrección de errores [5] . Además, al reconocer una letra en particular, el perceptrón podía resaltar los rasgos característicos de la letra que estadísticamente eran más comunes que las diferencias insignificantes en casos individuales. Por lo tanto, el perceptrón pudo generalizar letras escritas de diferentes maneras (escritura a mano) en una imagen generalizada. Sin embargo, las capacidades del perceptrón eran limitadas: la máquina no podía reconocer de manera confiable letras parcialmente cerradas, así como letras de diferente tamaño, ubicadas con un cambio o rotación, que las utilizadas en la etapa de su entrenamiento [6] .

El informe sobre los primeros resultados apareció en 1958  , luego Rosenblatt publicó el artículo "Perceptron: un modelo probabilístico para almacenar y organizar información en el cerebro" [7] . Pero describe sus teorías y suposiciones sobre los procesos de percepción y perceptrones con más detalle en 1962 en el libro "Principios de neurodinámica: perceptrones y la teoría de los mecanismos cerebrales". En el libro, considera no solo modelos de perceptrones listos para usar con una capa oculta, sino también perceptrones multicapa con conexiones cruzadas (tercer capítulo) e inversas (cuarto capítulo). El libro también presenta una serie de ideas y teoremas importantes, por ejemplo, se demuestra el teorema de convergencia del perceptrón [8] .

Descripción del perceptrón elemental

Un perceptrón elemental consta de tres tipos de elementos: elementos S, elementos A y un elemento R. Los elementos S son una capa de sensores o receptores. En una realización física, corresponden, por ejemplo, a células fotosensibles en la retina del ojo o fotoresistores de un conjunto de cámaras. Cada receptor puede estar en uno de dos estados: reposo o excitación , y solo en el último caso transmite una sola señal a la siguiente capa, a los elementos asociativos.

Los elementos A se denominan asociativos, porque cada uno de esos elementos, por regla general, corresponde a un conjunto completo (asociación) de elementos S. El elemento A se activa tan pronto como el número de señales de los elementos S en su entrada supera un cierto valor [nb 5] . Por lo tanto, si un conjunto de elementos S correspondientes se ubica en el campo sensorial con la forma de la letra "D", el elemento A se activa si un número suficiente de receptores ha informado de la aparición de un "punto de luz blanca". en sus proximidades, es decir, el elemento A estará asociado, por así decirlo, con la presencia/ausencia de la letra "D" en alguna zona.

Las señales de los elementos A excitados, a su vez, se transmiten al sumador R, y la señal del i-ésimo elemento asociativo se transmite con un coeficiente [9] . Este coeficiente se denomina peso del bono A-R.

Al igual que los elementos A, el elemento R calcula la suma de los valores de las señales de entrada multiplicados por los pesos ( forma lineal ). El elemento R, y con él el perceptrón elemental, emite "1" si la forma lineal supera el umbral ; de lo contrario, la salida será "-1". Matemáticamente, la función implementada por el elemento R se puede escribir de la siguiente manera:

El entrenamiento de un perceptrón elemental consiste en cambiar los coeficientes de peso de los enlaces A–R. Los pesos de los enlaces S–A (que pueden tomar los valores {−1; 0; +1}) y los valores de umbral de los elementos A se eligen aleatoriamente desde el principio y luego no cambian. (Consulte a continuación para obtener una descripción del algoritmo ).

Después del entrenamiento, el perceptrón está listo para trabajar en modo reconocimiento [10] o generalización [11] . En este modo, al perceptrón se le presentan objetos previamente desconocidos, y el perceptrón debe determinar a qué clase pertenecen. El trabajo del perceptrón es el siguiente: cuando se presenta un objeto, los elementos A excitados transmiten una señal al elemento R, igual a la suma de los coeficientes correspondientes . Si esta suma es positiva, entonces se decide que el objeto dado pertenece a la primera clase, y si es negativa, entonces a la segunda [12] .

Conceptos básicos de la teoría de los perceptrones

El conocimiento serio de la teoría de los perceptrones requiere el conocimiento de las definiciones y teoremas básicos, cuya totalidad es la base para todos los tipos posteriores de redes neuronales artificiales . Pero, como mínimo, es necesario entender al menos desde el punto de vista de la teoría de la señal , que es original, es decir, descrita por el autor del perceptrón F. Rosenblatt.

Descripción basada en señales

Primero, definamos los elementos constitutivos del perceptrón, que son casos especiales de una neurona artificial con una función de transferencia de umbral .

Si a la salida de cualquier elemento obtenemos 1, entonces decimos que el elemento está activo o excitado .

Todos los elementos considerados se denominan simples , ya que implementan funciones de salto . Rosenblatt también argumentó que otros tipos de funciones, como las lineales [14] , pueden ser necesarias para resolver problemas más complejos .

Como resultado, Rosenblatt introdujo las siguientes definiciones:

Adicionalmente, puede señalar los siguientes conceptos propuestos en el libro, y desarrollados posteriormente en el marco de la teoría de redes neuronales:

Descripción basada en predicados

Marvin Minsky estudió las propiedades de la computación paralela , de la cual el perceptrón era un caso especial en ese momento. Para analizar sus propiedades, tuvo que reformular la teoría de los perceptrones en el lenguaje de los predicados . La esencia del enfoque era la siguiente: [nota 6] [19]

Aplicada al perceptrón "visual", la variable X simbolizaba la imagen de alguna figura geométrica ( estímulo ). Un predicado privado permitía a cada uno "reconocer" su propia figura. El predicado ψ significaba la situación en la que la combinación lineal (  -coeficientes de transmisión) excedía un cierto umbral θ.

Los científicos han identificado 5 familias de perceptrones que, en su opinión, tienen propiedades interesantes: [20]

  1. Perceptrones de diámetro limitado  : cada figura X, reconocida por predicados particulares, no excede un valor fijo de diámetro.
  2. Perceptrones de orden acotado  : cada predicado particular depende de un número limitado de puntos de X.
  3. Perceptrones de Gamba  : cada predicado particular debe ser una función de umbral lineal, es decir, un miniperceptrón.
  4. Los perceptrones aleatorios  son perceptrones de orden limitado, donde los predicados parciales son funciones booleanas seleccionadas al azar. El libro señala que fue este modelo el que fue estudiado más a fondo por el grupo de Rosenblatt.
  5. Perceptrones acotados  : el conjunto de predicados parciales es infinito y el conjunto de valores posibles de los coeficientes es finito.

Aunque tal aparato matemático hizo posible aplicar el análisis solo al perceptrón Rosenblatt elemental , reveló muchas limitaciones fundamentales para la computación paralela, de las cuales ningún tipo de redes neuronales artificiales modernas está libre.

Clasificación histórica

El concepto de perceptrón tiene una historia interesante pero nada envidiable. Como resultado de la terminología subdesarrollada de las redes neuronales de los últimos años, las duras críticas y la incomprensión de las tareas de investigación de perceptrones y, en ocasiones, la falsa cobertura de la prensa, el significado original de este concepto se ha distorsionado. Comparando los desarrollos de Rosenblatt y las revisiones y artículos modernos, podemos distinguir 4 clases bastante aisladas de perceptrones:

Perceptrón con una capa oculta Este es el perceptrón clásico, al que se dedica la mayor parte del libro de Rosenblatt y que se considera en este artículo: tiene una capa de elementos S, A y R. Perceptrón de una sola capa Este es un modelo en el que los elementos de entrada están directamente conectados a los elementos de salida mediante un sistema de pesos. Es la red de alimentación directa más simple  : un clasificador lineal y un caso especial del perceptrón clásico, en el que cada elemento S corresponde únicamente a un elemento A, los enlaces S-A tienen un peso de +1 y todos los elementos A tienen un umbral θ = 1. Los perceptrones de una sola capa en realidad son neuronas formales , es decir, elementos de umbral de McCulloch-Pitts. Tienen muchas limitaciones, en particular, no pueden identificar la situación cuando se aplican diferentes señales a sus entradas ("tarea XOR", ver más abajo ). Perceptrón multicapa (según Rosenblatt) Este es un perceptrón con capas adicionales de elementos A. Rosenblatt lo analizó en la tercera parte de su libro. Perceptrón multicapa (según Rumelhart) Este es un perceptrón en el que hay capas adicionales de elementos A, además, el entrenamiento de dicha red se lleva a cabo de acuerdo con el método de retropropagación de errores , y todas las capas del perceptrón (incluido S-A) están entrenadas. Es un caso especial del perceptrón multicapa de Rosenblatt.

Actualmente, en la literatura, el término "perceptrón" se entiende con mayor frecuencia como un perceptrón de una sola capa (perceptrón de una sola capa en inglés )  , además, existe una idea errónea común de que fue este tipo de modelo más simple propuesto por Rosenblatt. A diferencia de uno de una sola capa, pusieron un "perceptrón multicapa" ( eng. Perceptrón multicapa ), nuevamente, lo que significa más a menudo el perceptrón multicapa de Rumelhart, no el de Rosenblatt. El perceptrón clásico en tal dicotomía se denomina multicapa.  

Algoritmos de aprendizaje

Una propiedad importante de cualquier red neuronal es la capacidad de aprender . El proceso de aprendizaje es un procedimiento para ajustar pesos y umbrales con el fin de reducir la diferencia entre los vectores de salida deseados (objetivo) y resultantes. En su libro, Rosenblatt trató de clasificar varios algoritmos de aprendizaje de perceptrones, llamándolos sistemas de refuerzo.

Un sistema de recompensas  es cualquier conjunto de reglas basado en el cual la matriz de interacción (o estado de memoria) de un perceptrón se puede cambiar con el tiempo [21] .

Al describir estos sistemas de refuerzo y especificar sus posibles tipos, Rosenblatt se basó en las ideas de D. Hebb sobre el aprendizaje propuestas por él en 1949 [2] , que se pueden reformular en la siguiente regla de dos partes:

Aprendizaje supervisado

El método clásico para entrenar un perceptrón es el método de corrección de errores [8] . Es un tipo de aprendizaje supervisado en el que el peso de la conexión no cambia mientras la reacción actual del perceptrón se mantenga correcta. Cuando ocurre una reacción incorrecta, el peso cambia en uno y el signo (+/-) se determina opuesto al signo del error.

Supongamos que queremos entrenar al perceptrón para que separe dos clases de objetos de modo que cuando se presenten objetos de la primera clase, la salida del perceptrón sea positiva (+1), y cuando se presenten objetos de la segunda clase, sea negativa ( −1). Para ello, ejecutaremos el siguiente algoritmo: [5]

  1. Seleccionamos aleatoriamente los umbrales para los elementos A y establecemos conexiones S-A (no cambiarán más).
  2. Se supone que los coeficientes iniciales son iguales a cero.
  3. Presentamos una muestra de entrenamiento : objetos (por ejemplo, círculos o cuadrados) indicando la clase a la que pertenecen.
    • Mostramos al perceptrón un objeto de primera clase. En este caso, algunos elementos A estarán excitados. Los coeficientes correspondientes a estos elementos excitados se incrementan en 1.
    • Presentamos un objeto de segunda clase y los coeficientes de los elementos A que se excitan durante esta visualización se reducen en 1.
  4. Ambas partes del paso 3 se realizarán para todo el conjunto de entrenamiento. Como resultado del entrenamiento, se formarán los valores de los pesos de conexión .

El teorema de convergencia del perceptrón [8] , descrito y probado por F. Rosenblatt (con la participación de Block, Joseph, Kesten y otros investigadores que trabajaron con él), muestra que un perceptrón elemental entrenado de acuerdo con tal algoritmo, independientemente de la inicial estado de los coeficientes de peso y la secuencia la aparición de incentivos conducirá siempre a la consecución de una solución en un tiempo finito.

Aprendiendo sin un maestro

Además del método clásico de aprendizaje del perceptrón, Rosenblatt también introdujo el concepto de aprendizaje no supervisado , proponiendo el siguiente método de aprendizaje:

El sistema de refuerzo alfa  es un sistema de refuerzo en el que los pesos de todas las conexiones activas que conducen al elemento cambian en la misma cantidad r, y los pesos de las conexiones inactivas no cambian durante este tiempo [23] .

Luego, con el desarrollo del concepto de un perceptrón multicapa , el sistema alfa se modificó y se conoció como la regla delta . La modificación se realizó con el fin de hacer diferenciable la función de aprendizaje (por ejemplo, sigmoide ), que a su vez es necesario aplicar el método de descenso de gradiente , por lo que se puede entrenar más de una capa.

Método de retropropagación

Para entrenar redes multicapa, varios científicos, incluido D. Rumelhart , propusieron un algoritmo de aprendizaje de gradiente supervisado que conduce una señal de error calculada por las salidas del perceptrón a sus entradas , capa por capa. Este es ahora el método más popular para entrenar perceptrones multicapa. Su ventaja es que puede entrenar todas las capas de la red neuronal y es fácil de calcular localmente. Sin embargo, este método consume mucho tiempo, además, para su aplicación es necesario que la función de transferencia de las neuronas sea diferenciable. Al mismo tiempo, en los perceptrones, fue necesario abandonar la señal binaria y utilizar valores continuos en la entrada [24] .

Delirios tradicionales

Como resultado de la popularización de las redes neuronales artificiales por parte de periodistas y especialistas en marketing, se cometieron una serie de inexactitudes que, debido a un estudio insuficiente de los trabajos originales sobre este tema, fueron malinterpretadas por científicos jóvenes (en ese momento). Como resultado, hasta el día de hoy uno puede encontrarse con una interpretación insuficientemente profunda de la funcionalidad del perceptrón en comparación con otras redes neuronales desarrolladas en años posteriores.[ ¿cuándo? ]

Inexactitudes terminológicas

El error de terminología más común es definir un perceptrón como una red neuronal sin capas ocultas (perceptrón de una sola capa, ver más arriba ). Este error se debe a una terminología insuficientemente desarrollada en el campo de las redes neuronales en una etapa temprana de su desarrollo. F. Wasserman hizo un intento de clasificar varios tipos de redes neuronales de cierta manera:

Como puede verse en las publicaciones, no existe una forma generalmente aceptada de contar el número de capas en la red. Una red multicapa consta de conjuntos alternos de neuronas y pesos. La capa de entrada no realiza la suma. Estas neuronas sirven solo como ramas para el primer conjunto de pesos y no afectan las capacidades computacionales de la red. Por esta razón, la primera capa no se tiene en cuenta al contar las capas y la red se considera de dos capas, ya que solo dos capas realizan los cálculos. Además, se considera que los pesos de la capa están asociados con las neuronas que les siguen. Por lo tanto, la capa consta de un conjunto de pesos seguidos de neuronas que suman las señales ponderadas [25] .

Como resultado de esta representación, el perceptrón cayó bajo la definición de una "red neuronal de una sola capa". Esto es en parte cierto porque no tiene capas ocultas de neuronas de aprendizaje (cuyo peso se adapta a la tarea). Y por lo tanto, todo el conjunto de conexiones fijas del sistema desde los elementos S a los elementos A puede reemplazarse lógicamente por un conjunto (modificado de acuerdo con una regla estricta) de nuevas señales de entrada que llegan inmediatamente a los elementos A (eliminando así la primera capa ). de conexiones en total). Pero aquí simplemente no tienen en cuenta que tal modificación convierte la representación no lineal del problema en una lineal.

Por lo tanto, simplemente ignorar capas no entrenables con conexiones fijas (en un perceptrón elemental, estas son conexiones S-A) le permite sacar conclusiones erróneas sobre las capacidades de la red neuronal. Entonces, Minsky actuó muy correctamente, reformulando el elemento A como un predicado (es decir, una función); por el contrario, Wasserman ya ha perdido esta idea y tiene un elemento A, solo una entrada (casi equivalente a un elemento S). Con tal confusión terminológica, se pasa por alto el hecho de que el perceptrón asigna el campo receptivo de los elementos S al campo asociativo de los elementos A, como resultado de lo cual cualquier problema linealmente inseparable se transforma en uno linealmente separable.

Falacias funcionales

La mayoría de los conceptos erróneos funcionales se reducen a la supuesta imposibilidad de resolver un problema linealmente inseparable con un perceptrón. Pero hay muchas variaciones sobre este tema, consideremos las principales.

Problema XOR

Concepto erróneo: el perceptrón no es capaz de resolver el " problema XOR ".

Un error muy común. La imagen de la derecha muestra una solución de perceptrón para este problema. Este concepto erróneo surge, en primer lugar, debido al hecho de que la definición de perceptrón de Minsky se interpreta incorrectamente (ver arriba ), es decir, los predicados igualan inmediatamente las entradas, aunque el predicado de Minsky es una función que identifica un conjunto completo de valores de entrada [nota 7 ] . En segundo lugar, por el hecho de que el perceptrón clásico de Rosenblatt se confunde con un perceptrón monocapa (debido a la imprecisión terminológica descrita anteriormente).

Debe prestarse especial atención al hecho de que "perceptrón de una sola capa" en la terminología moderna y "perceptrón de una sola capa" en la terminología de Wasserman son objetos diferentes. Y el objeto representado en la ilustración, en la terminología de Wasserman, es un perceptrón de dos capas.

Capacidad de aprendizaje para problemas linealmente inseparables

Concepto erróneo: al elegir pesos aleatorios , se puede lograr el aprendizaje para tareas linealmente inseparables (en general, cualquiera), pero solo si tiene suerte , y en nuevas variables (salidas de neuronas A) la tarea resulta ser linealmente separable. Pero puede que no tengas suerte.

El teorema de convergencia del perceptrón [8] demuestra que no hay ni puede haber ningún “puede que no tenga suerte”; cuando los elementos A son iguales al número de estímulos y la matriz G no especial  , la probabilidad de solución es del 100%. Es decir, cuando el campo del receptor se asigna a un campo asociativo más grande en una dimensión mediante un operador aleatorio (no lineal) , el problema no lineal se convierte en uno linealmente separable. Y la siguiente capa entrenable ya encuentra una solución lineal en un espacio de entrada diferente. Por ejemplo, entrenar un perceptrón para resolver el "problema XOR" (ver la ilustración) se lleva a cabo en los siguientes pasos:
Pesos iteraciones
una 2 3 cuatro 5
w1 0 una una una una 2 2 2 2
w2 0 0 una una una una una 2 2
w3 −1 0 una 0 −1 0 −1 0 −1
Señales de entrada (x, y) once 0, 1 diez once once 0, 1 once diez once
Capacidad de aprendizaje a partir de algunos ejemplos

Concepto erróneo: si en un problema la dimensión de las entradas es bastante alta y hay pocos ejemplos de capacitación, entonces en un espacio tan "débilmente lleno", la cantidad de éxitos puede no ser pequeña. Esto indica solo un caso particular de la idoneidad del perceptrón, y no su universalidad.

Este argumento se puede probar fácilmente en un problema de prueba llamado "tablero de ajedrez" o "esponja con agua" [26] [nb 8] :
Dada una cadena de 2 · N unos o ceros que se alimentan en paralelo a las entradas del perceptrón. Si esta cadena es simétrica respecto al centro, entonces la salida es +1; de lo contrario, 0. Los ejemplos de entrenamiento son todos (esto es importante) cadenas.
Puede haber variaciones de esta tarea, por ejemplo:
Tomemos una imagen en blanco y negro con un tamaño de 256×256 elementos ( píxeles ). Los datos de entrada para el perceptrón serán las coordenadas del punto (8 bits + 8 bits, se necesitan un total de 16 elementos S), en la salida necesitaremos el color del punto. Entrenamos el perceptrón para todos los puntos (toda la imagen). Como resultado, tenemos 65.536 pares diferentes de estímulo-respuesta. Aprende sin errores.
Si este argumento es cierto, entonces el perceptrón nunca podrá aprender sin cometer un solo error. De lo contrario, el perceptrón nunca cometerá un error. En la práctica, resulta que esta tarea es muy simple para un perceptrón: para resolverla, el perceptrón necesita 1500 elementos A (en lugar de los 65 536 necesarios para cualquier tarea). En este caso, el número de iteraciones es de aproximadamente 1000. Con 1000 elementos A, el perceptrón no converge en 10 000 iteraciones. Sin embargo, si el número de elementos A se incrementa a 40.000, entonces se puede esperar la convergencia en 30-80 iteraciones. Tal argumento surge porque este problema se confunde con el problema de Minsky “sobre el predicado “paridad”” [27] . Estabilización y convergencia de pesos

Concepto erróneo: el perceptrón de Rosenblatt tiene tantos elementos A como entradas. Y la convergencia según Rosenblatt es la estabilización de los pesos.

En Rosenblatt leemos:

Si el número de estímulos en el espacio W es igual a n > N (es decir, más que el número de elementos A del perceptrón elemental), entonces existe alguna clasificación C(W) para la que no hay solución [28 ] .

De esto se sigue que:
  1. para Rosenblatt, el número de elementos A es igual al número de estímulos (ejemplos de entrenamiento), y no al número de entradas;
  2. convergencia según Rosenblatt, no es la estabilización de los pesos, sino la presencia de todas las clasificaciones requeridas, es decir, de hecho, la ausencia de errores.
Crecimiento exponencial en el número de elementos ocultos

Concepto erróneo: si los coeficientes de peso para los elementos de la capa oculta (elementos A) son fijos, entonces es necesario que la cantidad de elementos de la capa oculta (o su complejidad) aumente exponencialmente con un aumento en la dimensión del problema (el número de receptores). Por lo tanto, se pierde su principal ventaja: la capacidad de resolver problemas de complejidad arbitraria con la ayuda de elementos simples.

Rosenblatt demostró que el número de elementos A depende únicamente del número de estímulos a reconocer (ver el párrafo anterior o el teorema de convergencia del perceptrón ). Por lo tanto, con un aumento en la cantidad de receptores, si la cantidad de elementos A es fija, la capacidad del perceptrón para resolver problemas de complejidad arbitraria no depende directamente. Este concepto erróneo proviene de la siguiente frase de Minsky:

Al examinar el predicado de paridad, vimos que los coeficientes pueden crecer con |R| (número de puntos en la imagen) exponencialmente [29] .

Además, Minsky exploró otros predicados, como la "igualdad". Pero todos estos predicados representan una tarea bastante específica de generalización, y no de reconocimiento o predicción. Entonces, por ejemplo, para que el perceptrón cumpla con el predicado de "paridad", debe decir si el número de puntos negros en una imagen en blanco y negro es par o no; y para cumplir con el predicado de "igualdad", di si el lado derecho de la imagen es igual al lado izquierdo. Está claro que tales tareas van más allá del alcance de las tareas de reconocimiento y predicción, y son tareas de generalización o simplemente de cálculo de ciertas características. Esto fue demostrado de manera convincente por Minsky, y es una limitación no solo de los perceptrones, sino también de todos los algoritmos paralelos , que no pueden calcular tales predicados más rápido que los algoritmos secuenciales. Por lo tanto, tales tareas limitan las capacidades de todas las redes neuronales y perceptrones en particular, pero esto no tiene nada que ver con las conexiones fijas de la primera capa; ya que, en primer lugar, se trataba del valor de los coeficientes de conexiones de la segunda capa, y en segundo lugar, la pregunta es solo en eficiencia, y no en principio. Es decir, el perceptrón también se puede entrenar para esta tarea, pero la capacidad de memoria y la tasa de aprendizaje requerida para esto serán mayores que cuando se usa un algoritmo secuencial simple. La introducción de pesos entrenables en la primera capa solo empeorará la situación, porque requerirá más tiempo de entrenamiento, porque las variables de relación entre S y A dificultan más que contribuyen al proceso de aprendizaje [30] . Además, al preparar un perceptrón para la tarea de reconocer estímulos de un tipo especial, para mantener la eficiencia, se requerirán condiciones especiales para el aprendizaje estocástico [31] , lo cual fue demostrado por Rosenblatt en experimentos con un perceptrón con enlaces S-A variables .

Características y limitaciones del modelo

Capacidades del modelo

El mismo Rosenblatt consideró al perceptrón principalmente como el siguiente paso importante hacia el estudio y uso de las redes neuronales, y no como una versión terminada de una “ máquina capaz de pensar ” [nota 9] . Incluso en el prefacio de su libro, él, respondiendo a las críticas, señaló que “el programa de investigación del perceptrón no está relacionado principalmente con la invención de dispositivos con “inteligencia artificial”, sino con el estudio de estructuras físicas y principios neurodinámicos” [32] .

Rosenblatt propuso una serie de pruebas psicológicas para determinar las capacidades de las redes neuronales: experimentos sobre discriminación , generalización , reconocimiento de secuencias , formación de conceptos abstractos , formación y propiedades de la " autoconciencia ", imaginación creativa y otras [33] . Algunos de estos experimentos están lejos de las capacidades actuales de los perceptrones, por lo que su desarrollo está más filosóficamente dentro de la dirección del conectivismo . Sin embargo, para los perceptrones se han establecido dos hechos importantes que encuentran aplicación en problemas prácticos: la posibilidad de clasificar (objetos) y la posibilidad de aproximar (límites de clases y funciones) [34] .

Una propiedad importante de los perceptrones es su capacidad de aprender, además, de acuerdo con un algoritmo bastante simple y efectivo (ver arriba ).

Limitaciones del modelo

El mismo Rosenblatt identificó dos limitaciones fundamentales para los perceptrones de tres capas (que consisten en una capa S, una capa A y una capa R): su falta de capacidad para generalizar sus características a nuevos estímulos o situaciones nuevas, y su incapacidad para analizar complejos situaciones en el ambiente externo dividiéndolas en otras más simples [17] .

En 1969, Marvin Minsky y Seymour Papert publicaron el libro Perceptrones, donde demostraron matemáticamente que los perceptrones como el de Rosenblatt eran fundamentalmente incapaces de realizar muchas de las funciones que querían de los perceptrones. Además, en ese momento la teoría de la computación paralela estaba poco desarrollada y el perceptrón era totalmente consistente con los principios de tales cálculos. En general, Minsky mostró la ventaja del cálculo secuencial sobre el paralelo en ciertas clases de problemas asociados con una representación invariante. Su crítica se puede dividir en tres temas:

  1. Los perceptrones tienen limitaciones en tareas relacionadas con la representación invariante de imágenes, es decir, independientes de su posición en el campo sensorial y en relación con otras figuras. Dichos problemas surgen, por ejemplo, si necesitamos construir una máquina para leer letras o números impresos para que esta máquina pueda reconocerlos independientemente de su posición en la página (es decir, para que la decisión de la máquina no se vea afectada por la traducción , rotación , estiramiento-compresión de caracteres) [ 6] ; o si necesitamos determinar de cuántas partes consta una figura [35] ; o si dos figuras están una al lado de la otra o no [36] . Minsky demostró que este tipo de problema no se puede resolver por completo utilizando computación paralela, incluido el perceptrón.
  2. Los perceptrones no tienen una ventaja funcional sobre los métodos analíticos (por ejemplo, estadísticos ) en tareas relacionadas con la previsión [37] . Sin embargo, en algunos casos representan un método más simple y productivo de análisis de datos .
  3. Se ha demostrado que, en principio, algunos problemas pueden resolverse mediante un perceptrón, pero pueden requerir un tiempo demasiado grande [38] o una memoria demasiado grande [39] .

El libro de Minsky y Papert influyó significativamente en el desarrollo de la ciencia de la inteligencia artificial, ya que movió el interés científico y los subsidios de las organizaciones gubernamentales de EE . UU. hacia otra dirección de investigación: el enfoque simbólico de la IA .

Aplicaciones de los perceptrones

Aquí, solo se mostrarán los conceptos básicos de la aplicación práctica del perceptrón en dos tareas diferentes. El problema de predicción (y su problema de reconocimiento de patrones equivalente ) requiere una alta precisión, mientras que el problema de control de agentes requiere una alta  tasa de aprendizaje. Por lo tanto, considerando estas tareas, uno puede familiarizarse completamente con las capacidades del perceptrón, pero esto está lejos de agotar las opciones para su uso.

En problemas prácticos, el perceptrón deberá poder elegir entre más de dos opciones, lo que significa que debe tener más de un elemento R en la salida. Como muestra Rosenblatt, las características de tales sistemas no difieren significativamente de las características de un perceptrón elemental [40] .

Predicción y reconocimiento de patrones

En estas tareas, se requiere que el perceptrón determine si un objeto pertenece a una clase por sus parámetros (por ejemplo, por apariencia, forma, silueta). Además, la precisión del reconocimiento dependerá en gran medida de la representación de las reacciones de salida del perceptrón. Aquí son posibles tres tipos de codificación: configuración , posicional e híbrido. La codificación posicional, cuando cada clase tiene su propio elemento R, brinda resultados más precisos que otros tipos. Este tipo se utiliza, por ejemplo, en el trabajo de E. Kussul y otros “Perceptrones de Rosenblatt para el reconocimiento de dígitos escritos a mano”. Sin embargo, no es aplicable en los casos en que el número de clases sea significativo, por ejemplo, varios cientos. En tales casos, se puede usar una codificación posicional de configuración híbrida, como se hizo en el trabajo de S. Yakovlev "Un sistema para reconocer objetos en movimiento basado en redes neuronales artificiales".

Gestión de agentes

En inteligencia artificial, a menudo se consideran agentes de aprendizaje ( adaptación ambiental ) . Al mismo tiempo, bajo condiciones de incertidumbre , se vuelve importante analizar no solo la información actual, sino también el contexto general de la situación en la que ha caído el agente, por lo que aquí se utilizan perceptrones de retroalimentación [41] . Además, en algunas tareas se vuelve importante aumentar la tasa de aprendizaje del perceptrón, por ejemplo, con la ayuda del modelado de refractariedad [42] .

Después de un período conocido como el " Invierno de la inteligencia artificial ", el interés en los modelos cibernéticos revivió en la década de 1980 , ya que los defensores de la IA simbólica no lograron acercarse a los problemas de "Comprensión" y "Significado", lo que provocó que la traducción automática y el reconocimiento de patrones técnicos aún no se hayan resuelto . defectos fatales. El propio Minsky lamentó públicamente que su discurso dañara el concepto de perceptrones, aunque el libro solo mostró las deficiencias de un solo dispositivo y algunas de sus variaciones. Pero, en general, la IA se ha convertido en sinónimo del enfoque simbólico, que se expresa en la creación de programas cada vez más complejos para computadoras que simulan las complejas actividades del cerebro humano.

Véase también

Notas

  1. La opción “perceptrón” es la original, utilizada en la traducción del libro de Rosenblatt (1965), también en el libro de referencia: Diccionario Explicativo de Inteligencia Artificial / Compiladores A. N. Averkin, M. G. Gaaze-Rapoport , D. A. Pospelov . - M. : Radio y comunicación, 1992. - 256 p. La variante "perceptrón" es más común, surgió al traducir el libro de Minsky y Papert (1971); ver también: Enciclopedia de cibernética. Volumen 2. Mikh-Yach . - Kyiv: cap. edición USO, 1974. - S. 156-158. Copia archivada (enlace no disponible) . Consultado el 1 de febrero de 2009. Archivado desde el original el 31 de marzo de 2009. 
  2. "Mark-1", en particular, era un sistema que imita el ojo humano y su interacción con el cerebro.
  3. "Tres capas" según la clasificación adoptada por Rosenblatt, y "dos capas" según la notación moderna, con la peculiaridad de que la primera capa no se puede entrenar.
  4. El enfoque simbólico incluye, por ejemplo, la creación de sistemas expertos , organización de bases de conocimiento , análisis de textos .
  5. Formalmente, los elementos A, como los elementos R, son sumadores con un umbral , es decir, neuronas individuales .
  6. La presentación en esta sección está algo simplificada debido a la complejidad del análisis basado en predicados.
  7. Un predicado es equivalente a una entrada solo en un caso especial, solo cuando depende de un argumento.
  8. M. M. Bongard considera que esta tarea es la más difícil para dibujar un hiperplano en el espacio de los receptores.
  9. En las primeras etapas del desarrollo de la ciencia de la inteligencia artificial, su tarea se consideró en un sentido abstracto: la creación de sistemas que se asemejan a las mentes humanas (ver inteligencia artificial general ). Las formulaciones modernas de tareas en IA tienden a ser más precisas.

Fuentes

  1. Warren S. McCulloch y Walter Pitts . Un cálculo lógico de las ideas  inmanentes a la actividad nerviosa  // Boletín de Biología Matemática . - Nueva York : Springer New York , 1943. - V. 5 , No. 4 . - S. 115-133 .
  2. 12 Donald Olding Hebb . La organización de la conducta: una teoría neuropsicológica . - Wiley , 1949. - 335 p. Edición contemporánea: Donald Olding Hebb . La organización de la conducta: una teoría neuropsicológica . - Lawrence Erlbaum Associates , 2002. - 335 p. - ISBN 0805843000 , ISBN 978-0-8058-4300-2 .
  3. Perceptrones: una red de aprendizaje asociativo . Consultado el 2 de mayo de 2008. Archivado desde el original el 19 de agosto de 2011.
  4. La aparición del perceptrón  (enlace inaccesible)
  5. 1 2 Sistemas de reconocimiento de patrones (enlace inaccesible) . Consultado el 4 de octubre de 2019. Archivado desde el original el 18 de diciembre de 2017. 
  6. 1 2 Minsky M., Papert S., pág. cincuenta.
  7. El perceptrón: un modelo probabilístico para el almacenamiento y la organización de la información en el cerebro (enlace descendente) . Consultado el 2 de mayo de 2008. Archivado desde el original el 18 de febrero de 2008. 
  8. 1 2 3 4 Rosenblatt F., pág. 102.
  9. Fomin, S. V., Berkinblit, M. B. Problemas matemáticos en biología . Archivado el 21 de diciembre de 2009 en Wayback Machine .
  10. Rosenblatt, F., pág. 158-162.
  11. Rosenblatt, F., pág. 162-163.
  12. Bryukhomitsky Yu. A. Modelos de redes neuronales para sistemas de seguridad de la información, 2005.
  13. 1 2 3 Rosenblatt F., pág. 81.
  14. 1 2 3 Rosenblatt, F., pág. 200.
  15. 1 2 3 4 Rosenblatt F., pág. 82.
  16. Rosenblatt F., pág. 83.
  17. 1 2 Rosenblatt F., pág. 93.
  18. Rosenblatt, F., pág. 230.
  19. Minsky, Papert, pág. 11-18.
  20. Minsky, Papert, pág. Dieciocho.
  21. Rosenblatt, F., pág. 85-88.
  22. Khaikin S., 2006, pág. 96.
  23. Rosenblatt, F., pág. 86.
  24. Khaikin S., 2006, pág. 225-243, 304-316.
  25. Wasserman, F. Ingeniería de neurocomputadoras: teoría y práctica, 1992.
  26. Bongard, MM, pág. 29
  27. Minsky M., Papert S., pág. 59.
  28. Rosenblatt, F., pág. 101.
  29. Minsky, Papert, pág. 155, 189 (no textualmente, simplificado por expresividad).
  30. Rosenblatt, página 239
  31. Rosenblatt, página 242
  32. Rosenblatt, F., pág. Dieciocho.
  33. Rosenblatt, F., pág. 70-77.
  34. ver Ezhov A. A., Shumsky S. A. "Neurocomputing ...", 2006. Clase 3: Aprendizaje supervisado: Reconocimiento de patrones Copia de archivo fechada el 1 de noviembre de 2011 en Wayback Machine
  35. Minsky M., Papert S., pág. 76-98.
  36. Minsky M., Papert S., pág. 113-116.
  37. Minsky M., Papert S., pág. 192-214.
  38. Minsky, Papert, pág. 163-187
  39. Minsky, Papert, pág. 153-162
  40. Rosenblatt, F., pág. 219-224.
  41. Yakovlev S. S. Usando el principio de recurrencia de Jordan en el perceptrón Rosenblatt, Journal "AUTOMATICS AND COMPUTING TECHNIQUE", Riga, 2009 Archivado el 1 de julio de 2017 en Wayback Machine . Wiki Laboratorio Virtual.
  42. Yakovlev S.S. , Investigación del principio de refractariedad en redes neuronales recurrentes, Actas científicas de la Universidad Técnica de Riga, Número 5, Vol.36, RTU, Riga, 2008, págs. 41-48. Explorando el principio de refractariedad en redes neuronales recurrentes (traducción) Archivado el 7 de marzo de 2016 en Wayback Machine .

Literatura

Enlaces