Perceptron , o perceptron [nb 1] ( ing. perceptron del lat. perceptio - percepción ; germen . Perzeptron ) - un modelo matemático o informático de percepción de información por parte del cerebro ( modelo cibernético del cerebro ), propuesto por Frank Rosenblatt en 1958 y implementado por primera vez en forma de máquina electrónica "Mark-1" [nb 2] en 1960 . El Perceptron se convirtió en uno de los primeros modelos de redes neuronales , y Mark-1 se convirtió en la primera neurocomputadora del mundo .
El perceptrón consta de tres tipos de elementos, a saber: las señales provenientes de los sensores se transmiten a los elementos asociativos y luego a los elementos reactivos . Por lo tanto, los perceptrones le permiten crear un conjunto de "asociaciones" entre los estímulos de entrada y la respuesta de salida deseada. En términos biológicos, esto corresponde a la transformación de, por ejemplo, información visual en una respuesta fisiológica de las neuronas motoras . Según la terminología moderna, los perceptrones se pueden clasificar como redes neuronales artificiales:
En el contexto de la creciente popularidad de las redes neuronales en 1969, se publicó un libro de Marvin Minsky y Seymour Papert , que mostraba las limitaciones fundamentales de los perceptrones. Esto ha llevado a un cambio en el interés de los investigadores de inteligencia artificial en el área de la computación simbólica , frente a las redes neuronales [nb 4] . Además, debido a la complejidad del estudio matemático de los perceptrones, así como a la falta de una terminología generalmente aceptada, han surgido diversas inexactitudes y conceptos erróneos .
Posteriormente, se reanudó el interés por las redes neuronales y, en particular, por el trabajo de Rosenblatt. Entonces, por ejemplo, la biocomputación se está desarrollando rápidamente , que en su base teórica de cálculos, entre otras cosas, se basa en redes neuronales, y el perceptrón se reproduce sobre la base de películas que contienen bacteriorrodopsina .
En 1943, Warren McCulloch y Walter Pitts propusieron el concepto de una red neuronal artificial en su artículo "Un cálculo lógico de ideas relacionadas con la actividad neuronal" [1] . En particular, propusieron un modelo de neurona artificial . Donald Hebb en su artículo de 1949 "Organización del comportamiento" [2] describió los principios básicos del aprendizaje neuronal.
Estas ideas fueron desarrolladas unos años más tarde por el neurofisiólogo estadounidense Frank Rosenblatt . Propuso un esquema para un dispositivo que simulaba el proceso de percepción humana y lo llamó "perceptrón". El perceptrón transmitía señales desde fotocélulas , que eran un campo sensorial, a bloques de células de memoria electromecánica. Estas celdas se conectaron aleatoriamente entre sí de acuerdo con los principios del conectivismo . En 1957, en el Laboratorio de Aeronáutica de Cornell, se completó con éxito una simulación del funcionamiento de un perceptrón en una computadora IBM 704 , y dos años después, el 23 de junio de 1960, en la Universidad de Cornell , se demostró la primera neurocomputadora : Mark-1. , que fue capaz de reconocer algunas letras del alfabeto inglés [3] [4] .
Para "enseñar" al perceptrón a clasificar imágenes, se desarrolló un método iterativo especial de aprendizaje por ensayo y error, que recuerda el proceso de aprendizaje humano: el método de corrección de errores [5] . Además, al reconocer una letra en particular, el perceptrón podía resaltar los rasgos característicos de la letra que estadísticamente eran más comunes que las diferencias insignificantes en casos individuales. Por lo tanto, el perceptrón pudo generalizar letras escritas de diferentes maneras (escritura a mano) en una imagen generalizada. Sin embargo, las capacidades del perceptrón eran limitadas: la máquina no podía reconocer de manera confiable letras parcialmente cerradas, así como letras de diferente tamaño, ubicadas con un cambio o rotación, que las utilizadas en la etapa de su entrenamiento [6] .
El informe sobre los primeros resultados apareció en 1958 , luego Rosenblatt publicó el artículo "Perceptron: un modelo probabilístico para almacenar y organizar información en el cerebro" [7] . Pero describe sus teorías y suposiciones sobre los procesos de percepción y perceptrones con más detalle en 1962 en el libro "Principios de neurodinámica: perceptrones y la teoría de los mecanismos cerebrales". En el libro, considera no solo modelos de perceptrones listos para usar con una capa oculta, sino también perceptrones multicapa con conexiones cruzadas (tercer capítulo) e inversas (cuarto capítulo). El libro también presenta una serie de ideas y teoremas importantes, por ejemplo, se demuestra el teorema de convergencia del perceptrón [8] .
Un perceptrón elemental consta de tres tipos de elementos: elementos S, elementos A y un elemento R. Los elementos S son una capa de sensores o receptores. En una realización física, corresponden, por ejemplo, a células fotosensibles en la retina del ojo o fotoresistores de un conjunto de cámaras. Cada receptor puede estar en uno de dos estados: reposo o excitación , y solo en el último caso transmite una sola señal a la siguiente capa, a los elementos asociativos.
Los elementos A se denominan asociativos, porque cada uno de esos elementos, por regla general, corresponde a un conjunto completo (asociación) de elementos S. El elemento A se activa tan pronto como el número de señales de los elementos S en su entrada supera un cierto valor [nb 5] . Por lo tanto, si un conjunto de elementos S correspondientes se ubica en el campo sensorial con la forma de la letra "D", el elemento A se activa si un número suficiente de receptores ha informado de la aparición de un "punto de luz blanca". en sus proximidades, es decir, el elemento A estará asociado, por así decirlo, con la presencia/ausencia de la letra "D" en alguna zona.
Las señales de los elementos A excitados, a su vez, se transmiten al sumador R, y la señal del i-ésimo elemento asociativo se transmite con un coeficiente [9] . Este coeficiente se denomina peso del bono A-R.
Al igual que los elementos A, el elemento R calcula la suma de los valores de las señales de entrada multiplicados por los pesos ( forma lineal ). El elemento R, y con él el perceptrón elemental, emite "1" si la forma lineal supera el umbral ; de lo contrario, la salida será "-1". Matemáticamente, la función implementada por el elemento R se puede escribir de la siguiente manera:
El entrenamiento de un perceptrón elemental consiste en cambiar los coeficientes de peso de los enlaces A–R. Los pesos de los enlaces S–A (que pueden tomar los valores {−1; 0; +1}) y los valores de umbral de los elementos A se eligen aleatoriamente desde el principio y luego no cambian. (Consulte a continuación para obtener una descripción del algoritmo ).
Después del entrenamiento, el perceptrón está listo para trabajar en modo reconocimiento [10] o generalización [11] . En este modo, al perceptrón se le presentan objetos previamente desconocidos, y el perceptrón debe determinar a qué clase pertenecen. El trabajo del perceptrón es el siguiente: cuando se presenta un objeto, los elementos A excitados transmiten una señal al elemento R, igual a la suma de los coeficientes correspondientes . Si esta suma es positiva, entonces se decide que el objeto dado pertenece a la primera clase, y si es negativa, entonces a la segunda [12] .
El conocimiento serio de la teoría de los perceptrones requiere el conocimiento de las definiciones y teoremas básicos, cuya totalidad es la base para todos los tipos posteriores de redes neuronales artificiales . Pero, como mínimo, es necesario entender al menos desde el punto de vista de la teoría de la señal , que es original, es decir, descrita por el autor del perceptrón F. Rosenblatt.
Primero, definamos los elementos constitutivos del perceptrón, que son casos especiales de una neurona artificial con una función de transferencia de umbral .
Si a la salida de cualquier elemento obtenemos 1, entonces decimos que el elemento está activo o excitado .
Todos los elementos considerados se denominan simples , ya que implementan funciones de salto . Rosenblatt también argumentó que otros tipos de funciones, como las lineales [14] , pueden ser necesarias para resolver problemas más complejos .
Como resultado, Rosenblatt introdujo las siguientes definiciones:
Adicionalmente, puede señalar los siguientes conceptos propuestos en el libro, y desarrollados posteriormente en el marco de la teoría de redes neuronales:
Marvin Minsky estudió las propiedades de la computación paralela , de la cual el perceptrón era un caso especial en ese momento. Para analizar sus propiedades, tuvo que reformular la teoría de los perceptrones en el lenguaje de los predicados . La esencia del enfoque era la siguiente: [nota 6] [19]
Aplicada al perceptrón "visual", la variable X simbolizaba la imagen de alguna figura geométrica ( estímulo ). Un predicado privado permitía a cada uno "reconocer" su propia figura. El predicado ψ significaba la situación en la que la combinación lineal ( -coeficientes de transmisión) excedía un cierto umbral θ.
Los científicos han identificado 5 familias de perceptrones que, en su opinión, tienen propiedades interesantes: [20]
Aunque tal aparato matemático hizo posible aplicar el análisis solo al perceptrón Rosenblatt elemental , reveló muchas limitaciones fundamentales para la computación paralela, de las cuales ningún tipo de redes neuronales artificiales modernas está libre.
El concepto de perceptrón tiene una historia interesante pero nada envidiable. Como resultado de la terminología subdesarrollada de las redes neuronales de los últimos años, las duras críticas y la incomprensión de las tareas de investigación de perceptrones y, en ocasiones, la falsa cobertura de la prensa, el significado original de este concepto se ha distorsionado. Comparando los desarrollos de Rosenblatt y las revisiones y artículos modernos, podemos distinguir 4 clases bastante aisladas de perceptrones:
Perceptrón con una capa oculta Este es el perceptrón clásico, al que se dedica la mayor parte del libro de Rosenblatt y que se considera en este artículo: tiene una capa de elementos S, A y R. Perceptrón de una sola capa Este es un modelo en el que los elementos de entrada están directamente conectados a los elementos de salida mediante un sistema de pesos. Es la red de alimentación directa más simple : un clasificador lineal y un caso especial del perceptrón clásico, en el que cada elemento S corresponde únicamente a un elemento A, los enlaces S-A tienen un peso de +1 y todos los elementos A tienen un umbral θ = 1. Los perceptrones de una sola capa en realidad son neuronas formales , es decir, elementos de umbral de McCulloch-Pitts. Tienen muchas limitaciones, en particular, no pueden identificar la situación cuando se aplican diferentes señales a sus entradas ("tarea XOR", ver más abajo ). Perceptrón multicapa (según Rosenblatt) Este es un perceptrón con capas adicionales de elementos A. Rosenblatt lo analizó en la tercera parte de su libro. Perceptrón multicapa (según Rumelhart) Este es un perceptrón en el que hay capas adicionales de elementos A, además, el entrenamiento de dicha red se lleva a cabo de acuerdo con el método de retropropagación de errores , y todas las capas del perceptrón (incluido S-A) están entrenadas. Es un caso especial del perceptrón multicapa de Rosenblatt.Actualmente, en la literatura, el término "perceptrón" se entiende con mayor frecuencia como un perceptrón de una sola capa (perceptrón de una sola capa en inglés ) , además, existe una idea errónea común de que fue este tipo de modelo más simple propuesto por Rosenblatt. A diferencia de uno de una sola capa, pusieron un "perceptrón multicapa" ( eng. Perceptrón multicapa ), nuevamente, lo que significa más a menudo el perceptrón multicapa de Rumelhart, no el de Rosenblatt. El perceptrón clásico en tal dicotomía se denomina multicapa.
Una propiedad importante de cualquier red neuronal es la capacidad de aprender . El proceso de aprendizaje es un procedimiento para ajustar pesos y umbrales con el fin de reducir la diferencia entre los vectores de salida deseados (objetivo) y resultantes. En su libro, Rosenblatt trató de clasificar varios algoritmos de aprendizaje de perceptrones, llamándolos sistemas de refuerzo.
Un sistema de recompensas es cualquier conjunto de reglas basado en el cual la matriz de interacción (o estado de memoria) de un perceptrón se puede cambiar con el tiempo [21] .Al describir estos sistemas de refuerzo y especificar sus posibles tipos, Rosenblatt se basó en las ideas de D. Hebb sobre el aprendizaje propuestas por él en 1949 [2] , que se pueden reformular en la siguiente regla de dos partes:
El método clásico para entrenar un perceptrón es el método de corrección de errores [8] . Es un tipo de aprendizaje supervisado en el que el peso de la conexión no cambia mientras la reacción actual del perceptrón se mantenga correcta. Cuando ocurre una reacción incorrecta, el peso cambia en uno y el signo (+/-) se determina opuesto al signo del error.
Supongamos que queremos entrenar al perceptrón para que separe dos clases de objetos de modo que cuando se presenten objetos de la primera clase, la salida del perceptrón sea positiva (+1), y cuando se presenten objetos de la segunda clase, sea negativa ( −1). Para ello, ejecutaremos el siguiente algoritmo: [5]
El teorema de convergencia del perceptrón [8] , descrito y probado por F. Rosenblatt (con la participación de Block, Joseph, Kesten y otros investigadores que trabajaron con él), muestra que un perceptrón elemental entrenado de acuerdo con tal algoritmo, independientemente de la inicial estado de los coeficientes de peso y la secuencia la aparición de incentivos conducirá siempre a la consecución de una solución en un tiempo finito.
Además del método clásico de aprendizaje del perceptrón, Rosenblatt también introdujo el concepto de aprendizaje no supervisado , proponiendo el siguiente método de aprendizaje:
El sistema de refuerzo alfa es un sistema de refuerzo en el que los pesos de todas las conexiones activas que conducen al elemento cambian en la misma cantidad r, y los pesos de las conexiones inactivas no cambian durante este tiempo [23] .Luego, con el desarrollo del concepto de un perceptrón multicapa , el sistema alfa se modificó y se conoció como la regla delta . La modificación se realizó con el fin de hacer diferenciable la función de aprendizaje (por ejemplo, sigmoide ), que a su vez es necesario aplicar el método de descenso de gradiente , por lo que se puede entrenar más de una capa.
Para entrenar redes multicapa, varios científicos, incluido D. Rumelhart , propusieron un algoritmo de aprendizaje de gradiente supervisado que conduce una señal de error calculada por las salidas del perceptrón a sus entradas , capa por capa. Este es ahora el método más popular para entrenar perceptrones multicapa. Su ventaja es que puede entrenar todas las capas de la red neuronal y es fácil de calcular localmente. Sin embargo, este método consume mucho tiempo, además, para su aplicación es necesario que la función de transferencia de las neuronas sea diferenciable. Al mismo tiempo, en los perceptrones, fue necesario abandonar la señal binaria y utilizar valores continuos en la entrada [24] .
Como resultado de la popularización de las redes neuronales artificiales por parte de periodistas y especialistas en marketing, se cometieron una serie de inexactitudes que, debido a un estudio insuficiente de los trabajos originales sobre este tema, fueron malinterpretadas por científicos jóvenes (en ese momento). Como resultado, hasta el día de hoy uno puede encontrarse con una interpretación insuficientemente profunda de la funcionalidad del perceptrón en comparación con otras redes neuronales desarrolladas en años posteriores.[ ¿cuándo? ]
El error de terminología más común es definir un perceptrón como una red neuronal sin capas ocultas (perceptrón de una sola capa, ver más arriba ). Este error se debe a una terminología insuficientemente desarrollada en el campo de las redes neuronales en una etapa temprana de su desarrollo. F. Wasserman hizo un intento de clasificar varios tipos de redes neuronales de cierta manera:
Como puede verse en las publicaciones, no existe una forma generalmente aceptada de contar el número de capas en la red. Una red multicapa consta de conjuntos alternos de neuronas y pesos. La capa de entrada no realiza la suma. Estas neuronas sirven solo como ramas para el primer conjunto de pesos y no afectan las capacidades computacionales de la red. Por esta razón, la primera capa no se tiene en cuenta al contar las capas y la red se considera de dos capas, ya que solo dos capas realizan los cálculos. Además, se considera que los pesos de la capa están asociados con las neuronas que les siguen. Por lo tanto, la capa consta de un conjunto de pesos seguidos de neuronas que suman las señales ponderadas [25] .
Como resultado de esta representación, el perceptrón cayó bajo la definición de una "red neuronal de una sola capa". Esto es en parte cierto porque no tiene capas ocultas de neuronas de aprendizaje (cuyo peso se adapta a la tarea). Y por lo tanto, todo el conjunto de conexiones fijas del sistema desde los elementos S a los elementos A puede reemplazarse lógicamente por un conjunto (modificado de acuerdo con una regla estricta) de nuevas señales de entrada que llegan inmediatamente a los elementos A (eliminando así la primera capa ). de conexiones en total). Pero aquí simplemente no tienen en cuenta que tal modificación convierte la representación no lineal del problema en una lineal.
Por lo tanto, simplemente ignorar capas no entrenables con conexiones fijas (en un perceptrón elemental, estas son conexiones S-A) le permite sacar conclusiones erróneas sobre las capacidades de la red neuronal. Entonces, Minsky actuó muy correctamente, reformulando el elemento A como un predicado (es decir, una función); por el contrario, Wasserman ya ha perdido esta idea y tiene un elemento A, solo una entrada (casi equivalente a un elemento S). Con tal confusión terminológica, se pasa por alto el hecho de que el perceptrón asigna el campo receptivo de los elementos S al campo asociativo de los elementos A, como resultado de lo cual cualquier problema linealmente inseparable se transforma en uno linealmente separable.
La mayoría de los conceptos erróneos funcionales se reducen a la supuesta imposibilidad de resolver un problema linealmente inseparable con un perceptrón. Pero hay muchas variaciones sobre este tema, consideremos las principales.
Problema XORConcepto erróneo: el perceptrón no es capaz de resolver el " problema XOR ".
Un error muy común. La imagen de la derecha muestra una solución de perceptrón para este problema. Este concepto erróneo surge, en primer lugar, debido al hecho de que la definición de perceptrón de Minsky se interpreta incorrectamente (ver arriba ), es decir, los predicados igualan inmediatamente las entradas, aunque el predicado de Minsky es una función que identifica un conjunto completo de valores de entrada [nota 7 ] . En segundo lugar, por el hecho de que el perceptrón clásico de Rosenblatt se confunde con un perceptrón monocapa (debido a la imprecisión terminológica descrita anteriormente).Debe prestarse especial atención al hecho de que "perceptrón de una sola capa" en la terminología moderna y "perceptrón de una sola capa" en la terminología de Wasserman son objetos diferentes. Y el objeto representado en la ilustración, en la terminología de Wasserman, es un perceptrón de dos capas.
Capacidad de aprendizaje para problemas linealmente inseparablesConcepto erróneo: al elegir pesos aleatorios , se puede lograr el aprendizaje para tareas linealmente inseparables (en general, cualquiera), pero solo si tiene suerte , y en nuevas variables (salidas de neuronas A) la tarea resulta ser linealmente separable. Pero puede que no tengas suerte.
El teorema de convergencia del perceptrón [8] demuestra que no hay ni puede haber ningún “puede que no tenga suerte”; cuando los elementos A son iguales al número de estímulos y la matriz G no especial , la probabilidad de solución es del 100%. Es decir, cuando el campo del receptor se asigna a un campo asociativo más grande en una dimensión mediante un operador aleatorio (no lineal) , el problema no lineal se convierte en uno linealmente separable. Y la siguiente capa entrenable ya encuentra una solución lineal en un espacio de entrada diferente. Por ejemplo, entrenar un perceptrón para resolver el "problema XOR" (ver la ilustración) se lleva a cabo en los siguientes pasos:Pesos | iteraciones | ||||||||
---|---|---|---|---|---|---|---|---|---|
una | 2 | 3 | cuatro | 5 | |||||
w1 | 0 | una | una | una | una | 2 | 2 | 2 | 2 |
w2 | 0 | 0 | una | una | una | una | una | 2 | 2 |
w3 | −1 | 0 | una | 0 | −1 | 0 | −1 | 0 | −1 |
Señales de entrada (x, y) | once | 0, 1 | diez | once | once | 0, 1 | once | diez | once |
Concepto erróneo: si en un problema la dimensión de las entradas es bastante alta y hay pocos ejemplos de capacitación, entonces en un espacio tan "débilmente lleno", la cantidad de éxitos puede no ser pequeña. Esto indica solo un caso particular de la idoneidad del perceptrón, y no su universalidad.
Este argumento se puede probar fácilmente en un problema de prueba llamado "tablero de ajedrez" o "esponja con agua" [26] [nb 8] :Dada una cadena de 2 · N unos o ceros que se alimentan en paralelo a las entradas del perceptrón. Si esta cadena es simétrica respecto al centro, entonces la salida es +1; de lo contrario, 0. Los ejemplos de entrenamiento son todos (esto es importante) cadenas. |
Tomemos una imagen en blanco y negro con un tamaño de 256×256 elementos ( píxeles ). Los datos de entrada para el perceptrón serán las coordenadas del punto (8 bits + 8 bits, se necesitan un total de 16 elementos S), en la salida necesitaremos el color del punto. Entrenamos el perceptrón para todos los puntos (toda la imagen). Como resultado, tenemos 65.536 pares diferentes de estímulo-respuesta. Aprende sin errores. |
Concepto erróneo: el perceptrón de Rosenblatt tiene tantos elementos A como entradas. Y la convergencia según Rosenblatt es la estabilización de los pesos.
En Rosenblatt leemos:
Si el número de estímulos en el espacio W es igual a n > N (es decir, más que el número de elementos A del perceptrón elemental), entonces existe alguna clasificación C(W) para la que no hay solución [28 ] .
De esto se sigue que:Concepto erróneo: si los coeficientes de peso para los elementos de la capa oculta (elementos A) son fijos, entonces es necesario que la cantidad de elementos de la capa oculta (o su complejidad) aumente exponencialmente con un aumento en la dimensión del problema (el número de receptores). Por lo tanto, se pierde su principal ventaja: la capacidad de resolver problemas de complejidad arbitraria con la ayuda de elementos simples.
Rosenblatt demostró que el número de elementos A depende únicamente del número de estímulos a reconocer (ver el párrafo anterior o el teorema de convergencia del perceptrón ). Por lo tanto, con un aumento en la cantidad de receptores, si la cantidad de elementos A es fija, la capacidad del perceptrón para resolver problemas de complejidad arbitraria no depende directamente. Este concepto erróneo proviene de la siguiente frase de Minsky:
Al examinar el predicado de paridad, vimos que los coeficientes pueden crecer con |R| (número de puntos en la imagen) exponencialmente [29] .
Además, Minsky exploró otros predicados, como la "igualdad". Pero todos estos predicados representan una tarea bastante específica de generalización, y no de reconocimiento o predicción. Entonces, por ejemplo, para que el perceptrón cumpla con el predicado de "paridad", debe decir si el número de puntos negros en una imagen en blanco y negro es par o no; y para cumplir con el predicado de "igualdad", di si el lado derecho de la imagen es igual al lado izquierdo. Está claro que tales tareas van más allá del alcance de las tareas de reconocimiento y predicción, y son tareas de generalización o simplemente de cálculo de ciertas características. Esto fue demostrado de manera convincente por Minsky, y es una limitación no solo de los perceptrones, sino también de todos los algoritmos paralelos , que no pueden calcular tales predicados más rápido que los algoritmos secuenciales. Por lo tanto, tales tareas limitan las capacidades de todas las redes neuronales y perceptrones en particular, pero esto no tiene nada que ver con las conexiones fijas de la primera capa; ya que, en primer lugar, se trataba del valor de los coeficientes de conexiones de la segunda capa, y en segundo lugar, la pregunta es solo en eficiencia, y no en principio. Es decir, el perceptrón también se puede entrenar para esta tarea, pero la capacidad de memoria y la tasa de aprendizaje requerida para esto serán mayores que cuando se usa un algoritmo secuencial simple. La introducción de pesos entrenables en la primera capa solo empeorará la situación, porque requerirá más tiempo de entrenamiento, porque las variables de relación entre S y A dificultan más que contribuyen al proceso de aprendizaje [30] . Además, al preparar un perceptrón para la tarea de reconocer estímulos de un tipo especial, para mantener la eficiencia, se requerirán condiciones especiales para el aprendizaje estocástico [31] , lo cual fue demostrado por Rosenblatt en experimentos con un perceptrón con enlaces S-A variables .El mismo Rosenblatt consideró al perceptrón principalmente como el siguiente paso importante hacia el estudio y uso de las redes neuronales, y no como una versión terminada de una “ máquina capaz de pensar ” [nota 9] . Incluso en el prefacio de su libro, él, respondiendo a las críticas, señaló que “el programa de investigación del perceptrón no está relacionado principalmente con la invención de dispositivos con “inteligencia artificial”, sino con el estudio de estructuras físicas y principios neurodinámicos” [32] .
Rosenblatt propuso una serie de pruebas psicológicas para determinar las capacidades de las redes neuronales: experimentos sobre discriminación , generalización , reconocimiento de secuencias , formación de conceptos abstractos , formación y propiedades de la " autoconciencia ", imaginación creativa y otras [33] . Algunos de estos experimentos están lejos de las capacidades actuales de los perceptrones, por lo que su desarrollo está más filosóficamente dentro de la dirección del conectivismo . Sin embargo, para los perceptrones se han establecido dos hechos importantes que encuentran aplicación en problemas prácticos: la posibilidad de clasificar (objetos) y la posibilidad de aproximar (límites de clases y funciones) [34] .
Una propiedad importante de los perceptrones es su capacidad de aprender, además, de acuerdo con un algoritmo bastante simple y efectivo (ver arriba ).
El mismo Rosenblatt identificó dos limitaciones fundamentales para los perceptrones de tres capas (que consisten en una capa S, una capa A y una capa R): su falta de capacidad para generalizar sus características a nuevos estímulos o situaciones nuevas, y su incapacidad para analizar complejos situaciones en el ambiente externo dividiéndolas en otras más simples [17] .
En 1969, Marvin Minsky y Seymour Papert publicaron el libro Perceptrones, donde demostraron matemáticamente que los perceptrones como el de Rosenblatt eran fundamentalmente incapaces de realizar muchas de las funciones que querían de los perceptrones. Además, en ese momento la teoría de la computación paralela estaba poco desarrollada y el perceptrón era totalmente consistente con los principios de tales cálculos. En general, Minsky mostró la ventaja del cálculo secuencial sobre el paralelo en ciertas clases de problemas asociados con una representación invariante. Su crítica se puede dividir en tres temas:
El libro de Minsky y Papert influyó significativamente en el desarrollo de la ciencia de la inteligencia artificial, ya que movió el interés científico y los subsidios de las organizaciones gubernamentales de EE . UU. hacia otra dirección de investigación: el enfoque simbólico de la IA .
Aquí, solo se mostrarán los conceptos básicos de la aplicación práctica del perceptrón en dos tareas diferentes. El problema de predicción (y su problema de reconocimiento de patrones equivalente ) requiere una alta precisión, mientras que el problema de control de agentes requiere una alta tasa de aprendizaje. Por lo tanto, considerando estas tareas, uno puede familiarizarse completamente con las capacidades del perceptrón, pero esto está lejos de agotar las opciones para su uso.
En problemas prácticos, el perceptrón deberá poder elegir entre más de dos opciones, lo que significa que debe tener más de un elemento R en la salida. Como muestra Rosenblatt, las características de tales sistemas no difieren significativamente de las características de un perceptrón elemental [40] .
Predicción y reconocimiento de patronesEn estas tareas, se requiere que el perceptrón determine si un objeto pertenece a una clase por sus parámetros (por ejemplo, por apariencia, forma, silueta). Además, la precisión del reconocimiento dependerá en gran medida de la representación de las reacciones de salida del perceptrón. Aquí son posibles tres tipos de codificación: configuración , posicional e híbrido. La codificación posicional, cuando cada clase tiene su propio elemento R, brinda resultados más precisos que otros tipos. Este tipo se utiliza, por ejemplo, en el trabajo de E. Kussul y otros “Perceptrones de Rosenblatt para el reconocimiento de dígitos escritos a mano”. Sin embargo, no es aplicable en los casos en que el número de clases sea significativo, por ejemplo, varios cientos. En tales casos, se puede usar una codificación posicional de configuración híbrida, como se hizo en el trabajo de S. Yakovlev "Un sistema para reconocer objetos en movimiento basado en redes neuronales artificiales".
Gestión de agentesEn inteligencia artificial, a menudo se consideran agentes de aprendizaje ( adaptación ambiental ) . Al mismo tiempo, bajo condiciones de incertidumbre , se vuelve importante analizar no solo la información actual, sino también el contexto general de la situación en la que ha caído el agente, por lo que aquí se utilizan perceptrones de retroalimentación [41] . Además, en algunas tareas se vuelve importante aumentar la tasa de aprendizaje del perceptrón, por ejemplo, con la ayuda del modelado de refractariedad [42] .
Después de un período conocido como el " Invierno de la inteligencia artificial ", el interés en los modelos cibernéticos revivió en la década de 1980 , ya que los defensores de la IA simbólica no lograron acercarse a los problemas de "Comprensión" y "Significado", lo que provocó que la traducción automática y el reconocimiento de patrones técnicos aún no se hayan resuelto . defectos fatales. El propio Minsky lamentó públicamente que su discurso dañara el concepto de perceptrones, aunque el libro solo mostró las deficiencias de un solo dispositivo y algunas de sus variaciones. Pero, en general, la IA se ha convertido en sinónimo del enfoque simbólico, que se expresa en la creación de programas cada vez más complejos para computadoras que simulan las complejas actividades del cerebro humano.
Tipos de redes neuronales artificiales | |
---|---|
|
Aprendizaje automático y minería de datos | |
---|---|
Tareas | |
Aprendiendo con un maestro | |
análisis de conglomerados | |
Reducción de dimensionalidad | |
Pronóstico estructural | |
Detección de anomalías | |
Graficar modelos probabilísticos | |
Redes neuronales | |
Aprendizaje reforzado |
|
Teoría | |
revistas y congresos |
|