La regla delta es un método de aprendizaje del perceptrón basado en el principio del descenso del gradiente sobre la superficie de error. Su posterior desarrollo condujo a la creación del método de retropropagación .
En realidad, la regla delta se llama la forma matemática de la notación. Sea vector el vector de las señales de entrada y vector el vector de las señales que deberían recibirse del perceptrón bajo la influencia del vector de entrada. Aquí , es el número de neuronas que componen el perceptrón. Las señales de entrada recibidas en las entradas del perceptrón fueron ponderadas y sumadas, dando como resultado un vector de valores de salida del perceptrón. Entonces es posible determinar el vector de error , cuya dimensión coincide con la dimensión del vector de señales de salida. Los componentes del vector de error se definen como la diferencia entre el valor esperado y el real de la señal de salida de la neurona perceptrón:
Con tales notaciones, la fórmula para ajustar el j-ésimo peso de la i-ésima neurona se puede escribir de la siguiente manera:
El número de señal varía de uno a la dimensión del vector de entrada . El número de neuronas varía de uno al número de neuronas . El valor es el número de la iteración de entrenamiento actual. Así, el peso de la señal de entrada de la neurona cambia en el sentido de disminuir el error en proporción al valor del error total de la neurona. A menudo se introduce un factor de proporcionalidad , por el cual se multiplica la magnitud del error. A este coeficiente se le llama tasa o tasa [1] de aprendizaje . Por lo tanto, la fórmula final para ajustar los pesos es:
Con el fin de ampliar la gama de tareas resueltas por el perceptrón, Widrow y Hoff [2] propusieron una función de activación sigmoidea para las neuronas. Esto permitió que el perceptrón operara con señales continuas, pero requirió una modificación del algoritmo de aprendizaje [3] . El algoritmo modificado tiene como objetivo minimizar la función de error de raíz cuadrática media:
Esta función está definida por la matriz de pesos . Aquí está el número de la neurona, y es el número de la entrada. La superficie descrita por esta función tiene la forma de un pseudo- paraboloide [4] . La tarea de aprender es encontrar el mínimo global de esta superficie. Una forma de encontrar el mínimo es el método de descenso de gradiente . Los pesos se ajustan en la dirección de la superficie anti-gradiente:
Aquí , es el coeficiente de tasa de aprendizaje.
La función de error es compleja y depende principalmente de las señales de salida del perceptrón. Según las reglas de derivación de funciones complejas:
(*)La señal de salida de cada neurona está determinada por la fórmula:
Aquí está el número de entradas del perceptrón, es la señal en la j-ésima entrada y es la función de activación. Entonces obtenemos:
(**)Diferenciando la función de error por el valor de la señal de salida, obtenemos:
(***)Sustituyendo las fórmulas (**) y (***) en la expresión (*), obtenemos una expresión para ajustar el peso de la j-ésima entrada de la i-ésima neurona para cualquier función de activación [5] :
A partir de esta fórmula se puede ver que, como función de activación, cuando se usa la regla delta generalizada, la función de activación de las neuronas debe ser continuamente diferenciable a lo largo de todo el eje x. Las funciones de activación con una derivada simple (por ejemplo, una curva logística o una tangente hiperbólica) tienen una ventaja.
Sobre la base de la regla delta, Widrow y Hopf crearon una de las primeras neurocomputadoras de hardware Adalin ( 1960 ).