Función de activación

En las redes neuronales artificiales , la función de activación de una neurona determina la señal de salida, que está determinada por una señal de entrada o un conjunto de señales de entrada. Se puede pensar en un chip de computadora estándar como una red digital de funciones de activación que pueden estar "ENCENDIDAS" (1) o "APAGADAS" (0) dependiendo de la entrada. Esto es similar al comportamiento de un perceptrón lineal en las redes neuronales . Sin embargo, solo las funciones de activación no lineales permiten que tales redes resuelvan problemas no triviales usando una pequeña cantidad de nodos. En las redes neuronales artificiales , esta función también se denomina función de transferencia .

Funciones

En las redes neuronales biológicas , la función de activación suele ser una abstracción que representa la velocidad a la que se dispara un potencial de acción en una célula [1] . En su forma más simple, esta función es binaria , es decir, una neurona dispara o no dispara. La función parece , donde está la función de paso de Heaviside . En este caso, necesita usar muchas neuronas para cálculos más allá de la separación lineal de categorías.

Se puede usar una línea recta con una pendiente positiva para representar el aumento en la velocidad de excitación a medida que aumenta la señal de entrada. Tal función tendría la forma , donde es la pendiente de la línea . Esta función de activación es lineal y por lo tanto tiene los mismos problemas que la función binaria. Además, las redes construidas usando tal modelo tienen una convergencia inestable , ya que la excitación de las entradas prioritarias de las neuronas tiende a un aumento ilimitado, ya que esta función no es normalizable .

Todos los problemas mencionados anteriormente se pueden resolver con una función de activación sigmoidea normalizable. Uno de los modelos realistas permanece en el estado cero hasta que llega una señal de entrada, momento en el cual la tasa de excitación inicialmente aumenta rápidamente, pero gradualmente alcanza una asíntota de tasa de excitación del 100%. Matemáticamente, esto se ve como , donde la tangente hiperbólica puede ser reemplazada por cualquier sigmoide . Este comportamiento en realidad se refleja en la neurona, ya que las neuronas no pueden disparar físicamente más rápido que cierta velocidad. Este modelo, sin embargo, tiene varios problemas en las redes de computadoras porque la función no es diferenciable , lo cual es necesario para calcular la retroalimentación del error de aprendizaje .

El último modelo que se utiliza en los perceptrones multicapa es la función de activación sigmoidea en forma de tangente hiperbólica. Se utilizan comúnmente dos tipos de esta función: , cuya imagen se normaliza al intervalo [-1, 1], y , desplazada verticalmente para normalizar de 0 a 1. El último modelo se considera biológicamente más realista, pero tiene dificultades teóricas y experimentales. con algunos tipos de errores de cálculo.

Estructuras alternativas

En las redes RBF se utiliza una clase especial de funciones de activación conocidas como funciones de base radial (RBF) , que son extremadamente eficientes como aproximadores de funciones de propósito general. Estas funciones de activación pueden tomar muchas formas, pero generalmente se toma una de las siguientes tres funciones:

donde es un vector que representa el centro de la función y y son parámetros que afectan la divergencia del radio.

Las máquinas de vectores de soporte (SVM) pueden usar de manera efectiva una clase de funciones de activación que incluye sigmoides y RBF. En este caso, la entrada se transforma para reflejar el hiperplano del límite de decisión en función de varias entradas de entrenamiento denominadas vectores de soporte . La función de activación para el nivel cerrado de estas máquinas se denomina núcleo interno del producto . Los vectores de soporte se representan como centros en el RBF con un núcleo igual a la función de activación, pero toman la única forma en el perceptrón  

,

donde para la convergencia y debe satisfacer ciertas condiciones. Estas máquinas pueden aceptar funciones de activación polinomial de cualquier orden

[2] .

Las funciones de activación son de los siguientes tipos:

Comparación de funciones de activación

Algunas propiedades deseables de las funciones de activación:

La siguiente tabla compara las propiedades de algunas funciones de activación, que son funciones de una sola x - convolución del nivel o niveles anteriores:

Nombre Calendario La ecuacion Derivada (con respecto a x ) Rango de valores orden de suavidad Monótono Derivado monotónico Aproxima la
función identidad cerca del origen
idéntico
un solo paso No No
Logística (sigmoide o paso suave) [una] No No
el No
arctg No
Señal suave [9] [10] No
Unidad de raíz cuadrada inversa ( ISRU  ) [11] No
Rectificador lineal (o medio elemento lineal)

( ing.  Unidad lineal rectificada , ReLU) [12] [13]

No
Unidad lineal rectificada con fugas , Leaky ReLU [  14] No
Unidad lineal rectificada paramétrica ( PReLU  ) [15] [2] si,
cuando
si,
cuando
Unidad lineal rectificada con fugas aleatoria ( RReLU  ) [16] [3] No
Unidad lineal exponencial ( ELU  ) [17] si,
cuando
si,
cuando
si,
cuando
Unidad lineal exponencial escalada ( SELU  ) [18]

con y

No No
Rectificador S lineal (unidad de activación lineal rectificada en forma de S , SReLU  ) [19]
son parámetros.
No No No
Unidad lineal de raíz cuadrada inversa ( ISRLU  ) [11]
Adaptativo lineal por partes ( APL )  [ 20] [cuatro] No No No
Más suave [21] No
Función de identidad doblada ( eng.  identidad doblada )
Unidad lineal ponderada sigmoidea ( SiLU  ) [22] [5] [6] No No No
Exponencial suave [23] si,
cuando
Sinusoide [24] No No
Sinc No No No
gaussiano No No No
 Aquí,Hes lafunción escalón de Heaviside.   αes una variable estocástica tomada de ladistribución uniformeen el momento del entrenamiento, cuyo valor se fija igual a la media de ladistribuciónen el momento de la prueba.     Aquíestá lafunción logística.

La siguiente tabla enumera las funciones de activación que no son funciones de una sola x - convolución del nivel o niveles anteriores:

Nombre La ecuacion Derivados Rango de valores Grado de suavidad
softmax    para i = 1, …, J [7]
Salida máxima [25]

Denotael símbolo de Kronecker  aquí.

Véase también

Notas

  1. Hodgkin, Huxley, 1952 , pág. 500–544.
  2. Haykin, 1999 .
  3. Bipolar: toma el valor -1 antes del origen y 1 después, a diferencia de la función de paso binario, que toma el valor 0 antes del origen).
  4. La función de elevación toma el valor 0 antes del origen y es lineal después.
  5. Cybenko, 2006 , pág. 303.
  6. Snyman, 2005 .
  7. Wu, 2009 , pág. 3432–3441.
  8. Sussillo, David & Abbott, LF (2014-12-19), Inicialización de paseo aleatorio para entrenar redes muy profundas de realimentación, arΧiv : 1412.6558 [cs.NE]. 
  9. James Bergstra, Guillaume Desjardins, Pascal Lamblin, Yoshua Bengio. Los polinomios cuadráticos aprenden mejores características de imagen". Informe técnico 1337 (enlace no disponible) . Département d'Informatique et de Recherche Opérationnelle, Université de Montréal (2009). Fecha de acceso: 30 de septiembre de 2018. Archivado desde el original el 25 de septiembre de 2018. 
  10. Glorot, Bengio, 2010 .
  11. 1 2 Carlile, Brad; Delamarter, Guy; Kinney, Pablo; Marti, Akiko y Whitney, Brian (2017-11-09), Mejora del aprendizaje profundo mediante unidades lineales de raíz cuadrada inversa (ISRLU), arΧiv : 1710.09967 [cs.LG]. 
  12. Por analogía con un diodo, pasa corriente (sin cambiarla) en una dirección y no la pasa en la otra.
  13. Nair, Hinton, 2010 , pág. 807–814.
  14. Maas, Hannun, Ng, 2013 .
  15. He, Zhang, Ren, dom, 2015 .
  16. Xu, Wang, Chen, Li, 2015 .
  17. Clevert, Djork-Arne; Unterthiner, Thomas & Hochreiter, Sepp (2015-11-23), Aprendizaje de red profundo rápido y preciso mediante unidades lineales exponenciales (ELU), arΧiv : 1511.07289 [cs.LG]. 
  18. Klambauer, Unterthiner, Mayr, Hochreiter, 2017 .
  19. Jin, Xiaojie; Xu, Chunyán; Feng, Jiashi; Wei, Yunchao; Xiong, Junjun & Yan, Shuicheng (2015-12-22), Aprendizaje profundo con unidades de activación lineal rectificadas en forma de S, arΧiv : 1512.07030 [cs.CV]. 
  20. Bosque Agostinelli; Mateo Hoffman; Peter Sadowski y Pierre Baldi (21 de diciembre de 2014), Funciones de activación de aprendizaje para mejorar las redes neuronales profundas, arΧiv : 1412.6830 [cs.NE]. 
  21. Xavier Glorot, Antoine Bordes, Yoshua Bengio. Redes neuronales de rectificador disperso profundo . Congreso Internacional de Inteligencia Artificial y Estadística (2011). Consultado el 30 de septiembre de 2018. Archivado desde el original el 19 de junio de 2018.
  22. Ala de duende, Uchibe, Doya, 2018 .
  23. Godfrey, Gashler, 2016 , pág. 481–486.
  24. Gashler, Ashmore, 2014 .
  25. Goodfellow, Warde-Farley, Mirza, Courville, Bengio, 2013 , pág. 1319–1327.

Literatura