Función de activación
En las redes neuronales artificiales , la función de activación de una neurona determina la señal de salida, que está determinada por una señal de entrada o un conjunto de señales de entrada. Se puede pensar en un chip de computadora estándar como una red digital de funciones de activación que pueden estar "ENCENDIDAS" (1) o "APAGADAS" (0) dependiendo de la entrada. Esto es similar al comportamiento de un perceptrón lineal en las redes neuronales . Sin embargo, solo las funciones de activación no lineales permiten que tales redes resuelvan problemas no triviales usando una pequeña cantidad de nodos. En las redes neuronales artificiales , esta función también se denomina función de transferencia .
Funciones
En las redes neuronales biológicas , la función de activación suele ser una abstracción que representa la velocidad a la que se dispara un potencial de acción en una célula [1] . En su forma más simple, esta función es binaria , es decir, una neurona dispara o no dispara. La función parece , donde está la función de paso de Heaviside . En este caso, necesita usar muchas neuronas para cálculos más allá de la separación lineal de categorías.


Se puede usar una línea recta con una pendiente positiva para representar el aumento en la velocidad de excitación a medida que aumenta la señal de entrada. Tal función tendría la forma , donde es la pendiente de la línea . Esta función de activación es lineal y por lo tanto tiene los mismos problemas que la función binaria. Además, las redes construidas usando tal modelo tienen una convergencia inestable , ya que la excitación de las entradas prioritarias de las neuronas tiende a un aumento ilimitado, ya que esta función no es normalizable .


Todos los problemas mencionados anteriormente se pueden resolver con una función de activación sigmoidea normalizable. Uno de los modelos realistas permanece en el estado cero hasta que llega una señal de entrada, momento en el cual la tasa de excitación inicialmente aumenta rápidamente, pero gradualmente alcanza una asíntota de tasa de excitación del 100%. Matemáticamente, esto se ve como , donde la tangente hiperbólica puede ser reemplazada por cualquier sigmoide . Este comportamiento en realidad se refleja en la neurona, ya que las neuronas no pueden disparar físicamente más rápido que cierta velocidad. Este modelo, sin embargo, tiene varios problemas en las redes de computadoras porque la función no es diferenciable , lo cual es necesario para calcular la retroalimentación del error de aprendizaje .

El último modelo que se utiliza en los perceptrones multicapa es la función de activación sigmoidea en forma de tangente hiperbólica. Se utilizan comúnmente dos tipos de esta función: , cuya imagen se normaliza al intervalo [-1, 1], y , desplazada verticalmente para normalizar de 0 a 1. El último modelo se considera biológicamente más realista, pero tiene dificultades teóricas y experimentales. con algunos tipos de errores de cálculo.


Estructuras alternativas
En las redes RBF se utiliza una clase especial de funciones de activación conocidas como funciones de base radial (RBF) , que son extremadamente eficientes como aproximadores de funciones de propósito general. Estas funciones de activación pueden tomar muchas formas, pero generalmente se toma una de las siguientes tres funciones:
- Gaussiano:

- Multiquadratic ( ing. Multiquadratics ):

- Multicuadrática inversa ( Multiquadratics inversa en inglés ):

donde es un vector que representa el centro de la función y y son parámetros que afectan la divergencia del radio.



Las máquinas de vectores de soporte (SVM) pueden usar de manera efectiva una clase de funciones de activación que incluye sigmoides y RBF. En este caso, la entrada se transforma para reflejar el hiperplano del límite de decisión en función de varias entradas de entrenamiento denominadas vectores de soporte . La función de activación para el nivel cerrado de estas máquinas se denomina núcleo interno del producto . Los vectores de soporte se representan como centros en el RBF con un núcleo igual a la función de activación, pero toman la única forma en el perceptrón


,
donde para la convergencia y debe satisfacer ciertas condiciones. Estas máquinas pueden aceptar funciones de activación polinomial de cualquier orden


[2] .
Las funciones de activación son de los siguientes tipos:
- función de identidad
- función de paso binario
- Función de paso bipolar [3]
- Función sigmoidea
- Función sigmoidea binaria
- Función sigmoidea bipolar
- Función de elevación [4]
Comparación de funciones de activación
Algunas propiedades deseables de las funciones de activación:
- No linealidad: si la función de activación no es lineal, se puede demostrar que una red neuronal de dos niveles será un aproximador de función universal [5] . La función de activación de identidad no satisface esta propiedad. Si varias capas usan la misma función de activación, toda la red es equivalente a un modelo de una sola capa.
- Diferenciabilidad continua: esta propiedad es deseable (RELU no es continuamente diferenciable y tiene algunos problemas con la optimización basada en el descenso de gradiente, pero sigue siendo una posibilidad válida) para proporcionar métodos de optimización basados en el descenso de gradiente. La función de activación de paso binario no es diferenciable en el punto 0 y su derivada es 0 en todos los demás puntos, por lo que los métodos de descenso de gradiente no le dan ningún éxito [6] .
- Rango: si el conjunto de valores de la función de activación es limitado, los métodos de aprendizaje de gradientes son más estables porque las representaciones de patrones solo afectan significativamente a un conjunto limitado de pesos de enlace. Si el rango es infinito, el aprendizaje tiende a ser más eficiente, ya que las representaciones de referencia afectan significativamente a la mayoría de los pesos. En este último caso, normalmente se necesita una tasa de aprendizaje más lenta.
- Monotonicidad: si la función de activación es monótona, se garantiza que la superficie de error asociada con el modelo de un nivel sea convexa [7] .
- Funciones suaves con derivada monótona – Se muestra que en algunos casos brindan un mayor grado de generalidad.
- Aproxima la función de identidad cerca del origen: si las funciones de activación tienen esta propiedad, la red neuronal se entrenará de manera eficiente si sus pesos se inicializan con valores aleatorios pequeños. Si la función de activación no aproxima la identidad cerca del origen, se debe tener cuidado al inicializar los pesos [8] . En la siguiente tabla, las funciones de activación que tienen y son continuas en el punto 0 se etiquetan como que tienen esta propiedad.



La siguiente tabla compara las propiedades de algunas funciones de activación, que son funciones de una sola x - convolución del nivel o niveles anteriores:
↑ Aquí,
Hes la
función escalón de Heaviside.
↑ αes una variable estocástica tomada de la
distribución uniformeen el momento del entrenamiento, cuyo valor se fija igual a la media de la
distribuciónen el momento de la prueba.
↑ ↑ ↑ Aquíestá la
función logística.
La siguiente tabla enumera las funciones de activación que no son funciones de una sola x - convolución del nivel o niveles anteriores:
↑ Denotael símbolo de Kronecker aquí.

Véase también
Notas
- ↑ Hodgkin, Huxley, 1952 , pág. 500–544.
- ↑ Haykin, 1999 .
- ↑ Bipolar: toma el valor -1 antes del origen y 1 después, a diferencia de la función de paso binario, que toma el valor 0 antes del origen).
- ↑ La función de elevación toma el valor 0 antes del origen y es lineal después.
- ↑ Cybenko, 2006 , pág. 303.
- ↑ Snyman, 2005 .
- ↑ Wu, 2009 , pág. 3432–3441.
- ↑ Sussillo, David & Abbott, LF (2014-12-19), Inicialización de paseo aleatorio para entrenar redes muy profundas de realimentación, arΧiv : 1412.6558 [cs.NE].
- ↑ James Bergstra, Guillaume Desjardins, Pascal Lamblin, Yoshua Bengio. Los polinomios cuadráticos aprenden mejores características de imagen". Informe técnico 1337 (enlace no disponible) . Département d'Informatique et de Recherche Opérationnelle, Université de Montréal (2009). Fecha de acceso: 30 de septiembre de 2018. Archivado desde el original el 25 de septiembre de 2018. (indefinido)
- ↑ Glorot, Bengio, 2010 .
- ↑ 1 2 Carlile, Brad; Delamarter, Guy; Kinney, Pablo; Marti, Akiko y Whitney, Brian (2017-11-09), Mejora del aprendizaje profundo mediante unidades lineales de raíz cuadrada inversa (ISRLU), arΧiv : 1710.09967 [cs.LG].
- ↑ Por analogía con un diodo, pasa corriente (sin cambiarla) en una dirección y no la pasa en la otra.
- ↑ Nair, Hinton, 2010 , pág. 807–814.
- ↑ Maas, Hannun, Ng, 2013 .
- ↑ He, Zhang, Ren, dom, 2015 .
- ↑ Xu, Wang, Chen, Li, 2015 .
- ↑ Clevert, Djork-Arne; Unterthiner, Thomas & Hochreiter, Sepp (2015-11-23), Aprendizaje de red profundo rápido y preciso mediante unidades lineales exponenciales (ELU), arΧiv : 1511.07289 [cs.LG].
- ↑ Klambauer, Unterthiner, Mayr, Hochreiter, 2017 .
- ↑ Jin, Xiaojie; Xu, Chunyán; Feng, Jiashi; Wei, Yunchao; Xiong, Junjun & Yan, Shuicheng (2015-12-22), Aprendizaje profundo con unidades de activación lineal rectificadas en forma de S, arΧiv : 1512.07030 [cs.CV].
- ↑ Bosque Agostinelli; Mateo Hoffman; Peter Sadowski y Pierre Baldi (21 de diciembre de 2014), Funciones de activación de aprendizaje para mejorar las redes neuronales profundas, arΧiv : 1412.6830 [cs.NE].
- ↑ Xavier Glorot, Antoine Bordes, Yoshua Bengio. Redes neuronales de rectificador disperso profundo . Congreso Internacional de Inteligencia Artificial y Estadística (2011). Consultado el 30 de septiembre de 2018. Archivado desde el original el 19 de junio de 2018. (indefinido)
- ↑ Ala de duende, Uchibe, Doya, 2018 .
- ↑ Godfrey, Gashler, 2016 , pág. 481–486.
- ↑ Gashler, Ashmore, 2014 .
- ↑ Goodfellow, Warde-Farley, Mirza, Courville, Bengio, 2013 , pág. 1319–1327.
Literatura
- Hodgkin AL, Huxley AF Una descripción cuantitativa de la corriente de membrana y su aplicación a la conducción y excitación en los nervios // The Journal of Physiology. - 1952. - T. 117 , núm. 4 . — S. 500–544 . —PMID 12991237 .
- Simón S. Haykin. [ [8] en Google Books Neural Networks: A Comprehensive Foundation]. - Prentice Hall, 1999. - ISBN 978-0-13-273350-2 .
- Cybenko GV [ [9] en Google Books Aproximación por superposiciones de una función sigmoidal] // Matemáticas de control, señales y sistemas / Jan H. van Schuppen. - Springer Internacional, 2006. - Pág. 303.
- Jan Snyman. [ [10] en Google Books Optimización matemática práctica: una introducción a la teoría básica de optimización y algoritmos basados en gradientes clásicos y nuevos]. - Springer Science & Business Media, 2005. - ISBN 978-0-387-24348-1 .
- Huaiqin Wu. Análisis de estabilidad global de una clase general de redes neuronales discontinuas con funciones de activación de crecimiento lineal // Ciencias de la información. - 2009. - T. 179 , nº. 19 _ — S. 3432–3441 . -doi : 10.1016/ j.ins.2009.06.006 .
- Xavier Glorot, Yoshua Bengio. Comprender la dificultad de entrenar redes neuronales feedforward profundas // Conferencia internacional sobre inteligencia artificial y estadísticas (AISTATS'10). - Sociedad de Inteligencia Artificial y Estadística, 2010.
- Vinod Nair, Geoffrey E. Hinton. Las unidades lineales rectificadas mejoran las máquinas de Boltzmann restringidas // 27th International Conference on International Conference on Machine Learning. - EE.UU.: Omnipress, 2010. - S. 807-814. — (ICML'10). — ISBN 9781605589077 .
- Andrew L. Maas, Awni Y. Hannun, Andrew Y. Ng. Las no linealidades del rectificador mejoran los modelos acústicos de redes neuronales // Proc. ICML. - 2013. - junio ( vol. 30 , número 1 ).
- Kaiming He, Xiangyu Zhang, Shaoqing Ren, Jian Sun. Actas ICCV'15 Actas de la Conferencia Internacional IEEE sobre Visión por Computador (ICCV) de 2015. - Washington: IEEE Computer Society, 2015. - págs. 1026-1034 . — ISBN 978-1-4673-8391-2 .
- Bing Xu, Naiyan Wang, Tianqi Chen, Mu Li. Evaluación Empírica de Activaciones Rectificadas en Red Convolucional // Visión por Computador y Reconocimiento de Patrones. — 2015.
- Günter Klambauer, Thomas Unterthiner, Andreas Mayr, Sepp Hochreiter. Redes neuronales de autonormalización // Avances en los sistemas de procesamiento de información neuronal. - 2017. - Junio ( vol. 30 , número 2017 ). — . -arXiv : 1706.02515 . _
- Stefan Elfwing, Eiji Uchibe, Kenji Doya. Unidades lineales ponderadas sigmoideas para la aproximación de funciones de redes neuronales en el aprendizaje por refuerzo // Redes neuronales. — 2018.
- Luke B. Godfrey, Michael S. Gashler. Un continuo entre funciones logarítmicas, lineales y exponenciales, y su potencial para mejorar la generalización en redes neuronales // 7ª Conferencia Internacional Conjunta sobre Descubrimiento del Conocimiento, Ingeniería del Conocimiento y Gestión del Conocimiento: KDIR. - 2016. - febrero ( vol. 1602 ). - . -arXiv : 1602.01321 . _
- Michael S. Gashler, Stephen C. Ashmore. Entrenamiento de redes neuronales profundas de Fourier para adaptarse a datos de series temporales // Conferencia internacional sobre computación inteligente. - Springrt, Cham, 2014. - P. 48-55.
- Ian J. Goodfellow, David Warde-Farley, Mehdi Mirza, Aaron Courville, Yoshua Bengio. Redes Maxout // Actas del taller y la conferencia de JMLR. - 2013. - T. 28 , núm. 3 . - S. 1319-1327 . - . -arXiv : 1302.4389 . _