En teoría de probabilidad y estadística , un proceso gaussiano es un proceso estocástico (un conjunto de variables aleatorias indexadas por algún parámetro, generalmente tiempo o coordenadas) de modo que cualquier conjunto finito de estas variables aleatorias tiene una distribución normal multivariante , es decir, cualquier combinación lineal finita de ellos se distribuye normalmente. La distribución de un proceso gaussiano es la distribución conjunta de todas sus variables aleatorias y, por tanto, es una distribución de funciones con un dominio de definición continuo.
Si consideramos el proceso gaussiano como una forma de resolver problemas de aprendizaje automático, entonces se utiliza el aprendizaje perezoso y una medida de similitud entre puntos ( función kernel ) para obtener una predicción del valor de un punto invisible de la muestra de entrenamiento. El concepto de pronóstico, además de la estimación puntual en sí, incluye información sobre la incertidumbre: una distribución gaussiana unidimensional. [una]
Para calcular las predicciones de algunas funciones del kernel, se utiliza un método de álgebra matricial, kriging .
El proceso gaussiano recibe su nombre de Carl Friedrich Gauss , ya que se basa en el concepto de una distribución gaussiana (distribución normal ). El proceso gaussiano puede verse como una generalización de dimensión infinita de distribuciones normales multivariadas. Estos procesos se aplican en el modelado estadístico ; en particular, se utilizan propiedades de normalidad. Por ejemplo, si un proceso aleatorio se modela como gaussiano, entonces se pueden obtener las distribuciones de varias cantidades derivadas, como el valor promedio del proceso durante un cierto período de tiempo y el error en su estimación utilizando una muestra de valores. explícitamente.
Un proceso aleatorio con tiempo continuo es gaussiano si y solo si para cualquier conjunto finito de índices del conjunto de índices
es una variable aleatoria gaussiana multidimensional . [2] Al igual que cualquier combinación lineal tiene una distribución normal (gaussiana) unidimensional. Usando las funciones características de las variables aleatorias, la propiedad gaussiana se puede formular de la siguiente manera: - Gaussiana si y solo si para cualquier conjunto finito de índices , existen valores reales , donde tales que para toda la igualdad
Donde esta la unidad imaginaria .
Los números y son las covarianzas y valores medios de las variables en los procesos, respectivamente. [3]
La característica principal de los procesos gaussianos es que pueden ser completamente determinados por las estadísticas de segundo orden. [4] Por lo tanto, la función de covarianza determina completamente el comportamiento del proceso si la esperanza matemática del proceso gaussiano es igual a cero. Es importante señalar que la definición no negativa de una función hace posible su descomposición espectral utilizando la expansión de Karhunen-Loeve . A través de la función de covarianza, se puede determinar la estacionariedad , isotropía , suavidad y periodicidad del proceso. [4] [5]
La estacionariedad expresa el comportamiento del proceso con respecto a la distancia entre dos puntos cualesquiera y . Si el proceso es estacionario, entonces depende de la posición relativa de sus puntos, la distancia entre ellos, , de lo contrario, es no estacionario, es decir, depende de la posición real de los puntos y . Un ejemplo es un caso especial del proceso de Ornstein-Uhlenbeck, el proceso del movimiento browniano : es estacionario.
Si un proceso depende solo de , la distancia euclidiana (no la dirección) entre y , entonces se dice que el proceso es isótropo. Un proceso estacionario e isotrópico se llama homogéneo; [6] en la práctica, las propiedades de estacionariedad e isotropía reflejan diferencias (o, mejor dicho, su ausencia) en el comportamiento del proceso, teniendo en cuenta la posición del observador.
La esencia de los procesos gaussianos es obtener distribuciones de probabilidad a priori, cuya suavidad depende de la función de covarianza tomada. [4] Si esperamos que para los puntos de entrada "que estén cerca" y sus puntos de salida correspondientes y también "que estén cerca", entonces hay una suposición de continuidad de la función. Si queremos permitir un sesgo significativo, debemos elegir una función de covarianza más gruesa. Los ejemplos de comportamiento extremo incluyen la función de covarianza de Ornstein-Uhlenbeck y la función exponencial cuadrática, donde la primera no es diferenciable en ninguna parte y la última es infinitamente diferenciable.
La periodicidad se entiende como la inducción de patrones periódicos en el comportamiento del proceso. Formalmente, esto se logra asignando el valor de entrada a un vector bidimensional
Hay una serie de funciones de covarianza comunes: [5]
aquí _ El parámetro es una característica de la escala de longitud del proceso (prácticamente, "qué tan cerca" deben estar dos puntos para que se influyan significativamente entre sí), es el símbolo de Kronecker y es la desviación estándar de las fluctuaciones del ruido. Además, es una función de Bessel modificada y es una función gamma calculada a partir de . Es importante tener en cuenta que una función de covarianza compleja se puede definir como una combinación lineal de otras funciones de covarianza más simples para combinar información diferente sobre los conjuntos de datos disponibles.
Obviamente, los resultados obtenidos dependen de los valores de los hiperparámetros (por ejemplo, y ) que determinan el comportamiento del modelo.
El proceso de Wiener (el llamado movimiento browniano) es una integral del proceso de ruido blanco gaussiano. No es estacionario , sin embargo tiene incrementos estacionarios.
El proceso de Ornstein-Uhlenbeck es un proceso gaussiano estacionario.
Un puente browniano (similar al proceso de Ornstein-Uhlenbeck) es un ejemplo de un proceso gaussiano cuyos incrementos no son independientes .
El movimiento browniano fraccional es un proceso gaussiano cuya función de covarianza es una generalización de la función de proceso de Wiener.
El proceso gaussiano se puede utilizar como distribución de probabilidad previa de funciones en la inferencia bayesiana . [5] [8] Para cualquier conjunto de N puntos en el dominio de la función deseada, tome una distribución gaussiana multivariante cuyo parámetro de matriz de covarianza sea el determinante de Gram de los N puntos tomados con algún kernel deseado, y una muestra de esta distribución.
La derivación de valores continuos en base al proceso gaussiano determinado por las covarianzas anteriores se conoce como kriging (regresión basada en el proceso gaussiano). Por lo tanto, los procesos gaussianos son útiles como una poderosa herramienta de interpolación multidimensional no lineal . La regresión del proceso gaussiano se puede ampliar aún más para resolver problemas de aprendizaje tanto supervisados como no supervisados ( autoaprendizaje ) .
Cuando se trata del problema básico de la regresión basada en el proceso gaussiano ( kriging ), se asume que para un proceso gaussiano observado en coordenadas , el vector de valores es solo una de las muestras de una distribución gaussiana multivariante cuya dimensión es igual a la número de coordenadas observadas . Por lo tanto, bajo el supuesto de distribución cero, , donde es la matriz de covarianza entre todos los pares posibles para un conjunto dado de hiperparámetros . [5] Así, el logaritmo de la probabilidad marginal es igual a:
y maximizar esta probabilidad marginal con respecto a da una caracterización completa del proceso gaussiano . Se puede notar que la primera expresión depende de la incapacidad del modelo para igualar los valores observados, y la segunda expresión es directamente proporcional a la complejidad del modelo. Habiendo indicado y hecho una predicción sobre valores no observados en coordenadas , queda dibujar una gráfica de muestras de la distribución predictiva , donde la estimación promedio posterior se define como
y la estimación posterior de la varianza B se define como
donde es la covarianza entre la nueva estimación de coordenadas y todas las demás coordenadas observadas para el vector hiperparamétrico dado , y se definen como antes, y es la varianza en el punto dictado por el vector . Es importante señalar que la estimación media subsiguiente (la "estimación puntual") es una combinación lineal de las observaciones ; asimismo, la varianza es efectivamente independiente de las observaciones . Un cuello de botella conocido en la predicción del proceso gaussiano es que la complejidad computacional de la predicción es cúbica en el número de puntos , es decir, el cálculo puede no ser posible para grandes conjuntos de datos. [4] Para solucionar este problema, se está trabajando en procesos gaussianos dispersos, que generalmente se basan en la idea de construir un conjunto representativo para un proceso dado . [9] [10]