El análisis de correlación canónica ( CCA ) es una forma de obtener información de matrices de correlación cruzada . Si tenemos dos vectores y variables aleatorias , y hay correlaciones entre estas variables, entonces el análisis de correlación canónica encontrará la combinación lineal de X e Y que tiene la máxima correlación [1] . T. R. Knapp observó que "prácticamente todas las pruebas de significación paramétrica de uso común pueden tratarse como un caso especial de análisis de correlación canónica, que es un procedimiento general para examinar las relaciones entre dos conjuntos de variables" [2] . El método fue introducido por primera vez por Harold Hotelling en 1936 [3] .
Dados dos vectores columna y variables aleatorias con segundos momentos finitos , se puede definir la correlación cruzada como una matriz cuyos elementos son covarianzas . En la práctica, estimamos la matriz de covarianza con base en datos de muestra de y (es decir, de un par de matrices de datos).
El análisis de correlación canónica busca vectores ( ) y ( ) tales que las variables aleatorias y maximicen la correlación . Las variables aleatorias y son el primer par de variables canónicas . Luego se buscan vectores que maximicen la misma correlación con la restricción de que no estén correlacionados con el primer par de variables canónicas, esto da el segundo par de variables canónicas . Este procedimiento puede continuarse hasta veces.
( a ′ , b ′ ) = argmax a , b corr ( a T X , b T Y ) {\displaystyle (a',b')={\underset {a,b}{\operatorname {argmax} }}\operatorname {corr} (a^{T}X,b^{T}Y)}Sea y . Parámetro maximizado
En el primer paso, cambiamos la base y determinamos
Entonces tenemos
Por la desigualdad de Cauchy-Bunyakovsky, obtenemos
Una desigualdad se convierte en una igualdad si los vectores y son colineales . Además, la correlación máxima se alcanza cuando es el vector propio con el valor propio máximo para la matriz (ver relación de Rayleigh ). El siguiente par se encuentra usando el siguiente valor propio más grande . La ortogonalidad está garantizada por la simetría de las matrices de correlación.
Solución:
En consecuencia, también
Con un cambio inverso en las coordenadas, obtenemos
Las variables canónicas están definidas por las igualdades:
El CCA se puede calcular utilizando la descomposición en valores singulares de la matriz de correlación [4] . La correlación canónica está disponible como característica en los siguientes sistemas [5] .
Cada fila se prueba para determinar su importancia utilizando el siguiente método. Dado que las correlaciones están ordenadas, la afirmación de que la fila es nula implica que todas las demás correlaciones también son nulas. Si tenemos observaciones independientes en la muestra y es la correlación estimada para , para la -ésima fila el criterio de significación será:
que se distribuye asintóticamente como un chi-cuadrado con grados de libertad para grandes [6] . Dado que todas las correlaciones desde hasta son cero, el producto de los términos después de este punto es irrelevante.
Un uso típico de la correlación canónica en un contexto experimental es considerar dos conjuntos de variables y examinar qué tienen en común los dos conjuntos [7] . Por ejemplo, en la investigación psicológica, uno puede tomar dos pruebas de personalidad multivariadas establecidas , como el Inventario de personalidad multidimensional de Minnesota (MMPI-2) y NEO . Al observar cómo se relacionan los factores MMPI-2 con los factores NEO, se puede descubrir qué características se encontraron comunes entre las dos pruebas y cuánto son comunes las variables. Por ejemplo, uno podría encontrar que características como la extraversión o el neuroticismo constituyen una parte sustancial de las variables comunes para las dos pruebas.
También puede utilizar el análisis de correlación canónica para obtener una igualdad que relacione dos conjuntos de variables, como un conjunto de medidas de rendimiento y un conjunto de variables explicativas, o un conjunto de salida y un conjunto de entrada. Se pueden imponer condiciones limitantes a dicho modelo para proporcionar requisitos teóricos o intuitivamente obvios. Este tipo de modelo se conoce como modelo de máxima correlación [8] .
La visualización de los resultados de la correlación canónica se suele realizar a través de un gráfico de barras de los coeficientes de dos conjuntos de variables para pares de variables canónicas, mostrando una correlación significativa. Algunos autores sugieren que es mejor visualizar los resultados en un heliógrafo, que es un gráfico circular con barras como rayos, la mitad de las cuales representan un conjunto de variables y la otra mitad un segundo conjunto [9] .
Sea con expectativa matemática cero , es decir . Si , es decir y están totalmente correlacionados, entonces, por ejemplo, y , por lo que el primer par de variables canónicas (solo para este ejemplo) es y . Si , es decir y están completamente anticorrelacionadas, entonces y , por lo que el primer par de variables canónicas (solo para este ejemplo) es y . Tenga en cuenta que en ambos casos , lo que muestra que el análisis de correlación canónica funciona exactamente igual con variables correlacionadas que con variables anticorrelacionadas.
Supongamos que y tengamos cero expectativas matemáticas , es decir . Sus matrices de covarianza y pueden considerarse como matrices de Gram con producto interno para y respectivamente. En esta interpretación, las variables aleatorias, elementos del vector y elementos del vector , se tratan como elementos de un espacio vectorial con el producto escalar dado por la covarianza .
La definición de variables canónicas y es entonces equivalente a la definición de raíces vectoriales para pares de subespacios generados por y , teniendo en cuenta este producto escalar . La correlación canónica es igual al coseno del ángulo entre subespacios.
CCA también se puede considerar como una transformación de blanqueo especial [10] , donde los vectores aleatorios y se transforman simultáneamente de tal manera que la matriz de correlación cruzada entre los vectores blanqueados y es diagonal [11] .
Las correlaciones canónicas se interpretan entonces como coeficientes de regresión que relacionan , y , y pueden ser negativas. Ver CCA como una regresión proporciona una forma de construir un modelo probabilístico generativo de variable latente para CCA con variables latentes no correlacionadas que representan la varianza total y parcial.
Aprendizaje automático y minería de datos | |
---|---|
Tareas | |
Aprendiendo con un maestro | |
análisis de conglomerados | |
Reducción de dimensionalidad | |
Pronóstico estructural | |
Detección de anomalías | |
Graficar modelos probabilísticos | |
Redes neuronales | |
Aprendizaje reforzado |
|
Teoría | |
revistas y congresos |
|