Encontrar la mejor proyección

La versión actual de la página aún no ha sido revisada por colaboradores experimentados y puede diferir significativamente de la versión revisada el 26 de febrero de 2017; las comprobaciones requieren 12 ediciones .

La búsqueda de la mejor proyección ( ing. Projection Pursuit ) es un método estadístico que consiste en encontrar tal proyección de datos multidimensionales para los cuales alguna función de calidad de proyección alcanza su máximo .

Alcance

Aunque las personas son buenas para percibir información visualmente, solo pueden analizar imágenes de pequeñas dimensiones . Al analizar datos multidimensionales, la percepción de imágenes no funciona tan bien. Este problema se resuelve considerando proyecciones de datos de dimensión dos o tres. Para visualizar las proyecciones de datos se utilizan las técnicas habituales: diagramas de dispersión , histogramas , diagramas de caja, etc.

Idea de método

Es necesario decidir qué proyección será la más "interesante". Uno de los enfoques para automatizar la selección de la proyección más "interesante" se basa en las siguientes consideraciones (para mayor claridad, consideraremos la proyección sobre una línea recta). Consideraremos la proyección de datos "poco interesante" si el histograma tiene una densidad de distribución normal , como en la Figura 1.

Las proyecciones con una distribución de dos vértices, como en la Figura 2, se considerarán "interesantes".

Consideramos que la distribución bimodal (bimodal) es más interesante, ya que indica la posible presencia de dos conglomerados en los datos.

Índice de proyección

Para automatizar la búsqueda de la proyección más "interesante", se utiliza una función de calidad especialmente seleccionada, que a menudo se denomina índice. La mejor proyección es aquella para la que la función de calidad es máxima. La búsqueda de una proyección de datos multidimensionales basada en maximizar alguna función de la calidad de la proyección se denomina búsqueda de la mejor proyección (Projection Pursuit). La elección del índice determina qué tan útil será el resultado. Describamos varias variantes de la función de calidad de proyección.

Buscar una proyección unidimensional

Introduzcamos la notación. Sea un vector aleatorio -dimensional , entonces supondremos que el vector está centrado, es decir . $X$ $pags$ ${\ estilo de visualización E (X) = 0}$

Denotar - vector numérico dimensional, encontrar este vector es el problema de encontrar la mejor proyección, que se verá como . $a$ $pags$ $a^{T}X$

En este caso, la matriz de datos tiene dimensión , el vector es la matriz de datos. ${\ estilo de visualización p \ veces 1}$ $X$

Entonces el índice se define como la varianza de la combinación lineal , con una condición de normalización adicional . ${\ estilo de visualización yo (a)}$ $a^{T}X$ $a^{T}a=1$

Índices de proyección comunes

El enfoque de Friedman y Tukey

Jerome Friedman y John Tukey (1974) midieron cuán "interesante" es una distribución multivariada observando el índice $X$

$I_{FT,\;h}(a)=n^{-1}\sum _{j=1}^{n}{\hat {f))_{h,\;a}^{ 2}(a^{T}X_{i})$ ,

donde denota la estimación de densidad kernel obtenida a partir de los datos proyectados, ${\sombrero {f}}_{h,\;a}$

${\hat {f}}_{h,\;a}(z)=n^{-1}\sum _{j=1}^{n}K_{h}(za^{T} X_{j})$ .

Si una variable aleatoria multivariada tiene una distribución normal, entonces cada proyección tiene una distribución normal estándar, siempre que y centrada. Los cambios en el relativo indican desviaciones de la normalidad. $X$ $z=a^{T}X$ ${\ estilo de visualización \|a\|=1}$ $X$ $I_{FT,\;h}(a)$ $a$

El enfoque de Hodges y Lehman

El índice de proyección se define como , donde es la densidad de distribución de una variable aleatoria multivariante , que es una matriz de datos. Muy a menudo, la densidad no se puede calcular explícitamente, o es mucho más conveniente usar su estimación en lugar de la densidad. ${\ estilo de visualización \ int (f') ^ {2))$ $F$ $X$

Hodges y Lehman (1956) demostraron que siy, entonces sealcanza el mínimo en la densidad de Epanechnikov, que tiene la forma, dondey. Esta es una función de densidad parabólica que es cero fuera del intervalo. Por lo tanto, al usar dicho índice, la densidad de Epanechnikov será la menos interesante. Un valor de índice grande indica una gran desviación de la forma parabólica. ${\ estilo de visualización E (X) = 0}$ ${\ estilo de visualización D (X) = 1}$ ${\ estilo de visualización \ int (f') ^ {2))$ $f(z)=\max {\{0,\;c(b^{2}-z^{2})\))$ $c={\frac {3}{20{\sqrt {5}}}}$ $b={\sqrt {5}}$ $(-{\sqrt {5)),\;{\sqrt {5)))$

El índice alternativo de Hodges-Lehman se basa en la maximización de la entropía , es decir . ${\ estilo de visualización \ int (-f \ log f)}$

Si y , entonces el mínimo del índice se alcanza en la densidad normal estándar. Esta propiedad es la ventaja del índice, en comparación con la versión anterior. ${\ estilo de visualización E (X) = 0}$ ${\ estilo de visualización D (X) = 1}$ ${\ estilo de visualización \ int (f \ log f)}$

De hecho, parece intuitivamente que la distribución normal es "menos interesante" que la distribución de Epanechnikov. Así, usando el índice , medimos la desviación de la distribución de la normal. ${\ estilo de visualización \ int (f \ log f)}$

Enfoque de Fisher

Como otro índice podemos considerar la información de Fisher , . ${\ estilo de visualización \ int (f') ^ {2} / f}$

A la hora de calcular el índice de entropía nos encontramos con grandes dificultades de cálculo, que requieren mucho tiempo para completarse, lo que, por supuesto, no es muy conveniente.

El enfoque de Jones y Sibson

Jones y Sibson (1987) propusieron considerar las desviaciones de la densidad normal como , donde la función satisface las condiciones ${\displaystyle f(x)=\varphi (x)\{1+\varepsilon (x)\))$ $\varepsilon$

$\int \varphi (u)\varepsilon (u)u^{-r}du=0$ , a ${\ estilo de visualización r = 0, \; 1, \; 2.}$

Para simplificar el cálculo del índice de Jones-Sibson, conviene pasar a los cumulantes , . ${\ estilo de visualización \ kappa _ {3} = \ mu _ {3} = E (X ^ {3})}$ ${\ estilo de visualización \ kappa _ {4} = \ mu _ {4} = E (X ^ {4}) -3}$

Dado que la densidad normal estándar satisface la condición , el índice debe incluir al menos información hasta el nivel de desviaciones simétricas ( o distintas de cero) de la normalidad. El más simple de estos índices es la forma cuadrática definida positiva de y . En este caso, debería haber invariancia al cambiar el signo de los datos, comenzando con y , deberíamos obtener el mismo tipo de desviación de la normalidad. Tenga en cuenta que es impar, es decir, . Y - uniformemente, eso es . La forma cuadrática de y , que mide la desviación de la normalidad, no incluye un coeficiente mixto . ${\ estilo de visualización \ kappa _ {3} = \ kappa _ {4} = 0}$ ${\ estilo de visualización \ kappa_ {3}}$ ${\ estilo de visualización \ kappa _ {4}}$ ${\ estilo de visualización \ kappa_ {3}}$ ${\ estilo de visualización \ kappa _ {4}}$ $a^{T}X$ $-a^{T}X$ ${\ estilo de visualización \ kappa_ {3}}$ $\kappa _{3}(a^{T}X)=-\kappa _{3}(-a^{T}X)$ ${\ estilo de visualización \ kappa _ {4}}$ $\kappa _{4}(a^{T}X)=\kappa _{4}(-a^{T}X)$ ${\ estilo de visualización \ kappa_ {3}}$ ${\ estilo de visualización \ kappa _ {4}}$ ${\ estilo de visualización \ kappa _ {3} \ kappa _ {4}}$

Por tanto, el índice propuesto por Jones y Sibson es

$I_{JS}(a)=\{\kappa _{3}^{2}(a^{T}X)+\kappa_{4}^{2}(a^{T}X) /4\}/12$ .

Este índice mide realmente la diferencia . ${\ estilo de visualización \ int f \ log f- \ int \ varphi \ log \ varphi}$

Cuestiones de implementación

El método de encontrar la mejor proyección puede dar resultados interesantes, pero hay muchas deficiencias en su implementación. En primer lugar, es difícil llegar a una interpretación correcta de los resultados obtenidos. En segundo lugar, la implementación del método puede llevar mucho tiempo y requerir una cantidad bastante grande de RAM de la computadora. Además, todavía existen diferencias entre la representación visual humana de la mejor proyección y la solución obtenida al buscar la mejor proyección. Estos problemas aún no se han resuelto, no existe una versión "canónica" del método y se está investigando activamente.

Literatura

Peter J. Huber , Projection Pursuit (artículo invitado), Universidad de Harvard, The Annalas of Statistics, 13, no. 2 (1985), 435-475.
Jerome H. Friedman , Persecución de proyección exploratoria. J. Amer. estadístico. Asoc. 82 (1987) 249-266. Software en línea .