La búsqueda de la mejor proyección ( ing. Projection Pursuit ) es un método estadístico que consiste en encontrar tal proyección de datos multidimensionales para los cuales alguna función de calidad de proyección alcanza su máximo .
Aunque las personas son buenas para percibir información visualmente, solo pueden analizar imágenes de pequeñas dimensiones . Al analizar datos multidimensionales, la percepción de imágenes no funciona tan bien. Este problema se resuelve considerando proyecciones de datos de dimensión dos o tres. Para visualizar las proyecciones de datos se utilizan las técnicas habituales: diagramas de dispersión , histogramas , diagramas de caja, etc.
Es necesario decidir qué proyección será la más "interesante". Uno de los enfoques para automatizar la selección de la proyección más "interesante" se basa en las siguientes consideraciones (para mayor claridad, consideraremos la proyección sobre una línea recta). Consideraremos la proyección de datos "poco interesante" si el histograma tiene una densidad de distribución normal , como en la Figura 1.
Las proyecciones con una distribución de dos vértices, como en la Figura 2, se considerarán "interesantes".
Consideramos que la distribución bimodal (bimodal) es más interesante, ya que indica la posible presencia de dos conglomerados en los datos.
Para automatizar la búsqueda de la proyección más "interesante", se utiliza una función de calidad especialmente seleccionada, que a menudo se denomina índice. La mejor proyección es aquella para la que la función de calidad es máxima. La búsqueda de una proyección de datos multidimensionales basada en maximizar alguna función de la calidad de la proyección se denomina búsqueda de la mejor proyección (Projection Pursuit). La elección del índice determina qué tan útil será el resultado. Describamos varias variantes de la función de calidad de proyección.
Introduzcamos la notación. Sea un vector aleatorio -dimensional , entonces supondremos que el vector está centrado, es decir .
Denotar - vector numérico dimensional, encontrar este vector es el problema de encontrar la mejor proyección, que se verá como .
En este caso, la matriz de datos tiene dimensión , el vector es la matriz de datos.
Entonces el índice se define como la varianza de la combinación lineal , con una condición de normalización adicional .
Jerome Friedman y John Tukey (1974) midieron cuán "interesante" es una distribución multivariada observando el índice
,
donde denota la estimación de densidad kernel obtenida a partir de los datos proyectados,
.
Si una variable aleatoria multivariada tiene una distribución normal, entonces cada proyección tiene una distribución normal estándar, siempre que y centrada. Los cambios en el relativo indican desviaciones de la normalidad.
El índice de proyección se define como , donde es la densidad de distribución de una variable aleatoria multivariante , que es una matriz de datos. Muy a menudo, la densidad no se puede calcular explícitamente, o es mucho más conveniente usar su estimación en lugar de la densidad.
Hodges y Lehman (1956) demostraron que siy, entonces sealcanza el mínimo en la densidad de Epanechnikov, que tiene la forma, dondey. Esta es una función de densidad parabólica que es cero fuera del intervalo. Por lo tanto, al usar dicho índice, la densidad de Epanechnikov será la menos interesante. Un valor de índice grande indica una gran desviación de la forma parabólica.
El índice alternativo de Hodges-Lehman se basa en la maximización de la entropía , es decir .
Si y , entonces el mínimo del índice se alcanza en la densidad normal estándar. Esta propiedad es la ventaja del índice, en comparación con la versión anterior.
De hecho, parece intuitivamente que la distribución normal es "menos interesante" que la distribución de Epanechnikov. Así, usando el índice , medimos la desviación de la distribución de la normal.
Como otro índice podemos considerar la información de Fisher , .
A la hora de calcular el índice de entropía nos encontramos con grandes dificultades de cálculo, que requieren mucho tiempo para completarse, lo que, por supuesto, no es muy conveniente.
Jones y Sibson (1987) propusieron considerar las desviaciones de la densidad normal como , donde la función satisface las condiciones
, a
Para simplificar el cálculo del índice de Jones-Sibson, conviene pasar a los cumulantes , .
Dado que la densidad normal estándar satisface la condición , el índice debe incluir al menos información hasta el nivel de desviaciones simétricas ( o distintas de cero) de la normalidad. El más simple de estos índices es la forma cuadrática definida positiva de y . En este caso, debería haber invariancia al cambiar el signo de los datos, comenzando con y , deberíamos obtener el mismo tipo de desviación de la normalidad. Tenga en cuenta que es impar, es decir, . Y - uniformemente, eso es . La forma cuadrática de y , que mide la desviación de la normalidad, no incluye un coeficiente mixto .
Por tanto, el índice propuesto por Jones y Sibson es
.
Este índice mide realmente la diferencia .
El método de encontrar la mejor proyección puede dar resultados interesantes, pero hay muchas deficiencias en su implementación. En primer lugar, es difícil llegar a una interpretación correcta de los resultados obtenidos. En segundo lugar, la implementación del método puede llevar mucho tiempo y requerir una cantidad bastante grande de RAM de la computadora. Además, todavía existen diferencias entre la representación visual humana de la mejor proyección y la solución obtenida al buscar la mejor proyección. Estos problemas aún no se han resuelto, no existe una versión "canónica" del método y se está investigando activamente.