Una variable cualitativa , discreta o categórica es una variable que puede tomar uno de un número limitado y generalmente fijo de valores posibles , asignando cada unidad de observación a un grupo específico o categoría nominal basada en alguna propiedad cualitativa [1] . En informática y algunas ramas de las matemáticas , las variables cualitativas se denominan enumeraciones o distribución categórica .
Los datos cualitativos son un tipo de datos estadísticos , que consisten en variables cualitativas o datos que se convierten a tal forma, como datos agrupados . Más específicamente, los datos cualitativos se pueden obtener a partir de observaciones de datos cualitativos que se resumen en forma de contadores o tabulaciones cruzadas , o de observaciones de datos cuantitativos agrupadas por intervalos determinados. A menudo, los datos puramente cualitativos se formulan en forma de tabla de contingencia . Sin embargo, el término " datos cualitativos " se aplica a conjuntos de datos que, si bien tienen algunas variables cualitativas, también pueden contener variables que no son cualitativas.
Una variable cualitativa que puede tomar exactamente dos valores se llama variable binaria o variable dicotómica . Un caso especial importante es el valor distribuido según la ley de Bernoulli . Las variables cualitativas con más de dos valores posibles se denominan variables politómicas . Las variables cualitativas a menudo se consideran politómicas a menos que se indique lo contrario. La discretización es el tratamiento de datos continuos como si fueran cualitativos. La dicotomización es el tratamiento de datos continuos como si fueran variables binarias. El análisis de regresión a menudo se trata como cualitativo con una o más variables ficticias cuantitativas .
Ejemplos de valores que se pueden representar como una variable cualitativa:
Por conveniencia del procesamiento estadístico, se pueden asignar índices numéricos a las variables cualitativas, por ejemplo, de 1 a K para una variable cualitativa valorada en K (es decir, una variable que puede tomar exactamente K valores posibles). Sin embargo, como regla general, los números son arbitrarios y tienen poco significado aparte de proporcionar una etiqueta para un valor particular. En otras palabras, los valores de una variable cualitativa existen en una escala nominal : los valores son conceptos separados, no se pueden ordenar y no se pueden manipular como números regulares. Las operaciones válidas solo pueden ser equivalencia , pertenencia a conjuntos y otras operaciones sobre conjuntos.
Como resultado, la tendencia central del conjunto de variables cualitativas viene dada por la moda . No se puede determinar ni la media ni la mediana . Por ejemplo, dado un conjunto de personas, podemos considerar un conjunto de variables cualitativas correspondientes a sus apellidos. Podemos considerar operaciones como la equivalencia (si dos personas tienen el mismo apellido), la pertenencia a un conjunto (si un apellido está en una lista dada), el conteo (cuántas personas tienen un apellido dado) o la búsqueda de moda (cual es el último apellido ). el nombre es más común). Sin embargo, no podemos calcular significativamente la "suma" de Smith + Johnson, ni hacer una pregunta, ni "comparar" a Smith y Johnson. Como resultado, no podemos preguntar cuál es el "apellido del medio" ( valor medio ) o "apellido más cercano al centro" ( Mediana (estadística) |mediana) en un conjunto de apellidos.
Tenga en cuenta que esto ignora la noción de orden alfabético , que es una propiedad que no se hereda de los apellidos, sino una forma de construir etiquetas. Por ejemplo, si escribimos apellidos en cirílico y asumimos el orden de las letras cirílicas, podemos obtener un resultado diferente de "Smith" < "Holmes" que obtenemos al escribir apellidos en el alfabeto latino estándar . Y si escribimos los nombres en caracteres chinos , no podremos escribir "Smith" < "Holms" de manera significativa, porque no se define un orden para ellos. Sin embargo, si consideramos los nombres como están escritos, por ejemplo, en el alfabeto latino y definimos un orden correspondiente al orden alfabético estándar, podemos convertirlos en variables ordinales definidas en la escala ordinaria .
Las variables aleatorias cualitativas se describen mediante una distribución estadísticamente cualitativa , que permite expresar una variable cualitativa arbitraria de valor K con probabilidades separadas dadas para cada uno de los K resultados posibles. Tales variables cualitativas de categorías múltiples a menudo se exploran con una distribución nominal múltiple , que cuenta la frecuencia de cada combinación posible de números de las diversas categorías. El análisis de regresión de los resultados cualitativos se realiza mediante regresión logística multinomial , probit múltiple multinomial o tipos relacionados de modelos de elección discreta .
Las variables cualitativas que tienen solo dos resultados posibles (como sí/no o éxito/fracaso) se conocen como variables binarias (o variables de Bernoulli ). Debido a su importancia, estas variables a menudo se consideran una categoría separada con una distribución separada (distribución de Bernoulli ) y modelos de regresión separados ( regresión logística , regresión probit , etc.). Como resultado, el término "variable cualitativa" a menudo se reserva para casos de 3 o más resultados, y se denominan variables multivaluadas en lugar de una variable binaria.
También se pueden considerar variables cualitativas para las que el número de categorías no está fijado de antemano. Tal variable cualitativa puede ser una variable que describe una palabra, y no podemos saber de antemano el tamaño del diccionario, por lo que podemos permitir que se encuentren palabras que no hemos visto antes. Los modelos estadísticos estándar que involucran distribución cualitativa y regresión logística multinomial asumen que el número de categorías se conoce de antemano y cambiar el número de categorías sobre la marcha es problemático. En tales casos, se deben utilizar técnicas más avanzadas. Un ejemplo es el proceso de Dirichlet , que cae en el ámbito de las estadísticas no paramétricas . En tal caso, se supone lógicamente que hay un número infinito de categorías, pero en un momento dado la mayoría de ellas (de hecho, todas menos un número finito) nunca se ven. Todas las fórmulas se formulan en términos de la cantidad de categorías realmente afectadas, no en términos de la cantidad total (infinita) de categorías potenciales, y se crean métodos para actualizar las distribuciones de probabilidad incrementales, incluida la adición de categorías "nuevas".
Las variables cualitativas representan un método de evaluación cualitativa (a diferencia de cuantitativa) de datos (es decir, representan categorías o pertenencia a grupos). Se pueden incluir como variables independientes en un análisis de regresión, o como variables dependientes en una regresión logística o probit , pero se deben convertir a números poder analizar los datos. Esto se hace mediante el uso de sistemas de codificación. El análisis se realiza de modo que solo se codifican los valores g −1 ( g es igual al número de grupos). Esto minimiza la redundancia, pero aún representa el conjunto de datos completo, ya que no se obtendrá información adicional al codificar todos los grupos g . Por ejemplo, cuando codificamos género ( g =2: masculino y femenino), si solo codificamos femenino, el resto será masculino. Por lo general, un grupo que no está codificado tiene un interés mínimo [2] .
Hay tres sistemas de codificación principales comúnmente utilizados en el análisis de variables cualitativas en regresión: codificación ficticia, codificación de influencia y codificación de contraste. La ecuación de regresión toma la forma Y=bX + a , donde b es el factor de pendiente y especifica el peso empíricamente asignado a la explicación, X es la variable explicativa y a es la intersección con el eje y , y estos valores tomar diferentes valores según el sistema de codificación adoptado. La elección del sistema de codificación no afecta las estadísticas F o R 2 . Sin embargo, el sistema de codificación se elige en función del interés de las categorías, ya que de ello depende el valor de b [2] .
La codificación ficticia [3] se utiliza cuando hay un grupo de control o de comparación. Por lo tanto, los datos se analizan en relación con el grupo de comparación: a representa la media del grupo de control yb es la diferencia entre la media del grupo experimental y la media del grupo de control. Se supone que se cumplen tres criterios para la elegibilidad del grupo de control: el grupo debe estar bien definido (por ejemplo, no debe ser la categoría "otros"), debe haber una razón lógica para elegir este grupo como grupo de comparación (por ejemplo, se espera que el grupo tenga la puntuación más alta en la variable dependiente) y, finalmente, el tamaño de la muestra del grupo debe ser significativo y no menor en comparación con otros grupos [4] .
En la codificación ficticia, al grupo de referencia se le asigna el valor 0 para cada variable de codificación. Para cada encuestado en el conjunto de variables, solo uno puede tomar el valor 1, y ese es el que corresponde a la categoría [5] [2] . Los valores de b deben interpretarse de modo que se compare el grupo experimental con el grupo de control. Por lo tanto, obtener un valor negativo para b significa que el grupo experimental puntúa menos que el grupo de control en la variable dependiente . Para ilustrar esto, supongamos que estamos midiendo el optimismo entre varias nacionalidades y decidimos que los franceses se utilizarán como grupo de control. Si los comparamos con los italianos y obtenemos un valor b negativo , esto sugiere que los italianos son, en promedio, menos optimistas.
La siguiente tabla proporciona un ejemplo de una codificación ficticia con los franceses como grupo de control, y siendo C1, C2 y C3 respectivamente los códigos para italianos , alemanes y otros (ni franceses, ni italianos, ni alemanes):
Nacionalidad | C1 | C2 | C3 |
Franceses | 0 | 0 | 0 |
italianos | una | 0 | 0 |
alemanes | 0 | una | 0 |
Otro | 0 | 0 | una |
En un sistema de codificación de influencia, los datos se analizan comparando un grupo con todos los demás grupos. A diferencia de la codificación simulada, no hay un grupo de control. En cambio, la comparación se realiza contra el promedio de todos los grupos ( a ahora será el promedio general ). Por lo tanto, no se busca la relación de los datos con otros grupos, sino la relación con el promedio general [2] .
La codificación de influencia puede ser ponderada o no. La codificación de impacto ponderado simplemente calcula una media general ponderada, teniendo en cuenta el tamaño de la muestra para cada variable. Esto es más apropiado en situaciones donde la muestra es representativa de la población. La codificación de influencia no ponderada es más adecuada en situaciones en las que la diferencia en el tamaño de la muestra es el resultado de factores aleatorios. La interpretación de b es diferente para estos casos: con la codificación no ponderada, el efecto de b es la diferencia entre la media del grupo experimental y la media general, mientras que en el caso de la codificación ponderada es igual a la media del grupo experimental menos la media ponderada. [2] .
En la codificación de influencia, codificamos el grupo bajo estudio de la misma manera que en la codificación simulada. La diferencia fundamental es que asignamos el código -1 al grupo que menos nos interesa. Dado que seguimos usando el esquema de codificación g - 1, el grupo codificado -1 no produce datos como consecuencia del hecho de que somos los menos interesados en este grupo.
Los valores b deben interpretarse de tal manera que el grupo de tratamiento se compare con la media de todos los grupos (o la media general ponderada en el caso de la codificación de influencia ponderada). Así, obtener un valor negativo para b significa que el grupo codificado tiene una puntuación inferior a la media de todos los grupos en la variable dependiente. Usando nuestro ejemplo anterior de puntuación de optimismo por nación, si se considera un grupo de italianos, el valor negativo observado de b significa que tienen una puntuación de optimismo baja.
La siguiente tabla es un ejemplo de codificación de influencia con el grupo menos interesante siendo otros .
Nacionalidad | C1 | C2 | C3 |
Franceses | 0 | 0 | una |
italianos | una | 0 | 0 |
alemanes | 0 | una | 0 |
otros | −1 | −1 | −1 |
El sistema de codificación de contraste (o codificación ortogonal ) permite al investigador hacer preguntas específicas directamente. En lugar de tener un sistema de codificación que dicte las comparaciones (es decir, contra un grupo de control como en la codificación simulada, o contra todos los grupos como en la codificación de influencia), se puede desarrollar un criterio de comparación único para una pregunta de investigación en particular. Estas hipótesis individuales generalmente se basan en investigaciones y/o teorías previas. Las hipótesis suelen ser las siguientes. Hay una hipótesis central que postula una gran diferencia entre los dos conjuntos de grupos. La segunda hipótesis sugiere que en cada conjunto, la diferencia entre los grupos es pequeña. A través de estas hipótesis a priori , la codificación de contraste puede dar un aumento en el poder estadístico de la prueba en comparación con los sistemas de codificación anteriores [2] .
Algunas diferencias aparecen cuando comparamos nuestras previas entre ANOVA y regresión. A diferencia del caso cuando se utiliza el análisis de varianza, donde el investigador decide si los valores de los coeficientes serán ortogonales o no, cuando se utiliza la regresión, es fundamental que los valores de los coeficientes asignados durante la codificación de contraste sean ortogonal. Además, al retroceder, los valores de los coeficientes deben estar en forma de fracción (ordinaria) o en forma de fracción decimal. No pueden ser valores de intervalo.
La construcción de códigos de contraste está limitada por tres reglas:
La violación de la regla 2 da valores de R 2 y F , lo que muestra que deberíamos obtener las mismas conclusiones acerca de si existe una diferencia significativa; Sin embargo, ya no podemos interpretar los valores de b como la diferencia entre las medias.
Para ilustrar la construcción de códigos de contraste, considere la siguiente tabla. Los coeficientes se eligieron para ilustrar nuestras hipótesis anteriores: Hipótesis 1: los franceses e italianos son más optimistas que los alemanes (francés=+0,33, italianos=+0,33, alemanes=−0,66). Esto se ilustra asignando el mismo coeficiente a las categorías francesa e italiana, y un coeficiente diferente a la alemana. Los signos asignados muestran la dirección de la conexión (el signo negativo para los alemanes muestra su optimismo menos hipotético). Hipótesis 2: Se espera que los franceses e italianos tengan una diferencia en su optimismo (franceses=+0,50, italianos=−0,50, alemanes=0). Por lo tanto, asignar un valor cero a los alemanes demuestra que no incluyeron esta hipótesis en el análisis. Nuevamente, los signos asignados indican los supuestos enlaces.
Nacionalidad | C1 | C2 |
Franceses | +0.33 | +0.50 |
italianos | +0.33 | −0,50 |
alemanes | −0,66 | 0 |
La codificación sin sentido ocurre cuando se usan valores arbitrarios en lugar de "0", "1" y "-1" en el sistema de codificación anterior. Si bien esta codificación produce los valores correctos para las variables, no se recomienda el uso de una codificación sin sentido, ya que dará lugar a resultados estadísticos impredecibles [2] .
Las incrustaciones son codificaciones de valores categóricos en espacios vectoriales de valores reales (a veces de valores complejos ), generalmente de tal manera que los valores "similares" se asignan a vectores "similares", o están sujetos a algún tipo de criterio que hace los vectores útiles para la aplicación correspondiente. Un caso especial común es la incrustación de palabras , donde los valores posibles de las variables cualitativas son palabras en el idioma y se asignan vectores similares a palabras con valores similares.
Una interacción puede ocurrir si se considera entre tres o más variables, y describe una situación en la que la influencia simultánea de dos variables sobre una tercera no es aditiva. La interacción puede surgir con variables cualitativas de dos maneras: ya sea la interacción de una variable cualitativa con una cualitativa, o la interacción de una variable cualitativa con una continua.
Interacción de una variable cualitativa con otra cualitativaEste tipo de interacción se da cuando tenemos dos variables cualitativas. Para explorar este tipo de interacción, el sistema debe estar codificado para abordar la hipótesis del investigador de la manera más adecuada. El resultado de la codificación reproduce la interacción. Luego puede calcular el valor de b y determinar si esta interacción es significativa [2] .
Interacción de una variable cualitativa con una continuaEl análisis de pendiente simple es un análisis retrospectivo común que se usa en la regresión, que es similar al análisis de influencia simple en ANOVA que se usa en el análisis de interacción. En esta prueba, probamos las pendientes de una variable independiente frente a ciertos valores de otra variable independiente. Tal prueba no se limita a variables continuas y también se puede utilizar cuando la variable independiente es cualitativa. No podemos simplemente seleccionar valores para estudios de interacción, como en el caso de una variable continua, debido a la naturaleza nominal de los datos (es decir, en el caso continuo, uno puede analizar los datos en niveles alto, medio y bajo por asignando una desviación estándar por encima de la media, en el medio y una por debajo de la media). En nuestro caso, usamos una ecuación de regresión simple por grupo para explorar las pendientes. Es una práctica común estandarizar o centrar las variables para que los datos sean más interpretables en el análisis de pendientes. Sin embargo, las variables cualitativas no deben estandarizarse ni centrarse. Esta prueba se puede utilizar con todos los sistemas de codificación [2] .