Clasificador bayesiano ingenuo

La versión actual de la página aún no ha sido revisada por colaboradores experimentados y puede diferir significativamente de la versión revisada el 2 de agosto de 2019; las comprobaciones requieren 6 ediciones .

Un clasificador de Bayes ingenuo es un clasificador  probabilístico simple basado en la aplicación del teorema de Bayes con supuestos de independencia estrictos (ingenuos) .

Dependiendo de la naturaleza precisa del modelo probabilístico, los clasificadores Naive Bayes se pueden entrenar de manera muy eficiente. Muchas aplicaciones prácticas utilizan el método de máxima verosimilitud para estimar parámetros para modelos bayesianos ingenuos ; en otras palabras, se puede trabajar con un modelo bayesiano ingenuo sin creer en la probabilidad bayesiana y sin usar métodos bayesianos.

A pesar de su apariencia ingenua y, sin duda, términos muy simplistas, los clasificadores Naive Bayes a menudo funcionan mucho mejor que las redes neuronales en muchas situaciones complejas de la vida real.

La ventaja del clasificador naive Bayes es la pequeña cantidad de datos necesarios para el entrenamiento, la estimación de parámetros y la clasificación.

Modelo de clasificador Naive Bayes

El modelo probabilístico para el clasificador es un modelo condicional

sobre variable de clase dependiente con pocos resultados o clases , dependiente de pocas variables . El problema es que cuando la cantidad de propiedades es muy grande, o cuando una propiedad puede tomar una gran cantidad de valores, se vuelve imposible construir tal modelo en tablas de probabilidad. Por lo tanto, reformularemos el modelo para que sea fácil de procesar.

Usando el teorema de Bayes , escribimos

En la práctica, solo interesa el numerador de esta fracción, ya que el denominador no depende y los valores de las propiedades están dados, por lo que el denominador es una constante.

El numerador es equivalente a la probabilidad conjunta del modelo

que se puede reescribir de la siguiente manera, usando aplicaciones repetidas de las definiciones de probabilidad condicional :

y así sucesivamente Ahora podemos usar los supuestos "ingenuos" de la independencia condicional : suponga que cada propiedad es condicionalmente independiente de cualquier otra propiedad en . Significa:

por lo que el modelo conjunto se puede expresar como:

Esto significa que, bajo el supuesto de independencia, la distribución condicional sobre la variable de clase se puede expresar como:

donde  es un factor de escala que depende solo de , es decir, una constante si se conocen los valores de las variables.

Estimación de Parámetros

Todos los parámetros del modelo se pueden aproximar mediante frecuencias relativas del conjunto de datos de entrenamiento. Estas son las estimaciones de máxima verosimilitud de las probabilidades. Las propiedades continuas generalmente se evalúan a través de la distribución normal. Las estadísticas se calculan como la expectativa matemática y la varianza: la media aritmética y la desviación estándar, respectivamente.

Si la clase dada y el valor de propiedad nunca ocurren juntos en el conjunto de entrenamiento, entonces la puntuación basada en probabilidades será cero. Esto es un problema, ya que al multiplicar, una estimación cero resultará en la pérdida de información sobre otras probabilidades. Por lo tanto, es preferible hacer pequeños ajustes a todas las estimaciones de probabilidad para que ninguna probabilidad sea estrictamente cero.

Construcción de un clasificador basado en un modelo probabilístico

Un clasificador naive bayes combina un modelo con una regla de decisión. Una regla general es elegir la hipótesis más probable; se conoce como la regla de decisión a posteriori ( MAP ). El clasificador correspondiente es una función definida de la siguiente manera:

Ejemplo: filtrado de spam

Consideremos un ejemplo simple de aplicar un clasificador de Bayes ingenuo al problema de clasificar documentos por su contenido, es decir, clasificar correos electrónicos en dos clases: spam ( ) y no spam ( ).

Supondremos que los documentos se seleccionan de varias clases de documentos, que pueden representarse mediante un conjunto de palabras con una probabilidad (independiente) de que la i -ésima palabra de un documento dado se encuentre en un documento de clase C :

(Para este problema, suponga que la probabilidad de que aparezca una palabra en un documento es independiente de la longitud del documento y que todos los documentos tienen la misma longitud).

Entonces la probabilidad para un documento D dado y clase C

La pregunta que queremos responder es "¿cuál es la probabilidad de que un documento D dado pertenezca a la clase C ?". En otras palabras, ¿qué es igual a ?

Según el teorema de Bayes

Supongamos que tenemos solo dos clases: S y ¬S ( por ejemplo, spam y no spam). Después

Dividiendo uno por el otro, obtenemos la razón de verosimilitud

o (para log-verosimilitud )

La probabilidad real se puede calcular a partir de la observación de que . Para hacer esto, es necesario formar un espacio de probabilidad a partir de la función de verosimilitud

, dónde

Finalmente, el documento se puede clasificar comparando el logaritmo de verosimilitud con algún umbral h (p. ej., h=0). Tenemos spam si

.

Véase también

Enlaces

Productos de software