Probabilidad lógica

Probabilidad lógica : una relación lógica entre dos oraciones, el grado de confirmación de la hipótesis H por la evidencia E.

El concepto de probabilidad lógica es una de las interpretaciones del concepto de probabilidad junto con la probabilidad de frecuencia y la probabilidad subjetiva [1] . Formalmente, la probabilidad lógica es una función de las oraciones de cualquier idioma. A las oraciones analíticas (tautologías) se les asigna un único valor de esta función; contradicciones - cero; oraciones sintéticas : cualquier número real del intervalo (0, 1) [2] [3] [4] [5] [6] [7] . Los valores específicos de la probabilidad lógica para cada uno de sus argumentos sintéticos H dependen de otra oración E , que puede interpretarse como una descripción del conocimiento de algún sujeto [7] [8] [9] [10] [11] . Por esta razón, la probabilidad lógica se denomina probabilidad epistemológica (dependiente del conocimiento). En cierto sentido, también puede interpretarse como una especie de probabilidad subjetiva. Sin embargo, los valores de probabilidad lógica están determinados únicamente por un determinado sistema de conocimiento y, en este sentido, tienen un carácter objetivo [2] . En la literatura científica, es costumbre distinguir entre probabilidades lógicas y subjetivas [1] .

Dado que las oraciones del lenguaje describen algunos eventos o estados, la probabilidad lógica también puede considerarse en función de estos eventos o estados [12] [13] [14] .

Historia

El concepto de probabilidad lógica surgió y se desarrolló en los trabajos de Keynes , Johnson y Jeffrey [2] [3] [4] [5] [6] . El estudio más sistemático de este concepto fue realizado por Carnap [7] [8] [9] [10] [11] . Su formulación de la probabilidad lógica comenzó con la construcción de un lenguaje formal. En 1950, consideró una clase de lenguajes muy simples, que constaba de un número finito de predicados de un solo lugar lógicamente independientes , llamados propiedades, y un número contable de constantes. Para obtener oraciones más complejas, se utilizaron conectores lógicos . Además, Carnap compiló descripciones de todos los estados posibles del universo .

Considere el siguiente ejemplo, tomado de [1] . Deje que el lenguaje formal contenga tres constantes individuales a , b , c y un predicado F. Para mayor precisión, supongamos que las constantes denotan personas específicas: Alice, Bob y Caesar, y la propiedad corresponde al predicado: " ser joven ". Hay ocho posibles descripciones de estado para este caso, que se presentan en la Tabla. una.

tabla 1

norte	Descripciones de estado	Probabilidades 1	Probabilidades 2
una	$F(a)\land F(b)\land F(c)$	${\frac{1}{8))$	${\frac{1}{4))$
2	$F(a)\land F(b)\land \neg F(c)$	${\frac{1}{8))$	${\frac{1}{12}}$
3	$F(a)\land \neg F(b)\land F(c)$	${\frac{1}{8))$	${\frac{1}{12}}$
cuatro	$F(a)\land \neg F(b)\land \neg F(c)$	${\frac{1}{8))$	${\frac{1}{12}}$
5	$\neg F(a)\land F(b)\land F(c)$	${\frac{1}{8))$	${\frac{1}{12}}$
6	$\neg F(a)\land F(b)\land \neg F(c)$	${\frac{1}{8))$	${\frac{1}{12}}$
7	$\neg F(a)\land \neg F(b)\land F(c)$	${\frac{1}{8))$	${\frac{1}{12}}$
ocho	$\neg F(a)\land \neg F(b)\land \neg F(c)$	${\frac{1}{8))$	${\frac{1}{4))$

El símbolo “ ” denota el conectivo lógico “Y”, y el símbolo “ ” denota el conectivo lógico “NO”. La primera oración se puede leer de la siguiente manera: "Alice, Bob y Caesar son todos jóvenes", la segunda - "Alice y Bob son jóvenes, pero Caesar no lo es", la tercera "Alice y Caesar son jóvenes, pero Bob no lo es" , etc . $\tierra$ $\neg$

Carnap denotaba la probabilidad lógica absoluta de una oración A con el símbolo m ( A ). Su valor se define como la suma de las probabilidades de los estados en los que el enunciado A es verdadero. Supongamos que el sujeto no tiene conocimiento real y cree a priori que todos los estados del universo son igualmente probables. Entonces los valores de las probabilidades lógicas absolutas de cada estado son iguales a 1/8 (ver Tabla 1). Por lo tanto, las probabilidades de oraciones atómicas son 1/2, la probabilidad de conjunción de dos oraciones atómicas es 1/4 y la probabilidad de disyunción de dos oraciones atómicas es 3/4.

Carnap define la función de confirmación c ( H , E ) de la oración H por la oración E de la siguiente manera:

$c(H,E)={\frac {m(H\land E)}{m(E)))$ .

Desde el punto de vista de la teoría de la probabilidad convencional, la función de confirmación es una probabilidad condicional . Cuando las descripciones de los estados del universo son igualmente probables, como en este caso, no podemos usar la experiencia adquirida para predecir eventos futuros. Por ejemplo, la función de confirmar la hipótesis "César es joven" en ausencia de evidencia, en presencia de evidencia "Alicia es joven" y en presencia de evidencia "Alicia es joven y Bob es joven" toma el mismo valor igual a 1/2.

Carnap estaba interesado en la cuestión de la inferencia inductiva. Creía que la lógica inductiva es lógica probabilística , y nuevas evidencias a favor de la hipótesis deberían aumentar el grado de su confirmación [11] . En un intento por reconciliar su modelo con los resultados esperados, recurrió a las descripciones estructurales , que se pueden obtener si todas las constantes en el lenguaje se consideran indistinguibles (intercambiables) [7] . En nuestro ejemplo, tenemos cuatro descripciones estructurales.

una). "tres jóvenes"

2). "dos jóvenes y un viejo",

3). uno joven y dos viejos

cuatro). "Tres viejos"

La primera descripción estructural corresponde al estado 1 (ver Tabla 1); el segundo - estados 2, 3 y 5; el tercero - estados 4, 6, 7; el cuarto es el estado 8. A cada descripción estructural se le asigna el mismo valor de probabilidad (igual a 1/4 en nuestro ejemplo). Dado que la segunda descripción estructural corresponde a tres descripciones de los estados 2, 3 y 5, entonces las probabilidades de estos estados serán tres veces menores que el valor de probabilidad de la descripción estructural (es decir, 1/12). También tendrán los mismos valores de probabilidad los estados 4, 6 y 7. Ahora tenemos una nueva distribución de probabilidad de estado en la que las probabilidades difieren (ver la última columna de la Tabla 1).

Para este caso, Carnap usa una notación especial para las funciones lógicas m* y c* . Sus valores numéricos para diferentes oraciones del lenguaje generalmente difieren de los valores de las funciones m y c . Ahora viene la oportunidad de aprender por experiencia. Supongamos que estamos caminando por la calle. El valor de la función de confirmación c* de la hipótesis "conoceremos a un joven" en ausencia de evidencia es 1/2. Después de que hayamos visto a una niña (Alicia), aumentará a un valor de 2/3. Y después de un nuevo encuentro con un joven (Bob), aumenta a un valor de 3/4. Nuestras observaciones pueden sugerir que una universidad está ubicada en algún lugar cercano y los estudiantes se apresuran a ir a clase. Por eso nos reunimos sólo con gente joven.

Cabe señalar que los valores de la probabilidad lógica dependen de la evidencia (es decir, de la propuesta), y no de los hechos del mundo real. La hipótesis “César será joven” en relación a la evidencia “Alicia era joven y Bob también era joven” tiene una probabilidad de 3/4, independientemente de si vimos a Alice y Bob en la vida real o solo los imaginamos.

Pasemos a otro ejemplo. Supongamos que una persona vio una vez un cuervo negro y espera que el próximo cuervo que vea sea negro. Si esto se confirma, entonces sus expectativas de volver a encontrarse con un cuervo negro serán más altas que antes. Sin embargo, esto no significa que la situación no pueda cambiar (después de todo, hay cuervos blancos). Los europeos están acostumbrados a ver cisnes blancos y quedaron increíblemente sorprendidos (y fascinados) cuando se descubrió un cisne negro en Australia.

Supongamos que conocemos a una niña, Alice, y luego a un anciano Bob (posiblemente un profesor de nuestra hipotética universidad). ¿Cuál es la probabilidad de que en el futuro nos encontremos con el joven César? En términos formales, necesitamos encontrar el valor de la función de confirmación c* para este caso. Será igual a 1/2. Todo el resultado esperado. Curiosamente, con la nueva distribución de probabilidad de los estados del universo, las sentencias atómicas comienzan a depender unas de otras. Sin embargo, esto ya no es una dependencia lógica, sino física. Los cambios en la distribución de probabilidad de los estados conducen a la adquisición de nueva información (cambios en el conocimiento del sujeto). En nuestro caso, esta es la idea de intercambiabilidad de constantes individuales. Otro ejemplo: las oraciones "está lloviendo" y "el suelo está mojado" son lógicamente independientes. Sin embargo, físicamente dependen unos de otros, esto se puede comprobar empíricamente.

Clasificación de probabilidades lógicas

Según Carnap [7] , las probabilidades lógicas se dividen en dos clases: deductivas e inductivas. Las funciones m y c son deductivas . Un ejemplo de probabilidades inductivas son las funciones m* y c* . Estos últimos son de particular importancia, ya que pueden ser utilizados para construir la lógica de la inferencia inductiva) [11] [12] [13] [14] [15] .

Regla de secuencia

Mucho antes que Carnap, Laplace había desarrollado una fórmula para calcular la probabilidad predictiva (inductiva). Considere una secuencia de resultados aleatorios de algún experimento, cada uno de los cuales toma uno de dos valores posibles: 1 o 0 (uno significa éxito y cero significa fracaso). Sea E la oración " hubo k éxitos en n intentos " y H la oración "el próximo intento tendrá éxito". Entonces la probabilidad de que el próximo ensayo tenga éxito es:

$P(H\mid E)={\frac {k+1}{n+2))$ ,

Esta es la famosa regla de la secuencia de Laplace .

Volvamos a nuestro ejemplo. Dejemos que el éxito del experimento resida en el hecho de que, avanzando por la calle, nos encontramos con un hombre joven, y el fracaso radica en el hecho de que nos encontramos con una persona mayor. Hasta ahora no hemos conocido a nadie, y . Por lo tanto Luego de conocer a Alice ( ), quien es una niña ( ), la probabilidad predictiva aumenta . Y luego de conocer a Bob ( ), quien también tiene una edad joven ( ), aumenta aún más . $n=0$ $k=0$ $P(H\mid E)={\frac {1}{2))$ $n=1$ $k=1$ $P(H\mid E)={\frac {2}{3))$ $n=2$ $k=2$ $P(H\mid E)={\frac {3}{4))$

Carnap fue más lejos que Laplace. Generalizó su fórmula al caso de resultados ( ) de varios tipos. Suponga que como resultado de los ensayos uno de ellos terminó con un resultado del tipo -ésimo. Entonces, la probabilidad de que la próxima prueba termine con un resultado del tipo -ésimo es [7] [14] : $t$ ${\ estilo de visualización t> 2}$ $norte$ $n_{yo}$ $i$ $n+1$ $i$

$P(H\mid E)={\frac {n_{i}+1}{n+t))$

Posteriormente, Carnap obtuvo una fórmula aún más general.

Continuo de Johnson-Carnap

El Carnap temprano expuso su teoría más como un filósofo que como un matemático [14] . Posteriormente, el estilo de su trabajo cambió, comenzó a utilizar axiomas y pruebas formales [11] . El enfoque moderno de la definición de probabilidad inductiva es el siguiente. La probabilidad inductiva se considera en la forma , donde las oraciones y están incluidas en algún álgebra de oraciones, y es una oración fija, llamada "evidencia de fondo" [15] . $P(A\mid B\land K)$ $A$ $B$ $k$

En nuestro ejemplo, las oraciones de álgebra son oraciones atómicas y sus negaciones , así como oraciones moleculares formadas por estos átomos usando conectores lógicos. La evidencia de fondo es la afirmación de que todas las descripciones estructurales tienen las mismas probabilidades. Suponga que el álgebra contiene las oraciones , y . Los siguientes cinco axiomas garantizan que satisface las leyes de probabilidad. ${\ estilo de visualización F (a)}$ ${\ estilo de visualización F (b)}$ ${\ estilo de visualización F (c)}$ $A$ $B$ $C$ $D$ $P(A\mid B\land K)$

Axioma 1. . $PAG(A\mid B)\geq 0$

Axioma 2. . $PAG(A\mid A)=1$

Axioma 3. . $P(A\mid B)+P(\neg A\mid B)=1$

Axioma 4. . $P(A\land B\mid C)=P(A\mid C)P(B\mid A\land C)$

Axioma 5. Si y , entonces . $A\land K\equiv C\land K$ $B\land K\equiv D\land K$ $P(A\mid B)=P(C\mid D)$

Aquí el símbolo " " significa equivalencia lógica. A estos cinco axiomas habría que añadir otros cuatro axiomas de Carnap [10] . $\equiv$

Axioma 6. (Regularidades) . $P(B)>0$

El axioma 7. (Simetrías) no cambia cuando se reorganizan las constantes individuales. $P(B)$

Axioma 8. (Relevancia actual ( ing. relevancia instantánea )) , donde la evidencia contiene toda la información que está contenida en , más nuevas confirmaciones de la hipótesis . $P(H\mid E_{2})>P(H\mid E_{1})$ $E_2$ $E_1$ $H$

Axioma 9. (Postulado de suficiencia) La probabilidad inductiva es función de y . $n_{yo}$ $norte$

Basándose en estos axiomas, Carnap demostró el siguiente teorema [10] . Si hay diferentes resultados de la prueba, entonces hay constantes reales positivas ,…, , tal que ${\ estilo de visualización t> 2}$ $\alpha_{1}$ ${\ estilo de visualización \ alfa _ {t}}$

$P(H\mid E)={\frac {n_{i}+\alpha _{i}}{n+\alpha }}$

donde _ ${\displaystyle {\alpha }=\sum _{i=1}^{t}\alpha _{i))$

Más tarde resultó que mucho antes de Carnap este resultado había sido obtenido por Johnson [3] [4] , pero debido a su temprana muerte era desconocido para la comunidad científica en general [14] . La fórmula resultante se puede representar como:

$P(H\mid E)=({\frac {n}{n+\alpha )))[{\frac {n_{i}}{n}}]+({\frac {\alpha }{ n+\alfa )))[{\frac {\alfa _{i)){\alfa ))]$

Las expresiones entre corchetes tienen una interpretación obvia. La primera es la frecuencia empírica, y la segunda es la probabilidad a priori del tipo -ésimo de resultado, obtenida a partir del análisis del espacio de estados posibles. Las expresiones entre paréntesis son pesos relativos que representan observaciones empíricas e información a priori en términos de probabilidad lógica. Para fijos , cuanto mayor sea , mayor será el papel jugado por la información a priori (y viceversa). Para small , cuando la muestra de observaciones no es suficientemente representativa, es lógico dar preferencia a la probabilidad previa; con un gran número de observaciones, por el contrario, con una frecuencia empírica. En , el valor de la probabilidad inductiva tiende asintóticamente al valor de la frecuencia uno (independientemente del valor finito de ). ${\frac{n_{i}}{n}}$ ${\frac {\alpha _{i}}{\alpha }}$ $i$ $norte$ $\alfa$ $norte$ $n\to\infty$ $\alfa$

Generalización universal

Sea el objeto de observación un cuervo, y todos resultaron ser negros ( ). Con base en esta experiencia, se puede suponer que los cuervos son negros en general. ¿Cuál es la probabilidad de tal declaración? La teoría de Johnson-Carnap da una respuesta paradójica a esta pregunta: es igual a cero [1] [14] [15] . $norte$ ${\ estilo de visualización n_ {i} = n}$

Sandy Zabell resolvió esta paradoja reemplazando el postulado de suficiencia por un nuevo postulado [13] . Denotemos el número de resultados de diferentes tipos observados en una serie de experimentos. El nuevo postulado se formula de la siguiente manera: para todo , la probabilidad predictiva es función de y , excepto para los casos en que y . Como resultado, Zabell obtuvo las siguientes fórmulas de probabilidad inductiva [13] : $T$ $norte$ $n\geq 1$ ${\ Displaystyle P (H \ mid E)}$ $n_{yo}$ $norte$ ${\ estilo de visualización n_ {i} = 0}$ ${\ estilo de visualización T = 1}$

$P(H\mid E)={\frac {n_{i}+\alpha _{i}}{n+\alpha }}$ para , ${\ estilo de visualización T> 1}$

$P(H\mid E)=\varepsilon _{i}^{(n)}+(1-\varepsilon _{i}^{(n)}){\frac {n_{i}+\ alfa _ {i} {n + \ alfa}}$ para y . ${\ estilo de visualización T = 1}$ ${\ estilo de visualización n_ {i} = n}$

$P(H\mid E)=(1-\varepsilon _{j}^{(n)}){\frac {\alpha _{i}}{n+\alpha }}$ para , y . ${\ estilo de visualización T = 1}$ ${\ estilo de visualización n_ {i} = 0}$ ${\ estilo de visualización n_ {j} = n}$

donde _ $\varepsilon _{i}^{(n)}={\frac {\varepsilon _{i}}{\varepsilon _{i}+(1-\varepsilon )\prod _{j=0}^ {n-1}({\frac {j+\alpha _{i}}{j+\alpha }})))}}$

${\ estilo de visualización 0 \ leq \ varepsilon _ {i} <1}$ ,

${\varepsilon}=\sum_{i=1}^{t}\varepsilon_{i}<1$ .

Aquí , son las probabilidades a priori y a posteriori de que siempre se observará el resultado del tipo -ésimo en este experimento. $\varepsilon_i$ ${\displaystyle \varepsilon _{i}^{(n)))$ $i$

Lugar de la probabilidad lógica en una serie de probabilidades de otros tipos

De acuerdo con la definición clásica, la probabilidad es la relación entre el número de resultados seleccionados de algún experimento y el número de todos los resultados concebibles del mismo. Se supone que todos ellos son igualmente posibles. Como es sabido [1] , la crítica a las deficiencias de esta definición condujo al surgimiento del concepto de probabilidad de frecuencia. Las teorías lógicas nos devuelven a la idea de que la probabilidad se puede determinar a priori examinando el espacio de posibilidades, aunque ahora las posibilidades se pueden dar con pesos desiguales.

La probabilidad lógica está relacionada con la evidencia disponible y no depende de hechos desconocidos sobre el mundo, mientras que la probabilidad de frecuencia es un hecho sobre el mundo y no está relacionada con la evidencia disponible [16] . Sin embargo, la diferencia entre estas probabilidades es bastante sutil. Por ejemplo, si se sabe que al lanzar un dado, el valor de la probabilidad de frecuencia de que caiga un seis es q \u003d 0.18, entonces la probabilidad lógica de la hipótesis "caerá un seis" en relación con la evidencia "un se lanza el dado con un q ” dado es 0.18.

Existe una opinión [1] [14] [15] de que si el conocimiento del sujeto se puede representar como una oración compleja ( evidencia total ), entonces la probabilidad lógica puede servir como una justificación razonable para la probabilidad subjetiva. Sin embargo, en [16] se argumenta que la probabilidad subjetiva es una mezcla de misticismo, pragmatismo y arrogancia, en la que sólo hay una pequeña probabilidad inductiva.

Notas

↑ 1 2 3 4 5 6 Hajek Alan. (2007). Interpretación de la probabilidad. En La Enciclopedia de Filosofía de Stanford, ed. Edward N. Zalta, https://plato.stanford.edu/entries/probability-interpret/ Archivado el 17 de febrero de 2021 en Wayback Machine .
↑ 1 2 3 Keynes JM Un tratado sobre probabilidad. Macmillan, Londres, 1921.
↑ 1 2 3 Jonnson WE Logic, Parte III: Fundamentos lógicos de la ciencia. Prensa de la Universidad de Cambridge, 1924.
↑ 1 2 3 Johnson W.E. Probabilidad: Los problemas deductivos e inductivos. Mente, 41: 409-423, 1932.
↑ 1 2 Jeffrey R. C. Teoría de la probabilidad. Clarendon Press, Oxford, 3ª edición, 1961.
↑ 1 2 Jeffrey R. C. Probabilidad subjetiva: lo real. Prensa de la Universidad de Cambridge, Cambridge, 2004.
↑ 1 2 3 4 5 6 Carnap R. Fundamento lógico de la probabilidad. University of Chicago Press, Chicago, 1950, Segunda edición, 1962.
↑ 1 2 Carnap R. Los dos conceptos de probabilidad. Filosofía e Investigación Fenomenológica, 5:513-532, 1945.
↑ 1 2 Carnap R. Sobre la lógica inductiva. Filosofía de la Ciencia, 12:72-97, 1945.
↑ 1 2 3 4 Carnap R. El continuo de métodos inductivos. Prensa de la Universidad de Chicago, Chicago, 1952.
↑ 1 2 3 4 5 Carnap R., Jeffrey RC Studies in Inductive Logic and Probability, volumen I. University of California Press, Berkeley y Los Ángeles, 1971.
↑ 1 2 Gastev Yu.A. Lógica probabilística / Gran Enciclopedia Soviética, 1971, Vol. 4, p. 543.
↑ 1 2 3 4 Zabell SL (1996) Confirmación de generalizaciones universales. Erkenntnis, 45: 267-283.
↑ 1 2 3 4 5 6 7 Zabell SL (2004). Carnap y la lógica de la inferencia inductiva. En Dov M. Gabbay, John Woods y Akihiro Kanamori (eds.), Manual de Historia de la Lógica. Elsevier 265-309.
↑ 1 2 3 4 Maher Patrick, (2010). Explicación de la Probabilidad Inductiva. Revista de lógica filosófica 39 (6): 593-616.
↑ 1 2 Maher Patrick, (2006) El concepto de probabilidad inductiva. Erkenntnis, 65: 185-206.