Probabilidad lógica : una relación lógica entre dos oraciones, el grado de confirmación de la hipótesis H por la evidencia E.
El concepto de probabilidad lógica es una de las interpretaciones del concepto de probabilidad junto con la probabilidad de frecuencia y la probabilidad subjetiva [1] . Formalmente, la probabilidad lógica es una función de las oraciones de cualquier idioma. A las oraciones analíticas (tautologías) se les asigna un único valor de esta función; contradicciones - cero; oraciones sintéticas : cualquier número real del intervalo (0, 1) [2] [3] [4] [5] [6] [7] . Los valores específicos de la probabilidad lógica para cada uno de sus argumentos sintéticos H dependen de otra oración E , que puede interpretarse como una descripción del conocimiento de algún sujeto [7] [8] [9] [10] [11] . Por esta razón, la probabilidad lógica se denomina probabilidad epistemológica (dependiente del conocimiento). En cierto sentido, también puede interpretarse como una especie de probabilidad subjetiva. Sin embargo, los valores de probabilidad lógica están determinados únicamente por un determinado sistema de conocimiento y, en este sentido, tienen un carácter objetivo [2] . En la literatura científica, es costumbre distinguir entre probabilidades lógicas y subjetivas [1] .
Dado que las oraciones del lenguaje describen algunos eventos o estados, la probabilidad lógica también puede considerarse en función de estos eventos o estados [12] [13] [14] .
El concepto de probabilidad lógica surgió y se desarrolló en los trabajos de Keynes , Johnson y Jeffrey [2] [3] [4] [5] [6] . El estudio más sistemático de este concepto fue realizado por Carnap [7] [8] [9] [10] [11] . Su formulación de la probabilidad lógica comenzó con la construcción de un lenguaje formal. En 1950, consideró una clase de lenguajes muy simples, que constaba de un número finito de predicados de un solo lugar lógicamente independientes , llamados propiedades, y un número contable de constantes. Para obtener oraciones más complejas, se utilizaron conectores lógicos . Además, Carnap compiló descripciones de todos los estados posibles del universo .
Considere el siguiente ejemplo, tomado de [1] . Deje que el lenguaje formal contenga tres constantes individuales a , b , c y un predicado F. Para mayor precisión, supongamos que las constantes denotan personas específicas: Alice, Bob y Caesar, y la propiedad corresponde al predicado: " ser joven ". Hay ocho posibles descripciones de estado para este caso, que se presentan en la Tabla. una.
tabla 1
norte | Descripciones de estado | Probabilidades 1 | Probabilidades 2 |
una | |||
2 | |||
3 | |||
cuatro | |||
5 | |||
6 | |||
7 | |||
ocho |
El símbolo “ ” denota el conectivo lógico “Y”, y el símbolo “ ” denota el conectivo lógico “NO”. La primera oración se puede leer de la siguiente manera: "Alice, Bob y Caesar son todos jóvenes", la segunda - "Alice y Bob son jóvenes, pero Caesar no lo es", la tercera "Alice y Caesar son jóvenes, pero Bob no lo es" , etc .
Carnap denotaba la probabilidad lógica absoluta de una oración A con el símbolo m ( A ). Su valor se define como la suma de las probabilidades de los estados en los que el enunciado A es verdadero. Supongamos que el sujeto no tiene conocimiento real y cree a priori que todos los estados del universo son igualmente probables. Entonces los valores de las probabilidades lógicas absolutas de cada estado son iguales a 1/8 (ver Tabla 1). Por lo tanto, las probabilidades de oraciones atómicas son 1/2, la probabilidad de conjunción de dos oraciones atómicas es 1/4 y la probabilidad de disyunción de dos oraciones atómicas es 3/4.
Carnap define la función de confirmación c ( H , E ) de la oración H por la oración E de la siguiente manera:
.
Desde el punto de vista de la teoría de la probabilidad convencional, la función de confirmación es una probabilidad condicional . Cuando las descripciones de los estados del universo son igualmente probables, como en este caso, no podemos usar la experiencia adquirida para predecir eventos futuros. Por ejemplo, la función de confirmar la hipótesis "César es joven" en ausencia de evidencia, en presencia de evidencia "Alicia es joven" y en presencia de evidencia "Alicia es joven y Bob es joven" toma el mismo valor igual a 1/2.
Carnap estaba interesado en la cuestión de la inferencia inductiva. Creía que la lógica inductiva es lógica probabilística , y nuevas evidencias a favor de la hipótesis deberían aumentar el grado de su confirmación [11] . En un intento por reconciliar su modelo con los resultados esperados, recurrió a las descripciones estructurales , que se pueden obtener si todas las constantes en el lenguaje se consideran indistinguibles (intercambiables) [7] . En nuestro ejemplo, tenemos cuatro descripciones estructurales.
una). "tres jóvenes"
2). "dos jóvenes y un viejo",
3). uno joven y dos viejos
cuatro). "Tres viejos"
La primera descripción estructural corresponde al estado 1 (ver Tabla 1); el segundo - estados 2, 3 y 5; el tercero - estados 4, 6, 7; el cuarto es el estado 8. A cada descripción estructural se le asigna el mismo valor de probabilidad (igual a 1/4 en nuestro ejemplo). Dado que la segunda descripción estructural corresponde a tres descripciones de los estados 2, 3 y 5, entonces las probabilidades de estos estados serán tres veces menores que el valor de probabilidad de la descripción estructural (es decir, 1/12). También tendrán los mismos valores de probabilidad los estados 4, 6 y 7. Ahora tenemos una nueva distribución de probabilidad de estado en la que las probabilidades difieren (ver la última columna de la Tabla 1).
Para este caso, Carnap usa una notación especial para las funciones lógicas m* y c* . Sus valores numéricos para diferentes oraciones del lenguaje generalmente difieren de los valores de las funciones m y c . Ahora viene la oportunidad de aprender por experiencia. Supongamos que estamos caminando por la calle. El valor de la función de confirmación c* de la hipótesis "conoceremos a un joven" en ausencia de evidencia es 1/2. Después de que hayamos visto a una niña (Alicia), aumentará a un valor de 2/3. Y después de un nuevo encuentro con un joven (Bob), aumenta a un valor de 3/4. Nuestras observaciones pueden sugerir que una universidad está ubicada en algún lugar cercano y los estudiantes se apresuran a ir a clase. Por eso nos reunimos sólo con gente joven.
Cabe señalar que los valores de la probabilidad lógica dependen de la evidencia (es decir, de la propuesta), y no de los hechos del mundo real. La hipótesis “César será joven” en relación a la evidencia “Alicia era joven y Bob también era joven” tiene una probabilidad de 3/4, independientemente de si vimos a Alice y Bob en la vida real o solo los imaginamos.
Pasemos a otro ejemplo. Supongamos que una persona vio una vez un cuervo negro y espera que el próximo cuervo que vea sea negro. Si esto se confirma, entonces sus expectativas de volver a encontrarse con un cuervo negro serán más altas que antes. Sin embargo, esto no significa que la situación no pueda cambiar (después de todo, hay cuervos blancos). Los europeos están acostumbrados a ver cisnes blancos y quedaron increíblemente sorprendidos (y fascinados) cuando se descubrió un cisne negro en Australia.
Supongamos que conocemos a una niña, Alice, y luego a un anciano Bob (posiblemente un profesor de nuestra hipotética universidad). ¿Cuál es la probabilidad de que en el futuro nos encontremos con el joven César? En términos formales, necesitamos encontrar el valor de la función de confirmación c* para este caso. Será igual a 1/2. Todo el resultado esperado. Curiosamente, con la nueva distribución de probabilidad de los estados del universo, las sentencias atómicas comienzan a depender unas de otras. Sin embargo, esto ya no es una dependencia lógica, sino física. Los cambios en la distribución de probabilidad de los estados conducen a la adquisición de nueva información (cambios en el conocimiento del sujeto). En nuestro caso, esta es la idea de intercambiabilidad de constantes individuales. Otro ejemplo: las oraciones "está lloviendo" y "el suelo está mojado" son lógicamente independientes. Sin embargo, físicamente dependen unos de otros, esto se puede comprobar empíricamente.
Según Carnap [7] , las probabilidades lógicas se dividen en dos clases: deductivas e inductivas. Las funciones m y c son deductivas . Un ejemplo de probabilidades inductivas son las funciones m* y c* . Estos últimos son de particular importancia, ya que pueden ser utilizados para construir la lógica de la inferencia inductiva) [11] [12] [13] [14] [15] .
Mucho antes que Carnap, Laplace había desarrollado una fórmula para calcular la probabilidad predictiva (inductiva). Considere una secuencia de resultados aleatorios de algún experimento, cada uno de los cuales toma uno de dos valores posibles: 1 o 0 (uno significa éxito y cero significa fracaso). Sea E la oración " hubo k éxitos en n intentos " y H la oración "el próximo intento tendrá éxito". Entonces la probabilidad de que el próximo ensayo tenga éxito es:
,
Esta es la famosa regla de la secuencia de Laplace .
Volvamos a nuestro ejemplo. Dejemos que el éxito del experimento resida en el hecho de que, avanzando por la calle, nos encontramos con un hombre joven, y el fracaso radica en el hecho de que nos encontramos con una persona mayor. Hasta ahora no hemos conocido a nadie, y . Por lo tanto Luego de conocer a Alice ( ), quien es una niña ( ), la probabilidad predictiva aumenta . Y luego de conocer a Bob ( ), quien también tiene una edad joven ( ), aumenta aún más .
Carnap fue más lejos que Laplace. Generalizó su fórmula al caso de resultados ( ) de varios tipos. Suponga que como resultado de los ensayos uno de ellos terminó con un resultado del tipo -ésimo. Entonces, la probabilidad de que la próxima prueba termine con un resultado del tipo -ésimo es [7] [14] :
Posteriormente, Carnap obtuvo una fórmula aún más general.
El Carnap temprano expuso su teoría más como un filósofo que como un matemático [14] . Posteriormente, el estilo de su trabajo cambió, comenzó a utilizar axiomas y pruebas formales [11] . El enfoque moderno de la definición de probabilidad inductiva es el siguiente. La probabilidad inductiva se considera en la forma , donde las oraciones y están incluidas en algún álgebra de oraciones, y es una oración fija, llamada "evidencia de fondo" [15] .
En nuestro ejemplo, las oraciones de álgebra son oraciones atómicas y sus negaciones , así como oraciones moleculares formadas por estos átomos usando conectores lógicos. La evidencia de fondo es la afirmación de que todas las descripciones estructurales tienen las mismas probabilidades. Suponga que el álgebra contiene las oraciones , y . Los siguientes cinco axiomas garantizan que satisface las leyes de probabilidad.
Axioma 1. .
Axioma 2. .
Axioma 3. .
Axioma 4. .
Axioma 5. Si y , entonces .
Aquí el símbolo " " significa equivalencia lógica. A estos cinco axiomas habría que añadir otros cuatro axiomas de Carnap [10] .
Axioma 6. (Regularidades) .
El axioma 7. (Simetrías) no cambia cuando se reorganizan las constantes individuales.
Axioma 8. (Relevancia actual ( ing. relevancia instantánea )) , donde la evidencia contiene toda la información que está contenida en , más nuevas confirmaciones de la hipótesis .
Axioma 9. (Postulado de suficiencia) La probabilidad inductiva es función de y .
Basándose en estos axiomas, Carnap demostró el siguiente teorema [10] . Si hay diferentes resultados de la prueba, entonces hay constantes reales positivas ,…, , tal que
donde _
Más tarde resultó que mucho antes de Carnap este resultado había sido obtenido por Johnson [3] [4] , pero debido a su temprana muerte era desconocido para la comunidad científica en general [14] . La fórmula resultante se puede representar como:
Las expresiones entre corchetes tienen una interpretación obvia. La primera es la frecuencia empírica, y la segunda es la probabilidad a priori del tipo -ésimo de resultado, obtenida a partir del análisis del espacio de estados posibles. Las expresiones entre paréntesis son pesos relativos que representan observaciones empíricas e información a priori en términos de probabilidad lógica. Para fijos , cuanto mayor sea , mayor será el papel jugado por la información a priori (y viceversa). Para small , cuando la muestra de observaciones no es suficientemente representativa, es lógico dar preferencia a la probabilidad previa; con un gran número de observaciones, por el contrario, con una frecuencia empírica. En , el valor de la probabilidad inductiva tiende asintóticamente al valor de la frecuencia uno (independientemente del valor finito de ).
Sea el objeto de observación un cuervo, y todos resultaron ser negros ( ). Con base en esta experiencia, se puede suponer que los cuervos son negros en general. ¿Cuál es la probabilidad de tal declaración? La teoría de Johnson-Carnap da una respuesta paradójica a esta pregunta: es igual a cero [1] [14] [15] .
Sandy Zabell resolvió esta paradoja reemplazando el postulado de suficiencia por un nuevo postulado [13] . Denotemos el número de resultados de diferentes tipos observados en una serie de experimentos. El nuevo postulado se formula de la siguiente manera: para todo , la probabilidad predictiva es función de y , excepto para los casos en que y . Como resultado, Zabell obtuvo las siguientes fórmulas de probabilidad inductiva [13] :
para ,
para y .
para , y .
donde _
,
.
Aquí , son las probabilidades a priori y a posteriori de que siempre se observará el resultado del tipo -ésimo en este experimento.
De acuerdo con la definición clásica, la probabilidad es la relación entre el número de resultados seleccionados de algún experimento y el número de todos los resultados concebibles del mismo. Se supone que todos ellos son igualmente posibles. Como es sabido [1] , la crítica a las deficiencias de esta definición condujo al surgimiento del concepto de probabilidad de frecuencia. Las teorías lógicas nos devuelven a la idea de que la probabilidad se puede determinar a priori examinando el espacio de posibilidades, aunque ahora las posibilidades se pueden dar con pesos desiguales.
La probabilidad lógica está relacionada con la evidencia disponible y no depende de hechos desconocidos sobre el mundo, mientras que la probabilidad de frecuencia es un hecho sobre el mundo y no está relacionada con la evidencia disponible [16] . Sin embargo, la diferencia entre estas probabilidades es bastante sutil. Por ejemplo, si se sabe que al lanzar un dado, el valor de la probabilidad de frecuencia de que caiga un seis es q \u003d 0.18, entonces la probabilidad lógica de la hipótesis "caerá un seis" en relación con la evidencia "un se lanza el dado con un q ” dado es 0.18.
Existe una opinión [1] [14] [15] de que si el conocimiento del sujeto se puede representar como una oración compleja ( evidencia total ), entonces la probabilidad lógica puede servir como una justificación razonable para la probabilidad subjetiva. Sin embargo, en [16] se argumenta que la probabilidad subjetiva es una mezcla de misticismo, pragmatismo y arrogancia, en la que sólo hay una pequeña probabilidad inductiva.