El Dilema del Prisionero ( o menos comúnmente conocido como el Dilema del Bandido ) es un problema fundamental en la teoría de juegos , según el cual los jugadores racionales no siempre cooperarán entre sí, incluso si es en su mejor interés. Se supone que el jugador ("prisionero") maximiza su propio pago, sin preocuparse por el beneficio de los demás.
La esencia del problema fue formulada por Meryl Flood y Melvin Drescher en 1950. El nombre del dilema fue dado por el matemático Albert Tucker .
En el dilema del prisionero, la traición domina estrictamente a la cooperación, por lo que el único equilibrio posible es la traición de ambos participantes. En pocas palabras, sea cual sea el comportamiento del otro jugador, cada uno se beneficiará más si traiciona. Dado que es mejor traicionar que cooperar en cualquier situación, todos los jugadores racionales optarán por traicionar.
Comportándose individualmente de manera racional , los participantes juntos llegan a una solución irracional: si ambos traicionan, recibirán una ganancia total menor que si cooperaran (el único equilibrio en este juego no conduce a una solución óptima de Pareto ). Ahí está el dilema.
En el dilema del prisionero recurrente, el juego se juega periódicamente y cada jugador puede "castigar" al otro por no cooperar antes. En tal juego, la cooperación puede convertirse en un equilibrio, y el incentivo para traicionar puede verse superado por la amenaza del castigo (a medida que aumenta el número de iteraciones, el equilibrio de Nash tiende a un óptimo de Pareto ).
En todos los sistemas judiciales, el castigo por bandidaje (cometer delitos como parte de un grupo organizado) es mucho más severo que por los mismos delitos cometidos solo (de ahí el nombre de "dilema del bandido").
La formulación clásica del dilema del prisionero es:
Dos delincuentes, A y B, fueron capturados aproximadamente al mismo tiempo por delitos similares. Hay razones para creer que actuaron en connivencia, y la policía, habiéndolos aislado entre sí, les ofrece el mismo trato: si uno testifica contra el otro, y él permanece en silencio, entonces el primero queda en libertad por ayudar en la investigación. y el segundo recibe la pena máxima de prisión (10 años). Si ambos callan, su acto pasa a un artículo más ligero, y cada uno de ellos es condenado a seis meses de prisión. Si ambos testifican uno contra el otro, reciben una sentencia mínima (2 años cada uno). Cada preso elige si permanecer en silencio o testificar contra el otro. Sin embargo, ninguno de los dos sabe exactamente lo que hará el otro. ¿Lo que sucederá?
El juego se puede representar como la siguiente tabla:
El prisionero B permanece en silencio. | El preso B testifica | |
El preso A permanece en silencio. | Ambos reciben seis meses. | A recibe 10 años, B es puesto en libertad |
El preso A testifica | A es puesto en libertad, B recibe 10 años de prisión |
Ambos reciben 2 años de prisión. |
El dilema del prisionero en forma normal . |
El dilema surge si asumimos que a ambos solo les importa minimizar sus propias penas de prisión.
Imagínese el razonamiento de uno de los presos. Si el socio guarda silencio, entonces es mejor traicionarlo y salir libre (de lo contrario, seis meses de prisión). Si un compañero testifica, entonces es mejor testificar en su contra también para obtener 2 años (de lo contrario, 10 años) en prisión. La estrategia de "testigo" domina estrictamente a la estrategia de "guardar silencio". Del mismo modo, otro preso llega a la misma conclusión.
Desde el punto de vista del grupo (estos dos presos), lo mejor es cooperar entre sí, permanecer en silencio y recibir seis meses, ya que esto reducirá el período total de prisión. Cualquier otra solución será menos rentable. Esto demuestra muy claramente que en un juego de suma distinta de cero, el óptimo de Pareto puede ser el opuesto del equilibrio de Nash .
Cooperar | traicionar | |
Cooperar | do, do | discos compactos |
traicionar | D, c | re, re |
La Matriz Canónica de Pagos del Dilema del Prisionero |
Puedes ampliar aún más el esquema del juego, abstrayendo del subtexto de los prisioneros. Una forma generalizada del juego se usa a menudo en economía experimental . Las siguientes reglas dan una implementación típica del juego:
Estas reglas fueron establecidas por Douglas Hofstadter y forman la descripción canónica del típico dilema del prisionero.
Hofstadter [2] sugirió que las personas entiendan problemas como el Dilema del Prisionero más fácilmente cuando se presentan como un juego independiente o un proceso comercial. Un ejemplo es el “intercambio de bolsas cerradas”:
Dos personas se encuentran e intercambian bolsas cerradas, y se dan cuenta de que una de ellas contiene dinero y la otra, bienes. Cada jugador puede respetar el trato y poner lo acordado en la bolsa, o engañar al compañero dándole una bolsa vacía.
En este juego, hacer trampa siempre será la solución con la mayor ganancia material a corto plazo.
Algunos programas de juegos utilizan un principio similar para determinar los ganadores de la ronda o de la final. Un ejemplo del dilema se mostró en 2012 en el programa de juegos británico The Bank Job en la final de cada temporada: los dos jugadores que llegaban a la final tenían que decidir cómo disponer de las ganancias. La mitad del premio total jugado estaba en maletas marcadas como EFECTIVO, las otras dos eran recortes de periódicos marcados como BASURA (el jugador tiene una maleta de cada tipo). Cada jugador tenía que tomar una de sus maletas y dársela al otro. Si ambos jugadores recibieron maletas de EFECTIVO, dividieron las ganancias por la mitad. Si uno le dio la maleta a la BASURA, entonces tomó todo el banco del juego. Si ambos dieron BASURA, ambos se quedaron sin dinero y las ganancias fueron para los jugadores que abandonaron en las etapas previas de la final.
Los ejemplos de prisioneros, el juego de cartas y el intercambio de bolsas cerradas pueden parecer exagerados, pero de hecho hay muchos ejemplos de interacciones entre humanos y animales que tienen la misma matriz de pagos. Por lo tanto, el dilema del prisionero es de interés para las ciencias sociales como la economía , la ciencia política y la sociología , así como para las secciones de biología - etología y biología evolutiva . Muchos procesos naturales se han generalizado en modelos en los que los seres vivos participan en interminables juegos tipo dilema del prisionero. Esta amplia aplicabilidad del dilema hace que este juego tenga una importancia considerable.
En el realismo político , por ejemplo, el escenario del dilema se utiliza a menudo para ilustrar el problema de dos estados involucrados en una carrera armamentista . Ambos estados declararán que tienen dos opciones: aumentar el gasto militar o reducir el armamento. En este caso, los postulados del dilema del prisionero (D > C > d > c) [3] obviamente se cumplen :
Desde el punto de vista del lado A, si el lado B no se arma, entonces para A la elección es entre D y C: es mejor armar. Si B se está armando, entonces para A la elección es entre d y c; de nuevo, es más rentable armar. Por lo tanto, para cualquier elección de B, es más rentable para el lado A armarse. La situación para el lado B es exactamente la misma, y ambos lados eventualmente buscarán la expansión militar .
William Poundstone, en su libro sobre el dilema del prisionero, describe una situación en Nueva Zelanda donde las cajas de periódicos se dejan abiertas. Es posible tomar un periódico sin pagar por él, pero pocas personas lo hacen, porque la mayoría de la gente es consciente del daño que haría si todos robaran periódicos. Dado que el dilema del prisionero es, en su forma más pura, simultáneo para todos los jugadores (nadie puede influir en las decisiones de los demás), esta línea común de razonamiento se denomina " pensamiento mágico ". Como explicación de la falta de pequeños hurtos, el pensamiento mágico explica el voto voluntario en las elecciones (donde el no votante es considerado una liebre ). Alternativamente, este comportamiento puede explicarse por la expectativa de acciones futuras (y no requiere conexión con el "pensamiento mágico"). Modelar acciones futuras requiere agregar una dimensión de tiempo, lo que se hace en un dilema recurrente.
La conclusión teórica del dilema es una de las razones por las que la negociación de culpabilidad está prohibida en muchos países . A menudo, el escenario del dilema se repite con mucha precisión: a ambos sospechosos les interesa confesar y testificar contra el otro sospechoso, incluso si ambos son inocentes. Quizás el peor caso es cuando solo uno es culpable, en cuyo caso es poco probable que el inocente confiese algo, y el culpable seguirá adelante y testificará contra el inocente.
Muchos dilemas de la vida real involucran a múltiples jugadores. Aunque metafórica, la " tragedia de los comunes " de Hardin puede verse como una generalización del dilema para múltiples jugadores. Cada residente de la comunidad elige si pastar el ganado en un pasto común y beneficiarse al agotar sus recursos , o limitar sus ingresos. El resultado colectivo del máximo uso general (o frecuente) de los pastos es un ingreso bajo (lo que conduce a la destrucción de la comunidad). Sin embargo, tal juego no es formal, ya que puede dividirse en una secuencia de juegos clásicos de 2 jugadores.
En el libro de 1984 La evolución de la cooperación , Robert Axelrod exploró una extensión del escenario del dilema, al que llamó Dilema del prisionero repetitivo (RPD). En él, los participantes toman decisiones una y otra vez y recuerdan los resultados anteriores. Axelrod invitó a colegas académicos de todo el mundo a desarrollar estrategias informáticas para competir en el campeonato PDD. Los programas incluidos en él variaban en complejidad algorítmica, hostilidad inicial, capacidad de perdonar, etc.
Axelrod descubrió que si el juego se repetía durante mucho tiempo entre muchos jugadores, cada uno con diferentes estrategias, las estrategias "codiciosas" funcionaban mal a la larga, mientras que las estrategias más " altruistas " funcionaban mejor, desde el punto de vista del interés propio. Usó esto para mostrar un posible mecanismo para la evolución del comportamiento altruista a partir de mecanismos que inicialmente son puramente egoístas , a través de la selección natural .
La mejor estrategia determinista fue Ojo por ojo , que fue desarrollada y presentada para el campeonato por Anatoly Rapoport . Era el más simple de todos los programas participantes, constaba de solo 4 líneas de código BASIC . La estrategia es simple: cooperar en la primera iteración del juego, después de lo cual el jugador hace lo mismo que hizo el oponente en el paso anterior. La estrategia “Ojo por ojo con perdón” funciona un poco mejor. Cuando un oponente traiciona, en el siguiente paso, el jugador a veces, independientemente del paso anterior, coopera con una pequeña probabilidad (1-5%). Esto le permite salir aleatoriamente del ciclo de traición mutua. Funciona mejor cuando se introducen problemas de comunicación en el juego, cuando la decisión de un jugador se comunica a otro por error.
Al analizar las estrategias que obtuvieron los mejores resultados, Axelrod nombró varias condiciones necesarias para que la estrategia obtenga un resultado alto:
Por lo tanto, Axelrod llegó a la utópica conclusión que suena de que los individuos egoístas, por su propio bien egoísta, se esforzarían por ser amables, indulgentes y no envidiosos.
Considere nuevamente el modelo de la carrera armamentista. Se concluyó que la única estrategia racional es armarse, incluso si ambos países quisieran gastar su PIB en petróleo en lugar de armas [4] . Curiosamente, los intentos de demostrar que la inferencia del dilema funciona en la práctica (haciendo un análisis de los gastos militares "altos" y "bajos" entre períodos, con base en los supuestos del TPP) a menudo muestran que este comportamiento no ocurre (p . Los gastos militares turcos no cambian de acuerdo con la estrategia de "ojo por ojo", sino que, muy probablemente, siguen una política interna). Este puede ser un ejemplo de comportamiento racional diferente de los juegos de una sola jugada y de varios movimientos.
Si en un juego de un solo movimiento la estrategia de traición domina en cualquier caso, entonces en un juego de múltiples movimientos la estrategia óptima depende del comportamiento de otros participantes. Por ejemplo, si todos en la población se engañan unos a otros, y uno se comporta de acuerdo con el principio de "ojo por ojo", tiene una pequeña pérdida debido a la pérdida en el primer movimiento. En tal población, la estrategia óptima es siempre traicionar. Si el número de los que profesan el principio de "ojo por ojo" es mayor, entonces el resultado ya depende de su participación en la sociedad.
Hay dos formas de determinar la estrategia óptima:
Aunque la estrategia de ojo por ojo se consideró la estrategia simple más exitosa, un equipo de la Universidad de Southampton dirigido por el profesor Nicholas Jennings [6] presentó una nueva estrategia para el 20 aniversario del Campeonato PKD. Esta estrategia ha tenido más éxito que ojo por ojo. Se basó en la interacción entre programas para obtener la puntuación máxima para uno de ellos. La universidad presentó 60 programas para el campeonato, que se reconocieron entre sí por una serie de acciones en los primeros 5-10 movimientos. Después de reconocer al otro, un programa siempre cooperó, mientras que el otro traicionó, lo que le dio el máximo de puntos al traidor. Si el programa entendiera que el oponente no es del Southampton, lo seguiría traicionando todo el tiempo para minimizar el resultado del oponente. Como resultado [7] , esta estrategia ocupó los primeros tres lugares de la competencia, así como varios lugares seguidos por debajo.
Aunque esta estrategia evolutivamente estable demostró ser más efectiva en la competencia, esto se logró a costa de permitir que múltiples agentes participaran en esa competencia en particular. Si el jugador solo puede controlar a un agente, ojo por ojo es lo mejor. Ella también observa la regla de no comunicación entre jugadores. El hecho de que los programas de Southampton realizaran un "baile ritual" durante los primeros 10 turnos para conocerse solo confirma cuán importante es la comunicación para cambiar el equilibrio del juego.
Si el PDZ se juega exactamente N veces (alguna N constante conocida), hay otro hecho interesante. El equilibrio de Nash es traicionar siempre. Probamos por inducción: si ambos cooperan, es rentable traicionar en el último movimiento, entonces el oponente no tendrá la oportunidad de vengarse. Por lo tanto, ambos se traicionarán en el último movimiento. Dado que el oponente traicionará en el último movimiento en cualquier caso, cualquier jugador querrá traicionar en el penúltimo movimiento, y así sucesivamente. Para que la cooperación siga siendo rentable, el futuro debe ser incierto para ambos jugadores. Una solución es hacer que el número N sea aleatorio y calcular los resultados por el pago promedio por turno.
El dilema del prisionero es fundamental para algunas teorías sobre la interacción y la confianza humanas. A partir de la suposición del modelo de dilema de que una transacción entre dos personas requiere confianza, el comportamiento de confianza en las poblaciones se puede modelar utilizando una versión iterativa del juego para varios jugadores. Esto ha inspirado a muchos científicos durante años. En 1975, Grofman y Poole estimaron el número de artículos dedicados a este tema en unos 2000.
Si los jugadores pueden evaluar la posibilidad de traición por parte de otros jugadores, su comportamiento se ve afectado por la experiencia. Simples estadísticas muestran que los jugadores inexpertos suelen comportarse excesivamente bien o mal. Si actúan así todo el tiempo, perderán porque son demasiado agresivos o demasiado amables. A medida que adquieren más experiencia, evalúan de manera más realista la probabilidad de traición y logran mejores resultados. Las primeras jugadas tienen un efecto más fuerte en los jugadores inexpertos que las jugadas posteriores en los experimentados. Este es un ejemplo de por qué las experiencias tempranas tienen un impacto tan grande en los jóvenes y por qué son especialmente vulnerables a la agresión desmotivada, a veces convirtiéndose en lo mismo.
Es posible reducir la probabilidad de traición en una población a través de la cooperación en los primeros juegos, lo que permite generar confianza [8] . Por lo tanto, el sacrificio personal puede, en algunas situaciones, impulsar la moral del grupo. Si el grupo es pequeño, es más probable que el comportamiento positivo sea recíproco, lo que alentará a las personas a cooperar más. Esto se relaciona con otro dilema, que ser bien tratado sin razón es una indulgencia que puede degradar el carácter moral de uno.
Estos procesos son el principal campo de interés en el altruismo recíproco , la selección de grupo , la selección familiar y la ética .
Las representaciones religiosas aumentan significativamente el grado de cooperación entre los jugadores. En estudios, incluso la mención implícita de palabras religiosas en la tarea preliminar antes del juego condujo a un aumento significativo en el comportamiento prosocial [9] .
diccionarios y enciclopedias | ||||
---|---|---|---|---|
|
Teoría de juego | |
---|---|
Conceptos básicos |
|
tipos de juegos |
|
Conceptos de solución | |
Ejemplos de juegos | |
de la teoría de la decisión | Paradojas|
---|---|
|