Теория игр (2) - Дилемма заключенного

машинное обучение искусственный интеллект
Теория игр (2) - Дилемма заключенного

описание проблемы

"Дилемма заключенного" - классическая задача теории игр. Есть два заключенных, которые скрыли и не сообщили о случаях кражи. В процессе допроса каждый заключенный может выбратьсопротивлятьсяне признавать илиоткровенныйпризнавать. Ситуация такова, что два заключенных дают свои собственные стратегии, чтобы считать их за одну.ситуация, то по ситуации перестановки и комбинации имеем

  • сопротивляться, сопротивляться
  • признаться, сопротивляться
  • сопротивляться, признаться
  • признаться, признаться

Если оба будут сопротивляться и откажутся признаться, то каждый будет осужден на 1 год, если оба сознаются, то каждый будет осужден на 3 года, а если один признается, а другой будет сопротивляться, то тот, кто сопротивляется, будет осужден на 5 лет и будет отпустить, если он признается.

Игроки в игре:

двое заключенных

Стратегия

сопротивляться или признаться

Матрица функции полезности
сопротивляться откровенный
сопротивляться -1,-1 -5,0
откровенный 0,-5 -3,-3

Каждый выберет максимизирующую стратегию, которая максимизирует собственную выгоду, поэтому для заключенного максимизация выгоды означает отбывание в тюрьме наименьшего срока, какая стратегия рациональна для этой цели?

Когда заключенный (заключенный A) вырабатывает стратегию, необходимо учитывать выбор стратегии другим заключенным (заключенным B). Тогда у заключенного B есть две возможности выбора: сопротивление или признание, которое здесь называется заключенным B. Если Заключенный B Предпосылка признания заключается в том, что заключенный A будет отбывать 3 года, если он признается, и 5 лет, если он сопротивляется, поэтому лучший выбор для A — признать себя виновным.

Если предположить, что заключенный из предыдущей стратегии A выбирает ситуацию сопротивления, а заключенный B выбирает признание, выгода равна 0. Когда заключенный A выбирает ситуацию признания, заключенный B также выбирает признание, чтобы получить максимальную выгоду.

Для заключенного А, независимо от того, какую стратегию использует заключенный Б, признание является доминирующей стратегией заключенного А. Ни один заключенный не может увеличить свою выгоду, в одностороннем порядке изменив стратегию, поэтому ни у одного из них нет стимула отклоняться от этой комбинации стратегий.

доминирующая стратегия

При выборе стратегии, когда полезность одной стратегии всегда больше, чем полезность всех остальных стратегий, мы называем такой тип стратегии доминирующей стратегией (Dominant Strategy).

доминирующая стратегия равновесие по Нэшу

Когда оптимальным ответом всех игроков является выбор своей доминирующей стратегии, достигнутое равновесие Нэша называется равновесием Нэша доминирующей стратегии.