мойИмя общедоступной учетной записи WeChat: Глубокое обучение и расширенное интеллектуальное принятие решенийИдентификатор официального аккаунта WeChat: Мультиагент1024Введение в публичный аккаунт: В основном исследуйте и делитесь соответствующим контентом, таким как глубокое обучение, машинные игры и обучение с подкреплением! Ждем вашего внимания, добро пожаловать учиться и обмениваться прогрессом вместе!
Становление современной теории игр
Становление современной теории игр началось в 1944 году. В 1944 году в книге фон Неймана «Теория игр и экономическое поведение» теория игр и ее применение объяснялись в математической форме, что ознаменовало начальное формирование современной теории системных игр. Фон Неймана называют отцом современной теории игр.
Теория игр, также известная как теория игр. Действия игроков в игровом процессе называются игровыми действиями.
Объяснение поведения в игре: СКонкурентный характерДля достижения своих целей и интересов,конфронтационное поведение.
Теория игр в основном изучает оптимальныестратегия противостоянияистабилизировать ситуацию, чтобы помочь людям искать наиболее разумное поведение в рамках определенных правил.
элементы игры
-
участник или игрок(Игрок): относится к субъекту принятия решений, участвующих в игре.
-
Стратегия(стратегия): план действий, который могут принять участники, представляет собой полный набор планов, подготовленных до начала действия.
- Ансамбль стратегий, который может принять игрок, формируетсянабор политик(набор стратегий).
- Состояние всех участников сформировалось после вызова действияситуация(исход).
- Если игроки могут выбирать несколько различных стратегий через определенное распределение вероятностей, такие стратегии называютсясмешанная стратегия(смешанная стратегия).
- Если участники выбирают определенную стратегию для каждого действия, такая стратегия называетсячистая стратегия(чистая стратегия).
-
доход(окупаемость): выгоды, которые каждый участник получает в разных ситуациях.
- Стратегии, принятые участниками смешанной стратегии, появляются в соответствии с распределением вероятностей, поэтому доход в смысле смешанной стратегии должен быть ожидаемым платежом.
-
правило(правило): Относится к регламенту последовательности действий участников и объема информации, получаемой участниками.
Основная парадигма исследования теории игр
Базовая парадигма исследования теории игр: Модель, указанная в Участниках (Игрок): 1. Наборы стратегий (Наборы стратегий) 2. Полученные выгоды.наблюдать: что происходит, когда игрок выбирает несколько стратегий, чтобы максимизировать свой выигрыш. Конечная цель состоит в том, чтобы достичь: меньшего из двух зол и большего из двух интересов.
Дилемма заключенного
Полиция арестовала двух человек, А и Б, которые вместе совершили преступление.Поскольку у полиции не было достаточных улик, их допрашивали по отдельности. Предположения:
-
Если один признает себя виновным и даст показания против другого, а другой будет хранить молчание, то лицо будет немедленно освобождено, а молчаливое лицо будет заключено в тюрьму на 10 лет;
-
Если оба будут хранить молчание, каждый из них будет приговорен к полугоду по имеющимся уголовным обстоятельствам (без достаточных доказательств);
-
Если два человека считают виновными и взаимными доказательствами, они были приговорены к 5 годам.
участник: А, Б.
правило: A и B принимают решения по отдельности и не могут знать выбор другого.
набор политик: Исповедь, молчание (чистая стратегия).
Б тишина | Б признал себя виновным | |
---|---|---|
тихий | Оба отсидели по шесть месяцев в тюрьме | B освобожден, а A отбывает 10 лет тюрьмы. |
признает себя виновным | А выходит на свободу, а Б отбывает 10 лет тюрьмы. | Оба отсидели по 5 лет в тюрьме |
- В дилемме заключенного,Оптимальным решениемМолчание для обоих, но на самом деле оба склонны признаваться в одно и то же время (Равновесное решение).
Причины равновесия дилеммы заключенного: Польза от признания вины для обоих в любом случае выше, чем польза от молчания, так что это стабильная ситуация, когда оба признают себя виновными одновременно.
Шоу Дилемма заключенногоСтабильная ситуация не обязательно является оптимальной ситуацией.
классификация игр
-
Кооперативные и некооперативные игры.
- кооперативная игра(кооперативная игра): некоторые участники могут объединяться для получения большей выгоды.
- некооперативная игра(некооперативная игра): участники независимы друг от друга в принятии решений и заранее не достигают кооперативного намерения.
-
Статическая игра и динамичная игра
- статическая игра(статическая игра): Все участники принимают решения одновременно, или участники не знают решений друг друга.
- динамичная игра(динамическая игра): последовательность действий, предпринимаемых участниками, определяется правилами, и более поздний участник знает поведение, предпринятое первым субъектом.
-
Полная информационная игра и неполная информационная игра:
- полная информация(полная информация): все участники понимают наборы стратегий других участников, преимущества и другую информацию.
- неполная информация(неполная информация): Не у всех участников есть вся информация.
«Дилемма заключенного» — это некооперативная статическая игра с неполной информацией.
Равновесие по Нэшу
В теории игр есть важное понятие: равновесие Нэша.
-
Стабильная ситуация в игреРавновесие по Нэшу(Равновесие Нэша): относится к комбинации стратегий, разработанных участниками, при которой ни один участник не получит выгоды от изменения стратегий в одиночку. Другими словами, если при комбинации стратегий, когда никто другой не меняет свою стратегию, никто не меняет свою собственную стратегию, то комбинация стратегий является равновесием по Нэшу.
-
Теорема Нэша: Если количество игроков ограничено, набор стратегий каждого игрока ограничен, а функция выигрыша является функцией с действительным знаком, то игра должна бытьсуществуетРавновесие Нэша в смысле смешанной стратегии.
-
В дилемме заключенного два человека одновременно признают себя виновными, что является равновесием по Нэшу в этой проблеме.
Суть равновесия Нэша — никаких сожалений..
Пример равновесия Нэша при смешанной стратегии
означает, что участники выбирают стратегию с определенной вероятностью.Равновесие Нэша смешанной стратегии: В игровом процессе равновесие Нэша, достигаемое игроком, случайно выбирающим стратегию из альтернативных стратегий в виде вероятности, называется равновесием Нэша смешанной стратегии.
-
Пример: Проверяет ли работодатель компании работу и сотрудников на предмет безделья. предполагаемыйэто вклад сотрудника,это заработная плата работника,вклад работника,стоимость осмотра,Это наказание работодателя (конфискация залога) работнику за то, что он обнаружил, что работник ленив.
-
предполагаемый,.
здесьучастник:
- сотрудник, работодатель
правило:
- И работник, и работодатель принимают решения по отдельности, и невозможно заранее узнать выбор другого.
набор смешанных стратегий:
- Сотрудник: ленивый, не ленивый
- Работодатели: проверяйте, не проверяйте
Если вероятность проверки работодателем, вероятность лени работника равна.
Зависит отРавновесие по Нэшу: При условии, что стратегии других участников остаются неизменными, участник в одиночку не увеличит доход, приняв другие стратегии. Это эквивалентно тому, проверяет работодатель или нет, доход работника одинаков; ленив работник или нет, доход работодателя одинаков.Так что естьа также.
В равновесии Нэша, поскольку, вероятность того, что работодатель примет стратегию проверки (работодатели склонны использовать эту вероятность для проверки):
В равновесии Нэша, поскольку, мы можем знать вероятность того, что сотрудник примет ленивую стратегию (сотрудник склонен использовать эту вероятность, чтобы быть ленивым):
При проверке вероятностиНиже преимущества работодателя:
к приведенной выше формулеискать руководства, когдаПри , выгода работодателя наибольшая, и ее величина равна:.
Из равновесия Нэша смешанной стратегии видно, что работодатели и работники склонны принимать стратегии с определенной вероятностью.