Машинная игра (1) Введение

машинное обучение

мойИмя общедоступной учетной записи WeChat: Глубокое обучение и расширенное интеллектуальное принятие решенийИдентификатор официального аккаунта WeChat: Мультиагент1024Введение в публичный аккаунт: В основном исследуйте и делитесь соответствующим контентом, таким как глубокое обучение, машинные игры и обучение с подкреплением! Ждем вашего внимания, добро пожаловать учиться и обмениваться прогрессом вместе!

Становление современной теории игр

  Становление современной теории игр началось в 1944 году. В 1944 году в книге фон Неймана «Теория игр и экономическое поведение» теория игр и ее применение объяснялись в математической форме, что ознаменовало начальное формирование современной теории системных игр. Фон Неймана называют отцом современной теории игр.

  Теория игр, также известная как теория игр. Действия игроков в игровом процессе называются игровыми действиями.

   Объяснение поведения в игре: СКонкурентный характерДля достижения своих целей и интересов,конфронтационное поведение.

  Теория игр в основном изучает оптимальныестратегия противостоянияистабилизировать ситуацию, чтобы помочь людям искать наиболее разумное поведение в рамках определенных правил.

элементы игры

  • участник или игрок(Игрок): относится к субъекту принятия решений, участвующих в игре.

  • Стратегия(стратегия): план действий, который могут принять участники, представляет собой полный набор планов, подготовленных до начала действия.

    • Ансамбль стратегий, который может принять игрок, формируетсянабор политик(набор стратегий).
    • Состояние всех участников сформировалось после вызова действияситуация(исход).
    • Если игроки могут выбирать несколько различных стратегий через определенное распределение вероятностей, такие стратегии называютсясмешанная стратегия(смешанная стратегия).
    • Если участники выбирают определенную стратегию для каждого действия, такая стратегия называетсячистая стратегия(чистая стратегия).
  • доход(окупаемость): выгоды, которые каждый участник получает в разных ситуациях.

    • Стратегии, принятые участниками смешанной стратегии, появляются в соответствии с распределением вероятностей, поэтому доход в смысле смешанной стратегии должен быть ожидаемым платежом.
  • правило(правило): Относится к регламенту последовательности действий участников и объема информации, получаемой участниками.

Основная парадигма исследования теории игр

Базовая парадигма исследования теории игр: Модель, указанная в Участниках (Игрок): 1. Наборы стратегий (Наборы стратегий) 2. Полученные выгоды.наблюдать: что происходит, когда игрок выбирает несколько стратегий, чтобы максимизировать свой выигрыш. Конечная цель состоит в том, чтобы достичь: меньшего из двух зол и большего из двух интересов.

Дилемма заключенного

  Полиция арестовала двух человек, А и Б, которые вместе совершили преступление.Поскольку у полиции не было достаточных улик, их допрашивали по отдельности. Предположения:

  1. Если один признает себя виновным и даст показания против другого, а другой будет хранить молчание, то лицо будет немедленно освобождено, а молчаливое лицо будет заключено в тюрьму на 10 лет;

  2. Если оба будут хранить молчание, каждый из них будет приговорен к полугоду по имеющимся уголовным обстоятельствам (без достаточных доказательств);

  3. Если два человека считают виновными и взаимными доказательствами, они были приговорены к 5 годам.

  участник: А, Б.

  правило: A и B принимают решения по отдельности и не могут знать выбор другого.

  набор политик: Исповедь, молчание (чистая стратегия).

Б тишина Б признал себя виновным
тихий Оба отсидели по шесть месяцев в тюрьме B освобожден, а A отбывает 10 лет тюрьмы.
признает себя виновным А выходит на свободу, а Б отбывает 10 лет тюрьмы. Оба отсидели по 5 лет в тюрьме
  • В дилемме заключенного,Оптимальным решениемМолчание для обоих, но на самом деле оба склонны признаваться в одно и то же время (Равновесное решение).

  Причины равновесия дилеммы заключенного: Польза от признания вины для обоих в любом случае выше, чем польза от молчания, так что это стабильная ситуация, когда оба признают себя виновными одновременно.

Шоу    Дилемма заключенногоСтабильная ситуация не обязательно является оптимальной ситуацией.

классификация игр

  • Кооперативные и некооперативные игры.

    • кооперативная игра(кооперативная игра): некоторые участники могут объединяться для получения большей выгоды.
    • некооперативная игра(некооперативная игра): участники независимы друг от друга в принятии решений и заранее не достигают кооперативного намерения.
  • Статическая игра и динамичная игра

    • статическая игра(статическая игра): Все участники принимают решения одновременно, или участники не знают решений друг друга.
    • динамичная игра(динамическая игра): последовательность действий, предпринимаемых участниками, определяется правилами, и более поздний участник знает поведение, предпринятое первым субъектом.
  • Полная информационная игра и неполная информационная игра:

    • полная информация(полная информация): все участники понимают наборы стратегий других участников, преимущества и другую информацию.
    • неполная информация(неполная информация): Не у всех участников есть вся информация.

«Дилемма заключенного» — это некооперативная статическая игра с неполной информацией.

Равновесие по Нэшу

  В теории игр есть важное понятие: равновесие Нэша.

  • Стабильная ситуация в игреРавновесие по Нэшу(Равновесие Нэша): относится к комбинации стратегий, разработанных участниками, при которой ни один участник не получит выгоды от изменения стратегий в одиночку. Другими словами, если при комбинации стратегий, когда никто другой не меняет свою стратегию, никто не меняет свою собственную стратегию, то комбинация стратегий является равновесием по Нэшу.

  • Теорема Нэша: Если количество игроков ограничено, набор стратегий каждого игрока ограничен, а функция выигрыша является функцией с действительным знаком, то игра должна бытьсуществуетРавновесие Нэша в смысле смешанной стратегии.

  • В дилемме заключенного два человека одновременно признают себя виновными, что является равновесием по Нэшу в этой проблеме.

  Суть равновесия Нэша — никаких сожалений..

Пример равновесия Нэша при смешанной стратегии

   означает, что участники выбирают стратегию с определенной вероятностью.Равновесие Нэша смешанной стратегии: В игровом процессе равновесие Нэша, достигаемое игроком, случайно выбирающим стратегию из альтернативных стратегий в виде вероятности, называется равновесием Нэша смешанной стратегии.

  • Пример: Проверяет ли работодатель компании работу и сотрудников на предмет безделья. предполагаемыйVэто вклад сотрудника,Wэто заработная плата работника,Hвклад работника,Cстоимость осмотра,FЭто наказание работодателя (конфискация залога) работнику за то, что он обнаружил, что работник ленив.

  • предполагаемыйH<W<V,W>C.

здесьучастник:

  • сотрудник, работодатель

  правило:

  • И работник, и работодатель принимают решения по отдельности, и невозможно заранее узнать выбор другого.

  набор смешанных стратегий:

  • Сотрудник: ленивый, не ленивый
  • Работодатели: проверяйте, не проверяйте

   Если вероятность проверки работодателем\alpha, вероятность лени работника равна\beta.

收益表
Зависит отРавновесие по Нэшу: При условии, что стратегии других участников остаются неизменными, участник в одиночку не увеличит доход, приняв другие стратегии. Это эквивалентно тому, проверяет работодатель или нет, доход работника одинаков; ленив работник или нет, доход работодателя одинаков.

   Так что естьT_{1}=T_{2}а такжеT_{3}=T_{4}.

   В равновесии Нэша, посколькуT_{3}=T_{4}, вероятность того, что работодатель примет стратегию проверки (работодатели склонны использовать эту вероятность для проверки):

\alpha = \frac{H}{W+F}

   В равновесии Нэша, посколькуT_{1}=T_{2}, мы можем знать вероятность того, что сотрудник примет ленивую стратегию (сотрудник склонен использовать эту вероятность, чтобы быть ленивым):

\beta = \frac{C}{W+F}

   При проверке вероятности\alphaНиже преимущества работодателя:

T_{1}=T_{2}=V-W-\frac{CV}{W+F}

   к приведенной выше формулеWискать руководства, когдаW=\sqrt{CV}-FПри , выгода работодателя наибольшая, и ее величина равна:T_{max}=V-2\sqrt{CV}+F.

  Из равновесия Нэша смешанной стратегии видно, что работодатели и работники склонны принимать стратегии с определенной вероятностью.