Теория игр (1) — введение в теорию игр

машинное обучение искусственный интеллект
Теория игр (1) — введение в теорию игр

Мало знаний, большой вызов! Эта статья участвует в "Необходимые знания для программистов«Творческая деятельность.

что сказать сегоднятеория игрыЭто третий этап бихевиоризма.В теории игр агентом бихевиоризма является сам человек, что отличается от обучения с подкреплением. Агент в теории игр лучше, чем агент в обучении с подкреплением раньше, и ближе к человеческому поведению. В бихевиоризме мы в основном изучаем взаимодействие между агентом и средой, и агент обновляет себя, чтобы учиться в соответствии с обратной связью среды.

что такое игра

Определение игры

В жизни все мы более-менее слышали об игре, так что можете ответить ваше понимание игры?Ну давайте сначала разберемся буквальноигра,один из нихБо, вы можете подумать об азартных играх, ииграЕстественно думать об игре. теория игрМикроэкономическое исследованиефилиал .

игра

Игра — это интерактивный акт между двумя или более игроками (и их цели не совпадают)

  • азартная игра
  • настольная игра
  • Соревновательные игры
  • виды спорта

На самом деле игра, которую мы сегодня обсуждаем, не зависит от удачи и технологий.Стратегия. Во многих случаях победа чаще основана на стратегии, чем на навыках, а иногда навыки у всех находятся на одном уровне, и стратегия является основной причиной доминирования в игре. Например, тактика «пик-н-ролл» в баскетболе относится к игре, или когда счет двух сторон примерно одинаков в конце игры, в последний момент игры отстающая команда побеждает в финале. победа, выиграв атакующую возможность с помощью нечестной тактики.СтратегияЭто интеллектуальный навык, необходимый для победы. Навыки схожи, и каждый думает о стратегиях, чтобы выиграть игру.

предпочтение

У каждого человека, участвующего в игре, будут отношения предпочтения, мыi\succ_iпредставить i в наборе потенциальных результатовO={a,b,c}O =\{ a,b,c \}Предпочтения. Например, предположим, что есть результирующий наборO={a,b,c}O = \{a,b,c\}иi=abc\succ_i = a \succ b \succ cозначает, что игрок i находится между a и b, предпочитает a между b и c, предпочитает b

характер предпочтения

  • Полнота: каждый участник i имеет одно и только одно предпочтение при сравнении результатов
  • Транзитивность: предположение о наборе результатовO={a,b,c}O = \{a,b,c\}Если естьaba \succ bа такжеbcb \succ cТакaca \succ c

игра стратегии

Мы противопоставляем стратегию обучения с подкреплением, где стратегия выводится изФункция сопоставления состояния с поведением, а в игре стратегия является детерминированной стратегией,Стратегиявнутренне связан с другимивлияют друг на друга. Другие думали так же о той же ситуации в то же самое время.

Теория игр анализирует, как этоинтерактивный процесс принятия решений, речь идет о случае взаимодействиярациональное поведениеНаука RL, в то время как обучение с подкреплением — это временной процесс принятия решений.

  • Здесь интерактивное принятие решений, отличное от обучения с подкреплениемрешение о сроках

рациональное поведение

  • понять свое собственноеЦельипредпочтениеВ то же время осознайте ограничения и ограничения своих собственных действий, тщательно спланируйте свое лучшее поведение и поймите эгоизм.Все, кто участвует в игре, являются рациональными и эгоистичными людьми.На самом деле, никто из нас не является рациональным и эгоистичным. По очень важной предпосылке, если противник не рационален и эгоистичен, если противник бескорыстен и прямо запускает игру, чтобы отказаться от награды, то игры нет. Только таким образом мы можем осуществить следующие исследования.

  • Теории выводятся из аксиом и не проверяются, а проверенные теории становятся наукой.

  • Новое значение теории игр для рационального поведения, взаимодействия с другими столь же рациональными лицами, принимающими решения (баскетбол)

Всегда ли в игре есть выигрыш, есть ли выигрышная стратегия?

Подсчитано, что вы уже догадались об ответе. Нет выигрышной стратегии. Использование подходящей стратегии может увеличить наши шансы на победу в игре. Например, игра в ножницы, камень и бумагу, это игра, здесь нет беспроигрышной стратегии.

Классификация игровых стратегий.

Статические и динамические игры

Если игру разделить на статические и динамические игры с точки зрения временных рядов, временной ряд обычно называют влиянием времени на все стороны, участвующие в игре.

  • Статическая игра: темы, в которых каждый может участвовать одновременно, например, конкурс на работу — это статическая игра.
  • Динамическая игра: шахматы и карточные игры обычно имеют последовательность действий, например, шахматы и карты являются динамичными играми.
Некооперативные и кооперативные игры

Теорию игр можно разделить на кооперативные игры и некооперативные игры с точки зрения того, являются ли две стороны игры кооперативными или некооперативными.

  • Соревновательная игра: биржевая спекуляция
  • Кооперативная игра: Альянс
Игры с полной информацией и игры с неполной информацией

По степени информационного воздействия ее можно разделить на игру с полной информацией и игру с неполной информацией.

  • Совершенные информационные игры: игра в шахматы
  • Игра с неполной информацией: Маджонг

элементы игры

Общая игровая задача состоит из трех элементов: набора игроков, также известного как партии, игроки, стратегии и т. д., набора стратегий и набора выборов и выигрышей, сделанных каждым игроком (выигрышей). Так называемый выигрыш относится к полезности, полученной игроками в каждой игре, если выбрано конкретное стратегическое отношение. Все игровые проблемы связаны с этими тремя элементами.

Игроки

Что за человек игрок в игре, просто понимается как человек участвующий в игре, но необходимо выполнение следующих условий:

  • В игре нет люфта
  • Невозможность воспользоваться ошибками других игроков для увеличения собственного выигрыша.
  • В целях максимизации личных интересов

Стратегии

Набор стратегий — это набор стратегий, которые могут реализовать игроки.

Грубый набор немного похож на набор обучения с подкреплением, то есть набор поведений игроков, схема поведения каждой стратегии. В скачках Тянь Цзи стратегия скачек Тянь Цзи установлена ​​​​{верхний средний вниз, верхний нижний средний, нижний средний верхний, нижний верхний средний, средний вверх и вниз, средний вниз и вверх}S={s1,s2,}\cal{S} = \{s_1,s_2,\cdots \}

Функция полезности (выигрыш)

В общем, функции полезности используются, когда обычно требуется количественный анализ при сравнении предпочтений результатов. Предположим, что есть функция полезностимюi\mu_i: ORO \rightarrow \mathbb{R}означает, что мы связываем каждый результат в результирующем наборе с выигрышем (полезностью), обычно действительным числом

Матрица возврата

Игроки в игре, матрица, составленная из доходов, соответствующих каждой стратегии, например, матрица доходов ножниц, камня, ткани

player1=[011101110]player2=[011101110]player1 = \begin{bmatrix} 0 & -1 & 1\\ 1 & 0 & -1 \\ -1 & 1 & 0 \end{bmatrix} player2 = \begin{bmatrix} 0 & 1 & -1\\ -1 & 0 & 1 \\ 1 & -1 & 0 \end{bmatrix}

ситуация

этоЧеловек в игреКомплекс стратегий представляет собойситуация, по ситуации можно судить кто выигрывает а кто проигрывает

  • Для каждого игрока, участвующего в игре,функция эффекта
  • Полезные функции обычно обозначаются буквой U.
  • Функция полезности обычно зависит от ситуации в статических играх.
  • В динамической игре функция полезности может зависеть от ситуации или других факторов, таких как время.
  • Цель каждого игрока состоит в том, чтобы максимизировать свою функцию полезности.