Мало знаний, большой вызов! Эта статья участвует в "Необходимые знания для программистов«Творческая деятельность.
что сказать сегоднятеория игрыЭто третий этап бихевиоризма.В теории игр агентом бихевиоризма является сам человек, что отличается от обучения с подкреплением. Агент в теории игр лучше, чем агент в обучении с подкреплением раньше, и ближе к человеческому поведению. В бихевиоризме мы в основном изучаем взаимодействие между агентом и средой, и агент обновляет себя, чтобы учиться в соответствии с обратной связью среды.
что такое игра
Определение игры
В жизни все мы более-менее слышали об игре, так что можете ответить ваше понимание игры?Ну давайте сначала разберемся буквальноигра,один из нихБо, вы можете подумать об азартных играх, ииграЕстественно думать об игре. теория игрМикроэкономическое исследованиефилиал .
игра
Игра — это интерактивный акт между двумя или более игроками (и их цели не совпадают)
- азартная игра
- настольная игра
- Соревновательные игры
- виды спорта
На самом деле игра, которую мы сегодня обсуждаем, не зависит от удачи и технологий.Стратегия. Во многих случаях победа чаще основана на стратегии, чем на навыках, а иногда навыки у всех находятся на одном уровне, и стратегия является основной причиной доминирования в игре. Например, тактика «пик-н-ролл» в баскетболе относится к игре, или когда счет двух сторон примерно одинаков в конце игры, в последний момент игры отстающая команда побеждает в финале. победа, выиграв атакующую возможность с помощью нечестной тактики.СтратегияЭто интеллектуальный навык, необходимый для победы. Навыки схожи, и каждый думает о стратегиях, чтобы выиграть игру.
предпочтение
У каждого человека, участвующего в игре, будут отношения предпочтения, мыпредставить i в наборе потенциальных результатовПредпочтения. Например, предположим, что есть результирующий набориозначает, что игрок i находится между a и b, предпочитает a между b и c, предпочитает b
характер предпочтения
- Полнота: каждый участник i имеет одно и только одно предпочтение при сравнении результатов
- Транзитивность: предположение о наборе результатовЕсли естьа такжеТак
игра стратегии
Мы противопоставляем стратегию обучения с подкреплением, где стратегия выводится изФункция сопоставления состояния с поведением, а в игре стратегия является детерминированной стратегией,Стратегиявнутренне связан с другимивлияют друг на друга. Другие думали так же о той же ситуации в то же самое время.
Теория игр анализирует, как этоинтерактивный процесс принятия решений, речь идет о случае взаимодействиярациональное поведениеНаука RL, в то время как обучение с подкреплением — это временной процесс принятия решений.
- Здесь интерактивное принятие решений, отличное от обучения с подкреплениемрешение о сроках
рациональное поведение
-
понять свое собственноеЦельипредпочтениеВ то же время осознайте ограничения и ограничения своих собственных действий, тщательно спланируйте свое лучшее поведение и поймите эгоизм.Все, кто участвует в игре, являются рациональными и эгоистичными людьми.На самом деле, никто из нас не является рациональным и эгоистичным. По очень важной предпосылке, если противник не рационален и эгоистичен, если противник бескорыстен и прямо запускает игру, чтобы отказаться от награды, то игры нет. Только таким образом мы можем осуществить следующие исследования.
-
Теории выводятся из аксиом и не проверяются, а проверенные теории становятся наукой.
-
Новое значение теории игр для рационального поведения, взаимодействия с другими столь же рациональными лицами, принимающими решения (баскетбол)
Всегда ли в игре есть выигрыш, есть ли выигрышная стратегия?
Подсчитано, что вы уже догадались об ответе. Нет выигрышной стратегии. Использование подходящей стратегии может увеличить наши шансы на победу в игре. Например, игра в ножницы, камень и бумагу, это игра, здесь нет беспроигрышной стратегии.
Классификация игровых стратегий.
Статические и динамические игры
Если игру разделить на статические и динамические игры с точки зрения временных рядов, временной ряд обычно называют влиянием времени на все стороны, участвующие в игре.
- Статическая игра: темы, в которых каждый может участвовать одновременно, например, конкурс на работу — это статическая игра.
- Динамическая игра: шахматы и карточные игры обычно имеют последовательность действий, например, шахматы и карты являются динамичными играми.
Некооперативные и кооперативные игры
Теорию игр можно разделить на кооперативные игры и некооперативные игры с точки зрения того, являются ли две стороны игры кооперативными или некооперативными.
- Соревновательная игра: биржевая спекуляция
- Кооперативная игра: Альянс
Игры с полной информацией и игры с неполной информацией
По степени информационного воздействия ее можно разделить на игру с полной информацией и игру с неполной информацией.
- Совершенные информационные игры: игра в шахматы
- Игра с неполной информацией: Маджонг
элементы игры
Общая игровая задача состоит из трех элементов: набора игроков, также известного как партии, игроки, стратегии и т. д., набора стратегий и набора выборов и выигрышей, сделанных каждым игроком (выигрышей). Так называемый выигрыш относится к полезности, полученной игроками в каждой игре, если выбрано конкретное стратегическое отношение. Все игровые проблемы связаны с этими тремя элементами.
Игроки
Что за человек игрок в игре, просто понимается как человек участвующий в игре, но необходимо выполнение следующих условий:
- В игре нет люфта
- Невозможность воспользоваться ошибками других игроков для увеличения собственного выигрыша.
- В целях максимизации личных интересов
Стратегии
Набор стратегий — это набор стратегий, которые могут реализовать игроки.
Грубый набор немного похож на набор обучения с подкреплением, то есть набор поведений игроков, схема поведения каждой стратегии. В скачках Тянь Цзи стратегия скачек Тянь Цзи установлена {верхний средний вниз, верхний нижний средний, нижний средний верхний, нижний верхний средний, средний вверх и вниз, средний вниз и вверх}
Функция полезности (выигрыш)
В общем, функции полезности используются, когда обычно требуется количественный анализ при сравнении предпочтений результатов. Предположим, что есть функция полезности: означает, что мы связываем каждый результат в результирующем наборе с выигрышем (полезностью), обычно действительным числом
Матрица возврата
Игроки в игре, матрица, составленная из доходов, соответствующих каждой стратегии, например, матрица доходов ножниц, камня, ткани
ситуация
этоЧеловек в игреКомплекс стратегий представляет собойситуация, по ситуации можно судить кто выигрывает а кто проигрывает
- Для каждого игрока, участвующего в игре,функция эффекта
- Полезные функции обычно обозначаются буквой U.
- Функция полезности обычно зависит от ситуации в статических играх.
- В динамической игре функция полезности может зависеть от ситуации или других факторов, таких как время.
- Цель каждого игрока состоит в том, чтобы максимизировать свою функцию полезности.