В этом разделе в основном сделаны некоторые заметки о соответствующем содержании книги Саттона «Обучение с подкреплением» и кратко представлено решение проблемы бандитов.
описание проблемы
Задача о многоруких бандитах называется «Многорукие бандиты». Это классическая задача обучения с подкреплением.
Многорукий игровой автомат произошел от азартных игр, и описание проблемы выглядит следующим образом:
Игрок хочет пойти в казино, чтобы поиграть в игровые автоматы.Он обнаруживает, что в казино есть ряд игровых автоматов.Они выглядят совершенно одинаково, но вероятность выигрыша на каждом игровом автомате различна.Он не знает, что такое Распределение вероятности выигрыша каждого игрового автомата таково.Так что для этого игрока, который хочет разбогатеть, какой игровой автомат он должен выбирать каждый раз, чтобы максимизировать вознаграждение?
Мы рассматриваем выбор игрового автомата как действие, каждому действию соответствует значение, выраженное ожиданием вознаграждения, производимого действием. Тогда задачу можно записать в математической форме:
в,представляет действие, выполненное в момент времени t,Указывает на награду. Как оценить это ожидание? Самый простой способ сделать это — рассчитать среднее значение фактических вознаграждений:
Этот метод оценки также называется методом выборочного среднего. Потому что каждая оценка представляет собой среднее значение соответствующих вознаграждений. Далее рассматриваем только действия, для упрощения записи положимУказывает, что действие было выполненоНаграды, полученные позже,Указывает, что действие выбрано для выполненияПосле первогооценка стоимости второго исполнения, то есть
размер шага здесьэто. Размер шага фиксированный и равномерный, то есть метод выборочного среднего, который может устранить отклонение выборки. Кроме того, размер шага может быть и другими параметрами в интервале [0,1].
Выбор действия
В выборе действия есть две важные концепции: одна — исследование, а другая — эксплуатация. Когда мы выбираем действия, мы часто оцениваем каждое действие, чтобы легко измерить качество действия. Действия с высокой ценностью называются жадными действиями. Эксплуатация — это выбор всего, что вы в настоящее время знаете о ценности действия, то есть выбор жадного действия, а эвристика — выбор нежадного действия.
В процессе исследования краткосрочное вознаграждение может быть ниже, но в долгосрочной перспективе, когда будет обнаружено все более и более эффективное действие, выгоды будут больше, чем выгоды от разработки действий в соответствии с текущей стратегией. Но у искушения есть и тот недостаток, что оно занимает много времени. Невозможно разрабатывать и исследовать одновременно в одном выборе действия, поэтому баланс между исследованием и развитием также является важным вопросом при выборе действия.
При выборе упомянутых выше действий используется жадный алгоритм, который собственно и называетсяалгоритм.
В частности, чтобы максимизировать текущее вознаграждение, в большинстве случаев жадный выбор действия только с очень небольшой вероятностьюТолько прыгать из жадности и выбирать случайным образом среди других действий.
UCB-алгоритм
Существует также алгоритм выбора действия, называемый алгоритмом UCB (верхняя граница достоверности), который представляет собой метод, основанный на верхней границе достоверности. Из-за того, что жадные действия всегда сосредоточены на самой большой награде перед ними, а недостаточное исследование долгосрочных действий, они могут упустить оптимальное действие, иИсследование является случайным, на самом деле некоторые действия были выбраны много раз, и неопределенность относительно мала, и эти неопределенные действия необходимо исследовать много раз. UCB учитывает это, а также учитывает неопределенность значения вознаграждения и действия в следующей форме:
где c представляет собой константу больше 0, которая управляет степенью эвристики,Представляет количество раз, когда действие a выбирается до времени t. как, то a — действие, удовлетворяющее максимизации. Основная идея UCB заключается во введении доверительных интервалов. Параметр c определяет уровень достоверности, который, говоря простым языком, определяет степень неопределенности. Квадратный корень в правой части уравнения является мерой неопределенности для оценки действия a. По мере того, как увеличивается количество раз, когда a выбирается, т. е.Увеличится, правильный член уменьшится, доверительный интервал сузится, а неопределенность уменьшится, т. е. а уже не так просто выбрать, и действие с большим средним, т. е. имеет тенденцию быть избранным. Кроме того, если а выбирается не каждый раз, а с увеличением времени t, числитель правого члена также увеличивается, доверительный интервал становится шире, а неопределенность а увеличивается при более позднем выборе, то есть a также может быть выбран снова.
Алгоритм игрового автомата Gradient
Приведенные выше алгоритмы рассматривают значение каждого действия для выбора действия.Алгоритм градиентного игрового автомата имеет другую идею.Вместо непосредственного рассмотрения значения действия для каждого действия вводится числовая функция предпочтения a., рассмотрим относительное предпочтение одного действия над другим.Чем крупнее действие, тем больше вероятность того, что оно будет выбрано. Однако стоит отметить, чтоЭто не имеет ничего общего с ценностью вознаграждения, это только сравнение одного действия с другим.момент действияВероятность быть выбранным может быть представлена распределением softmax:
Стохастическое градиентное восхождение обновляет функцию предпочтения:
Представляет среднее значение вознаграждения в момент времени t, если выбрано действиеЕсли вознаграждение за пост больше текущего среднего, вероятность того, что действие будет выбрано в следующий момент, будет увеличиваться, а вероятность других действий, которые не были выбраны, будет обновляться в противоположном направлении, в противном случае вероятность будет уменьшаться. Эта часть может относиться к подробному выводу в книге.
Существует также байесовский метод (также называемый выборкой Томпсона, апостериорной выборкой), который предполагает начальное распределение известных значений действия, а затем обновляет распределение после выбора каждого действия.
резюме
Как сбалансировать разведку и разработку — важный вопрос.Жадный алгоритм заключается в случайном выборе действий без учета теста; алгоритм UCB учитывает неопределенность действия и реализует тест, предпочтительно выбирая те действия с меньшим количеством выборок в каждый момент времени. Алгоритм градиентного игрового автомата имеет другую идею, не оценивает ценность действия, вводит функцию предпочтения и использует распределение softmax для вероятностного выбора действий.
Ссылаться на
- Саттон Барто Обучение с подкреплением (второе издание)