Что такое обучение с подкреплением?

Аннотация: в этой статье делается попытка объяснить обучение с подкреплением в простой для понимания форме, и она не будет содержать формулы.

Эта статья опубликована в сообществе HUAWEI CLOUD.«Введение в обучение с подкреплением», Автор: yanghuaili.

Машинное обучение можно условно разделить на три области исследований: обучение с учителем, обучение без учителя и обучение с подкреплением (RL). Обучение с учителем — один из самых известных методов машинного обучения.Такие задачи, как классификация изображений, распознавание лиц и прогнозирование регрессии, с которыми мы часто сталкиваемся, относятся к обучению с учителем. В двух словах, обучение с учителем обрабатывает задачу построения модели, которая предсказывает метку нового входа с учетом пары вход-метка. Неконтролируемое обучение, как следует из названия, не требует меток на этапе обучения модели (часто потому, что входные метки не могут быть получены из-за высоких затрат на маркировку или нечетких стандартов разделения меток), и наиболее типичным сценарием является кластеризация. Обучение с подкреплением сильно отличается от двух вышеупомянутых методов обучения.Оно изучает стратегию через взаимодействие между агентом и средой, так что использование стратегии для взаимодействия со средой может максимизировать ожидаемые выгоды. Я считаю, что после прочтения приведенного выше предложения все еще не установили четкую концепцию обучения с подкреплением. В этом блоге мы попытаемся объяснить обучение с подкреплением в простой для понимания форме на следующих страницах. Эта статья не будет включать формулу.

Предположим, вы отправились в эпоху Троецарствия, где бушует война, и стали генералом Чжугэ Ухоу из Королевства Шу.Если городов много, лучше всего захватить столицу государства Вэй. В этот момент вы думаете, вы никогда по-настоящему не воевали, как вы можете победить? Использовать контролируемое обучение? Тогда у вас должно быть достаточно и богатых фактических боевых дел для себя, чтобы изучить и прочитать военные книги, но боевая обстановка быстро меняется, как военные книги могут охватить их все? Если вы встретите вражеского генерала, который играет в карты не по правилам, военная книжка не будет бесполезна? Как насчет использования неконтролируемого обучения? Подумав об этом, ты криво усмехнулась, с тем же успехом ты могла бы почитать военную книжку. Вот вы и хмуритесь, чешете уши и чешете щеки, и никак не можете осуществить бесконечное служение стране. В это время, вы думаете, можно перейти только к обучению с подкреплением! Итак, вы разворачиваете страницу и начинаете систематизировать свои мысли...

Окружение (Environment): то есть сцена, с которой вы сталкиваетесь на поле боя, например, окружающая местность, расположение противника, размер армии противника, командир противника, наша позиция и другая информация. То есть информация, на которой вы основываете свое решение; с другой стороны, ваше решение также изменит окружающую среду, например, если вы примете решение продвинуться на 1 км, противник предпримет действия по изменению позиции на основе вашего решения. и т. д., ваше решение сожжет Лес перед вами, который мешает обзору, информация о местности также изменится и т. д.;
Агент (Агент): это вы сами;
Действие: то есть действие по принятию решения, которое вы предпринимаете в соответствии с окружающей обстановкой, например, движение вперед, как описано выше, сжигание деревьев, мешающих обзору, и т. д.;
Пространство действия: Пространство, состоящее из всех действий, которые вы можете предпринять, которые могут быть непрерывными, дискретными или и теми, и другими. К непрерывным действиям относятся, как далеко продвигаться вперед, в каком направлении и т. д., к дискретным действиям относятся нападение, разбивка лагеря, оборона или отступление, разделение армии на несколько групп, лобовая атака, разведка с обеих сторон или засада и т. д. В общем, пространство действий — это все возможные решения, которые вы можете предпринять в зависимости от окружения;
Политика: вероятность того, какое действие вы предпримете в данной среде. Это может быть немного сложнее понять. Например, стратегия Сыма И в войне сильно отличается от стратегии Чжан Фэя. Стратегия пустого города премьер-министра была успешной, потому что стратегия Сыма И была более стабильной, но если бы Чжан Фэй столкнулся со стратегией пустого города, он мог бы напрямую атаковать город. Собираясь захватить премьер-министра живым, в этом заключается разница в стратегии; другой пример: Чжан Сан изучил военное искусство Сунь-Цзы, Ли Си изучил предсмертную записку Ву Му, тогда они предпримут разные действия, столкнувшись с одной и той же средой на поле боя. поле боя, обычно обозначаемое π;
Состояние: Конкретная ситуация в окружающей среде, с которой сталкиваются в определенный момент или на определенном этапе. Если взять в качестве примера пустой план города, ситуация, с которой столкнулся премьер-министр, заключалась в том, что вражеский генерал Сыма И повел на него 150-тысячную армию, а он находился в городе, где было всего 2500 солдат. Именно в этом состоянии премьер-министр составляет пустой план города, и один из них представлен буквой S;
Вероятность перехода состояния: вероятность того, что текущее состояние перейдет в другие состояния после выполнения действия для определенного состояния. В ответ на наступательное состояние Сыма И премьер-министр взял пустой план города.В этом случае то, как реагирует окружение (то есть в какое состояние оно переходит) в основном зависит от вражеского генерала Сыма И (он часть окружения в этой обстановке), а затем действия, которые может предпринять Сыма И, включают нападение, отправку людей для расследования, осаду, но не нападение, отступление и т. д. В конце концов, Сыма И предпринял действие отступления, и состояние стало Сыма И отступлением; это осторожный характер Сыма И, который определяет, что у него более высокая вероятность отступления. , не означает, что он не будет предпринимать других действий, если он возьмет осаду вместо нападения, то перед премьер-министром стоит другое государство;
Награда: Количественный показатель дохода, который будет получен при совершении определенного действия в определенном штате.В стратегии с пустым городом, поскольку противник численно превосходит, чем больше людей спасаем, тем больше доход.Премьер-министр может взять действия, включая закрытие.Городские ворота противостоят врагу,выходят из города навстречу врагу,стратегия пустого города и т.д.Если выйти из города навстречу врагу,можно уничтожить всю армию,а прибыль равна нулю.Если городские ворота закрыть, чтобы отбросить врага, то они в итоге будут сломаны, но это может продолжаться какое-то время, а доход немного выше, в то время как в стратегии пустого города можно спасти всю армию и вероятность очень высока, поэтому премьер-министр предпринял действие пустого города;
Проблемы последовательного принятия решений (Sequential Decision Problems): Этот тип проблем связан с окончательным выигрышем от нескольких раундов принятия решений, при этом преуменьшая размер одного выигрыша. Стратегия пустого города — это особый случай, и один раунд принятия решений завершен, но на реальном поле битвы решения должны приниматься в реальном времени в соответствии с динамикой противника, чтобы достичь конечной цели — победить врага. враг. Примером максимизации долгосрочных выгод за счет преуменьшения разовых результатов является использование части армии в качестве приманки, жертвуя этим подразделением ради конечной выгоды уничтожения врага. И шестнадцатизначная формула Китайской Рабоче-Крестьянской Красной Армии «противник отступает, наступаем, враг стоит, тревожим, враг устал, сражаемся, враг отступает, преследуем», которая также направляет последовательность принятия решений на войне;

Обобщив эти концепции обучения с подкреплением, вы чувствуете, что знание войны должно быть решено путем обучения с подкреплением, и вы очень взволнованы, но это только некоторые концепции, связанные с обучением с подкреплением. Это приводит к следующим двум важным понятиям: значение Q и значение V.

Значение V — это ожидание агентом суммы вознаграждений в определенном состоянии вплоть до конечного состояния. Например, в войне мы всегда будем конкурировать за какие-то стратегические точки, которые можно атаковать, отступить и защитить.Если мы займем эти стратегические точки, наша сторона будет в состоянии, выгодном для всей военной обстановки.Большое, что То есть, когда наша сторона находится в стратегическом месте, значение V относительно велико, в то время как значение V в других состояниях относительно мало. Почему и противник, и противник знают, что в этом состоянии конечная сумма вознаграждения ожидается больше? В игре мы можем все время повторять эту сцену, пытаться пройти бесчисленное количество повторных испытаний из этого состояния и каждый раз совершать разные действия с разной вероятностью.До конца войны мы можем вычислить значение V этого состояния. Но в реальной ситуации такой эксперимент не допускается.И противник, и противник знают, что поскольку таких случаев в истории было слишком много, то и проводить дальнейшие эксперименты не нужно, конечно, величина V связана с агента.Начиная с одного и того же состояния, разные агенты принимают разные стратегии, и значение V тоже будет разным (вы в этом очень уверены, по сравнению с премьер-министром, начиная с одного и того же состояния конечные полученные результаты обязательно будут Очень разные)
Q-значение — это ожидание агентом суммы вознаграждений от выполнения определенного действия в определенном состоянии до конечного состояния. Например, в стратегии пустого города премьер-министр принимает стратегию пустого города перед лицом текущего состояния, а его значение Q представляет собой математическое ожидание суммы доходов от премьер-министра, использующего стратегию пустого города до конца. войны.

Значение Q и значение V могут быть рассчитаны взаимно.Например, если значение V каждого состояния известно, чтобы вычислить значение Q выполнения действия в состоянии S, нам также необходимо знать вероятность перехода состояния , Если премьер-министр принимает пустой план города, следующий шаг Состояния и вероятности: (1) Сыма И атакует, вероятность 0,1, (2) Сыма И окружен, но не атакует, вероятность 0,2 ( 3) Сыма И отступает, вероятность 0,7. Тогда значение Q премьер-министра, взявшего пустой план города, представляет собой взвешенную по вероятности сумму дохода от взятия пустого плана города плюс значение V трех штатов. Если значение Q каждого состояния и действия известно, то для расчета значения V нам также необходимо знать вероятность того, что стратегия предпримет различные действия в этом состоянии.Например, чтобы вычислить значение V предыдущего состояния, простое число Министр может предпринять три действия: (1) выйти из города навстречу врагу, вероятность 0,1, (2) защитить город и отбросить врага, вероятность 0,4, (3) пустой план города, вероятность 0,5. знать значение Q, то значение V представляет собой вероятность значения Q этих трех взвешенных сумм действий.

В этом блоге кратко описаны некоторые связанные концепции обучения с подкреплением. Если есть какие-либо ошибки, критикуйте и исправьте их в области комментариев.

Лагерь искусственного интеллекта HUAWEI CLOUD 2021—— Боевой лагерь ИИ, который изучают сотрудники HUAWEI CLOUD, приходите и записывайтесь на бесплатное обучение~

Нажмите «Подписаться», чтобы впервые узнать о новых технологиях HUAWEI CLOUD~