Выборка - это процесс рисования соответствующих точек выборки из определенного распределения вероятностей. Выборка имеет очень важное применение в машинном обучении: она может упростить сложные распределения до дискретных точек выборки; повторную выборку можно использовать для корректировки набора выборок для лучшего последующего обучения модели; ее можно использовать для стохастического моделирования для сложного приближенного решения или вывода модели. . Кроме того, выборка помогает людям быстро и интуитивно понять структуру и характеристики данных при визуализации данных.
1. Роль выборки
Суть выборки заключается в моделировании случайного явления и моделировании соответствующего случайного события по заданному распределению вероятностей. Выборка может дать людям более интуитивное понимание случайных событий и того, как они генерируются.
Выборку также можно рассматривать как непараметрическую модель, которая аппроксимирует общее распределение с помощью небольшого числа точек выборки и характеризует неопределенность общего распределения. Выборка на самом деле является формой уменьшения размерности информации, которая может упростить задачу.
Повторная выборка текущих данных может в полной мере использовать существующий набор данных и извлекать больше информации, например, методом самопомощи и методом ножевого разреза. Кроме того, с помощью технологии повторной выборки можно сознательно изменить распределение выборок при сохранении конкретной информации (целевая информация не теряется), чтобы адаптироваться к обучению и обучению последующих моделей.
Из-за сложной структуры и скрытых переменных многих моделей соответствующие формулы решения очень сложны, и нет явного аналитического решения, поэтому трудно решить или рассуждать точно. Стохастическое моделирование может быть выполнено с использованием методов выборки для аппроксимации решений или рассуждений о сложных моделях. Обычно он преобразуется в интегрирование или ожидание некоторых функций при определенном распределении или апостериорное распределение некоторых случайных величин или параметров при заданных данных.
Поэтому мы обычно извлекаем подмножество из общей выборки, чтобы аппроксимировать общее распределение.Это подмножество называется «обучающим набором», а цель обучения модели — минимизировать функцию потерь в обучающем наборе.После завершения обучения необходимо использовать другой набор данных для оценки модели, также известный как «тестовый набор».
Некоторые расширенные способы использования выборки, такие как повторная выборка несколько раз, чтобы оценить отклонение и метод статистики, или сохранить целевую информацию неизменной, изменяя распределение выборок для адаптации к обучению и обучению модели (классические приложения, такие как решение задачи дисбаланса выборки).
2. Общие алгоритмы выборки
- Выборка обратного преобразования
Иногда некоторые распределения нелегко выбрать напрямую, и можно использовать метод преобразования функций.Если существует отношение преобразования между случайными величинами x и u: u = ϕ (x), их функции плотности вероятности следующие:
р(и)|ϕ′(х)|=р(х)
Следовательно, если трудно выбрать x из целевого распределения p(x), можно построить преобразование u = ϕ(x), чтобы упростить выборку u из преобразованного распределения p(u), что может быть достигнуто с помощью выборка u Затем используйте обратную функцию, чтобы косвенно получить x. Если это случайная величина в многомерном пространстве, то ϕ′(x) соответствует определителю Якоби.
Кроме того, если отношение преобразования ϕ ( ) является кумулятивной функцией распределения x, это то, что мы называем выборкой с обратным преобразованием.Мы предполагаем, что функция плотности вероятности целевого распределения, для которой необходимо произвести выборку, равна p (x), и ее кумулятивная функция функция распределения:
Процесс метода выборки с обратным преобразованием:
-
Сгенерировать случайное число Ui из равномерного распределения U(0,1)
-
Вычислить обратную функцию
чтобы получить x косвенно
Однако не все обратные функции кумулятивной функции распределения целевого распределения могут быть решены (или легко вычислены).В настоящее время метод выборки с обратным преобразованием не подходит.Можно рассмотреть выборку отклонения (Rejection Sampling) и важность выборка (выборка по важности).
- отклонить выборку
Отклоняющая выборка, также известная как приемная выборка, для целевого распределения p(x) выбирает эталонное распределение q(x), которое легко выбрать, так что для любого x мы имеем:
Процесс выборки выглядит следующим образом:
1) Случайным образом взять образец xi из эталонного распределения q(x)
2) Создайте случайный пользовательский интерфейс из равномерного распределения U (0,1)
3) Если, выборка xi принимается, в противном случае она отклоняется, и шаги 1-3 повторяются до тех пор, пока размер вновь сгенерированной выборки не будет соответствовать требованиям.
Фактически, ключом к отказу от выборки является выбор подходящей огибающей функции новой карты знаний для нашего целевого распределения p(x),, функция нормального распределения, показанная на следующем рисунке:
- Выборка по важности
Кроме того, во многих случаях конечной целью выборки является не создание выборок, а выполнение некоторых последующих задач, таких как прогнозирование значений переменных, обычно в форме ожидания. Выборка по важности используется для вычисления интеграла функции f(x) по целевому распределению p(x) (то есть ожидание функции), то есть
3. Марковская выборка Монте-Карло
В многомерном пространстве трудно найти подходящее эталонное распределение для выборки отклонения и выборки важности, а эффективность выборки очень низка.В настоящее время можно рассмотреть выборку Монте-Карло с цепями Маркова (MCMC).Закон.
Метод выборки MCMC в основном включает два MC, а именно Монте-Карло и цепь Маркова. Монте-Карло относится к методу численного приближенного решения, основанному на выборке, а для выборки используется цепь Маркова.Основная идея MCMC состоит в том, чтобы построить цепь Маркова для целевого распределения, подлежащего выборке, чтобы стабильное распределение Маркова Цепь представляет собой целевое распределение, а затем, начиная с любого начального состояния, происходит переход состояний по цепи Маркова, и конечная последовательность переходов состояний будет сходиться к целевому распределению, тем самым получая ряд отсчетов целевого распределения.
MCMC имеет разные цепи Маркова, и разные цепи соответствуют разным методам выборки.Двумя распространенными являются выборка Метрополиса-Гастингса и выборка Гиббса.
- Метод выборки Метрополиса-Гастингса
- Выборка Гиббса
4. Отбор несбалансированных образцов
Мы всегда сталкиваемся с множеством несбалансированных наборов данных в реальном моделировании, таких как модели рейтинга кликов, маркетинговые модели, модели борьбы с мошенничеством и т. д., часто доля плохих выборок (или хороших выборок) составляет всего несколько тысячных. Хотя некоторые алгоритмы машинного обучения могут решить проблему дисбаланса, например XGBoost, но во многих случаях нам все равно необходимо выбирать данные в соответствии с реальной ситуацией в бизнесе, в основном двумя способами:
Избыточная выборка: повторите случайную выборку из выборки с небольшой долей, чтобы целевая категория окончательной выборки не была слишком несбалансированной;
Недостаточная выборка: случайным образом выбрать несколько выборок из выборки с большой долей, чтобы целевая категория итоговой выборки не была слишком несбалансированной;
Справочное видео:Ву Ву Масштаб Proportion.com/video/BV1 Flying Tiger…