)
Эта статья опубликована в сообществе HUAWEI CLOUD.«Как решить проблему несбалансированных данных в задачах регрессии? 》, оригинальный автор: PG13.
Большинство существующих методов работы с несбалансированными данными/распределениями с длинными хвостами нацелены на задачи классификации, а проблема несбалансированности данных в задачах регрессии изучается редко. Однако многие реалистичные сценарии промышленного прогнозирования требуют решения проблемы регрессии, то есть включают непрерывные или даже бесконечные целевые значения Как решить проблему дисбаланса данных в задаче регрессии? ICML2021 — это документ, принятый в качестве длинного устного доклада: погружение в глубокую несбалансированную регрессию, который продвигает парадигму традиционной несбалансированной проблемы классификации, расширяет проблему дисбаланса данных из области дискретных значений в область непрерывных значений и предлагает два метода глубины решения для несбалансированной регрессии. Проблемы.
Основные вклады заключаются в трех аспектах: 1) предлагается задача глубокой несбалансированной регрессии (DIR), которая определяется как обучение на несбалансированных данных с непрерывными целями и может быть обобщена на весь целевой диапазон; 2) два новых метода решения DIR, сглаживание распределения меток (LDS) и сглаживание распределения признаков (FDS) предлагаются для решения проблемы обучения несбалансированных данных с непрерывными целями; 3) Пять Новый набор данных DIR, включая задачи несбалансированной регрессии в CV, NLP и здравоохранении, посвящен чтобы помочь будущим исследованиям несбалансированных данных.
Предыстория проблемы дисбаланса данных
Реальные данные обычно не имеют идеального равномерного распределения для каждой категории, но демонстрируют асимметричное распределение с длинными хвостами, в котором некоторые целевые значения имеют значительно меньше наблюдений, что является большой проблемой для моделей глубокого обучения. Традиционные решения можно разделить на два типа: на основе данных и на основе моделей: решения на основе данных представляют собой не что иное, как передискретизация группы меньшинства и понижение дискретизации группы большинства, такие как алгоритм SMOTE; решения на основе моделей включают повторное взвешивание функции потерь , Переоценка или использование связанных методов обучения, таких как трансферное обучение, метаобучение, двухэтапное обучение и т. д.
Однако существующие решения по дисбалансу данных в основном нацелены на целевое значение с категориальным индексом, то есть на данные дискретной метки категории. Его целевые значения относятся к разным классам и имеют строгие жесткие границы без пересечения между разными классами. Многие сценарии прогнозирования в реальном мире могут включать помеченные данные с непрерывными целевыми значениями. Например, при прогнозировании возраста на основе визуальных изображений лиц возраст является непрерывным целевым значением и может сильно дисбалансироваться в пределах целевого диапазона. Аналогичные проблемы возникают и в промышленности, например, в области производства цемента качество цементного клинкера, как правило, является постоянным целевым значением, в области смешивания угля показатель термической прочности кокса также является постоянным целевым значением. . Целевые переменные, которые необходимо прогнозировать в этих приложениях, часто имеют много редких и экстремальных значений. Проблема дисбаланса в непрерывной области существует как в линейных моделях, так и в глубоких моделях, и еще более серьезна в глубоких моделях, потому что прогнозы моделей глубокого обучения часто бывают чрезмерно уверенными, что приводит к этому дисбалансу.Проблема значительно усугубляется. .
Таким образом, в этом документе определяется проблема глубокой несбалансированной регрессии (DIR), то есть обучение на несбалансированных данных с непрерывными целевыми значениями, при необходимости обработки скрытых реальных данных некоторых целевых регионов и обеспечения возможности обобщения окончательной модели на все. диапазоны целевых значений поддерживаются.
Проблемы несбалансированной регрессии
Три проблемы в решении проблемы DIR заключаются в следующем:
1. Для непрерывных целевых значений (меток) жестких границ между разными целевыми значениями больше не существует, и метод несбалансированной классификации нельзя использовать напрямую.
2. Последовательные метки по существу указывают на то, что расстояния между различными целевыми значениями имеют смысл. Эти целевые значения напрямую говорят, какие данные ближе друг к другу, и помогают нам понять степень дисбаланса данных на этом непрерывном интервале.
3. Для DIR некоторые целевые значения могут вообще не иметь данных, что обеспечивает требование экстраполяции и интерполяции целевых значений.
Решение 1. Сглаживание распределения меток (LDS)
Давайте сначала продемонстрируем разницу между проблемами классификации и регрессии, когда данные несбалансированы, на примере. Авторы сравнили два разных набора данных: (1) CIFAR-100, набор данных классификации изображений из 100 классов; (2) IMDB-WIKI, набор данных изображений для оценки возраста (регрессии) по портретам. Несбалансированность данных моделируется путем обработки выборки, чтобы гарантировать, что два набора данных имеют точно такое же распределение плотности меток, как показано на следующем рисунке:
Затем обучите модель ResNet-50 на каждом из двух наборов данных и постройте график распределения их тестовых ошибок. Как видно из рисунка, в несбалансированном наборе классификационных данных CIFAR-100 распределение ошибки теста сильно отрицательно коррелирует с распределением плотности меток, что хорошо понятно, поскольку классы с большим количеством выборок легче изучать. Однако распределение тестовых ошибок IMDB-WIKI для непрерывного пространства меток более плавное и больше не коррелирует с распределением плотности меток. Это показывает, что для непрерывных меток эмпирическая плотность меток не совсем точно отражает дисбаланс, наблюдаемый моделью. Это связано с тем, что выборки данных соседних меток связаны и зависят друг от друга.
Плавное распределение этикеток: Основываясь на этих выводах, авторы предлагают метод оценки плотности ядра (LDS) в области статистического обучения. Учитывая непрерывное эмпирическое распределение плотности меток, LDS использует симметричную функцию ядра k, которая свернута с эмпирическим распределением плотности. чтобы получить сглаженное ядром эффективное распределение плотности меток, которое используется для интуитивного отражения проблемы перекрытия информации выборок данных с соседними метками.Корреляция между эффективным распределением плотности меток, рассчитанным с помощью LDS, и распределением ошибок значительно усиливается. С эффективной плотностью меток, оцененной LDS, метод решения проблемы дисбаланса классов может быть непосредственно применен для решения проблемы DIR. Например, самый простой способ понять смысл — использовать метод повторного взвешивания, который взвешивает функцию потерь, умножая ее на обратную оценку плотности меток LDS для каждого целевого значения.
Решение 2. Сглаживание распределения признаков (FDS)
Если прогноз модели нормальный и данные сбалансированы, то статистики соответствующих признаков выборок с похожими метками также должны быть близки друг к другу. Здесь автор также приводит пример для проверки этой интуиции. Также автор использует модель ResNet-50, обученную на IMDB-WIKI. Основное внимание уделяется пространству признаков, изученному моделью, а не пространству меток. Минимальная разница в возрасте, которая нас интересует, составляет 1 год, поэтому мы делим пространство меток на равные интервалы, группируя объекты с одинаковым целевым интервалом в одну группу. Затем для данных в каждом интервале рассчитываются соответствующие статистические данные признаков (среднее значение, дисперсия). Сходство между статистикой признаков визуализируется следующим образом:
Красный интервал представляет собой интервал привязки, и вычисляется косинусное сходство между этой меткой привязки и статистикой признаков (т. е. средним значением, дисперсией) всех других меток. Кроме того, области разного цвета (фиолетовый, желтый, розовый) представляют разную плотность данных. Из рисунка можно сделать два вывода:
1. Статистика признаков метки привязки и прилегающего к ней интервала очень похожа. И метка привязки = 30 оказывается в области с большим количеством обучающих данных. Это показывает, что при достаточном количестве данных статистика признаков в соседних точках одинакова.
2. Кроме того, в областях с небольшим объемом данных, таких как возрастной диапазон 0-6 лет, характеристическая статистика очень похожа на возрастную группу 30 лет. Это необоснованное сходство происходит из-за несбалансированности данных. Поскольку данных для 0-6 лет мало, признаки этого диапазона наследуют свои априорные значения из диапазона с наибольшим объемом данных.
Сглаживание распределения признаков: Вдохновленные этим, авторы предлагают сглаживание распределения признаков (FDS). FDS представляет собой сглаживание распределения пространства признаков, которое по существу переносит статистическую информацию признаков между соседними интервалами. Основная роль этой процедуры заключается в декалибровке потенциально смещенных оценок распределений признаков, особенно для тех целевых значений с небольшим количеством выборок.
В частности, существует модель, в которой f представляет кодировщик, который сопоставляет входные данные с функциями скрытого слоя, а g является предиктором для вывода непрерывных прогнозируемых целевых значений. FDS сначала оценивает статистику для каждого интервального признака. Здесь вместо дисперсии используется ковариация признака, чтобы отразить взаимосвязь между внутренними элементами признака z. Учитывая статистику признаков, снова используйте симметричную функцию ядра k, чтобы сгладить распределение среднего значения признаков и ковариации, что дает сглаженную версию статистики. Используя статистику оценки и сглаживания, следуйте стандартным процедурам отбеливания и перекрашивания, чтобы откалибровать представление признаков для каждого входного образца. Затем весь процесс FDS может интегрировать FDS в глубокие сети, вставляя калибровочный слой объектов после окончательной карты объектов. Наконец, обновления импульса используются в каждую эпоху для получения более стабильной и точной оценки статистики признаков во время обучения.
Сравнительный набор данных DIR
1. IMDB-WIKI-DIR (зрение, возраст): на основе набора данных IMDB-WIKI сделайте вывод о соответствующем возрасте по изображениям, содержащим человеческие лица.
2. AgeDB-DIR (зрение, возраст): на основе набора данных AgeDB оценка возраста также выполняется на основе входного изображения.
3. NYUD2-DIR (зрение, глубина): на основе набора данных NYU2 он используется для построения задачи DIR для оценки глубины.
4. STS-B-DIR (NLP, оценка сходства тестов): на основе набора данных STS-B задача состоит в том, чтобы вывести оценку сходства семантического текста между двумя входными предложениями.
5. SHHS-DIR (Здравоохранение, оценка состояния здоровья): на основе набора данных SHHS задача состоит в том, чтобы сделать вывод об общей оценке состояния здоровья человека.
Для конкретных экспериментов вы можете просмотреть статью, вот исходный текст статьи и кодовый адрес:
[бумага]:АР Вест V.org/ABS/2102.09…
[код]:GitHub.com/YY от Гарри/IM…
Нажмите «Подписаться», чтобы впервые узнать о новых технологиях HUAWEI CLOUD~