Сбалансированный метод классификации текстов с несколькими метками и распределениями с длинными хвостами

Это 20-й день моего участия в ноябрьском испытании обновлений. Узнайте подробности события:Вызов последнего обновления 2021 г.

Вы должны быть знакомы с распределением с длинным хвостом, которое относится к ситуации, когда несколько категорий имеют большое количество выборок, в то время как большинство категорий имеют только небольшое количество выборок, как показано на следующем рисунке.

Обычно, когда мы обсуждаем длиннохвостое распределение или классификацию текста, мы рассматриваем только одну метку, то есть выборка соответствует только одной метке, но на самом деле в практических приложениях очень часто встречается и множественная метка, например, сбор личных данных. хобби имеет в общей сложности 6 элементов: спорт, путешествия, чтение, работа, сон, еда, в целом у человека есть одно или несколько из этих увлечений, что является типичной задачей многозначной классификации

На EMNLP2021 есть статья под названиемBalancing Methods for Multi-label Text Classification with Long-Tailed Class DistributionВ документе подробно обсуждается влияние различных сбалансированных функций потерь на проблемы классификации с несколькими метками, от исходной потери BCE до фокусной потери и т. Д. Я чувствую, что эта статья больше похожа на обзор сбалансированных функций потерь. исходный код вRoche/BalancedLossNLP

Loss Functions

В области НЛП бинарная перекрестная потеря энтропии часто используется для решения проблем классификации текста с несколькими метками. $N$ обучающий набор образцов ${(x^1,y^1),...,(x^N,y^N)}$ ,в $y^k = [y_1^k,...,y_C^k]\in \{0,1\}^C$ , $C$ - количество категорий, предполагая, что выход модели для выборки $z^k = [z_1^k,...,z_C^k]\in \mathbb{R}$ , то потери BCE определяются следующим образом:

\mathcal{L}_{\text{BCE}} = \begin{cases}-\log (p_i^k)\quad &\text{if } y_i^k =1\\-\log (1-p^k_i)\quad &\text{otherwise} \end{cases}

в, $p_i^k = \sigma(z_i^k)$ , для задач классификации с несколькими метками нам нужно сжать выходное значение модели до [0,1], поэтому нам нужно использовать сигмовидную функцию

Исходная задача с одной меткой, истинное значение $y^k$ Эквивалентно однократному вектору, а для мультиметки истинное значение $y^k$ Это эквивалентно добавлению нескольких единиц в вектор onehot, например [0,1,0,1], что указывает на то, что выборка относится как к первой, так и к третьей категории.

Этот наивный БКЭ очень подвержен дисбалансу меток, потому что головных выборок много, и сумма потерь всех головных выборок может быть 100, а сумма потерь всех хвостовых выборок не превышает 10. Ниже мы представляем три альтернативных подхода к решению проблемы дисбаланса классов данных с длинными хвостами в классификации текста с несколькими метками. Основная идея этих методов балансировки состоит в том, чтобы изменить вес BCE, чтобы редкие пары выборка-метка привлекли разумное «внимание».

Focal Loss (FL)

Путем умножения BCE на регулируемый параметр фокусировки $\gamma \ge 0$ , Focal Loss присваивает более высокие веса потерь «трудно классифицируемым» образцам, которые имеют низкую вероятность предсказания их истинного значения. Для задач классификации с несколькими метками Focal Loss определяется следующим образом:

\mathcal{L}_{\text{FL}} = \begin{cases} -(1-p_i^k)^\gamma \log (p_i^k)\quad &\text{if } y_i^k =1\\ -(p_i^k)^\gamma \log (1-p_i^k)\quad &\text{otherwise} \end{cases}

На самом деле в статье очень мало вводных сведений о Focal Loss.Если вы хотите узнать больше о параметрах Focal Loss, вы можете прочитать мою статью.Подробное объяснение очаговой потери

Class-balanced focal loss (CB)

Оценивая количество действительных выборок, CB Loss дополнительно пересчитывает Focal Loss, чтобы зафиксировать уменьшающийся предельный эффект данных, уменьшая избыточную информацию о выборках головы. Для задач с несколькими метками мы сначала вычисляем частоту каждого класса $n_i$ , то для каждой категории есть баланс $r_{\text{CB}}$

r_{\text{CB}} = \frac{1-\beta}{1-\beta^{n_i}}

в, $\beta \in [0,1)$ Управляя скоростью роста эффективного числа отсчетов, функция потерь принимает вид

\mathcal{L}_{\text{CB}} = \begin{cases} -r_{\text{CB}} (1-p_i^k)^\gamma \log (p_i^k) \quad &\text{if } y_i^k =1\\ -r_{\text{CB}} (p_i^k)^\gamma \log (1-p_i^k) \quad &\text{otherwise} \end{cases}

Distribution-balanced loss (DB)

Путем интеграции весов перебалансировки и толерантной к выборке регуляризации (NTR) функция «Потери, сбалансированные по распределению» сначала уменьшает избыточную информацию о совпадении меток (что имеет решающее значение в случае классификации с несколькими метками), а затем присваивает более низкие веса «легко образцы "классифицировать" (головные образцы)

Во-первых, чтобы перебалансировать веса, в случае одной метки выборка может пройти вероятность выборки $P_i^C = \frac{1}{C}\frac{1}{n_i}$ к весу, но в случае нескольких меток, если используется одна и та же стратегия, выборка с несколькими метками будет передискретизирована с вероятностью $P^I = \frac{1}{c}\sum_{y_i^k=1}\frac{1}{n_i}$ . Поэтому нам нужно объединить их, чтобы сбалансировать веса.

r_{\text{DB}} = P_i^C / P^I

Мы можем сделать приведенные выше веса немного более гладкими (ограниченными).

\hat{r}_{\text{DB}} = \alpha + \sigma(\beta \times (r_{\text{DB}} - \mu))

В настоящее время, $\hat{r}_{\text{DB}}$ Диапазон значений $[\alpha ,\alpha + 1]$ . Функция потерь перебалансированного FL (R-FL)

\mathcal{L}_{\text{R-FL}} = \begin{cases} -\hat{r}_{\text{DB}} (1-p_i^k)\log (p^k_i) \quad &\text{if } y_i^k =1\\ -\hat{r}_{\text{DB}} (p_i^k)\log (1-p^k_i) \quad &\text{otherwise} \end{cases}

Затем NTR обрабатывает одни и те же образцы начала и конца этикетки по-разному, вводя коэффициент масштабирования. $\lambda$ и присущее классу предубеждение $v_i$ снизить порог хвостовой категории и избежать чрезмерного подавления

\mathcal{L}_{\text{NTR-FL}} = \begin{cases} - (1-q_i^k)\log (q^k_i) \quad &\text{if } y_i^k =1\\ -\frac{1}{\lambda} (q_i^k)\log (1-q^k_i) \quad &\text{otherwise} \end{cases}

Для образцов хвоста, $q^k_i = \sigma(z_i^k - v_i)$ ; для головных проб, $q_i^k = \sigma(\lambda(z_i^k - v_i))$ . $v_i$ Его можно оценить путем минимизации функции потерь в начале обучения с коэффициентом масштабирования $\kappa$ , категория предварительной информации $p_i = n_i/N$ ,но

\hat{b}_i = -\log (\frac{1}{p_i} - 1), \ v_i = -\kappa \times \hat{b}_i

Наконец, путем интеграции веса перебалансировки и NTR, потери, сбалансированные по распределению, равны

\mathcal{L}_{\text{{DB}}} = \begin{cases} - \hat{r}_{\text{DB}}(1-q_i^k)\log (q^k_i) \quad &\text{if } y_i^k =1\\ -\hat{r}_{\text{DB}}\frac{1}{\lambda} (q_i^k)\log (1-q^k_i) \quad &\text{otherwise} \end{cases}

Result

Два набора данных для экспериментов автора следующие:

Используемая модель - SVM для сравнения эффектов различных функций потерь.

Персональное резюме

Эта статья новаторская, но не новаторская.Все функции потерь предложены другими, а моя работа представляет собой просто сравнение набора данных с несколькими метками. В конце концов, воин чистой любви выразил свою печаль