Сбалансированный метод классификации текстов с несколькими метками и распределениями с длинными хвостами

алгоритм

Это 20-й день моего участия в ноябрьском испытании обновлений. Узнайте подробности события:Вызов последнего обновления 2021 г.

Вы должны быть знакомы с распределением с длинным хвостом, которое относится к ситуации, когда несколько категорий имеют большое количество выборок, в то время как большинство категорий имеют только небольшое количество выборок, как показано на следующем рисунке.

Обычно, когда мы обсуждаем длиннохвостое распределение или классификацию текста, мы рассматриваем только одну метку, то есть выборка соответствует только одной метке, но на самом деле в практических приложениях очень часто встречается и множественная метка, например, сбор личных данных. хобби имеет в общей сложности 6 элементов: спорт, путешествия, чтение, работа, сон, еда, в целом у человека есть одно или несколько из этих увлечений, что является типичной задачей многозначной классификации

На EMNLP2021 есть статья под названиемBalancing Methods for Multi-label Text Classification with Long-Tailed Class DistributionВ документе подробно обсуждается влияние различных сбалансированных функций потерь на проблемы классификации с несколькими метками, от исходной потери BCE до фокусной потери и т. Д. Я чувствую, что эта статья больше похожа на обзор сбалансированных функций потерь. исходный код вRoche/BalancedLossNLP

Loss Functions

В области НЛП бинарная перекрестная потеря энтропии часто используется для решения проблем классификации текста с несколькими метками.NNобучающий набор образцов(x1,y1),...,(xN,yN){(x^1,y^1),...,(x^N,y^N)}yk=[y1k,...,yCk]е{0,1}Cy^k = [y_1^k,...,y_C^k]\in \{0,1\}^C,CC- количество категорий, предполагая, что выход модели для выборкиzk=[z1k,...,zCk]еRz^k = [z_1^k,...,z_C^k]\in \mathbb{R}, то потери BCE определяются следующим образом:

LBCE={log(pik)еслиyik=1log(1pik)otherwise\mathcal{L}_{\text{BCE}} = \begin{cases}-\log (p_i^k)\quad &\text{if } y_i^k =1\\-\log (1-p^k_i)\quad &\text{otherwise} \end{cases}

в,pik=о(zik)p_i^k = \sigma(z_i^k), для задач классификации с несколькими метками нам нужно сжать выходное значение модели до [0,1], поэтому нам нужно использовать сигмовидную функцию

Исходная задача с одной меткой, истинное значениеyky^kЭквивалентно однократному вектору, а для мультиметки истинное значениеyky^kЭто эквивалентно добавлению нескольких единиц в вектор onehot, например [0,1,0,1], что указывает на то, что выборка относится как к первой, так и к третьей категории.

Этот наивный БКЭ очень подвержен дисбалансу меток, потому что головных выборок много, и сумма потерь всех головных выборок может быть 100, а сумма потерь всех хвостовых выборок не превышает 10. Ниже мы представляем три альтернативных подхода к решению проблемы дисбаланса классов данных с длинными хвостами в классификации текста с несколькими метками. Основная идея этих методов балансировки состоит в том, чтобы изменить вес BCE, чтобы редкие пары выборка-метка привлекли разумное «внимание».

Focal Loss (FL)

Путем умножения BCE на регулируемый параметр фокусировкиγ0\gamma \ge 0, Focal Loss присваивает более высокие веса потерь «трудно классифицируемым» образцам, которые имеют низкую вероятность предсказания их истинного значения. Для задач классификации с несколькими метками Focal Loss определяется следующим образом:

LFL={(1pik)γlog(pik)еслиyik=1(pik)γlog(1pik)otherwise\mathcal{L}_{\text{FL}} = \begin{cases} -(1-p_i^k)^\gamma \log (p_i^k)\quad &\text{if } y_i^k =1\\ -(p_i^k)^\gamma \log (1-p_i^k)\quad &\text{otherwise} \end{cases}

На самом деле в статье очень мало вводных сведений о Focal Loss.Если вы хотите узнать больше о параметрах Focal Loss, вы можете прочитать мою статью.Подробное объяснение очаговой потери

Class-balanced focal loss (CB)

Оценивая количество действительных выборок, CB Loss дополнительно пересчитывает Focal Loss, чтобы зафиксировать уменьшающийся предельный эффект данных, уменьшая избыточную информацию о выборках головы. Для задач с несколькими метками мы сначала вычисляем частоту каждого классаnin_i, то для каждой категории есть балансrCBr_{\text{CB}}

rCB=1бета1бетаnir_{\text{CB}} = \frac{1-\beta}{1-\beta^{n_i}}

в,бетае[0,1)\beta \in [0,1)Управляя скоростью роста эффективного числа отсчетов, функция потерь принимает вид

LCB={rCB(1pik)γlog(pik)еслиyik=1rCB(pik)γlog(1pik)otherwise\mathcal{L}_{\text{CB}} = \begin{cases} -r_{\text{CB}} (1-p_i^k)^\gamma \log (p_i^k) \quad &\text{if } y_i^k =1\\ -r_{\text{CB}} (p_i^k)^\gamma \log (1-p_i^k) \quad &\text{otherwise} \end{cases}

Distribution-balanced loss (DB)

Путем интеграции весов перебалансировки и толерантной к выборке регуляризации (NTR) функция «Потери, сбалансированные по распределению» сначала уменьшает избыточную информацию о совпадении меток (что имеет решающее значение в случае классификации с несколькими метками), а затем присваивает более низкие веса «легко образцы "классифицировать" (головные образцы)

Во-первых, чтобы перебалансировать веса, в случае одной метки выборка может пройти вероятность выборкиPiC=1C1niP_i^C = \frac{1}{C}\frac{1}{n_i}к весу, но в случае нескольких меток, если используется одна и та же стратегия, выборка с несколькими метками будет передискретизирована с вероятностьюPI=1cyik=11niP^I = \frac{1}{c}\sum_{y_i^k=1}\frac{1}{n_i}. Поэтому нам нужно объединить их, чтобы сбалансировать веса.

rDB=PiC/PIr_{\text{DB}} = P_i^C / P^I

Мы можем сделать приведенные выше веса немного более гладкими (ограниченными).

r^DB=альфа+о(бета×(rDBмю))\hat{r}_{\text{DB}} = \alpha + \sigma(\beta \times (r_{\text{DB}} - \mu))

В настоящее время,r^DB\hat{r}_{\text{DB}}Диапазон значений[альфа,альфа+1][\alpha ,\alpha + 1]. Функция потерь перебалансированного FL (R-FL)

LR-FL={r^DB(1pik)log(pik)еслиyik=1r^DB(pik)log(1pik)otherwise\mathcal{L}_{\text{R-FL}} = \begin{cases} -\hat{r}_{\text{DB}} (1-p_i^k)\log (p^k_i) \quad &\text{if } y_i^k =1\\ -\hat{r}_{\text{DB}} (p_i^k)\log (1-p^k_i) \quad &\text{otherwise} \end{cases}

Затем NTR обрабатывает одни и те же образцы начала и конца этикетки по-разному, вводя коэффициент масштабирования.λ\lambdaи присущее классу предубеждениеviv_iснизить порог хвостовой категории и избежать чрезмерного подавления

LNTR-FL={(1qik)log(qik)еслиyik=11λ(qik)log(1qik)otherwise\mathcal{L}_{\text{NTR-FL}} = \begin{cases} - (1-q_i^k)\log (q^k_i) \quad &\text{if } y_i^k =1\\ -\frac{1}{\lambda} (q_i^k)\log (1-q^k_i) \quad &\text{otherwise} \end{cases}

Для образцов хвоста,qik=о(zikvi)q^k_i = \sigma(z_i^k - v_i); для головных проб,qik=о(λ(zikvi))q_i^k = \sigma(\lambda(z_i^k - v_i)).viv_iЕго можно оценить путем минимизации функции потерь в начале обучения с коэффициентом масштабированияκ\kappa, категория предварительной информацииpi=ni/Np_i = n_i/N,но

b^i=log(1pi1), vi=κ×b^i\hat{b}_i = -\log (\frac{1}{p_i} - 1), \ v_i = -\kappa \times \hat{b}_i

Наконец, путем интеграции веса перебалансировки и NTR, потери, сбалансированные по распределению, равны

LDB={r^DB(1qik)log(qik)еслиyik=1r^DB1λ(qik)log(1qik)otherwise\mathcal{L}_{\text{{DB}}} = \begin{cases} - \hat{r}_{\text{DB}}(1-q_i^k)\log (q^k_i) \quad &\text{if } y_i^k =1\\ -\hat{r}_{\text{DB}}\frac{1}{\lambda} (q_i^k)\log (1-q^k_i) \quad &\text{otherwise} \end{cases}

Result

Два набора данных для экспериментов автора следующие:

Используемая модель - SVM для сравнения эффектов различных функций потерь.

Персональное резюме

Эта статья новаторская, но не новаторская.Все функции потерь предложены другими, а моя работа представляет собой просто сравнение набора данных с несколькими метками. В конце концов, воин чистой любви выразил свою печаль