TF-IDF

алгоритм

Это 16-й день моего участия в августовском испытании обновлений. Ознакомьтесь с подробностями мероприятия: Испытание августовского обновления

1.What is TF-IDF

TF-IDF (частота термина, обратная частоте документа, частота слова, обратная частоте документа)

TF-IDF — это статистический метод, используемый для оценки важности слова для набора документов или одного из документов в корпусе.Важность слова возрастает пропорционально количеству раз, которое оно встречается в документе, но при этом уменьшается обратно пропорционально частоте его появления в корпусе.

Вывод из приведенного выше отрывка таков:Чем больше раз слово встречается в статье, но чем меньше раз оно встречается во всем документе одновременно, тем более репрезентативной является статья.

Например, предположим, что есть длинная статья «Разведение раков в Китае», и мы собираемся использовать компьютер для извлечения ее ключевых слов. Простая идея: найти слово с наиболее частыми встречами, и если слово важно, оно должно появляться в этой статье несколько раз. Итак, ведем статистику "частоты терминов" (Term Frequency, сокращенно TF)

Оказывается, самые часто встречающиеся слова - "的", "is" - самые распространенные бессмысленные слова в этой категории. Они называются «Стоп-слова», слова, которые не помогают результатам и должны быть отфильтрованы.

Предположим, мы отфильтровываем все такие стоп-слова и рассматриваем только оставшиеся значимые слова. Это столкнется с другой проблемой: мы можем обнаружить, что три слова «Китай», «раки» и «сельское хозяйство» появляются столько же раз. Означает ли это, что как ключевые слова они имеют одинаковую важность?

Очевидно нет. Поскольку «Китай» — очень распространенное слово, «раки» и «фермерство» встречаются относительно реже. Если эти три слова встречаются в статье одинаковое количество раз, разумно предположить, что «раки» и «выращивание» важнее, чем «Китай», то есть с точки зрения ранжирования ключевых слов «ракы». "разведение" должно стоять перед "китаем"

Итак, нам нуженПоправочный коэффициент важности, чтобы измерить, является ли слово общеупотребительным словом.Если слово относительно редкое, но встречается в этой статье много раз, то оно, скорее всего, отражает характеристики этой статьи, и это ключевое слово, которое нам нужно.

Выражаясь статистическим языком, это означает присвоение каждому слову веса «важности» на основе частотности слов. Наиболее употребительным словам («的», «是») присваивается наименьший вес, более употребительным словам («Китай») присваивается меньший вес, а менее употребительным словам («ракы») присваивается больший вес. Этот вес называется «обратной частотой документа» (IDF), и его значение обратно пропорционально распространенности слова.

Зная «частоту слова (TF)» и «инверсную частоту документа (IDF)», умножьте эти два значения, чтобы получить значение TF-IDF слова. Чем выше важность слова для статьи, тем выше его значение TF-IDF.

Ниже приведены подробности этого алгоритма

частота словПервоначально относится к тому, сколько раз данное слово появляется в тексте. Однако, поскольку разные статьи имеют длину, для облегчения сравнения разных статей частота слов стандартизирована.

TFi,j=ni,jknk,j\text{TF}_{i,j}=\frac{n_{i,j}}{\sum_k n_{k,j}}

в

  • ni,jn_{i,j}: слово в документеdjd_jсобытия в
  • knk,j\sum_k n_{k,j}: в документацииdjd_jСумма вхождений всех слов в

Частота обратного документаОсновная идея такова: если определенное слово включеноttЧем меньше документов, тем больше IDF, а это значит, что слово имеет хорошую способность различать категории.IDF конкретного слова можно разделить на общее количество документов на количество документов, содержащих слово, а затем полученное частное получается путем логарифмирования.

IDFi=logD{j:tiеdj}+1\text{IDF}_i=\log\frac{|D|}{|\{j:t_i \in d_j\}| + 1}

в

  • D|D|: общее количество документов
  • {j:tiеdj}|\{j:t_i \in d_j\}|: содержит словаtit_iКоличество документов добавляется к 1, чтобы избежать знаменателя 0

Частота старших слов в конкретном документе, умноженная на частоту младших слов во всем документе, является значением TF-IDF.TF-IDFi,j=TFi,j×IDFi\text{TF-IDF}_{i,j}=\text{TF}_{i,j}\times \text{IDF}_i. Поэтому TF-IDF имеет тенденцию отфильтровывать общие слова и оставлять важные слова.

Возьмем в качестве примера «Разведение раков в Китае» и предположим, что в тексте 1000 слов, «Китай», «Раки» и «Выращивание» каждое встречается по 20 раз, тогда частота слов (TF) этих трех слов составляет 0,02. Затем предположим, что сейчас существует 25 миллиардов документов, в том числе 6,23 миллиарда документов, содержащих слово «Китай», 48,4 миллиона документов, содержащих слово «Раки», и 97,3 миллиона документов, содержащих слово «Выращивание». Тогда их обратная частота документа (IDF) и TF-IDF будут следующими:

Количество документов, содержащих это слово (млрд.) IDF TF-IDF
Китай 62.3 0.603 0.0121
Рак 0.484 2.713 0.0543
разведение 0.973 2.410 0.0482

Из приведенной выше таблицы видно, что значение TF-IDF для «Раков» является самым высоким, за ним следует «Выращивание» и самое низкое значение для «Китай». Итак, если выбрано только одно слово, ключевым словом для этой статьи будет "ракы".