Основы теории информации TF_IDF

Вес каждого ключевого слова w в запросе должен отражать, сколько информации слово предоставляет запросу. Простой метод заключается в использовании количества информации каждого слова в качестве веса, а именно:

I(w) = -P(w)\log{P(w)} \\ =-\frac{TF(w)}{N}\log{\frac{TF(w)}{N}} == \frac{TF(w)}{N}\log{\frac{N}{TF(w)}}

где N — размер всего корпуса и константа, которую можно опустить. Таким образом, приведенную выше формулу можно упростить до:

I(w)=TF(w)\log{\frac{N}{TF(w)}}

Однако у этой формулы все же есть изъян: частотность TF двух слов одинакова, однако одно является общеупотребительным словом в конкретной статье, а другое слово разбросано по нескольким статьям, очевидно, что первое слово должно иметь более высокое различие степени, вес должен быть больше. Эта формула не отражает этого различия. Если сделать некоторые предположения:

Размер каждого документа в основном одинаков, и все они состоят из M слов, т. е. $M=\frac{N}{D} = \frac{\sum_w{TF(w)}}{D}$ , D представляет собой общее количество статей.
Как только ключевое слово появляется в литературе, независимо от того, сколько раз, вклад один и тот же, такое слово либо появляется в литературе $c(w)=\frac{TF(w)}{D(w)}$ раз или 0 раз. Уведомление, $c(w) < M$ , M — общее количество слов в этом документе, конечно больше, чем в предыдущем. здесь, $D(w)$ Указывает количество вхождений w документов.

Согласно приведенным выше предположениям, существуют: $I(w) = TF(w)\log{\frac{N}{TF(w)}}=TF(w)\log{\frac{MD}{c(w)D(w)}} \\ = TF(w)log{(\frac{D}{D(w)}\frac{M}{c(w)})}$

Тогда есть: $TF-IDF(w) = TF(w)\log{\frac{D}{D(w)}} = I(w) - TF(w)\log{\frac{M}{c(w)}}$

Таким образом, можно сделать вывод, что информативность слова $I(w)$ Чем больше, тем больше значение TF-IDF; в то же время, чем больше раз w встречается в среднем в литературе, попадающей под w, тем меньше второй член и тем больше TF-IDF. Доказательство второго вывода: 证明TF-IDF单调性-4409.8kB