Основы теории информации TF_IDF

NLP

Вес каждого ключевого слова w в запросе должен отражать, сколько информации слово предоставляет запросу. Простой метод заключается в использовании количества информации каждого слова в качестве веса, а именно:

I(w)=P(w)logP(w)=TF(w)NlogTF(w)N==TF(w)NlogNTF(w)I(w) = -P(w)\log{P(w)} \\ =-\frac{TF(w)}{N}\log{\frac{TF(w)}{N}} == \frac{TF(w)}{N}\log{\frac{N}{TF(w)}}

где N — размер всего корпуса и константа, которую можно опустить. Таким образом, приведенную выше формулу можно упростить до:

I(w)=TF(w)logNTF(w)I(w)=TF(w)\log{\frac{N}{TF(w)}}

Однако у этой формулы все же есть изъян: частотность TF двух слов одинакова, однако одно является общеупотребительным словом в конкретной статье, а другое слово разбросано по нескольким статьям, очевидно, что первое слово должно иметь более высокое различие степени, вес должен быть больше. Эта формула не отражает этого различия. Если сделать некоторые предположения:

  1. Размер каждого документа в основном одинаков, и все они состоят из M слов, т. е.M=ND=wTF(w)DM=\frac{N}{D} = \frac{\sum_w{TF(w)}}{D}, D представляет собой общее количество статей.
  2. Как только ключевое слово появляется в литературе, независимо от того, сколько раз, вклад один и тот же, такое слово либо появляется в литературеc(w)=TF(w)D(w)c(w)=\frac{TF(w)}{D(w)}раз или 0 раз. Уведомление,c(w)<Mc(w) < M, M — общее количество слов в этом документе, конечно больше, чем в предыдущем. здесь,D(w)D(w)Указывает количество вхождений w документов.

Согласно приведенным выше предположениям, существуют:I(w)=TF(w)logNTF(w)=TF(w)logMDc(w)D(w)=TF(w)log(DD(w)Mc(w))I(w) = TF(w)\log{\frac{N}{TF(w)}}=TF(w)\log{\frac{MD}{c(w)D(w)}} \\ = TF(w)log{(\frac{D}{D(w)}\frac{M}{c(w)})}

Тогда есть:TFIDF(w)=TF(w)logDD(w)=I(w)TF(w)logMc(w)TF-IDF(w) = TF(w)\log{\frac{D}{D(w)}} = I(w) - TF(w)\log{\frac{M}{c(w)}}

Таким образом, можно сделать вывод, что информативность словаI(w)I(w)Чем больше, тем больше значение TF-IDF; в то же время, чем больше раз w встречается в среднем в литературе, попадающей под w, тем меньше второй член и тем больше TF-IDF. Доказательство второго вывода:证明TF-IDF单调性-4409.8kB