Вес каждого ключевого слова w в запросе должен отражать, сколько информации слово предоставляет запросу. Простой метод заключается в использовании количества информации каждого слова в качестве веса, а именно:
где N — размер всего корпуса и константа, которую можно опустить. Таким образом, приведенную выше формулу можно упростить до:
Однако у этой формулы все же есть изъян: частотность TF двух слов одинакова, однако одно является общеупотребительным словом в конкретной статье, а другое слово разбросано по нескольким статьям, очевидно, что первое слово должно иметь более высокое различие степени, вес должен быть больше. Эта формула не отражает этого различия. Если сделать некоторые предположения:
- Размер каждого документа в основном одинаков, и все они состоят из M слов, т. е., D представляет собой общее количество статей.
- Как только ключевое слово появляется в литературе, независимо от того, сколько раз, вклад один и тот же, такое слово либо появляется в литературераз или 0 раз. Уведомление,, M — общее количество слов в этом документе, конечно больше, чем в предыдущем. здесь,Указывает количество вхождений w документов.
Согласно приведенным выше предположениям, существуют:
Тогда есть:
Таким образом, можно сделать вывод, что информативность словаЧем больше, тем больше значение TF-IDF; в то же время, чем больше раз w встречается в среднем в литературе, попадающей под w, тем меньше второй член и тем больше TF-IDF. Доказательство второго вывода: