Разница между CountVectorizer и TfidfVectorizer

Комбинированное использование CountVectorizer+TfidfTransformer

CountVectorizer преобразует слова в тексте в матрицу частот слов, вычисляет количество вхождений каждого слова с помощью функции fit_transform, получает ключевые слова всех текстов с помощью get_feature_names() и видит результат матрицы частот слов с помощью toarray. ().
TfidfTransformer используется для подсчета значения TFIDF каждого слова в векторизаторе.

TfidfVectorizer

Преобразование коллекции исходных документов в матрицу характеристик tf-idf, что эквивалентно эффекту CountVectorizer и TfidfTransformer.
То есть класс TfidfVectorizer вместе инкапсулирует классы CountVectorizer и TfidfTransformer.

импортный пакет:

from skleran.feature_extraction.text import CountVectorizer, TfidfTransformer

from sklearn.feature_extraction.text import TfidfVectorizer