Комбинированное использование CountVectorizer+TfidfTransformer
CountVectorizer преобразует слова в тексте в матрицу частот слов, вычисляет количество вхождений каждого слова с помощью функции fit_transform, получает ключевые слова всех текстов с помощью get_feature_names() и видит результат матрицы частот слов с помощью toarray. ().
TfidfTransformer используется для подсчета значения TFIDF каждого слова в векторизаторе.
TfidfVectorizer
Преобразование коллекции исходных документов в матрицу характеристик tf-idf, что эквивалентно эффекту CountVectorizer и TfidfTransformer.
То есть класс TfidfVectorizer вместе инкапсулирует классы CountVectorizer и TfidfTransformer.
импортный пакет:
from skleran.feature_extraction.text import CountVectorizer, TfidfTransformer
from sklearn.feature_extraction.text import TfidfVectorizer