Также известен как показатель баланса, определяемый как среднее гармоническое точности и отзыва.
1.5.1 соответствующий пакет sklearn
sklearn.metrics.f1_score
from sklearn.metrics import f1_score
# y_pred是预测标签
y_pred, y_true =[1,0,1,0], [0,0,1,0]
f1_score(y_true=y_true, y_pred=y_pred)
# classification_report可以直接输出各个类的precision recall f1-score support
from sklearn.metrics import classification_report
# y_pred是预测标签
y_pred, y_true =[1,0,1,0], [0,0,1,0]
print(classification_report(y_true=y_true, y_pred=y_pred))
1.6 Диаграммы усиления и подъема
1.7 ROC-кривая
Горизонтальная ось: специфичность частоты отрицательных положительных результатов (частота ложных положительных результатов FPR=FP/(FP+TN)), доля всех отрицательных примеров в разделенном примере ко всем отрицательным примерам; (1-специфичность)
AUC — это площадь под ROC-кривой (интеграл ROC), которая обычно больше 0,5 и меньше 1.
Чем больше значение AUC (площадь) классификатора, тем выше производительность.
1.8.1 соответствующий пакет sklearn
sklearn.metrics.roc_auc_score
from sklearn.metrics import roc_auc_score
# y_test:实际的标签, dataset_pred:预测的概率值。
roc_auc_score(y_test, dataset_pred)
1.9 Кривая PR
Абсцисса: точность P
Вертикальная координата: скорость отзыва R
Стандарт оценки тот же, что и ROC, сначала посмотрите на гладкость, а не на плавность (синяя линия явно лучше). Вообще говоря, верхняя линия лучше, чем нижняя в одном и том же наборе тестов.
Когда значения P и R близки, значение F1 является наибольшим.
1.10 Мультиклассификация
precision_recall_fscore_support: Рассчитать точность, отзыв, fscore и поддержку для каждой категории
2. Проблема регрессии
В sklearn обычно функции начинаются с_scoreВозвращает значение в конце для максимизации, чем выше, тем лучше; функция_errorили_lossВозвращает значение в конце для минимизации, чем меньше, тем лучше.
2.1 Средняя абсолютная ошибка (MAE)
Средняя абсолютная ошибка (MAE) также известна какl1
Средняя абсолютная ошибка является неотрицательной величиной, и чем лучше модель, тем ближе MAE к нулю.
Результаты кластеризации, стремление к «внутрикластерному сходству» (внутрикластерному сходству) высокое, а «межкластерное сходство» (межкластерное сходство) низкое.
Существует примерно две категории показателей производительности кластеризации:
Результаты кластеризации сравниваются с «эталонной моделью», называемой «внешним индексом».
Непосредственно обращайтесь к результатам кластеризации без использования какой-либо эталонной модели, которая называется «внутренним индексом».
3.1 Внешние показатели
в наборе данных, предполагая, что кластеры, заданные кластеризацией, делятся на, кластеры, заданные эталонной моделью, делятся на, соответственно, пустьисоответственно представляют ииСоответствующий вектор маркера кластера, рассматривая выборки попарно, определяет
в
Коллекция СС: Входит вотносятся к одному кластеру впары выборок, которые также принадлежат одному и тому же кластеру в
Коллекция SD: включена вотносятся к одному кластеру впары выборок, принадлежащих к разным кластерам в
Коллекция DS: включена вотносятся к разным кластерампары выборок, принадлежащих к одному кластеру в
Коллекция DD: содержит вотносятся к разным кластерампары выборок, принадлежащих к разным кластерам в
Поскольку каждая пара выборокможет появиться только в одном наборе, поэтому есть
3.1.1 Обычно используемые внешние индикаторы
Коэффициент Жаккара (коэффициент Жаккара, обозначаемый как JC)
Индекс FM (индекс Фаулкса и Маллоуса, именуемый FMI)
Индекс Рэнда (Rand Index, сокращенно RI)
Все результаты вышеуказанных показателей производительности находятся винтервал, чем больше значение, тем лучше.
3.1.2 Взаимная информация
Взаимная информация (MI) или информация о переносе (transinformation) двух случайных величин является мерой взаимозависимости между переменными.
3.1.3 соответствующий пакет sklearn
FMI: fowlkes_mallows_score
RI: sklearn.metrics.adjusted_rand_score
MI: sklearn.metrics.adjusted_mutual_info_score
3.2 Внутренние индикаторы
Разделение кластера с учетом результатов кластеризации, имеет следующее определение
для кластераСреднее расстояние между образцами в пределах
Наибольшее расстояние между выборками в соответствующем кластере
соответствует кластерус кластерамирасстояние между ближайшими образцами
Соответствующий кластерс кластерамирасстояние от центра
3.2.1 Общие внутренние индикаторы
Индекс DB (индекс Дэвиса-Булдина, сокращенно DBI)Возможное минимальное значение для DBI равно 0, чем меньше, тем лучше.
Индекс Данна (индекс Данна, сокращенно DI)Чем больше значение DI, тем лучше
3.2.2 Коэффициент силуэта
Сплоченность кластеризации и разделение объединяются для оценки эффекта кластеризации. Значение находится в диапазоне (-1,1).
Чем ближе значение к 1, тем больше сходство выборки с выборкой в своем кластере и несходство с выборками из других кластеров; когда точка выборки больше похожа на выборку вне кластера, коэффициент силуэта равен отрицательный; когда коэффициент силуэта отрицательный Когда он равен 0, это означает, что образцы в двух кластерах имеют одинаковое сходство, и два кластера должны быть одним кластером.
формулаa(i) — среднее расстояние между образцом i и другими образцами в кластере, b(i) — среднее расстояние между образцом i и другими образцами в определенном кластере, а b(i) в нескольких кластерах — наименьшее.
3.2.3 соответствующий пакет sklearn
DBI: sklearn.metrics.davies_bouldin_score
sklearn.metrics.silhouette_score, возврат представляет собой среднее значение коэффициентов силуэта всех выборок в наборе данных.
sklearn.metrics.silhouette_score_samples, который принимает те же параметры, что и коэффициенты силуэта, но возвращает собственные коэффициенты силуэта каждой выборки в наборе данных.
4. Проблемы ассоциации
4.1 Поддержка
Представляет вероятность того, что элементы X и Y появляются одновременно в общем наборе данных, и формула его расчетаОн относится к доле записей транзакций, в которых X и Y появляются одновременно, среди N записей транзакций.
4.2 Уверенность
Это относится к вероятности того, что последующий элемент Y также произойдет, когда ведущий элемент X уже возник, то есть доля записей транзакций, которые также содержат Y, в записях транзакций, содержащих X. Формула расчета:
4.3 Лифт
Указывает отношение вероятности содержания Y одновременно при условии содержания X, и вероятности содержания Y независимо от того, содержится ли X, формула расчетаВ случае покупки X вероятность покупки Y больше, чем вероятность покупки Y, что имеет эффект продвижения.