Используйте sklearn для разработки функций автономной версии.

Что такое разработка признаков? Что такое разработка признаков? Разработка признаков заключается в подготовке к обучению модели и выполнении различной предварительной обработки данных.

В отрасли широко распространена поговорка: данные и функции определяют верхний предел машинного обучения, а модели и алгоритмы лишь приближаются к этому верхнему пределу. Так что же такое фиче-инжиниринг? Как следует из названия, это, по сути, инженерная деятельность, направленная на максимальное извлечение функций из необработанных данных для использования алгоритмами и моделями. Обобщая и обобщая, считается, что разработка признаков включает в себя следующие аспекты:

sklearn предоставляет относительно полный метод обработки признаков.В этой статье используется набор данных IRIS (Iris) в sklearn для описания функции обработки признаков на примере sklearn. Набор данных IRIS был организован Фишером в 1936 году и содержит 4 признака (Sepal.Length (длина чашелистика), Sepal.Width (ширина чашелистика), Petal.Length (длина лепестка), Petal.Width (ширина лепестка)), значения признаков Оба положительные числа с плавающей запятой в сантиметрах. Целевым значением является классификация ирисов (Iris Setosa, Iris Versicolour, Iris Virginica). Код для импорта набора данных IRIS выглядит следующим образом:


#导入IRIS数据集
iris = load_iris()

#特征矩阵
iris.data

#目标向量
iris.target

Проблемы, возникающие при извлечении признаков:

Не принадлежит к одному и тому же измерению: то есть характеристики функций различны и не могут сравниваться вместе. Безразмерность может решить эту проблему. Информационная избыточность: для некоторых количественных характеристик эффективная информация, содержащаяся в них, разбита на интервалы, например, академическая успеваемость.Если вас интересует только «сдача» или «сдача», то вам необходимо преобразовать количественные оценки теста в «1». и «0» указывает на пройдено и не пройдено. Бинаризация может решить эту проблему. Качественные признаки нельзя использовать напрямую: некоторые алгоритмы и модели машинного обучения могут принимать ввод только количественных признаков, поэтому необходимо преобразовать качественные признаки в количественные. Проще всего указать количественное значение для каждого качественного значения, но этот метод слишком гибкий и увеличивает работу по настройке параметров. Фиктивное кодирование обычно используется для преобразования качественных признаков в количественные: если предположить, что имеется N видов качественных значений, этот признак расширяется до N видов признаков.Когда исходным значением признака является i-е качественное значение, расширенной функции присвоено значение 1, а другим расширенным функциям присвоено значение 0. По сравнению с прямым указанным методом метод фиктивного кодирования не требует увеличения работы по настройке параметров.Для линейных моделей использование фиктивных кодированных функций может привести к нелинейным эффектам. Этот метод также называется методом onehot. Есть пропущенные значения: Пропущенные значения необходимо дополнить. Низкое использование информации: разные алгоритмы и модели машинного обучения используют разную информацию в данных.Как упоминалось ранее, в линейной модели использование фиктивного кодирования качественных признаков может привести к нелинейным эффектам. Точно так же полиномиализация количественных переменных или другие преобразования могут привести к нелинейным эффектам. Мы используем библиотеку предварительной обработки в sklearn для предварительной обработки данных.Вышеуказанные проблемы могут быть решены в автономном случае.На самом деле, их также можно решить с помощью numpy и pandas.

1 Для стандартизации необходимо рассчитать среднее значение и стандартное отклонение признака, и формула выражается следующим образом:

X=(X-Mean)/std

Код для стандартизации данных с использованием класса StandardScaler библиотеки предварительной обработки выглядит следующим образом:

2 
3 #标准化，返回值为标准化后的数据
4 StandardScaler().fit_transform(iris.data)

2 Есть много идей для метода интервального масштабирования.Общим является использование двух максимальных значений для масштабирования.Формула выражается как:

x=(x-min)/(Max-min)

Код для интервального масштабирования данных с использованием класса MinMaxScaler библиотеки предварительной обработки выглядит следующим образом:

2 
3 #区间缩放，返回值为缩放到[0, 1]区间的数据
4 MinMaxScaler().fit_transform(iris.data)

3 Нормализация:

2 
3 #归一化，返回值为归一化后的数据
4 Normalizer().fit_transform(iris.data)

4 Суть бинаризации количественного признака заключается в установке порога, значение выше порога присваивается как 1, а значение меньше или равно порогу присваивается как 0, код выглядит следующим образом

2 
3 #二值化，阈值设置为3，返回值为二值化后的数据
4 Binarizer(threshold=3).fit_transform(iris.data)

5горячее кодирование:

2 
3 #哑编码，对IRIS数据集的目标值，返回值为哑编码后的数据
4 OneHotEncoder().fit_transform(iris.target.reshape((-1,1)))

6 Расчет недостающих значений

from sklearn.preprocessing import Imputer

#缺失值计算，返回值为计算缺失值后的数据
#参数missing_value为缺失值的表示形式，默认为NaN
#参数strategy为缺失值填充方式，默认为mean（均值）
Imputer().fit_transform(vstack((array([nan, nan, nan, nan]), iris.data)))

7 Преобразование данных

2 
3 #多项式转换
4 #参数degree为度，默认值为2
5 PolynomialFeatures().fit_transform(iris.data)

Преобразование данных на основе функции одной переменной может быть выполнено унифицированным способом.Код для логарифмического преобразования данных с использованием FunctionTransformer библиотеки предварительной обработки выглядит следующим образом:

2 from sklearn.preprocessing import FunctionTransformer
3 
4 #自定义转换函数为对数函数的数据变换
5 #第一个参数是单变元函数
6 FunctionTransformer(log1p).fit_transform(iris.data)

Выбор функций После завершения предварительной обработки данных нам нужно выбрать значимые функции для ввода в алгоритмы и модели машинного обучения для обучения. Вообще говоря, функции выбираются из двух аспектов:

Является ли признак расходящимся: если признак не расходится, например, дисперсия близка к 0, то есть образцы практически не различаются по этому признаку, и этот признак бесполезен для различения образцов. Корреляция между функциями и целями. Очевидно, что в первую очередь следует выбирать функции с высокой корреляцией с целями. За исключением метода дисперсии, все другие методы, представленные в этой статье, рассматриваются на основе корреляции. По форме выбора признаков методы выбора признаков можно разделить на три типа:

Фильтр: метод фильтрации, оценка каждой функции в соответствии с дивергенцией или корреляцией, установка порогового значения или количества пороговых значений для выбора и выбор функций. Обертка: метод обертки в соответствии с целевой функцией (обычно оценкой эффекта прогнозирования) выбирает несколько функций одновременно или исключает несколько функций. Встроенный: встроенный метод, сначала используйте некоторые алгоритмы и модели машинного обучения для обучения, получите весовые коэффициенты каждой функции и выберите функции от больших до малых в соответствии с коэффициентами. Аналогичен методу Filter, но качество признаков определяется обучением. Мы используем библиотеку feature_selection в sklearn для выбора функций.

8Метод выбора дисперсии фильтра:

Используя метод выбора дисперсии, сначала вычислите дисперсию каждого признака, а затем выберите признаки с дисперсией, превышающей пороговое значение, в соответствии с пороговым значением. Код для выбора функций с использованием класса VarianceThreshold библиотеки feature_selection выглядит следующим образом.

2 
3 #方差选择法，返回值为特征选择后的数据
4 #参数threshold为方差的阈值
5 VarianceThreshold(threshold=3).fit_transform(iris.data)

9Метод коэффициента корреляции фильтра

Чтобы использовать метод коэффициента корреляции, сначала вычислите коэффициент корреляции каждой функции с целевым значением и значением P коэффициента корреляции. Код для выбора объектов с использованием класса SelectKBest библиотеки feature_selection в сочетании с коэффициентом корреляции выглядит следующим образом:

from scipy.stats import pearsonr

#选择K个最好的特征，返回选择特征后的数据
#第一个参数为计算评估特征是否好的函数，该函数输入特征矩阵和目标向量，输出二元组（评分，P值）的数组，数组第i项为第i个特征的评分和P值。在此定义为计算相关系数
#参数k为选择的特征个数
SelectKBest(lambda X, Y: array(map(lambda x:pearsonr(x, Y), X.T)).T, k=2).fit_transform(iris.data, iris.target)

10. Фильтрация критерия хи-квадрат

Классический тест хи-квадрат предназначен для проверки корреляции между качественными независимыми переменными и качественными зависимыми переменными. Предполагая, что независимая переменная имеет N значений, а зависимая переменная имеет M значений, рассмотрим разницу между наблюдаемым значением и ожидаемой частотой выборки, когда независимая переменная равна i, а зависимая переменная равна j, а статистика равна Формула очень сложная, и код прямо на ней:

2 from sklearn.feature_selection import chi2
3 
4 #选择K个最好的特征，返回选择特征后的数据
5 SelectKBest(chi2, k=2).fit_transform(iris.data, iris.target)

Код гораздо проще формулы, а человеческая природа гораздо больше, и формула обманчива.

11Фильтровать метод взаимной информации

Для работы с количественными данными предлагается метод максимального информационного коэффициента с использованием класса SelectKBest библиотеки feature_selection в сочетании с методом максимального информационного коэффициента для выбора признаков Код выглядит следующим образом:

from minepy import MINE

#由于MINE的设计不是函数式的，定义mic方法将其为函数式的，返回一个二元组，二元组的第2项设置成固定的P值0.5
def mic(x, y):
    m = MINE()
    m.compute_score(x, y)
    return (m.mic(), 0.5)

#选择K个最好的特征，返回特征选择后的数据
SelectKBest(lambda X, Y: array(map(lambda x:mic(x, Y), X.T)).T, k=2).fit_transform(iris.data, iris.target)

Метод рекурсивного исключения 12Wrapper:

Метод рекурсивного исключения признаков использует базовую модель для нескольких раундов обучения.После каждого раунда обучения исключаются признаки нескольких весовых коэффициентов, а затем выполняется следующий раунд обучения на основе нового набора признаков. Код для выбора объектов с использованием класса RFE библиотеки feature_selection выглядит следующим образом:

from sklearn.linear_model import LogisticRegression

#递归特征消除法，返回特征选择后的数据
#参数estimator为基模型
#参数n_features_to_select为选择的特征个数
RFE(estimator=LogisticRegression(), n_features_to_select=2).fit_transform(iris.data, iris.target)

Здесь вы можете выбрать использование чужой модели

13Embedded использует базовую модель со штрафными условиями, помимо фильтрации признаков, она также снижает размерность. Используя класс SelectFromModel библиотеки feature_selection в сочетании с моделью логистической регрессии с условием штрафа L1, код для выбора функций выглядит следующим образом:

2 from sklearn.linear_model import LogisticRegression
3 
4 #带L1惩罚项的逻辑回归作为基模型的特征选择
5 SelectFromModel(LogisticRegression(penalty="l1", C=0.1)).fit_transform(iris.data, iris.target)

Используя класс SelectFromModel библиотеки feature_selection в сочетании с моделью логистической регрессии с штрафными условиями L1 и L2, код для выбора функций выглядит следующим образом:

2 
3 #带L1和L2惩罚项的逻辑回归作为基模型的特征选择
4 #参数threshold为权值系数之差的阈值
5 SelectFromModel(LR(threshold=0.5, C=0.1)).fit_transform(iris.data, iris.target)

GBDT в древовидной модели также можно использовать в качестве базовой модели для выбора функций.Используя класс SelectFromModel библиотеки feature_selection в сочетании с моделью GBDT, код для выбора функций выглядит следующим образом:

2 from sklearn.ensemble import GradientBoostingClassifier
3 
4 #GBDT作为基模型的特征选择
5 SelectFromModel(GradientBoostingClassifier()).fit_transform(iris.data, iris.target)

14PCA уменьшение размерности:

2 
3 #主成分分析法，返回降维后的数据
4 #参数n_components为主成分数目
5 PCA(n_components=2).fit_transform(iris.data)

уменьшение размерности свд заключается в замене вышеуказанного пса на свд

15LDA уменьшение размера

2 
3 #线性判别分析法，返回降维后的数据
4 #参数n_components为降维后的维数
5 LDA(n_components=2).fit_transform(iris.data, iris.target)

Итак, как вы можете видеть, использование API всегда проще и понятнее, чем формулы, поэтому, как наука о данных, не слишком запутывайтесь в формулах, а сосредоточьтесь на инженерной практике.