Добро пожаловать на главный сайт Jizhi:Jizhi, двигатель, ведущий к эре интеллекта
Уведомление!
Весь код в этой статье можно запустить и отладить в оригинальном посте Jizhi (установочная среда не требуется).кликните сюдаперейти к исходному сообщению
По мере того как количество данных в экспериментальной науке росло в геометрической прогрессии, возрастала и важность машинного обучения — метода, который решает такие проблемы, как построение прогностических уравнений для корреляции наблюдений, классификации наблюдений или извлечения закона из немаркированных наборов данных.
Этот учебник ориентирован на статистическое обучение, применение методов машинного обучения, основанных на статистических принципах: получение выводов из данных. Scikit-learn — это модуль Python, который объединяет классические алгоритмы машинного обучения и широко используемые пакеты Python для научных вычислений (NumPy, SciPy, matplotlib).
набор данных
Scikit-learn обрабатывает обучающую информацию из одного или нескольких наборов данных в виде двумерных массивов, которые можно понимать как многомерный набор наблюдений. Как правило, первая ось называется «осью выборки», а вторая — «осью признаков».
Iris: пример простого набора данных, встроенный в Scikit-learn.
# 从scikit-learn库中导入数据集模块datasets
from sklearn import datasets
# 调用datasets的load_iris()方法创建对象,并赋值给变量iris
iris = datasets.load_iris()
# 将对象iris的data属性抽取出来,赋值给变量data
data = iris.data
# 输出data的shape属性
print(data.shape)
from sklearn import datasets
iris = datasets.load_iris()
data = iris.data
data.shape
Если исходная форма данных не (n_samples, n_features), для использования в scikit-learn требуется предварительная обработка. Конечно, если ваш фундамент Python еще не прочный, вы также можетеУмный классукрепить фундамент
Цифровые наборы данных: примеры искажения данных
Цифровой набор данных состоит из 1797 изображений рукописных цифр размером 8x8 пикселей.
%matplotlib inline
from sklearn import datasets
# 导入digits数据集并输出其规模
digits = datasets.load_digits()
digits.images.shape
# 导入绘图扩展包matplotlib
import matplotlib.pyplot as plt
# 以灰度图像形式输出-1的像素图
plt.imshow(digits.images[-1], cmap=plt.cm.gray_r)
# 为了在Scikit中应用这组数据集,我们把8x8的图像转换成长度为64的矢量。
data = digits.images.reshape((digits.images.shape[0], -1))
digits = datasets.load_digits()
digits.images.shape
import matplotlib.pyplot as plt
plt.imshow(digits.images[-1], cmap=plt.cm.gray_r)
# 为了在Scikit中应用这组数据集,我们把8x8的图像转换成长度为64的矢量。
data = digits.images.reshape((digits.images.shape[0], -1))
digits.images.shape==(1797,8,8)
объект-предиктор
подходящие данные: Предиктор — это основной API Scikit-learn, которым может быть любой объект, который учится на данных, например алгоритм классификации, регрессии или кластеризации, или преобразователь, который извлекает/фильтрует действительные признаки из необработанных данных.
Все объекты-предикторы имеют набор данных (обычно двумерный массив) в качестве входного параметра.fit
метод:
estimator.fit(data)
# 预测器参数:所有的预测器参数都可以在实例化的时候指定,或之后修改相应属性。
estimator = Estimator(param1=1, param2=2)