Это второй день моего участия в Gengwen Challenge.Подробности мероприятия смотрите:Обновить вызов
Раньше мы создавали базовую среду, а сегодня давайте рассмотрим некоторые связанные концепции, в основном типы машинного обучения и концепции, связанные с данными.
Типы машинного обучения
Прежде всего, давайте рассмотрим основные типы машинного обучения, в основном **监督学习
,无监督学习
,强化学习
,深度学习
**Несколько.
контролируемое обучение
Обучение под наблюдением относится к предоставлению помеченных данных, включая основные входные данные и ожидаемые выходные данные.Алгоритм будет постоянно обучать модель в соответствии с помеченными ожидаемыми данными для создания модели, близкой к ожидаемым данным.
неконтролируемое обучение
Неконтролируемое обучение означает, что предоставляемые данные не имеют маркировки и требуют, чтобы машины исследовали и создавали потенциальные связи из немаркированных данных.
обучение с подкреплением
Обучение с подкреплением — это метод обучения с механизмом стимулирования, то есть, если машина действует правильно, она генерирует положительные стимулы, а если машина действует неправильно, то генерирует отрицательные стимулы. В таком сценарии получается максимальная выгода и максимальный стимул.
глубокое обучение
Глубокое обучение основано на алгоритмах, основанных на нейронных сетях, с использованием искусственных нейронных сетей в качестве архитектуры для выполнения алгоритмов обучения представлению данных.
Данные и наборы данных
Машинное обучение неотделимо от наборов данных, давайте взглянем на следующую таблицу:
серийный номер | нация | Пол | возраст | доход |
---|---|---|---|---|
1 | Китай | мужчина | 24 | 3500 |
2 | Китай | Женский | 44 | 12500 |
3 | Америка | мужчина | 28 | 25000 |
4 | Япония | мужчина | 34 | 18000 |
5 | Китай | мужчина | 17500 |
В приведенных выше данных мы называем всю таблицу данных какнабор данных, назовем одну из строк aОбразец, в столбце таблицы сделаем егоособенность, и конкретное значение столбца, которое мы называемзначение атрибута. Конечно, в таблице данных могут быть и пустые данные, например, возраст в строке 5 пуст. Такие пробелы мы называемотсутствующие данные.
В приведенной выше таблице данных мы часто ожидаем, что доход людей в разных странах можно вывести на основе их пола и возраста, поэтому мы можем разделить приведенную выше таблицу на две таблицы:
серийный номер | нация | Пол | возраст |
---|---|---|---|
1 | Китай | мужчина | 24 |
2 | Китай | Женский | 44 |
3 | Америка | мужчина | 28 |
4 | Япония | мужчина | 34 |
5 | Китай | мужчина | - |
серийный номер | доход |
---|---|
1 | 3500 |
2 | 12500 |
3 | 25000 |
4 | 18000 |
5 | 17500 |
Мы ожидаем, что вторая таблица может быть выведена из первой таблицы.Как и выше, мы можем ссылаться на данные первой таблицы какнезависимая переменная, и данные второй таблицы становятсязависимая переменная.
На практике нам также необходимо разделить данные на две части: одна часть используется для обучения модели, а другая часть используется для проверки точности сгенерированной нами модели, чтобы мы могли разделить данные на следующие две части. части
серийный номер | нация | Пол | возраст |
---|---|---|---|
1 | Китай | мужчина | 24 |
2 | Китай | Женский | 44 |
3 | Америка | мужчина | 28 |
серийный номер | нация | Пол | возраст |
---|---|---|---|
4 | Япония | мужчина | 34 |
5 | Китай | мужчина | - |
Первую таблицу, которую мы используем для обучения модели, мы называемОбучающий набор, а вторую модель назовемтестовый набор.
После этого мы поговорим о предварительной обработке данных, которая является еще одной необходимой операцией перед машинным обучением.