абстрагироваться от математических задач
Выявление проблемы — первый шаг в машинном обучении. Процесс обучения машинному обучению обычно занимает очень много времени, а временные затраты на случайные попытки очень велики. Абстракция здесь представляет собой математическую задачу, а это означает, что мы уточняем, какие данные мы можем получить, является ли целью задача классификации, регрессии или кластеризации, если нет, классифицируется ли она как задача определенного типа.
получить данные
Данные устанавливают верхнюю границу результатов машинного обучения, а алгоритмы просто пытаются максимально приблизить эту верхнюю границу. Данные должны быть репрезентативными, иначе они неизбежно будут переобуваться. Более того, для задач классификации перекос данных не должен быть слишком сильным, а количество данных в разных категориях не должно иметь разрыв в несколько порядков. Кроме того, есть также оценка величины данных, сколько выборок и сколько признаков, можно оценить степень потребления памяти и судить, можно ли использовать память в процессе обучения. Если вы не можете оторваться от него, вам следует подумать об улучшении алгоритма или использовании некоторых методов уменьшения размерности. Если объем данных слишком велик, необходимо считать их распределенными.
Предварительная обработка признаков и выбор признаков
Хорошие данные должны быть в состоянии извлечь хорошие функции, чтобы быть действительно эффективными. Предварительная обработка признаков и очистка данных являются важными шагами, которые часто могут значительно улучшить эффект и производительность алгоритма. Нормализация, дискретизация, факторизация, обработка пропущенных значений, удаление коллинеарности и т. д., на них тратится много времени в процессе интеллектуального анализа данных. Эти задачи просты и воспроизводимы, а выгоды стабильны и предсказуемы — это основные и необходимые шаги машинного обучения. Отсеивание существенных функций и отбрасывание второстепенных требует от инженеров по машинному обучению многократного понимания бизнеса. Это оказало решающее влияние на многие результаты. При правильном выборе функций очень простые алгоритмы могут давать хорошие и стабильные результаты. Это требует использования соответствующих методов анализа достоверности признаков, таких как коэффициент корреляции, критерий хи-квадрат, средняя взаимная информация, условная энтропия, апостериорная вероятность, веса логистической регрессии и другие методы.
Обучите модель и настройте ее
До этого шага для обучения используется упомянутый выше алгоритм. Многие алгоритмы теперь можно упаковать в «черные ящики» для использования людьми. Но настоящим испытанием является корректировка (гипер)параметров этих алгоритмов, чтобы улучшить результаты. Это требует от нас глубокого понимания принципов алгоритма. Чем глубже понимание, тем лучше вы сможете найти суть проблемы и предложить хороший план настройки.
Диагностика модели
Как определиться с направлением и идеями тюнинга модели? Для этого необходимы методы диагностики моделей. Переобучение и недообучение Суждение — важный шаг в диагностике модели. Общие методы, такие как перекрестная проверка, построение кривых обучения и т. д. Основная идея оптимизации переобучения заключается в увеличении объема данных и уменьшении сложности модели. Основная идея настройки недообучения состоит в том, чтобы увеличить количество и качество функций и повысить сложность модели. Анализ ошибок также является важным шагом в машинном обучении. Наблюдая выборки ошибок, комплексно анализируйте причины ошибок: проблема ли это параметров или выбора алгоритма, проблема ли это характеристик или проблема самих данных... Модель после диагностики нуждается в настройке, а новая модель после настройки нуждается в повторной диагностике Это процесс итеративной и непрерывной аппроксимации, который требует непрерывных попыток достижения оптимального состояния.
слияние моделей
Вообще говоря, после слияния моделей эффект может быть в определенной степени улучшен. И это прекрасно работает. В инженерии основным методом повышения точности алгоритма является работа над передней частью модели (очистка признаков и предварительная обработка, различные режимы выборки) и задней частью (слияние моделей). Поскольку они относительно стандартны и воспроизводимы, эффект относительно стабилен. Однако работы по непосредственной настройке параметров не так много, ведь обучение на большом количестве данных происходит слишком медленно, и гарантировать эффект сложно.
Бег онлайн
Эта часть содержания в основном связана с реализацией проекта. Инжиниринг ориентирован на результат, и эффект модели, работающей в режиме онлайн, напрямую определяет успех или неудачу модели. Он включает не только его точность, ошибку и т. д., но также скорость выполнения (временная сложность), потребление ресурсов (пространственная сложность) и приемлемость стабильности. Эти рабочие процессы в основном представляют собой некоторый опыт, обобщенный в инженерной практике. Не каждый проект содержит завершенный процесс. Эта часть является лишь ориентировочным описанием.Только когда вы будете больше практиковаться и накапливать больше проектного опыта, вы сможете глубже понять себя.