Введение в функции стоимости
функция стоимости(Cost Function), также обычно именуемыйфункция потерь(Loss Function). Этот тип функции является наиболее важным типом функциональной модели в машинном обучении и даже во всей дисциплине науки о данных, Он интуитивно представляет степень соответствия данных перед нами. Цель машинного обучения — минимизировать ошибку, то есть минимизировать функцию стоимости. Процесс обучения модели - это процесс оптимизации функции стоимости.Частная производная функции стоимости по каждому параметру представляет собой градиент, упомянутый в градиентном спуске.После функции стоимости также добавляется член регуляризации, добавленный для предотвращения переобучения. Поэтому я чувствую необходимость потратить некоторое время на обсуждение этого.
Сначала мы даем простое определение функции стоимости, функции стоимости: предположим, что есть выборочные данные, функциональная модель
, параметр
. для подгонки кривой
Выражать. Функция стоимости немного абстрактна и теоретически может отражать функцию подгонки.
с истинной стоимостью
Функцию разности можно использовать в качестве функции стоимости. Обычно функция стоимости записывается как
, но мы обычно усредняем, пишем
. Функция затрат – это
Функцию , это легко понять, потому что мы знаем, что для данного алгоритма ожидание ошибки должно быть определенным, но изменение параметров подгоночной функции повлияет на ошибку. Алгоритм находится в процессе поиска оптимальных параметров, которые мы записываем как:
Несколько общих функций стоимости
Средняя абсолютная ошибка (функция ошибки L1):средняя абсолютная ошибка (MAE) на самом деле похож на стандартное отклонение в статистике, и его конкретная формула выглядит следующим образом:
Его изображения:
Его изображения:
Его изображения:
Функция потерь Хьюбера преодолевает недостатки MAE и MSE. Она может не только поддерживать непрерывную производную функции потерь, но также использовать характеристику уменьшения градиента MSE с ошибкой для получения более точного минимального значения. более устойчивы к выбросам. Хорошая производительность функции потерь Хубера достигается за счет тщательно обученных гиперпараметров..
Логарифмическая функция потерь Коша:Функция потерь Log-Cush является более гладкой функцией потерь, чем L2, и использует гиперболический косинус для вычисления ошибки прогнозирования:
Его изображения:
Но логарифмическая потеря не идеальна, она по-прежнему имеет большую ошибку в градиенте иhessianстановится константой. Функция стоимости CrossEntropy CrossEntropy:Мы подробно рассмотрели понятие кросс-энтропии ранее, Кросс-энтропия обычно используется как функция стоимости в задачах классификации, особенно в логистической регрессии, и больше используется в нейронных сетях.
Небольшое сравнение:
Потеря средней квадратичной ошибки (MSE) намного больше, чем средняя абсолютная ошибка (MAE), когда ошибка больше, она будет придавать больший вес выбросам, и модель будет стараться изо всех сил уменьшить ошибку, вызванную выбросы, так что общая модель модели будет уменьшена Производительность снизилась.
Таким образом, когда обучающие данные содержат больше выбросов, средняя абсолютная ошибка (MAE) более эффективна. Когда мы обрабатываем все наблюдения, если мы оптимизируем с помощью MSE, мы получаем среднее значение всех наблюдений, а с помощью MAE мы получаем медиану всех наблюдений. По сравнению со средним значением медиана более устойчива к выбросам, что означает, что средняя абсолютная ошибка более устойчива к выбросам, чем среднеквадратическая ошибка.
Но у MAE тоже есть проблема, особенно для нейросети, ее градиент будет иметь большой скачок в крайней точке, и даже небольшое значение потерь вызовет большую ошибку, что очень неблагоприятно для процесса обучения. Для решения этой задачи скорость обучения необходимо динамически снижать в процессе решения экстремальных точек. MSE имеет хорошие характеристики в крайней точке, а также может сходиться даже при фиксированной скорости обучения. Градиент MSE уменьшается по мере уменьшения функции потерь, что делает его более точным в финальном процессе обучения.
Конечно, есть много стоимостных функций, таких как квантильные потери и т. д., мы не будем описывать их здесь по отдельности, и заинтересованные читатели могут разобраться сами. В следующей главе мы более подробно рассмотрим, как минимизировать нашу функцию стоимости с помощью градиентов.
Reference
5 Regression Loss Functions All Machine Learners Should Know MachineLearning CostFunction
Мои самородки:WarrenRyan
Моя краткая книга:WarrenRyan
Добро пожаловать в мой блог, чтобы получить первое обновлениеblog.tity.online
Мой гитхаб:StevenEco