Численные вычисления в глубоком обучении

глубокое обучение
  • Эта статья была впервые опубликована из публичного аккаунта:RAIS

предисловие

Эта серия статей является«Глубокое обучение»Читая заметки, вы можете обратиться к оригинальной книге, чтобы читать вместе, эффект лучше.

Численные расчеты

Алгоритмы машинного обучения требуют большого количества численных расчетов, и эти расчеты включают в себя некоторые итерационные процессы подгонки.В этом процессе расчета из-за ограничений компьютера он не может быть полностью точно представлен, поэтому всегда есть ошибка, и небольшая ошибка является итеративной.Увеличение количества раз или наложение нескольких ошибок может даже сделать алгоритм непригодным для использования и систему неэффективной.

перелив и недолив

  • Потеря значимости: потеря значимости происходит, когда число, близкое к нулю, округляется до нуля, когда существующая точность не может представить такое маленькое число.
  • Переполнение: когда существующая точность не может представить такое большое число, а число слишком велико, чтобы его можно было аппроксимировать бесконечным, возникает переполнение.

Решение: функция softmax, также известная какнормированная экспоненциальная функция, является обобщением логистической функции, которая отображает любой K-мерный вектор действительных чисел в другое K-мерное пространство, так что каждый элемент находится между (0, 1). здесьНормализованныйКак упоминалось ранее в прогнозе цен на жильестандартизацияЭто не концепция (нормализация выполняет некоторое нелинейное преобразование данных, чтобы заставить их подчиняться определенному распределению, нормализация масштабирует диапазон значений и линейное преобразование, которое не меняет распределение данных).

softmax(x)_i=\frac{e^{x_i}}{\sum_{j=1}^ne^{x_j}}

плохое кондиционирование

Я не думаю, что перевод этого слова точен, но всем нравится называть его так, поэтому давайте сначала назовем его так. Вообще говоря, это понятие направлено на системы уравнений или матрицы, Малые возмущения вызывают огромные изменения в решениях уравнений, Такие уравнения называются плохо обусловленными уравнениями, а матрица, составленная из их коэффициентов, называется плохо обусловленной матрицей.

Существует также понятие, называемоеномер условия: степень изменения функции по отношению к небольшим изменениям входных данных, которую можно понимать как чувствительность. Метод расчета заключается в нахождении отношения максимального и минимального собственных значений матрицы.

\max_{i,j}=|\frac{\lambda_i}{\lambda_j}|

Градиентные методы оптимизации

Эту концепцию необходимо понять в несколько этапов. Для алгоритмов глубокого обучения часто определяются многие функции.Для конкретных задач нам часто нужно сделать значения функций некоторых функций как можно меньше или больше.Чтобы найти максимальные и экстремальные значения, мы часто находим вывод (для несколько переменных, вывод здесь включает частные производные и производные по направлению), а также рассчитываются градиенты.градиентный спускОтносится к методу перемещения на небольшое расстояние в направлении, противоположном градиенту, для уменьшения значения функции. Существуют также такие понятия, как минимальное значение, максимальное значение, критическая точка, максимальное значение и минимальное значение, которые здесь повторяться не будут.

Матрица Якоби (Якобиан)

В векторном анализе матрица Якоби — это матрица, в которой частные производные первого порядка расположены определенным образом, и ее значение состоит в том, чтобы отражать оптимальное линейное приближение дифференцируемого уравнения к заданной точке.

J_{i,j}=\frac{\partial}{\partial x_j}f(x)_i

Матрица Гессе

Когда функция имеет многомерный вход, существует множество двумерных производных, которые объединяются в матрицу, которая является матрицей Гессе, эквивалентной матрице Якоби градиента.

H(f)(x)_{i,j}=\frac{\partial^2}{\partial x_i\partial x_j}f(x)=H(f)(x)_{j,i}

Вторая производная точки различна в каждом направлении, число условий Гессиана измеряет диапазон изменения этих производных второго порядка, когда число условий Гессе становится плохим, градиентный спуск также работает плохо, существуетметод Ньютона, мы используем матрицу Гессе, чтобы направлять поиск для решения вышеуказанной проблемы.

  • Тест производной второго порядка: производная первого порядка равна 0, а производная второго порядка больше нуля является точкой минимума, производная первого порядка равна 0, а производная второго порядка меньше ноль является максимальным значением.
  • Алгоритм оптимизации, использующий только информацию о градиенте, называетсяалгоритм оптимизации первого порядка, алгоритм оптимизации с использованием матрицы Гессе называетсяАлгоритмы оптимизации второго порядка.

Суммировать

Содержание этой части включает в себя много вещей.Содержание книги также включает в себя некоторые выводы и пояснения.Если вышеизложенное не очень понятно,прочитайте пожалуйста оригинал книги,мне это будет не понятно.

На этом содержание этой книги, связанное с прикладной математикой, заканчивается. Вы хотите сдаться?

  • Эта статья была впервые опубликована из публичного аккаунта:RAIS