Примечания к глубокому обучению (1) Введение в глубокое обучение

глубокое обучение

1. Что такое нейронная сеть?

В модели прогнозирования цен на жилье часть графика можно аппроксимировать прямой линией, но, поскольку цена не может быть отрицательной, используется «скорректированная линейная единица».ReLUReLUразмер реализации функции>->Карта цен.在这里插入图片描述 在这里插入图片描述Если есть много входных данных, похожих по размеру (таких как количество комнат, почтовый индекс, экономический уровень), то есть наложение отдельных нейронов для формирования более крупной нейронной сети.在这里插入图片描述Слева — входной слой, который мы вводим; посередине — скрытый блок, количество соединений очень велико, нейронная сеть решает, что представляет собой каждый узел; справа — выходной слой, нейронная сеть очень хороша. при вычислении точной функции отображения от x до y .

2. Контролируемое обучение

Пока что почти вся экономическая ценность, создаваемая нейронными сетями, основана на типе машинного обучения — обучении с учителем.

(1) Общие модели нейронных сетей

在这里插入图片描述

  • NN: нейронная сеть (прогноз и т. д.)
  • CNN: сверточная нейронная сеть (обработка изображений)
  • RNN: рекуррентная нейронная сеть (хорошо обрабатывает данные одномерной последовательности, включая компоненты времени)

在这里插入图片描述

(2) Структурированные и неструктурированные данные

在这里插入图片描述

  • Людям легче понимать неструктурированные данные
  • Структурированные данные легче понять машинам
  • Благодаря глубокому обучению машинам становится легче понимать неструктурированные данные.

3. Рост глубокого обучения

(1) Масштаб!

Вертикальная ось представляет влияние глубокого обучения на производительность, а горизонтальная ось представляет шкалу данных глубокого обучения.在这里插入图片描述

  • Производительность глубокого обучения повышается по мере увеличения размера данных
  • Глубокое обучение становится лучше по мере того, как нейронные сети становятся больше
  • Когда обучающая выборка мала, непонятны преимущества и недостатки тех или иных алгоритмов, в области больших данных нейронные сети устойчиво опережают другие алгоритмы.

在这里插入图片描述

(2) Три влияющих фактора

  • Данные данных
  • Вычислительная вычислительная мощность
  • Алгоритмы алгоритм

отsigmoidsigmoidфункционировать, чтобыRuLURuLUфункция:s(x)=11+ex.s(x)=\frac{1}{1+e^{-x}}. 在这里插入图片描述

Проблема с этой функцией в машинном обучении заключается в том, что наклон изображения с обеих сторон равен 0, то есть градиент равен 0, поэтому скорость обучения будет очень низкой. Измените функцию активации на модифицированную линейную единицуRuLURuLUфункция:f(x)=max(0,x).f(x)=max(0,x). 在这里插入图片描述Это приводит к более высокой скорости обучения при использовании градиентного спуска.