1. Что такое нейронная сеть?

В модели прогнозирования цен на жилье часть графика можно аппроксимировать прямой линией, но, поскольку цена не может быть отрицательной, используется «скорректированная линейная единица». $ReLU$ размер реализации функции $->$ Карта цен. 在这里插入图片描述 Если есть много входных данных, похожих по размеру (таких как количество комнат, почтовый индекс, экономический уровень), то есть наложение отдельных нейронов для формирования более крупной нейронной сети. 在这里插入图片描述 Слева — входной слой, который мы вводим; посередине — скрытый блок, количество соединений очень велико, нейронная сеть решает, что представляет собой каждый узел; справа — выходной слой, нейронная сеть очень хороша. при вычислении точной функции отображения от x до y .

2. Контролируемое обучение

Пока что почти вся экономическая ценность, создаваемая нейронными сетями, основана на типе машинного обучения — обучении с учителем.

(1) Общие модели нейронных сетей

在这里插入图片描述

NN: нейронная сеть (прогноз и т. д.)
CNN: сверточная нейронная сеть (обработка изображений)
RNN: рекуррентная нейронная сеть (хорошо обрабатывает данные одномерной последовательности, включая компоненты времени)

在这里插入图片描述

(2) Структурированные и неструктурированные данные

在这里插入图片描述

Людям легче понимать неструктурированные данные
Структурированные данные легче понять машинам
Благодаря глубокому обучению машинам становится легче понимать неструктурированные данные.

3. Рост глубокого обучения

(1) Масштаб!

Вертикальная ось представляет влияние глубокого обучения на производительность, а горизонтальная ось представляет шкалу данных глубокого обучения. 在这里插入图片描述

Производительность глубокого обучения повышается по мере увеличения размера данных
Глубокое обучение становится лучше по мере того, как нейронные сети становятся больше
Когда обучающая выборка мала, непонятны преимущества и недостатки тех или иных алгоритмов, в области больших данных нейронные сети устойчиво опережают другие алгоритмы.

在这里插入图片描述

(2) Три влияющих фактора

Данные данных
Вычислительная вычислительная мощность
Алгоритмы алгоритм

от $sigmoid$ функционировать, чтобы $RuLU$ функция: $s(x)=\frac{1}{1+e^{-x}}.$ 在这里插入图片描述

Проблема с этой функцией в машинном обучении заключается в том, что наклон изображения с обеих сторон равен 0, то есть градиент равен 0, поэтому скорость обучения будет очень низкой. Измените функцию активации на модифицированную линейную единицу $RuLU$ функция: $f(x)=max(0,x).$ 在这里插入图片描述 Это приводит к более высокой скорости обучения при использовании градиентного спуска.