1. Что такое нейронная сеть?
В модели прогнозирования цен на жилье часть графика можно аппроксимировать прямой линией, но, поскольку цена не может быть отрицательной, используется «скорректированная линейная единица».размер реализации функцииКарта цен.
Если есть много входных данных, похожих по размеру (таких как количество комнат, почтовый индекс, экономический уровень), то есть наложение отдельных нейронов для формирования более крупной нейронной сети.
Слева — входной слой, который мы вводим; посередине — скрытый блок, количество соединений очень велико, нейронная сеть решает, что представляет собой каждый узел; справа — выходной слой, нейронная сеть очень хороша. при вычислении точной функции отображения от x до y .
2. Контролируемое обучение
Пока что почти вся экономическая ценность, создаваемая нейронными сетями, основана на типе машинного обучения — обучении с учителем.
(1) Общие модели нейронных сетей
- NN: нейронная сеть (прогноз и т. д.)
- CNN: сверточная нейронная сеть (обработка изображений)
- RNN: рекуррентная нейронная сеть (хорошо обрабатывает данные одномерной последовательности, включая компоненты времени)
(2) Структурированные и неструктурированные данные
- Людям легче понимать неструктурированные данные
- Структурированные данные легче понять машинам
- Благодаря глубокому обучению машинам становится легче понимать неструктурированные данные.
3. Рост глубокого обучения
(1) Масштаб!
Вертикальная ось представляет влияние глубокого обучения на производительность, а горизонтальная ось представляет шкалу данных глубокого обучения.
- Производительность глубокого обучения повышается по мере увеличения размера данных
- Глубокое обучение становится лучше по мере того, как нейронные сети становятся больше
- Когда обучающая выборка мала, непонятны преимущества и недостатки тех или иных алгоритмов, в области больших данных нейронные сети устойчиво опережают другие алгоритмы.
(2) Три влияющих фактора
- Данные данных
- Вычислительная вычислительная мощность
- Алгоритмы алгоритм
отфункционировать, чтобыфункция:
Проблема с этой функцией в машинном обучении заключается в том, что наклон изображения с обеих сторон равен 0, то есть градиент равен 0, поэтому скорость обучения будет очень низкой.
Измените функцию активации на модифицированную линейную единицуфункция:
Это приводит к более высокой скорости обучения при использовании градиентного спуска.