Для новичков в глубоком обучении терминология глубокого обучения может быть очень сложной для понимания. Этот глоссарий глубокого обучения содержит некоторые общие термины глубокого обучения, которые помогут читателям получить представление о конкретных темах.
Граница между глубоким обучением и «общими» терминами машинного обучения очень размыта. Я пытался сохранить этот словарь для глубокого обучения, но может быть небольшое совпадение. Например, я не включаю сюда «перекрестную проверку», потому что это общий метод, который использует все возможности машинного обучения. Однако я решил включить такие термины, как SoftMax или Word2Vec, поскольку они часто ассоциируются с глубоким обучением, хотя и не являются методами глубокого обучения.
Activation Function
Чтобы нейронные сети могли обрабатывать сложные нейроны человеческого мозга с точки зрения обработки информации, мы применяем к этому уровню нелинейные функции активации. Сигнал поступает от одного нейрона, проходит через нелинейную функцию активации и передается на следующий слой нейронов, и цикл повторяется до выходного слоя. Обычно используемые функции включают сигмовидную функцию, функцию TANH, функцию RELU и варианты этих функций.
Алгоритм АдаДельта
Алгоритм AdaDelta предназначен в основном для устранения дефектов в алгоритме AdaGrad. Прежде чем вводить Adadelta, вам необходимо понять Adagrad. Характеристика Adadelta заключается в том, что на ранней стадии снижения градиент относительно мал, а скорость обучения будет относительно большой в это время, а на средних и поздних стадиях он близок к самой низкой точке. точка. Adadelta является расширением Adagrad, Исходная схема по-прежнему имеет адаптивные ограничения на скорость обучения, но расчет упрощен. Adagrad будет накапливать все предыдущие квадраты градиента, в то время как Adadelta накапливает только элементы фиксированного размера и не хранит эти элементы напрямую, а только аппроксимирует соответствующее среднее значение.
Алгоритм Адаграда
Adagrad — это адаптивный алгоритм скорости обучения, который отслеживает квадрат градиента с течением времени и автоматически регулирует скорость обучения для каждого параметра. Он может заменить обычный SGD и особенно полезен для разреженных данных, где он присваивает более высокие скорости обучения параметрам, которые не обновляются часто.
Adam
Adam — это адаптивный алгоритм скорости обучения, аналогичный RMSprop, но его функциональные возможности включают поправку на смещение в дополнение к использованию оценок скользящего среднего для первого и второго моментов градиента.
RMSprop, Adadelta, Adam во многих случаях похожи. Адам добавляет коррекцию смещения и импульс к RMSprop.Поскольку градиент становится разреженным, Адам будет работать лучше, чем RMSprop.
В целом, Адам - лучший выбор.
Affine Layer
Аффинный слой — это полностью связанный слой в нейронной сети. Аффинность означает, что каждый нейрон предыдущего слоя связан с каждым нейроном текущего слоя. Во многом это «стандартный» слой нейронной сети. Аффинный слой обычно добавляется к выходным данным сверточной или рекуррентной нейронной сети перед тем, как сделать окончательный прогноз. Аффинные слои обычно имеют вид y=f(w x+b), где x — входные данные слоя, w — параметр, b — вектор смещения, а f — нелинейная функция активации.
Attention Mechanism
Механизмы внимания основаны на зрительном внимании человека, т. е. на функциях, которые сосредоточены на обработке определенных частей изображения. Механизм (механизм), используемый для улучшения эффекта модели кодировщик + декодер на основе RNN (LSTM или GRU), обычно называется механизмом внимания. Механизмы внимания могут быть включены как в архитектуру обработки речи, так и в архитектуру распознавания изображений, предоставляя возможности распознавания информации, помогающие понять, на чем «сосредоточиться» при прогнозировании.
Alexnet
AlexNet, разработанный победителем конкурса ImageNet 2012 года Хинтоном и его учеником Алексом Крижевским, назван в честь первого автора Алекса Крижевского. Alexnet — это название архитектуры сверточной нейронной сети, которая возродила интерес к распознаванию изображений CNN. alexNet представляет собой 8-уровневую глубокую сеть, включая 5 сверточных слоев и 3 полносвязных уровня, за исключением уровней LRN и слоев пула.
Для классификации моделей Alexnet и сверточных нейронных сетей см.www.atyun.com/37216.htmlпонять.
Autoencoder
Еще одним важным компонентом глубокого обучения является AutoEncoder: данные функций сжимаются, а затем распаковываются. Нейронная сеть проводит сквозное обучение на большом количестве наборов данных, чтобы постоянно повышать свою точность, в то время как AutoEncoder делает ввод и вывод все ближе и ближе, разрабатывая процессы кодирования и декодирования, что представляет собой неконтролируемый процесс обучения.
Average-Pooling
Операция объединения — это базовая операция, которая часто используется в сверточных нейронных сетях.Как правило, операция объединения следует за сверточным слоем, но в последние годы все основные модели алгоритмов классификации в ImageNet используют максимальное объединение, среднее — объединение. редко используется. Вообще говоря, максимальное объединение работает лучше. Хотя и максимальное объединение, и среднее объединение уменьшают выборку данных, максимальное объединение больше похоже на выбор признаков. Выбираются признаки с лучшей классификацией и идентификацией, и обеспечивается нелинейность. Согласно соответствующей теории, ошибка выделения признаков в основном возникает из-за двух аспектов: (1) дисперсия оценочного значения увеличивается из-за ограниченного размера окрестности; (2) объемные ошибки в параметрах построения вызывают сдвиг в расчетное среднее. Вообще говоря, средний пул может уменьшить первую ошибку и сохранить больше фоновой информации об изображении, в то время как максимальный пул может уменьшить вторую ошибку и сохранить больше информации о текстуре. Пул усреднения подчеркивает уровень понижения дискретизации общей информации об объектах и вносит больший вклад в уменьшение размерности параметра.
Backpropagation
Обратное распространение Обратное распространение — это алгоритм, эффективно вычисляющий градиенты в нейронных сетях, который обычно понимается как график расчета с прямой связью и правило связывания составных функций. Это сводится к применению дифференциального цепного правила, начиная с выходных данных сети, а затем обратно распространяя градиенты. Первое использование обратного распространения восходит к Wapnik в 1960-х годах, но в качестве источника часто цитируются обучающие представления для ошибок обратного распространения.
Backpropagation Through Time (BPTT)
Алгоритм обратного распространения был впервые предложен в 1970-х годах, но он не был полностью понят до 1986 года, когда Дэвид Румелхарт, Джеффри Хинтон и Рональд Уильямс опубликовали известную статью (Обучение представлений с помощью ошибок обратного распространения) о важности этого алгоритма. . Обратное распространение во времени (PAPER) — это алгоритм обратного распространения, применяемый к рекуррентным нейронным сетям (RNN). BPTT можно рассматривать как стандартный алгоритм обратного распространения, применяемый к RNN, где каждый временной шаг представляет собой уровень, а параметры являются общими для всех уровней. Поскольку RNN имеют одни и те же параметры на всех временных шагах, ошибки на одном временном шаге должны распространяться обратно «во времени» на все предыдущие временные шаги, отсюда и название. При работе с длинными последовательностями (сотни входных данных) часто используется усеченная версия BPTT для снижения вычислительных затрат. Усеченный BPTT останавливает обратное распространение ошибок после фиксированного количества шагов.
Я обновлю его здесь сегодня, и в будущем будет больше лексики, я буду потихоньку объяснять это партнерам-единомышленникам.