Что такое рекуррентная нейронная сеть RNN?
При распознавании изображений каждое входное изображение изолировано, и распознавание того, что это изображение — яблоко, не повлияет на распознавание того, что следующее изображение — груша.
Но для языка очень важен порядок, [я ем яблоки] и [яблоко съедает меня], изменение порядка слов выражает совершенно разные значения, а также порядок дает определенную информацию, например [есть] сзади, большая Вероятность это существительное, обозначающее еду.
Чтобы зафиксировать эту связь данных, люди нашли RNN, сеть, которая придает большое значение информации о последовательности, которая является контекстом данных.
Основой RNN по-прежнему является нейронная сеть, за исключением того, что у нее есть небольшой блок для записи состояния сети при вводе данных.Когда данные вводятся в следующий раз, сеть должна учитывать информацию, хранящуюся в маленьком блоке. Вводимая, хранимая информация также постоянно обновляется, а информация в поле называется скрытым состоянием.
Как и в примерах, приведенных в начале, наиболее распространенной областью RNN является обработка естественного языка.Машинный перевод заключается в поиске выражения одной и той же смысловой последовательности на разных языках.Генерация стихов основана на теме и выводит логическую последовательность слов в соответствии определенным правилам. , изменение типа данных на обоих концах, ввод изображений и вывод предложений, то есть просмотр изображений и разговор, речь также может рассматриваться как последовательность, состоящая из звуковых сигналов в хронологическом порядке, распознавание речи и генерация речи также в пределах возможностей RNN, и цены на акции также могут рассматриваться как последовательность, зависящая от времени, многие количественные торговые модели построены на основе этого восприятия.
Однако у RNN все еще есть недостатки, которые нельзя игнорировать.Чем раньше вводятся данные, тем меньшее влияние они занимают в скрытом состоянии.То есть, если предложение очень длинное, RNN забудет, что было сказано в начале , поэтому существует улучшенная версия RNN, модель долговременной и кратковременной памяти LSTM.
Что такое сеть с долговременной кратковременной памятью LSTM?
У RNN есть определенная способность памяти. К сожалению, он может сохранять только кратковременную память и плохо справляется с различными задачами. Что мне делать?
Люди обращают внимание на самих себя. Человеческая память имеет компромиссы. Мы не будем помнить все, что происходит каждое мгновение. Мы выберем сохранить [важное] и отбросить [неважное]. Механизм памяти, люди переделали маленькую коробочку и нашли механизм из "двери".
Дверь — это небольшой переключатель, используемый для определения того, как сохраняется информация.Его значение находится в диапазоне от 0 до 1. 1 — полностью зарезервировано, а 0 — полностью отброшено. информация в маленьком ящике.Как много исходной информации должно быть сохранено, то есть, какие неважные воспоминания должны быть потеряны, входные ворота определяют, сколько текущей сетевой информации должно быть сохранено в маленьком ящике, то есть, какие новые вещи будут запомнены , а выходные ворота определяют, сколько выводить маленькое поле Информация в модифицированном маленьком поле может не только понимать текущее состояние сети через входные ворота, но также использовать ворота забывания, чтобы оставить важную информацию в прошлом. это LSTM, модель долговременной и кратковременной памяти.
Изменяя структуру маленького ящика, LSTM имеет много вариантов, таких как MGU, SRU, но наиболее популярным является вентилируемый рекуррентный блок GRU.GRU имеет только два вентиля.Гейт обновления представляет собой комбинацию входного вентиля и вентиля забывания. , Какая старая информация отбрасывается, какая новая информация добавляется, а ворота сброса определяют, сколько состояния сети в последний момент записывается для захвата кратковременной памяти Структура более лаконична, расчет более эффективен, и эффект сопоставим с LSTM.GRU становится все более популярным.
Что такое Трансформер?
Какую модель лучше использовать при решении задач машинного перевода? RNN — хороший выбор. Порядок слов влияет на смысл предложений. Он очень удобен для фиксации отношений последовательности. Однако для перевода количество слов между предложениями не является однозначным соответствием. Из-за структуры , только RNN Может достичь N в N, 1 в N или N в 1, что является головной болью для этой проблемы N в M (?почему?)
Итак, что нам делать? Люди нашли Seq2Seq, модель с кодировщиком и декодером. Кодировщик и декодер по-прежнему являются сетями RNN, но на этот раз смысл исходного предложения извлекается сначала кодировщиком, а затем декодером. преобразуется в соответствующий язык.Опираясь на [посредника] смысла, Seq2Seq успешно решает ситуацию, когда количество слов на обоих концах не равно.
Снова появилась новая проблема.Информация, которую может хранить смысловая единица, ограничена.Если предложение слишком длинное, точность перевода снизится, поэтому люди находят Внимание, механизм внимания, на базовой структуре Seq2Seq, генерируют каждый Когда генерируется слово, он сознательно извлекает наиболее важную информацию для создания слова из исходного предложения и успешно преодолевает ограничение длины входной последовательности.
Следующая проблема заключается в том, что этот метод расчета слишком медленный. RNN должен читать слова в предложении одно за другим, чтобы получить результат. Поскольку внимание настолько просто в использовании, люди также обнаружили само-внимание, механизм само-внимания. , сначала извлеките значение каждого слова, а затем необходимая информация выбирается в соответствии с порядком генерации.Эта структура не только поддерживает параллельные вычисления, но и более эффективна, а также очень близка к человеческому методу перевода, и эффект это так хорошо.
На данный момент модель отделилась от оригинальной RNN и стала структурой с кодировщиком и декодером, полностью основанной на механизме внутреннего внимания.Это Трансформер, а не просто машинный перевод, Трансформер охватила область обработки естественного языка.