Зачем изучать глубокое обучение?
языковая модель
Посмотрите на вероятность!n-gram
Посмотрите на него построчно, например, в первой строке за i следует количество вхождений i, а за i следует количество вхождений хочу.В приведенной выше таблице указано, сколько раз за словом следует слово, а в приведенной ниже таблице указана вероятность того, что за словом следует слово. N представляет размер ожидаемой библиотеки.Маленькое n обычно равно 2 или 3 при моделировании или 4. Если оно больше, модель будет слишком большой.
слово вектор
Проблема быстрого построения векторов слов здесь? Но вне зависимости от того, высока ценность построенной вещи или нет, она есть не что иное, как отображение слова. В этом случае теряется связь между словами и словами, предложениями и предложениями. Нам нужно не только сгенерировать векторы слов, но и найти смысл между словами. Так называемое значение заключается в том, что оно не может быть таким простым, как однократное кодирование, и между словами должно быть потенциальное значение.Как преобразовать слово в вектор? (слово2вектор)Векторы слов должны иметь слой потенциального значения.Подобные слова расположены близко друг к другу, и преобразованные векторы слов также должны быть близки друг к другу. Такой смысл должен быть показан в нашем языковом пространстве. Компьютеры должны понимать значение слов, которые выражают сходные значения, например, сегодняшняя дешевая еда и сегодняшняя дешевая еда.Когда они оба относятся к дешевой еде, компьютер должен выразить это в векторном пространстве. Поэтому синонимы очень важны. Справа слово векторное пространство, выраженное на испанском языке. Модели, построенные этими двумя языками, похожи, почему? Потому что построенный нами вектор слов привязан не к языку, а только к логической среде семантики. Нас не волнует природа (размер) слова, нас интересует общая логика контекста слова.
модель нейронной сети
Какова связь между векторной моделью слов и моделью нейронной сети?
В Projection Layer (слое проекции) векторы входных слов склеиваются между собой, а их векторы объединяются и обрабатываются как единое целое. Согласно статистической модели, бегающие по комнате кошки значительно отличаются от бегающих по комнате собак. Бегущая в комнате кошка и бегущая в комнате собака воспринимаются нейронной сетью как животные, бегающие в комнате, поэтому вероятность появления одного предложения увеличивается, и соответственно увеличивается вероятность появления другого предложения. Это важная особенность модели нейронной сети. Вот почему мы используем нейронную сеть для решения, потому что в модели языка нейронной сети мы можем получить приблизительное значение между словами, и модель пространственного языка, которую она решает, также соответствует нашему реальному закону.Иерархический софтмакс (иерархический софтмакс)
Две схемы реализации нейросети:
Модель слева предсказывает, что наше текущее слово основано на слове контекста. Входные данные для модели справа — это текущее слово для предсказания контекста.CBOW
Сделать вероятность появления текущего слова как можно выше.Дерево Хавермана
вес * размер шагаМы можем представить вес дерева Хаффмана как частоту слов в словах, намерение состоит в том, чтобы сказать, что слова, которые чаще всего используются в нашей жизни, находятся выше в дереве Хаффмана. Иерархический софтмакс в дереве означает, что решение выносится иерархически, так что самые важные слова находятся впереди. Процесс построения дерева Хаффмана.
Мы также можем использовать дерево Хаффмана для кодирования.Если я хочу знать, какая кодировка соответствует слову, я могу использовать кодировку 0 (левое поддерево) и 1 (правое поддерево) в дереве Хаффмана.
Две точки, которые могут использоваться деревьями Хаффмана: кратчайший взвешенный путь и кодирование Хаффмана.
Затем судить, идет ли дерево Хаффмана в левое или правое поддерево? Нам нужно использовать Hierarchical Softmax для суждения. Для такой бинарной классификации мы обычно используем логистическую регрессию. Softmax — это мультиклассовая логистическая регрессия! !
Пример модели CBOW
Сначала посмотрите, как добраться до футбола, вам нужно снова и снова судить, идти ли налево или идти направо.Подсчет результата футбола представляет собой кумулятивный процесс, который эквивалентен первому * второму * третьему * четвертому.
Цель решения CBOW
Цель решения: какой контекст (w) максимизирует p (вероятность).Решение для градиентного подъема
Чтобы найти максимальное значение, используйте метод градиентного подъема.
Также требуется производная от X, потому что X также очень сильно повлияет на результат. Первый член формулы - это вектор слов для каждого слова.Negative Sampling (отрицательная выборка), как правило, с использованием этого метода моделирования (простой)
Когда тезаурус особенно велик, что делать со словарными узлами в середине или в конце дерева Хаффмана, вычислительная сложность по-прежнему очень высока.
1: Представляет, что предсказанный результат соответствует моему слову, 0: Представляет, что он не соответствует.Прогнозируемые результаты имеют положительные и отрицательные примеры. Чем больше частота слова, тем легче его случайным образом выбрать.Дерево Хаффмана — старая практика, и теперь для помощи в классификации используется отрицательная выборка. NEG представляет собой пространство отрицательных образцов. 1 - Вероятность не принадлежности к слову, результат - вероятность принадлежности к слову. v(w) — это конечный векторный результат слова, которое я хочу.