Концепция распределенного представления лежит в основе глубокого обучения, особенно когда оно используется для задач на естественном языке. Те, кто плохо знаком с этой областью, могут быстро понять ее просто как вектор, представляющий некоторые данные. Хотя это верно, понимание распределенных представлений на более концептуальном уровне улучшает наше понимание эффективности глубокого обучения.
Чтобы изучить различные типы представлений, мы можем выполнить простое упражнение на мышление. Предположим, у нас есть целая куча «ячеек памяти» для хранения информации о фигурах. Мы можем выбрать представление каждой отдельной формы одной ячейкой памяти, как показано на рисунке 1.
图1. 稀疏或叫本地化的非分布式的形状的表示。图片由Garrett Hoffman提供
Это нераспределенное представление, называемое «разреженным» или «локальным», во многих отношениях неэффективно. Во-первых, по мере увеличения количества наблюдаемых нами форм размерность представления будет увеличиваться. Более того, он не дает никакой информации о том, как эти формы соотносятся друг с другом. И именно в этом заключается реальная ценность распределенного представления: его способность обнаруживать «семантическое сходство» между данными посредством понятий.
图2 对形状的分布式表示。图片由Garrett Hoffman提供
На рис. 2 показано распределенное представление того же набора фигур. Он представляет информацию о форме в нескольких «ячейках памяти», связанных с концепциями ориентации и формы. «Ячейки памяти» содержат информацию о каждой фигуре и о том, как фигуры соотносятся друг с другом. Когда новая форма представлена распределенным представлением (например, кругом на рис. 3), мы больше не увеличиваем размерность. И хотя мы никогда раньше не видели круга, мы знаем кое-что о круге, потому что он связан с другими формами.
图3. 一个圆的分布式表示。这种表示法更有用,因为它为我们提供了有关这种新形状与其他形状如何相关的信息。图片由Garrett Hoffman提供
Приведенный выше пример формы слишком упрощен, но его можно рассматривать как введение в высокоуровневые абстракции для распределенных представлений. Обратите внимание, что в приведенном выше примере распределенного представления фигур мы использовали четыре концепции или функции (вертикаль, горизонталь, прямоугольник, эллипс) для его представления. В этом случае мы должны заранее знать, каковы эти важные и характерные черты. Но во многих случаях это трудно или невозможно сделать. Из-за этого разработка признаков стала настолько важной в классических методах машинного обучения. Поиск хорошего представления данных имеет решающее значение для успеха таких задач, как классификация или кластеризация. Одной из причин большого успеха глубокого обучения является способность нейронных сетей изучать обширные представления распределенных данных.
Чтобы проверить это, мы вернемся кПроблема, с которой мы имеем дело в учебнике LSTM--использоватьStockTwitsсообщения в социальных сетях для прогнозирования настроений на фондовом рынке. В этом руководстве мы создадим многоуровневый LSTM для прогнозирования тональности сообщений из необработанного текста. При обработке данных сообщения мы создаем таблицу сопоставления для записи отношения термина к целочисленному индексу.
Отображение слов в целые числа — это нераспределенное разреженное представление наших данных. Например, слову buy соответствует значение индекса 25, а слову long соответствует индекс 68. Следует отметить, что этот метод эквивалентен «горячему кодированию» длины vocab_size (1 в индексе представляет слово, а все остальные позиции равны 0), векторное представление эквивалентно. Эти два обозначения независимы друг от друга, хотя семантически схожи. Между двумя словами в двух методах нет информации о взаимосвязи, и слова в обоих методах представлены только как позиции в сопоставлении.
Канонический подход к изучению распределенных представлений слов таков:Модель Word2Vec. Архитектура модели пропуска грамм Word2Vec показана на рисунке 4. Он принимает одно слово в качестве входных данных, передает его в один линейный скрытый слой, уникальный для этого слова, и использует слой активации softmax для прогнозирования других слов, которые появляются в контекстном окне вокруг него.
图4. 单词的分布式表示。图片来自谷歌的“Distributed Representations of Words and Phrases and their Compositionality”一文,并许可使用
Модель Word2Vec использует философию Дж. Р. Ферта: «Вы можете понять слово по его контексту». эта философияМожет быть легко реализован в TensorFlow. Изучая веса скрытого слоя (как нашего распределенного представления), слова, которые появляются в подобных контекстах, будут иметь аналогичные представления. Word2Vec — это модель, специально разработанная для изучения распределенных представлений слов из их контекста, также известных как «встраивания слов». Эти вложения обычно предварительно обучаются с помощью Word2Vec для получения этих вложений, которые затем используются в качестве входных данных для моделей для других языковых задач.
В качестве альтернативы, распределенное представление может быть изучено сквозным способом как часть процесса обучения модели для конкретной задачи. Это то, что мыМодель настроения фондового рынка LSTMВложения слов, изученные в . Вспомните архитектуру этой модели LSTM (см. рис. 5), где мы передаем разреженное представление слова на слой внедрения.
图5. 展开具有嵌入层的单层LSTM网络。图片由Udacity提供,并获许可使用
Обученное этой парадигмой распределенное представление будет специально изучать представления для вещей, имеющих отношение к задаче. В нашем случае распределенное представление должно специально изучать семантический контекст вокруг слов настроения. Мы можем проверить это, извлекая вложения слов и рассмотрев несколько примеров.
мыиспользуя tSNEвизуализировать взаимосвязь между несколькими медвежье-бычьими парами (см. рис. 6). Можно заметить концепции настроений, выраженные слева направо между парами слов, такие как медвежий-бычий, завышенный-недооцененный, короткий-короткий-длинный) Подождите.
图6. 可视化词嵌入。展示了我们的分布式表示所捕获的情感概念的语义关系。图片由Garrett Hoffman提供
Эти представления несовершенны. В идеале мы хотели бы видеть пары слов более выровненными по вертикали, и у нас также есть пары слов с перевернутыми тональностями. Тем не менее, приведенные выше результаты показали себя достаточно хорошо при ограниченном обучении. Эта способность нашей модели изучать распределенные представления является основной причиной, по которой она способна достичь высокой точности в прогнозировании настроений.
Способность нейронных сетей изучать распределенные представления данных — одна из основных причин, по которой глубокое обучение может быть очень эффективным для многих различных типов задач. Сила и красота этой концепции делают репрезентативное обучение одной из самых захватывающих и активных областей исследований глубокого обучения. Методы изучения общих представлений в нескольких предметных областях (например, слова и изображения, слова на разных языках) способствуют развитию субтитров к изображениям и машинного перевода. Мы можем быть уверены, что лучшее понимание этих представлений будет оставаться основным фактором в развитии ИИ.
эта статьяО'РейлииTensorFlowСотрудничество. Пожалуйста, ознакомьтесь с нашим заявлением о редакционной независимости.