GeoMAN: многоуровневые сети внимания для временного прогнозирования географических датчиков

Python

Автор: Вэй Цзучан

1. Введение

В нашей реальной жизни развернуто большое количество датчиков (например, метеостанций). Каждый датчик имеет свое собственное уникальное геопространственное местоположение и непрерывно производит показания временных рядов. Набор датчиков вместе контролирует окружающую среду в пространстве, и между этими показаниями будет пространственная корреляция Мы называем показания этих датчиков какВременные ряды с учетом геолокации. Кроме того, когда один и тот же датчик отслеживает различные пространственные местоположения, обычно генерируются несколько временных рядов географического восприятия. Например, как показано на рисунке 1(а), кольцевой детектор на дороге сообщает показания проезжающих транспортных средств и их скорость во времени. На рис. 1(b) показано, что датчик выдает три различных химических индикатора качества воды каждые 5 минут. В дополнение к мониторингу растет потребность в прогнозировании временных рядов с учетом географических данных, таких как прогнозирование трафика.

image.png

Рисунок 1: (a)-(b) Примеры данных временных рядов географических датчиков

Однако прогнозирование временных рядов с учетом геолокации очень сложно, в основном на него влияют следующие два сложных фактора:

  1. Динамические пространственно-временные корреляции.
  2. внешние факторы. На показания датчика также влияет окружающая среда, такая как метеорология (например, сильный ветер), время суток (например, часы пик) и землепользование.

Для решения этих проблем в документе предлагается многоуровневая сеть Attention (GeoMAN) для прогнозирования показаний геосенсора в ближайшие несколько часов. Исследование этой статьи имеет три вклада:

  • Многоуровневый механизм вниманияМы создаем многоуровневый механизм внимания для моделирования пространственно-временных динамических ассоциаций. Особенно на первом уровне в документе предлагается инновационный механизм внимания (состоящий из локального пространственного внимания и глобального пространственного внимания) для захвата сложных пространственных связей между различными временными последовательностями датчиков (например, связей внутри датчиков). На втором уровне временное внимание применяется для моделирования динамических временных ассоциаций (таких как связи между датчиками) в разные интервалы времени во временном ряду.
  • Модуль извлечения внешних факторовЭтот модуль разрабатывает общий модуль извлечения для интеграции внешних параметров из разных доменов. Извлеченные скрытые репрезентативные факторы затем вводятся в многоуровневую сеть внимания, чтобы повысить важность этих внешних факторов.

2 Многоуровневая сеть внимания

На рис. 2 показана вся структура статьи. Следуя структуре кодера-декодера, мы используем две отдельные сети LSTM, одну для кодировщика входной последовательности (например, исторических временных рядов географических датчиков), а другую для прогнозируемой выходной последовательности. В частности, модель GeoMAN в статье в основном состоит из двух частей:

  1. Многоуровневый механизм внимания. Его кодирующая часть использует два механизма пространственного внимания, а декодер использует механизм временного внимания. Два различных механизма внимания (локальное пространственное внимание и глобальное пространственное внимание), используемые в слое кодировщика в статье, показаны на рисунке 2. Они могут использовать скрытое состояние перед кодером, исторические данные датчика и пространственную информацию (такую ​​как как сенсорная сеть) Зафиксируйте сложные взаимосвязи между внутренними частями сенсора между каждым временным интервалом. На уровне декодера временное внимание используется для автоматического выбора предыдущих подобных интервалов времени для предсказания.
  2. Извлечение внешних факторов. Этот модуль обрабатывает влияние внешних факторов и передает их на уровень декодера как часть своего ввода. Здесь мы используем ht и st для представления скрытого состояния и состояния ячейки слоя кодировщика в момент времени t соответственно. Точно так же dt и s' используются для представления двух частей уровня декодера.

framework.png

Рисунок 2: Структура статьи.Attn: attention. Local: local spatial attention. Global: global spatial attention. Concat: конкатенационный слой.\hat{y}^{i}_{t}: прогнозируемое значение в момент времени t.ct: векторы контекста во время t.h0: Начальное значение энкодера.

2.1 Spatial Attention

2.1.1 Local Spatial Attention

В этой статье впервые вводится механизм локального пространственного внимания. Для датчика существуют сложные корреляции между его локальными временными рядами. Например, станция мониторинга качества воздуха сообщает о временных рядах различных веществ, таких как PM2,5 (конкретные вещества), NO и SO2. На практике на концентрации PM2,5 часто влияют другие временные ряды, включая другие загрязнители воздуха и местные погодные условия. Чтобы решить эту проблему, учитывая k-й локальный собственный вектор i-го датчика (т.е.x_{i,k}), мы используем механизм внимания для адаптивного захвата динамической корреляции между целевой последовательностью и каждым локальным признаком, и его формула такова:

image.png

где [ ; ] — операция слияния,\mathbf{v}_l,\mathbf{b}_l \in \mathbb{R}^T, \mathbf{w}_l \in \mathbb{R}^{T \times 2m} and  \mathbf{U}_l \in \mathbb{R}^{T \times T}являются изученными параметрами. Локальные собственные значения весов внимания определяются входными локальными признаками и историческим состоянием на уровне кодировщика (т.е.h_{t-1}, s_{t-1}) определяются совместно, и это значение веса представляет важность каждого локального признака. Как только мы получили веса внимания, выходной вектор локального пространственного внимания в момент времени t можно рассчитать по следующей формуле:

image.png

2.1.2 Global Spatial Attention

Исторические временные ряды, отслеживаемые другими датчиками, окажут прямое влияние на прогнозируемые ряды. Однако веса влияний очень динамичны и меняются со временем. Поскольку будет много некоррелированных последовательностей, прямое использование всех входных временных рядов на уровне кодера для захвата корреляции между различными датчиками приведет к очень высоким вычислительным затратам и снижению производительности. Обратите внимание, что на вес этого влияния влияют локальные условия других датчиков. Например, когда ветер дует издалека, на качество воздуха в определенных районах эти места могут влиять больше, чем раньше. Вдохновленный этим, новый механизм внимания создан для захвата динамических изменений между различными датчиками. Учитывая i-й датчик в качестве объекта нашего прогноза и другие датчики в качестве l, мы можем рассчитать вес внимания (т.е. вес влияния) между ними, формула выглядит следующим образом:

image.png

в\mathbf{v}_g, \mathbf{u}_g, \mathbf{b}_g \in \mathbb{R}^{T \times 2m}, \mathbf{W}_g \in \mathbb{R}^{T \times 2m}, \mathbf{U}_g \in \mathbb{R}^{T \times T}и\mathbf{W'}_g \in \mathbb{R}^{T \times N^t}являются изученными параметрами. Механизм внимания адаптивно выбирает соответствующие датчики для предсказания, обращаясь к целевой последовательности и локальным особенностям других датчиков. В то же время, учитывая предыдущее скрытое состояние в кодировщике:\mathbf{h}_{t-1}и состояние ячейки:\mathbf{s}_{t-1}для распространения исторической информации по временным шагам.

Обратите внимание, что пространственные факторы также влияют на корреляцию между различными датчиками. Как правило, географические датчики связаны друг с другом явно или неявно. Здесь мы используем матрицу\mathbf{P} \in \mathbb{R}^{N_g \times N_g}представлять сходство в географическом пространстве, где\mathbf{P}_{i,j}представляет сходство между датчиками i и j. В отличие от весов внимания, сходство в географическом пространстве можно рассматривать как предварительное знание. В частности, если\mathbf{N}_gСлишком большой и лучше выбрать новый или аналогичный датчик. Затем мы используем функцию softmax, чтобы убедиться, что сумма всех весов внимания равна 1, принимая во внимание геопространственное сходство, чтобы получить следующую формулу:

image.png

в\lambdaявляется настраиваемым гиперпараметром. если\lambdaБольшая, эта формула сделает вес внимания таким же большим, как и геопространственное сходство. С помощью этих весов внимания мы можем рассчитать следующий выходной вектор глобального пространственного внимания:

image.png

2.2 Temporal Attention

Поскольку производительность структуры кодер-декодер быстро снижается с увеличением длины кодирования, добавление механизма временного внимания может адаптивно выбирать соответствующие скрытые состояния уровня кодера для генерации выходной последовательности, то есть для последовательности предсказания между различными временные интервалы для моделирования динамической временной корреляции между ними. В частности, для того, чтобы вычислить кодер каждого скрытого Вектор внимания в каждый момент времени выхода t' под состоянием определим:

image.png
image.png

в

image.png
и
image.png
Всему можно научиться. Эти значения нормализуются функцией softmax для создания маски внимания в скрытом состоянии слоя кодировщика.

2.3 Извлечение внешних факторов

Существует сильная связь между временными рядами и пространственными факторами (такими как POI и сети датчиков) географических датчиков. Формально эти факторы вместе определяют функцию территории. Кроме того, на показания датчиков влияет множество временных факторов (таких как погода и время). Вдохновленный похожими статьями, этот документ разрабатывает простую и эффективную конструкцию для работы с этими факторами. Как показано на Рисунке 2 выше, сначала включаются временные факторы, включая временные характеристики, метеорологические характеристики и SensorID датчика, который необходимо спрогнозировать. Поскольку погодные условия на будущие периоды неизвестны, мы используем прогнозы погоды для улучшения нашей работы. Обратите внимание, что большинство этих факторов являются категориальными значениями и не могут быть переданы непосредственно в нейронную сеть, мы передаем каждый категориальный атрибут в другой слой внедрения, чтобы преобразовать их в низкоразмерный вектор. Что касается пространственных факторов, мы используем плотность POI разных классов в качестве характеристик POI. Поскольку характеристики сенсорной сети зависят от конкретной среды, мы просто используем структурные характеристики сети (такие как количество жителей и перекрестков). Наконец, мы объединяем полученный вектор встраивания и вектор пространственных признаков в качестве выходных данных этого модуля, обозначаемых как\mathbf{ex}_{t'} \in \mathbb{R}^{N_e}t'Представляет будущий временной шаг уровня декодера.

2.4 Кодировщик-декодер и обучение модели

На уровне кодировщика мы просто суммируем локальное пространственное внимание и глобальное пространственное внимание в:

image.png
мы соединяем\tilde{\mathbf{x}}_tВ качестве нового ввода слоя кодировщика и используйте\mathbf{h}_t = f_e(\mathbf{h}_{t-1}, \tilde{\mathbf{x}}_t)обновить скрытое состояние в момент времени t, гдеf_eявляется единицей LSTM. На уровне декодера, как только мы получим будущееt'момент\mathbf{c}_{t'}вектор среды, мы можем объединить его с выходными данными модуля извлечения внешних признаков\mathbf{ex}_{t'}и последний вывод слоя декодера\hat{y}^i_{t'-1}В сочетании с обновлением скрытого состояния слоя декодера формула выглядит следующим образом:
image.png

вf_dэто модуль LSTM, используемый на уровне декодера. Затем мы помещаем предыдущий вектор среды\mathbf{c}_{t'}и теперь получить скрытое состояние\mathbf{d}_{t'}В совокупности это становится новым скрытым состоянием, позволяющим сделать следующие окончательные прогнозы:

image.png
Наконец, мы используем линейное преобразование для получения окончательного результата. Поскольку этот метод является гладким, это модель, которую можно обучить с помощью алгоритма обратного распространения. На этом этапе обучения мы используем оптимизатор Адама, чтобы минимизировать вектор предсказания датчика i.\hat{\mathbf{y}}^iи фактическое измеренное значение\mathbf{y}^iMSE между для обучения этой модели:
image.png
в\thetaвсе изучены в предлагаемой модели.

3 эксперимента

3.1 Экспериментальные данные

В этой статье для обучения модели используются два набора данных, и детали наборов данных показаны на рисунке 3:

image.png

Рисунок 3: Подробная информация о наборе данных.

Однако из-за того, что полные данные не раскрываются, мы будем использовать предоставленный им образец_данных позже, который является вектором, полученным после обработки, поэтому эта часть не будет подробно представлена.Если у вас есть какие-либо вопросы или интерес к этой части, вы можете сами обратиться к соответствующей части статьи.

3.2 Показатели оценки

Мы оцениваем наши модели, используя несколько критериев, включая среднеквадратичную ошибку (RMSE) и среднюю абсолютную ошибку (MAE), которые широко используются в задачах регрессии.

3.3 Гиперпараметры

В свете некоторых предыдущих исследований в документе установлен временной интервал в 6 дней для краткосрочного прогнозирования. Во время обучения мы устанавливаем размер партии 256 и скорость обучения 0,001. В модуле автоматического извлечения внешних признаков бумага встраивает SensorID в\mathbb{R}^6, временные особенности встроены в\mathbb{R}^{10}середина. Всего в этой модели 4 гиперпараметра, среди которых параметр компромисса\lambdaЭмпирически он устанавливается между 0,1 и 0,5. Для длины окна T положим T ∈ {6, 12, 24, 36, 48}. Для простоты мы используем скрытые слои одинаковой размерности в слоях кодировщика и декодера и выполняем поиск по сетке на {32, 64, 128, 256}. Кроме того, мы используем сложенные LSTM (количество слоев, обозначенное как q) в качестве блока кодировщика и декодера для повышения нашей производительности. Эксперимент показал, что при установке q=2, m=n=64,\lambda= 0,2 лучше всего работает на проверочном наборе.

4 Сравнение моделей

В этом разделе мы сравниваем модель статьи с двумя наборами данных. Справедливости ради наилучшая производительность каждого метода при различных настройках параметров представлена ​​на рисунке 4.

image.png

Рисунок 4: Сравнение производительности разных моделей

С точки зрения прогнозирования качества воды, предлагаемый нами метод значительно превосходит другие методы по обоим показателям. В частности, GeoMAN превосходит современный метод (DA-RNN) на 14,2% и 13,5% по MAE и RMSE соответственно. С другой стороны, поскольку концентрация остаточного хлора (ОХ) подчиняется определенному периодическому закону, методы stDNN и RNN (т. е. Seq2seq, DA-RNN и GeoMAN) дают лучшие результаты, чем stMTMVL и FFA, за счет более длительного временного соотношения производительности. GeoMAN и Seq2seq приносят значительные улучшения благодаря активной роли компонента декодера по сравнению с прогнозами LSTM для будущих временных шагов. Примечательно, что GBRT превосходит большинство базовых показателей, что свидетельствует о превосходстве ансамблевого подхода.

По сравнению с относительно стабильными показателями качества воды концентрация PM2,5 сильно колеблется, что затрудняет прогнозирование. Рисунок 4 представляет собой всестороннее сравнение данных о качестве воздуха в Пекине. Легко видеть, что наша модель обеспечивает наилучшую производительность как для MAE, так и для RMSE. Следуя предыдущей работе, посвященной MAE, мы в основном обсуждаем этот показатель. Метод статьи на 7,2-63,5% ниже, чем эти методы, что указывает на лучшую производительность обобщения в других приложениях. Еще одно интересное наблюдение заключается в том, что stMTMVL хорошо работает для прогнозирования качества воды, но имеет в этом отношении недостаток, поскольку количество совместных задач обучения для прогнозирования качества воздуха намного больше, чем количество совместных задач обучения для прогнозирования качества воды.

5 Резюме

В этой статье предлагается сеть прогнозирования временных рядов, основанная на многоуровневом внимании. На первом уровне применяются локальные и глобальные механизмы пространственного внимания для захвата динамических межсенсорных ассоциаций в геоориентированных данных. На втором уровне документ использует временное внимание для адаптивного выбора соответствующих временных шагов для прогнозирования. Кроме того, модель статьи учитывает влияние внешних факторов и использует модуль выделения общих признаков. В этой статье модель бумаги оценивается на наборах данных двух типов географических датчиков.Экспериментальные результаты показывают, что модель бумаги и другие 9 моделей одновременно достигают наилучших результатов в RMSE и MAE.

адрес проекта:Тихо потяните Can /workspace/5…

6 ссылок

о нас

Mo(URL:https://momodel.cn) поддерживает PythonПлатформа онлайн-моделирования искусственного интеллекта, который помогает быстро разрабатывать, обучать и развертывать модели.


Клуб искусственного интеллекта МоЭто клуб, созданный группой по исследованиям, разработкам и дизайну продуктов веб-сайта и посвященный снижению порога разработки и использования искусственного интеллекта. Команда имеет опыт обработки и анализа больших данных, визуализации и моделирования данных, реализовывала многодисциплинарные интеллектуальные проекты и обладает полным спектром возможностей проектирования и разработки от начала до конца. Основными направлениями исследований являются анализ управления большими данными и технологии искусственного интеллекта, и их использование для продвижения научных исследований, основанных на данных.

В настоящее время клуб каждые две недели проводит оффлайн обмен документами и академические обмены в Ханчжоу. Я надеюсь собрать друзей из всех слоев общества, которые интересуются искусственным интеллектом, продолжать общаться и расти вместе, а также способствовать демократизации и популяризации искусственного интеллекта.

image.png