Как внедрить знания в модель машинного обучения, чтобы улучшить способность к обобщению?

Аннотация: В последние годы модели машинного обучения, управляемые данными, стали предлагать альтернативные подходы и превосходить чисто физические модели во многих задачах.

Эта статья опубликована в сообществе HUAWEI CLOUD.«Как внедрить знания в модель машинного обучения, чтобы улучшить способность к обобщению? 》, Автор: PG13.

Физические модели лежат в основе современных технологий и науки. В последние годы модели машинного обучения, основанные на данных, стали предлагать альтернативные подходы и во многих задачах превосходят чисто физические модели. Однако для обучения модели, управляемой данными, требуется большой объем данных, и их вывод может быть трудно интерпретировать, а производительность обобщения остается проблемой. Одновременное объединение данных и физики дает лучшее из обоих миров, когда алгоритмы машинного обучения обучаются, они фактически ищут решения в пространстве гипотез, определяемом выбранным вами алгоритмом, архитектурой и конфигурацией. Даже для простых алгоритмов пространство гипотез может быть довольно большим, и данные — наш единственный путеводитель по поиску решений в этом огромном пространстве. А что, если бы мы могли использовать наши знания о мире (например, физику) вместе с данными, чтобы направлять поиск пространства решений?

Как использовать физику для управления алгоритмами машинного обучения

Как использовать физику для управления моделями машинного обучения, можно подытожить двумя основными способами: (1) использовать теорию физики для расчета дополнительных функций (конструирование функций), которые вводятся в модель вместе с измеренными значениями для обучения; ( 2) добавить к функции потерь член штрафа за несоответствие физики, чтобы наказывать прогнозы, несовместимые с физикой.

Первый метод, проектирование признаков, широко используется в области машинного обучения. Хотя второй подход очень похож на добавление регуляризатора для наказания за переоснащение, он добавляет к функции потерь штраф за физическое несоответствие. Следовательно, при оптимизации параметров алгоритм оптимизации также должен минимизировать физически противоречивые результаты.

В статье [1] Карпатне и др. сочетают эти два подхода с нейронной сетью и демонстрируют алгоритм, который они называют физически управляемой нейронной сетью (PGNN). PGNN может обеспечить два основных преимущества:

Достижение обобщения является фундаментальной задачей машинного обучения. Поскольку большинство физических моделей не зависят от данных, они могут хорошо работать с потенциально невидимыми данными, даже если данные поступают из другого источника.
Модели машинного обучения также иногда называют моделями черного ящика, потому что не всегда ясно, как модель принимает то или иное решение. **Объяснимый ИИ (XAI)** Предстоит проделать большую работу, чтобы улучшить интерпретируемость модели. И PGNN могут стать основой для XAI, потому что они могут представлять физически непротиворечивые и интерпретируемые результаты.

Пример применения: моделирование температуры озера

В работе [1] моделирование температуры озера используется в качестве примера для демонстрации эффективности PGNN. Хорошо известно, что температура воды контролирует рост, выживание и размножение биологических видов, обитающих в озерах. Поэтому точные наблюдения и прогнозы температуры имеют решающее значение для понимания изменений, происходящих в сообществах. Задача статьи состоит в том, чтобы разработать модель, которая может прогнозировать температуру воды в озере на основе заданной глубины и времени.

Теперь давайте посмотрим, как они применяют (1) разработку признаков и (2) модификацию функции потерь для решения этой проблемы. Для разработки функций они предлагают модель под названием GLM для создания новых функций и передачи их в нейронную сеть. Это основанная на физике модель, которая фиксирует процессы, управляющие динамикой температуры озера (нагрев за счет солнца, испарение и т. д.). Так как же определить это физическое несоответствие? Известно, что более плотная вода тонет глубже, и известна физическая зависимость между температурой воды и ее плотностью. Поэтому наша модель должна следовать тому факту, что чем глубже точка, тем выше плотность предсказания. Если для двух точек модель предсказывает более высокую плотность для точки, расположенной ближе к озеру, это физически противоречивый прогноз.

После приведенного выше анализа теперь можно включить эту идею в нашу функцию потерь. Если ρA > ρB, то есть предсказание не соответствует физической непротиворечивости, нам нужно наказать, в противном случае штрафа нет. Этого легко добиться, добавив к функции потерь значение функции max( ρA - ρB, 0). Функция даст положительное значение, если ρA > ρB (т. е. физически несовместимо), что увеличит значение функции потерь, в противном случае нулевое, оставив функцию потерь неизменной.

На этом этапе нам также нужно внести две модификации в функцию: (1) Нам нужно рассмотреть физическую несогласованность всех пар точек, а не только одной пары. Следовательно, значения max( ρA - ρB, 0) для всех пар точек можно усреднить. (2) Кроме того, очень важно свести к минимуму вес наказания за физическое несоответствие. Это можно сделать, умножив средний член физического несоответствия на гиперпараметр (аналогичный параметру регуляризации). Как показано в следующей формуле:

Сравниваются результаты четырех моделей, а именно:

PHY: Общая модель озера (GLM)
NN: нейронная сеть
PGNN0: Нейронная сеть с разработкой признаков, результаты модели GLM передаются в нейронную сеть в качестве дополнительных признаков.
PGNN: нейронная сеть с инженерными функциями и модифицированной функцией потерь.

и два показателя оценки:

RMSE: среднеквадратическая ошибка

Оценка физического несоответствия: процент прогнозов модели, которые не соответствуют результатам физического несоответствия.

Сравнивая NN с PHY, мы можем сделать вывод, что NN обеспечивает более точные прогнозы за счет физически противоречивых результатов. Сравнивая PGNN0 и PGNN, мы видим, что физическое несоответствие устраняется путем модификации функции потерь. Повышение точности прогнозирования в основном связано с разработкой признаков и некоторым вкладом функции потерь.

Взятые вместе, эти предварительные результаты показывают нам, что PGNN очень перспективны для получения относительно точных и физически согласованных результатов. Кроме того, мы улучшаем эффективность обобщения моделей машинного обучения, преобразуя знания физики в функцию потерь. Эта обманчиво простая идея может радикально улучшить то, как мы проводим машинное обучение и научные исследования.

использованная литература

[1]Physics-guided Neural Networks(PGNN): An Application in Lake TemperatureModeling.

[2]Theory-guided Data Science: A New Paradigm for Scientific Discovery from Data.

Нажмите «Подписаться», чтобы впервые узнать о новых технологиях HUAWEI CLOUD~