Как внедрить знания в модель машинного обучения, чтобы улучшить способность к обобщению?

машинное обучение искусственный интеллект

Аннотация: В последние годы модели машинного обучения, управляемые данными, стали предлагать альтернативные подходы и превосходить чисто физические модели во многих задачах.

Эта статья опубликована в сообществе HUAWEI CLOUD.«Как внедрить знания в модель машинного обучения, чтобы улучшить способность к обобщению? 》, Автор: PG13.

Физические модели лежат в основе современных технологий и науки. В последние годы модели машинного обучения, основанные на данных, стали предлагать альтернативные подходы и во многих задачах превосходят чисто физические модели. Однако для обучения модели, управляемой данными, требуется большой объем данных, и их вывод может быть трудно интерпретировать, а производительность обобщения остается проблемой. Одновременное объединение данных и физики дает лучшее из обоих миров, когда алгоритмы машинного обучения обучаются, они фактически ищут решения в пространстве гипотез, определяемом выбранным вами алгоритмом, архитектурой и конфигурацией. Даже для простых алгоритмов пространство гипотез может быть довольно большим, и данные — наш единственный путеводитель по поиску решений в этом огромном пространстве. А что, если бы мы могли использовать наши знания о мире (например, физику) вместе с данными, чтобы направлять поиск пространства решений?

Как использовать физику для управления алгоритмами машинного обучения

Как использовать физику для управления моделями машинного обучения, можно подытожить двумя основными способами: (1) использовать теорию физики для расчета дополнительных функций (конструирование функций), которые вводятся в модель вместе с измеренными значениями для обучения; ( 2) добавить к функции потерь член штрафа за несоответствие физики, чтобы наказывать прогнозы, несовместимые с физикой.

Первый метод, проектирование признаков, широко используется в области машинного обучения. Хотя второй подход очень похож на добавление регуляризатора для наказания за переоснащение, он добавляет к функции потерь штраф за физическое несоответствие. Следовательно, при оптимизации параметров алгоритм оптимизации также должен минимизировать физически противоречивые результаты.

В статье [1] Карпатне и др. сочетают эти два подхода с нейронной сетью и демонстрируют алгоритм, который они называют физически управляемой нейронной сетью (PGNN). PGNN может обеспечить два основных преимущества:

  • Достижение обобщения является фундаментальной задачей машинного обучения. Поскольку большинство физических моделей не зависят от данных, они могут хорошо работать с потенциально невидимыми данными, даже если данные поступают из другого источника.

  • Модели машинного обучения также иногда называют моделями черного ящика, потому что не всегда ясно, как модель принимает то или иное решение. **Объяснимый ИИ (XAI)** Предстоит проделать большую работу, чтобы улучшить интерпретируемость модели. И PGNN могут стать основой для XAI, потому что они могут представлять физически непротиворечивые и интерпретируемые результаты.

Пример применения: моделирование температуры озера

В работе [1] моделирование температуры озера используется в качестве примера для демонстрации эффективности PGNN. Хорошо известно, что температура воды контролирует рост, выживание и размножение биологических видов, обитающих в озерах. Поэтому точные наблюдения и прогнозы температуры имеют решающее значение для понимания изменений, происходящих в сообществах. Задача статьи состоит в том, чтобы разработать модель, которая может прогнозировать температуру воды в озере на основе заданной глубины и времени.

Теперь давайте посмотрим, как они применяют (1) разработку признаков и (2) модификацию функции потерь для решения этой проблемы. Для разработки функций они предлагают модель под названием GLM для создания новых функций и передачи их в нейронную сеть. Это основанная на физике модель, которая фиксирует процессы, управляющие динамикой температуры озера (нагрев за счет солнца, испарение и т. д.). Так как же определить это физическое несоответствие? Известно, что более плотная вода тонет глубже, и известна физическая зависимость между температурой воды и ее плотностью. Поэтому наша модель должна следовать тому факту, что чем глубже точка, тем выше плотность предсказания. Если для двух точек модель предсказывает более высокую плотность для точки, расположенной ближе к озеру, это физически противоречивый прогноз.

После приведенного выше анализа теперь можно включить эту идею в нашу функцию потерь. Если ρA > ρB, то есть предсказание не соответствует физической непротиворечивости, нам нужно наказать, в противном случае штрафа нет. Этого легко добиться, добавив к функции потерь значение функции max( ρA - ρB, 0). Функция даст положительное значение, если ρA > ρB (т. е. физически несовместимо), что увеличит значение функции потерь, в противном случае нулевое, оставив функцию потерь неизменной.

На этом этапе нам также нужно внести две модификации в функцию: (1) Нам нужно рассмотреть физическую несогласованность всех пар точек, а не только одной пары. Следовательно, значения max( ρA - ρB, 0) для всех пар точек можно усреднить. (2) Кроме того, очень важно свести к минимуму вес наказания за физическое несоответствие. Это можно сделать, умножив средний член физического несоответствия на гиперпараметр (аналогичный параметру регуляризации). Как показано в следующей формуле:

Сравниваются результаты четырех моделей, а именно:

  • PHY: Общая модель озера (GLM)

  • NN: нейронная сеть

  • PGNN0: Нейронная сеть с разработкой признаков, результаты модели GLM передаются в нейронную сеть в качестве дополнительных признаков.

  • PGNN: нейронная сеть с инженерными функциями и модифицированной функцией потерь.

и два показателя оценки:

RMSE: среднеквадратическая ошибка

Оценка физического несоответствия: процент прогнозов модели, которые не соответствуют результатам физического несоответствия.

Сравнивая NN с PHY, мы можем сделать вывод, что NN обеспечивает более точные прогнозы за счет физически противоречивых результатов. Сравнивая PGNN0 и PGNN, мы видим, что физическое несоответствие устраняется путем модификации функции потерь. Повышение точности прогнозирования в основном связано с разработкой признаков и некоторым вкладом функции потерь.

Взятые вместе, эти предварительные результаты показывают нам, что PGNN очень перспективны для получения относительно точных и физически согласованных результатов. Кроме того, мы улучшаем эффективность обобщения моделей машинного обучения, преобразуя знания физики в функцию потерь. Эта обманчиво простая идея может радикально улучшить то, как мы проводим машинное обучение и научные исследования.

использованная литература

[1]Physics-guided Neural Networks(PGNN): An Application in Lake TemperatureModeling.

[2]Theory-guided Data Science: A New Paradigm for Scientific Discovery from Data.

Нажмите «Подписаться», чтобы впервые узнать о новых технологиях HUAWEI CLOUD~