[Технический блог] Объяснение извлечения знаний путем количественной оценки знаний

искусственный интеллект

[Технический блог] Объяснение дистилляции знаний путем количественной оценки знаний

Введение в дистилляцию знаний

Дистилляция знаний была впервые предложена Буликой в ​​2006 году. В 2014 году Хинтон обобщил и развил дистилляцию знаний. Основная идея дистилляции знаний состоит в том, чтобы обучить модель небольшой сети имитировать предварительно обученную большую сеть или ансамблевую сеть. Хинтон предложил концепцию «температуры softmax» в статье, опубликованной в 2015 году, и улучшил функцию softmax:

Когда T равно 1, это стандартный параметр softmax.Первый имеет такое преимущество перед вторым: распределение softmax исходной модели после обучения содержит определенные знания, а реальная метка может только сказать нам, что образец изображения автомобиль BMW, а не мусоровоз и не редиска, а функция softmax с температурным параметром T может сказать нам, что это, скорее всего, BMW, реже мусоровоз, но вряд ли редиска.

Хинтон и др. провели три серии экспериментов, чтобы в целом проверить эффективность метода дистилляции знаний. Хинтон и др. способствовали развитию дистилляции знаний и проверили эффективность дистилляции знаний с экспериментальной точки зрения, в то время как статья, представленная в этой статье, предлагает некоторые концепции количественных знаний для объяснения успешного механизма дистилляции знаний.

Чтобы объяснить успешный механизм дистилляции знаний, в этой статье предлагаются три гипотезы, и в соответствии с критериями количественного определения, основанными на визуализации, предлагаются три типа метрик для проверки трех гипотез о дистилляции знаний, что обеспечивает основу для объяснения знаний. дистилляция в соответствии с.

Гипотеза выдвинута

Гипотеза 1: дистилляция знаний позволяет DNN изучать больше визуальных концепций. Мы отличаем визуальные концепции, связанные с задачей, от других концепций, как показано на рисунке ниже: визуальные концепции на переднем плане обычно считаются связанными с задачей, тогда как визуальные концепции на заднем плане считаются независимыми от задачи.

Предположение 2: дистилляция знаний гарантирует, что DNN легко изучать различные визуальные концепции одновременно. Напротив, базовая сеть имеет тенденцию изучать визуальные концепции последовательно, то есть изучать разные концепции в разные эпохи.

Допущение 3: направление оптимизации модели извлечения знаний более стабильно. Когда DNN учится на необработанных данных, она обычно пытается смоделировать различные визуальные концепции на ранней стадии, а затем отбрасывает некоторые визуальные концепции на более позднем этапе; в процессе дистилляции знаний сеть учителей напрямую направляет сеть учеников на конкретные визуальные образы. концепции, без видимого обхода.

В исследовании статьи визуальный концепт определяется как область изображения, такая как часть предмета: крылья, голова, когти и т.д. Базовая сеть определяется как сеть, которая учится на необработанных данных.

图片1.png

алгоритм

В этом разделе мы даем предварительно обученную сеть DNN (сеть учителя) и другую сеть DNN (сеть учеников), сформированную путем дистилляции.Чтобы объяснить дистилляцию знаний, мы объединяем сеть учеников с обучением на необработанных данных для создания DNN. Кроме того, мы ограничить задачу задачей классификации, чтобы упростить последующий теоретический анализ.

Для проверки гипотезы 1 определено несколько показателей:

здесьисоответственно представляют количество визуальных понятий на заднем плане и количество визуальных понятий на переднем плане.Метод различения визуальных понятий здесь исходит из теории информации,Представляет среднюю энтропию фона, и мы обычно распознаем пиксели на фоне как независимые от задачи визуальные понятия. Поэтому мы можем положитьв качестве базовой линии для энтропии всего изображения. Значение энтропии значительно ниже, чемПлощадь изображения можно рассматривать как допустимую визуальную концепцию, а b — положительную скалярную величину. Возвращает 1, если условие в скобках выполнено, иначе возвращает 0.

图1.png(Изображение выше является визуальным представлением визуальных понятий, второй столбец представляет значение энтропии каждого пикселя для разных изображений, а в третьем столбце области с низкими значениями энтропии рассматриваются как визуальные понятия)

Со статистической точки зрения визуальные понятия на переднем плане обычно связаны с задачей, в то время как визуальные понятия на заднем плане в основном не зависят от задачи, поэтому, когда DNN обладает более сильной способностью различения,параметры будут выше.

Для проверки гипотезы 2 мы предлагаем две метрики. Дан набор обучающих изображений, запишем количество зрительных понятий на переднем плане, полученных после каждой эпохи, какмы определяемУказывает эпоху с наиболее наглядными понятиями, «весовая дистанция».для измерения процесса обучения, когда визуальные концепции наиболее многочисленны. Причина использования весового расстояния вместо номера эпохи заключается в том, что последний лучше количественно определяет общий путь обновления параметров после каждой эпохи, поэтому мы используем среднееи среднеквадратичное отклонениеЧтобы количественно определить, одновременно ли DNN изучает визуальные понятия:

Средняя стоимостьи стандартное отклонениесоответственно указать, может ли DNN быстро изучать визуальные концепции и может ли она изучать различные визуальные концепции одновременно, поэтомуиМеньшее значение означает, что DNN может быстро и одновременно изучать различные визуальные концепции.

图片2.png

(DNN, как правило, изучают различные визуальные концепции на ранней стадии, а затем отбрасывают в основном концепции, не относящиеся к задаче)

Чтобы проверить гипотезу 3, которая заключается в необходимости количественной оценки стабильности направления оптимизации DNN, здесь предлагается новая метрика. Определим множество зрительных понятий, получаемых в каждую эпоху, как. Отсюда мы можем определить устойчивость направления оптимизации как:

В этой формуле числитель представляет окончательную выбранную визуальную концепцию, как показано в черном поле на рисунке ниже, а знаменатель представляет объединение выбранных визуальных концепций в каждую эпоху, как показано в зеленом поле на рисунке ниже.

图片3.png

большойЗначение представляет собой то, что визуальные концепции, выбранные в каждую эпоху, находятся в конечном результате, что указывает на то, что оптимизированная DNN имеет меньше обходных путей, что означает, что оптимизация стабильна.

Экспериментальная проверка

с помощью упомянутого вышеи другим параметрам, авторы и другие специалисты обучили эти сети DNN на основе набора данных ILSVRC-2013 DET, набора данных CUB200-2011 и набора данных Pascal VOC 2012. Для всестороннего сравнения AlexNet, VGG-11, VGG-16, VGG- Для опытов использовались 19., ResNet-50, ResNet-101, ResNet-152. Принимая каждую DNN за учительскую сеть, мы извлекаем знания из учительской сети в студенческую сеть, которая имеет ту же архитектуру, что и учительская сеть, для справедливого сравнения. При этом базовая сеть должна иметь ту же архитектуру, что и учительская сеть.

图2.png

(Визуализация визуальных понятий на уровне FC1 в VGG-11, видно, что у студенческой сети большеи меньше)

图片4.png

Студенческая сеть (S) по сравнению с базовой сетью (B),,Соответственно, чем больше значение и меньше, тем лучше. Судя по данным таблицы, студенческая сеть имеет большую, и чем меньше, что непосредственно подтверждает гипотезы 1-3.

в заключении

В этой статье объясняется успех дистилляции знаний с точки зрения количественной оценки знаний в DNN. Предлагаются три типа метрик для проверки трех гипотез в сценариях классификации, то есть дистилляция знаний может гарантировать, что DNN узнает больше понятий, релевантных для задачи, и меньше понятий, не относящихся к задаче, по сравнению с обучением из необработанных данных, имеет более высокую скорость обучения и является оптимизирован с меньшим количеством обходов.

использованная литература

[1]Hinton G, Vinyals O, Dean J. Distilling the knowledge in a neural network[J]. arXiv preprint arXiv:1503.02531, 2015. [2]Cheng X , Rao Z , Chen Y , et al. Explaining Knowledge Distillation by Quantifying the Knowledge[J]. 2020.