[Технический блог] Объяснение дистилляции знаний путем количественной оценки знаний
Введение в дистилляцию знаний
Дистилляция знаний была впервые предложена Буликой в 2006 году. В 2014 году Хинтон обобщил и развил дистилляцию знаний. Основная идея дистилляции знаний состоит в том, чтобы обучить модель небольшой сети имитировать предварительно обученную большую сеть или ансамблевую сеть. Хинтон предложил концепцию «температуры softmax» в статье, опубликованной в 2015 году, и улучшил функцию softmax:
Когда T равно 1, это стандартный параметр softmax.Первый имеет такое преимущество перед вторым: распределение softmax исходной модели после обучения содержит определенные знания, а реальная метка может только сказать нам, что образец изображения автомобиль BMW, а не мусоровоз и не редиска, а функция softmax с температурным параметром T может сказать нам, что это, скорее всего, BMW, реже мусоровоз, но вряд ли редиска.
Хинтон и др. провели три серии экспериментов, чтобы в целом проверить эффективность метода дистилляции знаний. Хинтон и др. способствовали развитию дистилляции знаний и проверили эффективность дистилляции знаний с экспериментальной точки зрения, в то время как статья, представленная в этой статье, предлагает некоторые концепции количественных знаний для объяснения успешного механизма дистилляции знаний.
Чтобы объяснить успешный механизм дистилляции знаний, в этой статье предлагаются три гипотезы, и в соответствии с критериями количественного определения, основанными на визуализации, предлагаются три типа метрик для проверки трех гипотез о дистилляции знаний, что обеспечивает основу для объяснения знаний. дистилляция в соответствии с.
Гипотеза выдвинута
Гипотеза 1: дистилляция знаний позволяет DNN изучать больше визуальных концепций. Мы отличаем визуальные концепции, связанные с задачей, от других концепций, как показано на рисунке ниже: визуальные концепции на переднем плане обычно считаются связанными с задачей, тогда как визуальные концепции на заднем плане считаются независимыми от задачи.
Предположение 2: дистилляция знаний гарантирует, что DNN легко изучать различные визуальные концепции одновременно. Напротив, базовая сеть имеет тенденцию изучать визуальные концепции последовательно, то есть изучать разные концепции в разные эпохи.
Допущение 3: направление оптимизации модели извлечения знаний более стабильно. Когда DNN учится на необработанных данных, она обычно пытается смоделировать различные визуальные концепции на ранней стадии, а затем отбрасывает некоторые визуальные концепции на более позднем этапе; в процессе дистилляции знаний сеть учителей напрямую направляет сеть учеников на конкретные визуальные образы. концепции, без видимого обхода.
В исследовании статьи визуальный концепт определяется как область изображения, такая как часть предмета: крылья, голова, когти и т.д. Базовая сеть определяется как сеть, которая учится на необработанных данных.
алгоритм
В этом разделе мы даем предварительно обученную сеть DNN (сеть учителя) и другую сеть DNN (сеть учеников), сформированную путем дистилляции.Чтобы объяснить дистилляцию знаний, мы объединяем сеть учеников с обучением на необработанных данных для создания DNN. Кроме того, мы ограничить задачу задачей классификации, чтобы упростить последующий теоретический анализ.
Для проверки гипотезы 1 определено несколько показателей:
здесьи
соответственно представляют количество визуальных понятий на заднем плане и количество визуальных понятий на переднем плане.Метод различения визуальных понятий здесь исходит из теории информации,
Представляет среднюю энтропию фона, и мы обычно распознаем пиксели на фоне как независимые от задачи визуальные понятия. Поэтому мы можем положить
в качестве базовой линии для энтропии всего изображения. Значение энтропии значительно ниже, чем
Площадь изображения можно рассматривать как допустимую визуальную концепцию, а b — положительную скалярную величину. Возвращает 1, если условие в скобках выполнено, иначе возвращает 0.
(Изображение выше является визуальным представлением визуальных понятий, второй столбец представляет значение энтропии каждого пикселя для разных изображений, а в третьем столбце области с низкими значениями энтропии рассматриваются как визуальные понятия)
Со статистической точки зрения визуальные понятия на переднем плане обычно связаны с задачей, в то время как визуальные понятия на заднем плане в основном не зависят от задачи, поэтому, когда DNN обладает более сильной способностью различения,параметры будут выше.
Для проверки гипотезы 2 мы предлагаем две метрики. Дан набор обучающих изображений, запишем количество зрительных понятий на переднем плане, полученных после каждой эпохи, как
мы определяем
Указывает эпоху с наиболее наглядными понятиями, «весовая дистанция».
для измерения процесса обучения, когда визуальные концепции наиболее многочисленны. Причина использования весового расстояния вместо номера эпохи заключается в том, что последний лучше количественно определяет общий путь обновления параметров после каждой эпохи, поэтому мы используем среднее
и
среднеквадратичное отклонение
Чтобы количественно определить, одновременно ли DNN изучает визуальные понятия:
Средняя стоимостьи стандартное отклонение
соответственно указать, может ли DNN быстро изучать визуальные концепции и может ли она изучать различные визуальные концепции одновременно, поэтому
и
Меньшее значение означает, что DNN может быстро и одновременно изучать различные визуальные концепции.
(DNN, как правило, изучают различные визуальные концепции на ранней стадии, а затем отбрасывают в основном концепции, не относящиеся к задаче)
Чтобы проверить гипотезу 3, которая заключается в необходимости количественной оценки стабильности направления оптимизации DNN, здесь предлагается новая метрика. Определим множество зрительных понятий, получаемых в каждую эпоху, как. Отсюда мы можем определить устойчивость направления оптимизации как:
В этой формуле числитель представляет окончательную выбранную визуальную концепцию, как показано в черном поле на рисунке ниже, а знаменатель представляет объединение выбранных визуальных концепций в каждую эпоху, как показано в зеленом поле на рисунке ниже.
большойЗначение представляет собой то, что визуальные концепции, выбранные в каждую эпоху, находятся в конечном результате, что указывает на то, что оптимизированная DNN имеет меньше обходных путей, что означает, что оптимизация стабильна.
Экспериментальная проверка
с помощью упомянутого вышеи другим параметрам, авторы и другие специалисты обучили эти сети DNN на основе набора данных ILSVRC-2013 DET, набора данных CUB200-2011 и набора данных Pascal VOC 2012. Для всестороннего сравнения AlexNet, VGG-11, VGG-16, VGG- Для опытов использовались 19., ResNet-50, ResNet-101, ResNet-152. Принимая каждую DNN за учительскую сеть, мы извлекаем знания из учительской сети в студенческую сеть, которая имеет ту же архитектуру, что и учительская сеть, для справедливого сравнения. При этом базовая сеть должна иметь ту же архитектуру, что и учительская сеть.
(Визуализация визуальных понятий на уровне FC1 в VGG-11, видно, что у студенческой сети большеи меньше
)
Студенческая сеть (S) по сравнению с базовой сетью (B),,
Соответственно, чем больше значение и меньше, тем лучше. Судя по данным таблицы, студенческая сеть имеет большую
, и чем меньше
, что непосредственно подтверждает гипотезы 1-3.
в заключении
В этой статье объясняется успех дистилляции знаний с точки зрения количественной оценки знаний в DNN. Предлагаются три типа метрик для проверки трех гипотез в сценариях классификации, то есть дистилляция знаний может гарантировать, что DNN узнает больше понятий, релевантных для задачи, и меньше понятий, не относящихся к задаче, по сравнению с обучением из необработанных данных, имеет более высокую скорость обучения и является оптимизирован с меньшим количеством обходов.
использованная литература
[1]Hinton G, Vinyals O, Dean J. Distilling the knowledge in a neural network[J]. arXiv preprint arXiv:1503.02531, 2015. [2]Cheng X , Rao Z , Chen Y , et al. Explaining Knowledge Distillation by Quantifying the Knowledge[J]. 2020.