Название диссертации: «Град-CAM: визуальные пояснения из глубинных сетей с помощью локализации на основе градиента»
Авторское подразделение: Технологический институт Джорджии, Facebook AI Research
Год: 2017
Публичный аккаунт: CVpython выпускается синхронно
Введение: Некоторое время назад Grad-CAM использовался для визуализации вывода нейронной сети.В то время это была задача классификации с несколькими заметками, но результаты визуализации казались странными, и я всегда чувствовал, что что-то не так . Резюме этой статьи дало мне дальнейшее понимание Gradm-CAM, и, наконец, я понял, в чем заключалась проблема визуализации в то время. О да!
1. Какую проблему пытается решить диссертация?
Хотя модель CNN совершила большой прорыв в области CV, CNN похожа на «черный ящик»: людям все еще трудно понять, что происходит внутри, а интерпретируемость очень плохая. Если модель не работает, на самом деле трудно понять, почему. Поэтому автор предлагает модель Grad-CAM для наглядного объяснения решений, принимаемых CNN.
2. Как модель, предложенная в статье, решает проблему?
Многие исследования показали, что более глубокие слои CNN могут захватывать визуальную структурную информацию более высокого уровня, и что пространственная информация в сверточных функциях будет потеряна в полностью связанном слое, поэтому в последнем сверточном слое у нас есть высокоуровневая семантическая информация и подробная информация. пространственная информация может получить наилучший компромисс (почему именно компромисс?). Grad-CAM использует градиентную информацию, «втекающую» в последний слой CNN, чтобы понять, насколько важен каждый нейрон для принятия решения.
Общая структура Grad-CAM показана на следующем рисунке:
Входное изображение пересылается для получения карты объектов, для категории, с классовыми баллами перед softmax. Теперь предположимкарта объектовсуществуетположениезначения канала, затем вычислить:
Давайте сначала разберемсяправильноЧто можно получить при выводе.
Давайте сначала возьмем простой пример для формулы,внезависимая переменная,- коэффициенты двух независимых переменных соответственно,правильноРезультат частной производной,еслиправильноболее важный,Коэффициент, естественно, больше, поэтомуправильноРезультат частичного вывода еще больше, означает ли это, что вывод может отражать важность независимой переменной для функции? Ответ очевиден (если кто-то считает, что это не строго, подскажите).
такправильноЧто можно получить при выводе ? что вы получаетеЭта пара собственных значенийВажность , а затем глобальное среднее объединение, в результате получается карта признаков № 1.пара каналовважности.
Приведенная выше формула (1) вычисляет коэффициент каждого канала карты признаков, а затем линейно объединяет его, как показано в формуле (2).
плюсПричина в том, что авторов интересуют только те функции, которые положительно влияют на оценку класса, поэтому они отфильтровывают те функции, которые оказывают негативное влияние.
В то время как визуализация Grad-CAM различает классы и способна находить соответствующие области, ей не хватает возможности показать детальную важность. Например, на рисунке 1(c), хотя Grad-CAM может определить местонахождение области кошки, трудно сделать выводы из тепловой карты низкого разрешения, почему сеть предсказывает ее как «тигровую кошку». Чтобы иметь возможность обнаруживать и отображать мелкозернистость, автор комбинирует направленное обратное распространение и Grad-CAM через скалярное произведение для получения Guided Grad-CAM. Как показано на рисунке 1 (d, j).
3. Каковы результаты эксперимента?
Способность позиционирования лучше, и классификация не слабая.
4. Что имеет для нас руководящее значение?
Я чувствую, что это самый важный момент.
- Результаты визуализации Grad-CAM (включая регионы и мелкозернистые) дают нам объяснение того, что модель не работает.Например, если изображение классифицировано неправильно, давайте визуализируем, есть ли проблема с интересующей областью или с извлеченными мелкозернистыми функциями.
- Вы также можете проверить отклонение набора данных.В статье есть пример, например, определение врачей и медсестер.По результатам визуализации видно, что область, обнаруженная моделью, находится в лице и прическе.Модель распознает некоторых женщин-врачей как медсестер и медсестер-мужчин в качестве врачей.Существует гендерная предвзятость, думая, что мужчины являются врачами, а женщины-медсестрами.Если вы посмотрите на набор данных, вы обнаружите, что это может быть потому, что 78% врачей-мужчины, а 93% медсестры - женщины, есть предвзятость набора данных.