Глубокое обучение и кросс-медийный анализ в CNCC2017

глубокое обучение
Глубокое обучение и кросс-медийный анализ в CNCC2017

Пожалуйста, указывайте автора при перепечатке:чай мечты

содержание

  • Машинное обучение и межмедиа-аналитика
    • Традиционные методы и глубокое обучение
      • Сегментация изображения
      • Глубокое обучение с небольшими наборами данных
      • Передовые голосовые технологии
    • генеративная модель
      • Байесовское кодирование и декодирование визуальной информации
      • ABACUS: не задыхается не поддается выведенному на основе библиотеки модели генерации глубины
      • Ограничения правил для создания изображений и видео
        • Генерация ландшафта глубины резкости
        • Генерация видео с ограниченным скелетом человека
    • кросс-медийная разведка
      • Hash Learning для поиска видео
      • Мультимедиа и График знаний
      • Визуальный анализ данных на основе анкориджа
      • Видео Вопросы и ответы
      • детальная классификация
      • Кросс-медийная ассоциация и поиск (будет добавлено)

Художественный фильм начинается

Традиционные методы и глубокое обучение

Сегментация изображения

Сегментация изображения - очень важная задача в медицинских изображениях, обычно разделенная на сегментацию, регистрацию и визуализацию нескольких подзадач. Здесь вы публикуете обобщенное разделение изображения:

Имеются сложности:

  • Различные целевые области имеют одинаковую яркость и небольшую дискриминацию.
  • Границы различных целевых областей размыты,
  • Получение изображения зашумлено

Общие шаги сегментации

Обнаружение (местоположение) -> оптимизация границ

Общая сегментация

  • По энергиям и связям регионов на изображении установите图模型, используя метод разреза по графику, метод поиска по графику для сегментации изображения
  • 外观模型: Конкретные целевые области часто имеют особый внешний вид, включая контуры и формы, которые можно сопоставить с моделями внешнего вида, грубой сегментацией или мелкозернистой коррекцией изображения.
  • Мультимодальная обработка изображений: Fusion结构信息и功能信息расколоть
    • Выровняйте изображения двух моделей (структура и функция) и ограничьте результаты прогнозирования двух моделей (например, желая, чтобы выходные данные двух моделей были похожими).
    • 双模型交互迭代优化
  • аппроксимация многоугольника
    • Для определенной целевой области существует фиксированный внешний вид полигона, а приблизительные характерные точки на изображении могут быть отмечены методом аппроксимации полигонов.

Передовые голосовые технологии

Задача

Шумоподавление, улучшение, шумоподавление, устранение реверберации

Объединение знаний домена и DNN

  • Маркировка данных: объединение знаний в предметной области, чтобы предложить, какие данные маркировать
  • Вместо того, чтобы изучать цель напрямую, разложите целевую задачу в соответствии с знанием предметной области - например, распознавание букв, разбивая ее на распознавание фрикативов, взрывных звуков.
  • Возьмите ориентиры традиционной модели и используйте их

Мобильный голосовой вызов

Модель компрессионная, легкая

генеративная модель

Байесовское кодирование и декодирование визуальной информации

Задача

  • Кодирование визуальной информации: процесс, посредством которого визуальная информация проходит через человеческий мозг в нейронную активность.
  • Декодирование визуальной информации: процесс преобразования нейронной активности в визуальную информацию.

Модель (автоэнкодер на основе свертки и деконволюции)

  • Сеть рассуждений: сверточная нейронная сеть, получение промежуточных признаков, установление корреляции между промежуточными признаками и сигналами нейронной активности, чтобы получать нейронные активности и кодировать их.
  • Генеративная сеть: деконволюция нейронной активности для получения изображения
  • Для двух сигналов узнайте вероятность того, что два сигнала генерируются одним и тем же объектом (анализ подобия), и установите байесовскую модель вывода.

Генеративный автоэнкодер с несколькими представлениями

В дополнение к визуальным данным существуют другие модальные данные, и можно построить генерацию нескольких представлений из кодировщика в соответствии с несколькими модальными данными.

Abacus: библиотека глубоких генеративных моделей, основанная на байесовском выводе.

Задача

В больших данных много неопределенностей, и нужно научиться моделировать неопределенность.

Модель

Учитывая вход z, используйте нейронную сеть, чтобы узнать параметры (среднее значение и дисперсию) распределения переменной x, ограничивая сходство сгенерированных выборок с реальными выборками.

Ограниченная ГАН

На основе GAN добавляется классификатор C, а к объектам, сгенерированным генератором G, добавляются промежуточные ограничения, чтобы сгенерированные объекты больше соответствовали фактическим потребностям, таким как генерация лиц с разными позами, требующая лица разных людей должны быть максимально разными Лица людей должны быть максимально одинаковыми.

Счеты

  • Библиотека Python на основе Tensorflow для неконтролируемых генеративных моделей
  • Байесовский вывод
  • Подходит для традиционных многоуровневых байесовских моделей вывода, а также для глубоких генеративных моделей.
  • Доступно для - многомерной регрессии - реализации вариационного автоэнкодера
  • zhusuan.readthedocs.io

Обучение с ограничениями по правилам для создания изображений и видео

  • GAN становятся новой структурой в неконтролируемой области

    • WGAN, DCGAN — в генерации креативность часто проявляется через случайность.
  • Существующая работа - преобразование позы лица, преобразование возраста лица, преобразование выражения лица - создание изображения со сверхвысоким разрешением, преобразование стиля рисования, преобразование шрифта, преобразование изображения в видео

  • Приложение — автоматическое создание анимации, генерация языка жестов — автоматическое редактирование видео (например, создание декораций при различных погодных условиях)

  • Творчество + ограничения правил + сложные сцены + сложные взаимодействия

  • Трудности - Огромное пространство решений: вам нужно найти низкоразмерное подпространство, в котором находится решение - Согласованность макроскопической структуры (объединение пикселей, необходимое для генерации видео, очень велико, и трудно предсказать долгосрочные изменения движения) - Четкость микроструктуры требует одновременной аппроксимации многомодового распределения, чтобы избежать неточных результатов, полученных одномодовым

  • Решение

    • Используйте правила в домене, чтобы ограничить GAN, добавьте стоимость нарушения правил — уменьшите пространство предсказания, обеспечьте макроструктуру и ускорьте создание деталей.

Генерация ландшафта глубины резкости

  • Сложность: Пространственная структура должна быть разумной и не должно быть серьезной двусмысленности.
  • Ограничения: Моделирование отношений глубины резкости на основе существующих изображений ландшафта (обозначение областей, разные области, т. е. слои, имеют разные ближние и дальние пределы)
  • Установите связь между позицией и объектом и получите распределение вероятности определенного объекта в определенной позиции.
  • Модель процесса Хоукса
  • Слой декомпозируется в соответствии с объектом, а ограничение слоя устанавливается ограничением вероятности (насколько вероятность имеет дерево перед человеком)
  • Внутриуровневая DCGAN, межуровневая LSTM объединяет все изображение

Генерация видео с ограниченным скелетом человека

  • Движения скелета ограничены
  • Извлечение скелета надежно и может получить много помеченных знаний (для извлечения знаний используются традиционные методы) в качестве ограничения.
  • Неподвижное изображение + диаграмма изменения последовательности действий
  • Кодирование и декодирование CNN, двойной вход сети для генерации
  • Дискриминатор: оптимизация потерь триплетов на сгенерированных и фактических кадрах
  • потеря гана и потеря сходства видео складываются вместе
  • Генерация интерактивного движущегося видео

Hash Learning для поиска видео

Learning Multifunctional Binary Codes for Both Category and Attribute Oriented Retrieval Tasks

Поиск видео основан на поиске изображений, а поиск крупномасштабных изображений требует высокой производительности.

  • поиск изображения
    • Задача: Обычно признаки изображения очень велики, и получение признаков напрямую слишком медленно - Метод: - Используйте двоичное кодирование для выражения хеш-значения - Выполните эффективную операцию XOR над хэш-значением, чтобы найти сходство - Модель ( добавляя ограничения двоичного кодирования, я надеюсь, что абсолютное значение максимально близко к 1):

Мультимедиа и График знаний

Cross-media analysis and reasoning: advances and directions

  • Задача:

    • Смешайте текст, изображение, голос, видео и их интерактивные свойства
    • Слияние нескольких источников + эволюция знаний + эволюция системы
  • сложность:

    • Преодоление семантического разрыва (Машина, знающая, что такое мир)
    • Разрыв намерений (машина понимает, чего пытается достичь человек)
    • Как дискретные знания и непрерывные функции трансформируются и связаны между собой
  • Типичные вопросы:

    • Изучение кросс-медийных знаний, рассуждения, мультимедийный анализ настроений
  • статус кво:

    • Машинное обучение помогает мультимедиа работать хорошо
    • Мультимедийное машинное обучение еще не созрело
  • Задача:

    • Углубленный кросс-медийный анализ и всестороннее обоснование
  • метод:

    • От мелкого до глубины
    • Граф знаний направляет мультимедийный анализ, завершение атрибутов
    • Глубокое обучение + обратная связь (знание и правила обратной связи/обучения с подкреплением) (метод черного ящика)
    • Статистический вывод, байесовский вывод (подход белого ящика)
  • Тенденции: - Понимание выражений знаний, Понимание мультимедиа

Анкерный анализ визуальных данных на основе карты

  • Обучение графу - сходство можно рассчитать для визуальных данных, а матрицу подобия можно получить для всего набора данных.Студенты, изучавшие теорию графов, знают, что матрица - это граф - матрица сходства -> матрица смежности графа -> использование графового метода для оптимизации матрицы смежности
    • Моделирование меток Сглаживание меток Изучение меток
  • Изучение якорного графа (скорость+) — это идея от грубой до тонкой — используйте графы точек данных для создания якорных графов, сначала соберите часть репрезентативных данных (например, центры кластеров) для создания графической модели, а затем сделайте вывод о другом графике. модели должны строить матрицы представления (разработка функций), матрицы смежности (метрическое обучение) и ускорять вычисления сходства.
  • Эффективные графы привязок (скорость производительности+) — математически оптимизирует ограничения графов привязок, что значительно снижает сложность задачи оптимизации.
  • Иерархическая карта привязки (скорость++) - строим многослойную карту привязки, то есть передискретизируем точку выборки - точка привязки линейно увеличивается, и она также будет быстро увеличиваться
    • Повторная выборка точек, выбранных в первом слое, многоуровневая выборка уменьшает количество опорных точек и делает вывод слой за слоем из слоя с наименьшим количеством опорных точек.
  • Предиктор меток (скорость +++) — оптимизирует метки опорных точек (полууправляемое обучение с псевдометками) — предсказывает метки для наименьшего слоя привязки, за которым следует оптимизатор.
  • Активное обучение (выбор выборки) — это сложная идея майнинга, выберите более полезные образцы в качестве якорей — уменьшите потерю меток из-за ошибок.
  • Сравнение платформы Google Expander Graph Learning: классический метод, параллельная работа и граф привязки могут еще больше повысить скорость за счет параллелизма.

Видео Вопросы и ответы

  • Задача:
    • Входное видео, вопрос, выходной ответ
  • Модель (иерархическая сеть памяти + рассуждения о времени видео):
    • Изображения слоев
    • запомнить проблему
    • Тренируйтесь с текстовыми и графическими функциями, чтобы генерировать ответы
    • Временной вывод с LSTM

детальная классификация

  • Задача: - Определить подклассы внутри одного общего класса изображений.
  • Проблемы: - Различная осанка и точки зрения приводят к большим внутриклассовым различиям, а сходные формы и цвета приводят к небольшим межклассовым различиям.

Инкрементальный метод глубокого обучения, основанный на динамическом расширении модели

Бумага: Инкрементное обучение, управляемое ошибками, в глубокой сверточной нейронной сети для крупномасштабной классификации изображений

  • Разделите несколько категорий цели на несколько категорий в зависимости от сходства,
  • При добавлении новой категории отнесите ее к наиболее похожей категории, повторно используйте параметры основной категории и расширьте параметры слоя классификации второстепенной категории.
  • Используйте разделение подмножества категорий для достижения динамического расширения модели и используйте обучение с передачей функций для ускорения обучения (кластерные категории).

Локальная двухуровневая модель глубины внимания

The Application of Two-level Attention Models in Deep Convolutional Neural Network for Fine-grained Image Classification

Учитывая категорию изображения, отсутствие местоположения объекта (ограничивающая рамка) и локальное местоположение (расположение части), используйте внимание, чтобы узнать местоположение объекта и местные особенности.

  • Уровень объекта: сначала используйте общедоступный набор данных для предварительной подготовки модели, воздействуйте на все изображение сверху вниз и выберите область, связанную с целью (область с наибольшей отзывчивостью), которая эквивалентна вырезу, и добавьте вырез в область Перенесите обучение на ярлыки классов.

  • Part level:
    • Для модели, полученной на уровне Объекта, выполняется кластеризация подобия на фильтрах сверточного слоя, а однотипные сверточные слои объединяются в детектор частей, который используется для выделения конкретных частей объекта.

  • Детальная классификация объектов путем объединения глобальных и локальных оценок

Пространственно ограниченная модель выбора выступающей части

Weakly Supervised Learning of Part Selection Model with Spatial Constraints for Fine-grained Image Classification

  • Извлечение значимости и косегментация для поиска объектов
  • Во-первых, части-кандидаты предлагаются посредством кластеризации значимости,
  • Затем предлагаются два пространственных ограничения для отношения локального положения: должно быть как можно больше перекрытий между частями и целым и как можно меньше перекрытий между частями.

Приведенные выше две статьи не требуют аннотации локальных компонентов для изучения локальных особенностей и ограничений.

Мелкозернистый дискриминативный метод локализации, ориентированный на заметность

Fine-grained Discriminative Localization via Saliency-guided Faster R-CNN

Комбинация модели классификации и модели обнаружения для более детальной классификации с более высокой точностью

  • Модель значимости предоставляет слабо помеченные изображения для обучения более быстрой модели обнаружения r-cnn.
  • Модели обнаружения предоставляют более точные области-кандидаты для классификации

Детальное представление изображений для совместного моделирования визуального текста

Fine-grained Image Classification via Combining Vision and Language

  • На основе набора данных изображения добавляется текст описания изображения, и данные этих двух модальностей используются для обеспечения более точной мелкозернистой классификации.
  • Свертка используется для классификации изображений, CNN + LSTM используется для классификации текста, а два результата классификации объединяются.

Кросс-медийная ассоциация и поиск

  • Обучение унифицированному представлению в разных медиа: представление данных из разных медиа с использованием одного и того же типа функций
  • Вычисление кросс-медийного сходства: вычислите семантическое сходство различных медиа-данных путем анализа кросс-медиа-ассоциаций.

Я еще не закончил читать шесть статей здесь, и я восполню специфическое понимание после прочтения.

Метод доставки кросс-медийной ассоциации

IJCV2013: исчерпывающее и эффективное распространение ограничений

Унифицированный метод представления, основанный на разреженных и полууправляемых

Learning Cross-Media Joint Representation With Sparse and Semisupervised Regularization

Унифицированный метод представления на основе кросс-медийных семантических единиц

Semi-Supervised Cross-Media Feature Learning with Unified Patch Graph Regularization

Унифицированный метод представления, основанный на кросс-медийных многоуровневых сетях.

Cross-media Shared Representation by Hierarchical Learning with Multiple Deep Networks

Метод изучения кросс-медийных ассоциаций, основанный на многогранной иерархической сети

CCL: Cross-modal Correlation Learning with Multi-grained Fusion by Hierarchical Network

Сетевой метод гибридной миграции между средами

Cross-modal Common Representation Learning by Hybrid Transfer Network, IJCAI2017

Набор данных кросс-медийного поиска PKU-XMedia

  • www.icst.pku.edu.cn/mlpl/XMedia
  • Пять типов мультимедиа (изображение, текст, видео, аудио, 3D)
  • 100 000 размеченных данных, 200 семантических категорий, иерархия на основе wordNet
  • Из Википедии, Flickr, Youtube, Findsounds, Freesound, Yobi3D