Пожалуйста, указывайте автора при перепечатке:чай мечты
содержание
- Машинное обучение и межмедиа-аналитика
- Традиционные методы и глубокое обучение
- Сегментация изображения
- Глубокое обучение с небольшими наборами данных
- Передовые голосовые технологии
- генеративная модель
- Байесовское кодирование и декодирование визуальной информации
- ABACUS: не задыхается не поддается выведенному на основе библиотеки модели генерации глубины
- Ограничения правил для создания изображений и видео
- Генерация ландшафта глубины резкости
- Генерация видео с ограниченным скелетом человека
- кросс-медийная разведка
- Hash Learning для поиска видео
- Мультимедиа и График знаний
- Визуальный анализ данных на основе анкориджа
- Видео Вопросы и ответы
- детальная классификация
- Кросс-медийная ассоциация и поиск (будет добавлено)
- Традиционные методы и глубокое обучение
Художественный фильм начинается
Традиционные методы и глубокое обучение
Сегментация изображения
Сегментация изображения - очень важная задача в медицинских изображениях, обычно разделенная на сегментацию, регистрацию и визуализацию нескольких подзадач. Здесь вы публикуете обобщенное разделение изображения:
Имеются сложности:
- Различные целевые области имеют одинаковую яркость и небольшую дискриминацию.
- Границы различных целевых областей размыты,
- Получение изображения зашумлено
Общие шаги сегментации
Обнаружение (местоположение) -> оптимизация границ
Общая сегментация
- По энергиям и связям регионов на изображении установите
图模型
, используя метод разреза по графику, метод поиска по графику для сегментации изображения -
外观模型
: Конкретные целевые области часто имеют особый внешний вид, включая контуры и формы, которые можно сопоставить с моделями внешнего вида, грубой сегментацией или мелкозернистой коррекцией изображения. - Мультимодальная обработка изображений: Fusion
结构信息
и功能信息
расколоть- Выровняйте изображения двух моделей (структура и функция) и ограничьте результаты прогнозирования двух моделей (например, желая, чтобы выходные данные двух моделей были похожими).
双模型交互迭代优化
- аппроксимация многоугольника
- Для определенной целевой области существует фиксированный внешний вид полигона, а приблизительные характерные точки на изображении могут быть отмечены методом аппроксимации полигонов.
Передовые голосовые технологии
Задача
Шумоподавление, улучшение, шумоподавление, устранение реверберации
Объединение знаний домена и DNN
- Маркировка данных: объединение знаний в предметной области, чтобы предложить, какие данные маркировать
- Вместо того, чтобы изучать цель напрямую, разложите целевую задачу в соответствии с знанием предметной области - например, распознавание букв, разбивая ее на распознавание фрикативов, взрывных звуков.
- Возьмите ориентиры традиционной модели и используйте их
Мобильный голосовой вызов
Модель компрессионная, легкая
генеративная модель
Байесовское кодирование и декодирование визуальной информации
Задача
- Кодирование визуальной информации: процесс, посредством которого визуальная информация проходит через человеческий мозг в нейронную активность.
- Декодирование визуальной информации: процесс преобразования нейронной активности в визуальную информацию.
Модель (автоэнкодер на основе свертки и деконволюции)
- Сеть рассуждений: сверточная нейронная сеть, получение промежуточных признаков, установление корреляции между промежуточными признаками и сигналами нейронной активности, чтобы получать нейронные активности и кодировать их.
- Генеративная сеть: деконволюция нейронной активности для получения изображения
- Для двух сигналов узнайте вероятность того, что два сигнала генерируются одним и тем же объектом (анализ подобия), и установите байесовскую модель вывода.
Генеративный автоэнкодер с несколькими представлениями
В дополнение к визуальным данным существуют другие модальные данные, и можно построить генерацию нескольких представлений из кодировщика в соответствии с несколькими модальными данными.
Abacus: библиотека глубоких генеративных моделей, основанная на байесовском выводе.
Задача
В больших данных много неопределенностей, и нужно научиться моделировать неопределенность.
Модель
Учитывая вход z, используйте нейронную сеть, чтобы узнать параметры (среднее значение и дисперсию) распределения переменной x, ограничивая сходство сгенерированных выборок с реальными выборками.
Ограниченная ГАН
На основе GAN добавляется классификатор C, а к объектам, сгенерированным генератором G, добавляются промежуточные ограничения, чтобы сгенерированные объекты больше соответствовали фактическим потребностям, таким как генерация лиц с разными позами, требующая лица разных людей должны быть максимально разными Лица людей должны быть максимально одинаковыми.
Счеты
- Библиотека Python на основе Tensorflow для неконтролируемых генеративных моделей
- Байесовский вывод
- Подходит для традиционных многоуровневых байесовских моделей вывода, а также для глубоких генеративных моделей.
- Доступно для - многомерной регрессии - реализации вариационного автоэнкодера
- zhusuan.readthedocs.io
Обучение с ограничениями по правилам для создания изображений и видео
-
GAN становятся новой структурой в неконтролируемой области
- WGAN, DCGAN — в генерации креативность часто проявляется через случайность.
-
Существующая работа - преобразование позы лица, преобразование возраста лица, преобразование выражения лица - создание изображения со сверхвысоким разрешением, преобразование стиля рисования, преобразование шрифта, преобразование изображения в видео
-
Приложение — автоматическое создание анимации, генерация языка жестов — автоматическое редактирование видео (например, создание декораций при различных погодных условиях)
-
Творчество + ограничения правил + сложные сцены + сложные взаимодействия
-
Трудности - Огромное пространство решений: вам нужно найти низкоразмерное подпространство, в котором находится решение - Согласованность макроскопической структуры (объединение пикселей, необходимое для генерации видео, очень велико, и трудно предсказать долгосрочные изменения движения) - Четкость микроструктуры требует одновременной аппроксимации многомодового распределения, чтобы избежать неточных результатов, полученных одномодовым
-
Решение
- Используйте правила в домене, чтобы ограничить GAN, добавьте стоимость нарушения правил — уменьшите пространство предсказания, обеспечьте макроструктуру и ускорьте создание деталей.
Генерация ландшафта глубины резкости
- Сложность: Пространственная структура должна быть разумной и не должно быть серьезной двусмысленности.
- Ограничения: Моделирование отношений глубины резкости на основе существующих изображений ландшафта (обозначение областей, разные области, т. е. слои, имеют разные ближние и дальние пределы)
- Установите связь между позицией и объектом и получите распределение вероятности определенного объекта в определенной позиции.
- Модель процесса Хоукса
- Слой декомпозируется в соответствии с объектом, а ограничение слоя устанавливается ограничением вероятности (насколько вероятность имеет дерево перед человеком)
- Внутриуровневая DCGAN, межуровневая LSTM объединяет все изображение
Генерация видео с ограниченным скелетом человека
- Движения скелета ограничены
- Извлечение скелета надежно и может получить много помеченных знаний (для извлечения знаний используются традиционные методы) в качестве ограничения.
- Неподвижное изображение + диаграмма изменения последовательности действий
- Кодирование и декодирование CNN, двойной вход сети для генерации
- Дискриминатор: оптимизация потерь триплетов на сгенерированных и фактических кадрах
- потеря гана и потеря сходства видео складываются вместе
- Генерация интерактивного движущегося видео
Hash Learning для поиска видео
Learning Multifunctional Binary Codes for Both Category and Attribute Oriented Retrieval Tasks
Поиск видео основан на поиске изображений, а поиск крупномасштабных изображений требует высокой производительности.
- поиск изображения
- Задача: Обычно признаки изображения очень велики, и получение признаков напрямую слишком медленно - Метод: - Используйте двоичное кодирование для выражения хеш-значения - Выполните эффективную операцию XOR над хэш-значением, чтобы найти сходство - Модель ( добавляя ограничения двоичного кодирования, я надеюсь, что абсолютное значение максимально близко к 1):
Мультимедиа и График знаний
Cross-media analysis and reasoning: advances and directions
-
Задача:
- Смешайте текст, изображение, голос, видео и их интерактивные свойства
- Слияние нескольких источников + эволюция знаний + эволюция системы
-
сложность:
- Преодоление семантического разрыва (Машина, знающая, что такое мир)
- Разрыв намерений (машина понимает, чего пытается достичь человек)
- Как дискретные знания и непрерывные функции трансформируются и связаны между собой
-
Типичные вопросы:
- Изучение кросс-медийных знаний, рассуждения, мультимедийный анализ настроений
-
статус кво:
- Машинное обучение помогает мультимедиа работать хорошо
- Мультимедийное машинное обучение еще не созрело
-
Задача:
- Углубленный кросс-медийный анализ и всестороннее обоснование
-
метод:
- От мелкого до глубины
- Граф знаний направляет мультимедийный анализ, завершение атрибутов
- Глубокое обучение + обратная связь (знание и правила обратной связи/обучения с подкреплением) (метод черного ящика)
- Статистический вывод, байесовский вывод (подход белого ящика)
-
Тенденции: - Понимание выражений знаний, Понимание мультимедиа
Анкерный анализ визуальных данных на основе карты
- Обучение графу - сходство можно рассчитать для визуальных данных, а матрицу подобия можно получить для всего набора данных.Студенты, изучавшие теорию графов, знают, что матрица - это граф - матрица сходства -> матрица смежности графа -> использование графового метода для оптимизации матрицы смежности
- Моделирование меток Сглаживание меток Изучение меток
- Изучение якорного графа (скорость+) — это идея от грубой до тонкой — используйте графы точек данных для создания якорных графов, сначала соберите часть репрезентативных данных (например, центры кластеров) для создания графической модели, а затем сделайте вывод о другом графике. модели должны строить матрицы представления (разработка функций), матрицы смежности (метрическое обучение) и ускорять вычисления сходства.
- Эффективные графы привязок (скорость производительности+) — математически оптимизирует ограничения графов привязок, что значительно снижает сложность задачи оптимизации.
- Иерархическая карта привязки (скорость++) - строим многослойную карту привязки, то есть передискретизируем точку выборки - точка привязки линейно увеличивается, и она также будет быстро увеличиваться
- Повторная выборка точек, выбранных в первом слое, многоуровневая выборка уменьшает количество опорных точек и делает вывод слой за слоем из слоя с наименьшим количеством опорных точек.
- Предиктор меток (скорость +++) — оптимизирует метки опорных точек (полууправляемое обучение с псевдометками) — предсказывает метки для наименьшего слоя привязки, за которым следует оптимизатор.
- Активное обучение (выбор выборки) — это сложная идея майнинга, выберите более полезные образцы в качестве якорей — уменьшите потерю меток из-за ошибок.
- Сравнение платформы Google Expander Graph Learning: классический метод, параллельная работа и граф привязки могут еще больше повысить скорость за счет параллелизма.
Видео Вопросы и ответы
- Задача:
- Входное видео, вопрос, выходной ответ
- Модель (иерархическая сеть памяти + рассуждения о времени видео):
- Изображения слоев
- запомнить проблему
- Тренируйтесь с текстовыми и графическими функциями, чтобы генерировать ответы
- Временной вывод с LSTM
детальная классификация
- Задача: - Определить подклассы внутри одного общего класса изображений.
- Проблемы: - Различная осанка и точки зрения приводят к большим внутриклассовым различиям, а сходные формы и цвета приводят к небольшим межклассовым различиям.
Инкрементальный метод глубокого обучения, основанный на динамическом расширении модели
Бумага: Инкрементное обучение, управляемое ошибками, в глубокой сверточной нейронной сети для крупномасштабной классификации изображений
- Разделите несколько категорий цели на несколько категорий в зависимости от сходства,
- При добавлении новой категории отнесите ее к наиболее похожей категории, повторно используйте параметры основной категории и расширьте параметры слоя классификации второстепенной категории.
- Используйте разделение подмножества категорий для достижения динамического расширения модели и используйте обучение с передачей функций для ускорения обучения (кластерные категории).
Локальная двухуровневая модель глубины внимания
The Application of Two-level Attention Models in Deep Convolutional Neural Network for Fine-grained Image Classification
Учитывая категорию изображения, отсутствие местоположения объекта (ограничивающая рамка) и локальное местоположение (расположение части), используйте внимание, чтобы узнать местоположение объекта и местные особенности.
- Уровень объекта: сначала используйте общедоступный набор данных для предварительной подготовки модели, воздействуйте на все изображение сверху вниз и выберите область, связанную с целью (область с наибольшей отзывчивостью), которая эквивалентна вырезу, и добавьте вырез в область Перенесите обучение на ярлыки классов.
- Part level:
- Для модели, полученной на уровне Объекта, выполняется кластеризация подобия на фильтрах сверточного слоя, а однотипные сверточные слои объединяются в детектор частей, который используется для выделения конкретных частей объекта.
- Детальная классификация объектов путем объединения глобальных и локальных оценок
Пространственно ограниченная модель выбора выступающей части
Weakly Supervised Learning of Part Selection Model with Spatial Constraints for Fine-grained Image Classification
- Извлечение значимости и косегментация для поиска объектов
- Во-первых, части-кандидаты предлагаются посредством кластеризации значимости,
- Затем предлагаются два пространственных ограничения для отношения локального положения: должно быть как можно больше перекрытий между частями и целым и как можно меньше перекрытий между частями.
Приведенные выше две статьи не требуют аннотации локальных компонентов для изучения локальных особенностей и ограничений.
Мелкозернистый дискриминативный метод локализации, ориентированный на заметность
Fine-grained Discriminative Localization via Saliency-guided Faster R-CNN
Комбинация модели классификации и модели обнаружения для более детальной классификации с более высокой точностью
- Модель значимости предоставляет слабо помеченные изображения для обучения более быстрой модели обнаружения r-cnn.
- Модели обнаружения предоставляют более точные области-кандидаты для классификации
Детальное представление изображений для совместного моделирования визуального текста
Fine-grained Image Classification via Combining Vision and Language
- На основе набора данных изображения добавляется текст описания изображения, и данные этих двух модальностей используются для обеспечения более точной мелкозернистой классификации.
- Свертка используется для классификации изображений, CNN + LSTM используется для классификации текста, а два результата классификации объединяются.
Кросс-медийная ассоциация и поиск
- Обучение унифицированному представлению в разных медиа: представление данных из разных медиа с использованием одного и того же типа функций
- Вычисление кросс-медийного сходства: вычислите семантическое сходство различных медиа-данных путем анализа кросс-медиа-ассоциаций.
Я еще не закончил читать шесть статей здесь, и я восполню специфическое понимание после прочтения.
Метод доставки кросс-медийной ассоциации
IJCV2013: исчерпывающее и эффективное распространение ограничений
Унифицированный метод представления, основанный на разреженных и полууправляемых
Learning Cross-Media Joint Representation With Sparse and Semisupervised Regularization
Унифицированный метод представления на основе кросс-медийных семантических единиц
Semi-Supervised Cross-Media Feature Learning with Unified Patch Graph Regularization
Унифицированный метод представления, основанный на кросс-медийных многоуровневых сетях.
Cross-media Shared Representation by Hierarchical Learning with Multiple Deep Networks
Метод изучения кросс-медийных ассоциаций, основанный на многогранной иерархической сети
CCL: Cross-modal Correlation Learning with Multi-grained Fusion by Hierarchical Network
Сетевой метод гибридной миграции между средами
Cross-modal Common Representation Learning by Hybrid Transfer Network, IJCAI2017
Набор данных кросс-медийного поиска PKU-XMedia
- www.icst.pku.edu.cn/mlpl/XMedia
- Пять типов мультимедиа (изображение, текст, видео, аудио, 3D)
- 100 000 размеченных данных, 200 семантических категорий, иерархия на основе wordNet
- Из Википедии, Flickr, Youtube, Findsounds, Freesound, Yobi3D