При изучении обучения с нулевым временем у нас уже есть определенное понимание машинного обучения и глубокого обучения. В это время нам нужно изучить его с помощью нескольких вопросов:
1. Почему происходит нулевое обучение?
2. Каковы основные приложения обучения с нулевым временем и можно ли его применять в сетевой безопасности?
3. Какие технические моменты и идеи приносят преимущества обучению с нулевым временем?
4. Недостатки и точки исследования zsl?
Процитируем рассказанную историю: предположим, Сяо Мин и его отец пошли в зоопарк и увидели лошадь, а затем его отец сказал ему, что это была лошадь; после этого он увидел тигра и сказал ему:
«Посмотри, это полосатое животное — тигр.» Наконец, он снова отвел его к панде и сказал ему: «Посмотри, эта панда черно-белая». найти животное, которого он никогда не видел в зоопарке, называемое зеброй, и рассказать Сяо Мину о зебрах: «У зебры очертания лошади, у нее полосы, как у тигра, и она похожа на панду. Черно-белая Наконец, Сяо Мин нашел зебру в зоопарке по подсказке отца.
Приведенный выше пример содержит процесс рассуждения человека, который должен использовать прошлые знания (описания лошадей, тигров, панд и зебр), чтобы сделать вывод о конкретной форме новых объектов в уме, чтобы можно было идентифицировать новые объекты.
ZSL надеется имитировать этот процесс мышления людей, чтобы у компьютера была возможность распознавать новые вещи.
Глубокое обучение сейчас очень горячо, поэтому чистое обучение с учителем достигло удивительных результатов во многих задачах, но его ограничение заключается в том, что часто требуется достаточное количество образцов для обучения достаточно хорошей модели и использование классификации, обученной кошками и собаками. Он может только классифицировать кошек и собак, и он не может идентифицировать другие виды. Такая модель явно не соответствует нашим требованиям к искусственному интеллекту, и мы надеемся, что машины, как Сяо Мин, смогут идентифицировать новые категории с помощью рассуждений.
Медицинские изображения, идентификация исчезающих видов
1. Введение в обучение с нулевым временем
Вышеприведенный процесс рассуждений абстрагируется, чтобы вывести категорию нового объекта путем добавления дополнительной информации к известной информации. Следовательно, известная информация (лошадь, тигр, панда) в процессе вывода — это обучающая выборка, а вспомогательная информация (форма лошади, черные полосы и черно-белые цвета) — семантическая информация, связанная с обучающей выборкой и тестом. set. ) — тестовый набор. Известный до обучения, это видимый класс (seenclass); если он не виден во время обучения, это невидимый класс (unseenclass). Пусть X — данные, Y — метка, S — видимый класс, U — невидимый класс, Tr — класс обучающего набора, Te — класс тестового набора, тогда определение обучения с нулевой выборкой — zsl:X- >Ю, то есть видимый через обучение. Из данных класса извлекаются соответствующие признаки, плюс встраиваются вспомогательные знания, и, наконец, прогнозируется невидимый класс. где Te и Tr не пересекаются, Tr есть S, а Te есть U. Стоит отметить, что если при прогнозировании появляется категория, соответствующая обучающей выборке, то ее невозможно предсказать.
Поскольку известное знание, на которое опирается обучение с нулевым выстрелом, все еще является своего рода помеченными данными, обучение с нулевым выстрелом является специальной техникой обучения с учителем.
Модель
Взаимосвязь между тренировочным набором и категориями тестового набора
Взаимосвязь между тренировочным набором и категориями тестового набора, а также видимыми и невидимыми классами
обучение с нулевым выстрелом
не содержит
Класс тренировочного набора является видимым классом
Класс набора тестов является невидимым классом
традиционное контролируемое обучение
равный
И обучающие, и тестовые наборы являются видимыми классами.
Обобщенное обучение с нулевым выстрелом
Включают
Класс тренировочного набора является видимым классом
Категории наборов тестов видимы и невидимы
Обучение с нулевым выстрелом происходит от трансферного обучения, одного из вариантов предшествующего обучения. Основное различие между обучением с нулевым выстрелом и другим обучением с передачей заключается в том, что нет пересечения между набором обучающей выборки и набором тестовой выборки.Благодаря непрерывному развитию в последние годы обучение с нулевым выстрелом постепенно отделилось от обучения с передачей и стало самостоятельное направление исследований машинного обучения По сравнению с существующими методами классификации нулевой метод обучения имеет следующие три преимущества:
1) Для некоторых конкретных классов, для которых не была создана выборка (например, вновь установленные биологические виды или виды, находящиеся под угрозой исчезновения, недавно разработанные промышленные продукты и т. д.), посредством обучения с нулевой выборкой эти объекты могут быть успешно идентифицированы и классифицированы, как Это может удовлетворить фактические потребности и снизить трудовые и экономические затраты.
2) Основной механизм обучения с нулевым выстрелом имеет много общего с механизмом обучения человека, и углубленное исследование обучения с нулевым выстрелом окажет мощную помощь в области когнитивной науки о человеке.
3) Обучение с нулевой выборкой и глубокое обучение не противоречат друг другу, и их можно органично сочетать, учиться на сильных сторонах других и интегрировать разработку, чтобы лучше удовлетворять потребности будущей области распознавания объектов.
Структура обучения с нулевым выстрелом:
Основная идея обучения с нулевым выстрелом состоит в том, чтобы использовать образцы в обучающем наборе и вспомогательную информацию, соответствующую образцам (например, текстовое описание или атрибутивные признаки), для обучения модели, а информацию, полученную в процессе обучения, использовать в этап тестирования, а также тестовый класс модели.Вспомогательная информация дополняет модель, чтобы модель могла успешно классифицировать образцы в тестовом наборе.
На этапе обучения обратимое отображение Ytr=g(Str), Str=g-1(Ytr) из метки класса, заданной вспомогательной информацией, в подпространство признаков используется для определения представления признаков Str, соответствующего каждой метке класса, и использовать Str и Xtr Соответствующее отношение между обучающими выборками Xtr и подпространством признаков Str. После того, как фаза обучения завершена и функция отображения f( ) получена, фаза тестирования использует f( ) для отображения Xte в то же самое подпространство признаков , и мы получаем Его соответствующие оценки представления признаков S=f(Xte), и используем вспомогательную информацию Yte, а также используем обратимое отображение для получения Ste, аналогичным образом сравниваем S и Ste, и признак тестового класса, наиболее похожий на S, представляет собой Метка класса, соответствующая ste yte, является оценкой метки класса ˆYte тестового класса.
На рисунке Xtr представляет набор входных выборок обучающего класса, Ytr представляет набор меток класса обучающего класса, Xte представляет набор входных выборок тестового класса, Yte представляет набор меток классов теста. класс, а пунктирная рамка представляет общие функции класса обучения и класса тестирования. Подпространство функций. Подпространство функций содержит кодировку функций каждого класса в тестовом и обучающем классах. Двунаправленная стрелка справа представляет двунаправленное отображение из метки классов для кодировок признаков. Это сопоставление известно и является обучением с нулевым выстрелом. В настоящее время в обучении с нулевым выстрелом необходимо предоставить три вида вспомогательной информации: описание атрибута, текстовое описание и отношение иерархии классов.
На этапе обучения используйте Xtr и Str для обучения сопоставлению пространства изображения с подпространством признаков. Пунктирная стрелка означает, что сопоставление находится в процессе обучения. После завершения обучения этого сопоставления перейдите к этапу тестирования. обученная модель отображения будет отображена в подпространство признаков для получения S, а сравнение сходства с кодом признаков Ste of Yte в подпространстве признаков может определить значение оценки метки класса ˆYte примера тестового класса Xte. чтобы улучшить способность к обобщению обученной модели с помощью различных средств, чтобы способность модели к обобщению была достаточно сильной, чтобы идентифицировать образцы тестового класса, которые никогда раньше не видели, чтобы определить образцы тестового класса.Однако для обобщения обученная модель для невидимых тестовых образцов, как обучающие образцы, так и тестовые образцы должны иметь вспомогательную информацию, и во время обучения изучать модель представления вспомогательной информации и использовать метод обучения во время тестирования.Модель вспомогательной информации и вспомогательная информация тестовые образцы, изученные одновременно, предсказывают метки классов тестовых образцов.Дайте модели обучения с нулевой выборкой достаточную и эффективную вспомогательную информацию и сделайте так, чтобы модель обучения с нулевой выборкой могла использовать ее эффективно, что является реализацией нулевого Образцовая модель обучения Ключ к выборочному обучению.
Классификация нулевого выстрела:
2. Ключевые вопросы
По определению, обучение с нулевым выстрелом — это особый вид обучения с учителем. В дополнение к проблеме переобучения, присущей традиционному обучению с учителем, есть четыре ключевые проблемы: дрейф домена, точка поворота, обобщенное обучение с нулевым выстрелом и семантический интервал.
2.1 Проблема смещения домена
Слишком разный визуальный эффект от одного и того же в разных полях. Когда сопоставление, обученное видимым классом, применяется к предсказанию невидимого класса, поскольку видимый класс и невидимый класс принадлежат к разным доменам, видимый класс и невидимый класс имеют небольшую корреляцию, а разные домены могут различаться в визуальной области. характеристики одно и то же.Очень большой, без какой-либо адаптации к невидимым классам будет проблема смещения полей. Например, в реальной жизни мы знаем, что хвост тигра визуально сильно отличается от хвоста кролика. как показано на рисунке. Однако, когда прогнозируемой категорией является тигр, данная вспомогательная информация имеет атрибут хвоста, и эффект обучения с хвостом кролика не соответствует фактическому эффекту.
В настоящее время ученые предлагают три основных решения: первое — добавить невидимые данные в процесс обучения, то есть установить трансдуктивную модель. Второй — наложить ограничения/информацию на обучающие данные, то есть построить индуктивную модель. Третий — генерировать псевдосемплы в процессе тестирования, то есть строить генеративную модель,
Его суть состоит в том, чтобы преобразовать обучение с нулевым выстрелом в традиционное контролируемое обучение.
Конечно, приведенные выше решения основаны на том факте, что распределение данных видимых и невидимых классов согласовано на уровне выборки.
2.2 Проблема точки поворота
Точка становится ближайшим соседом большинства точек. В процессе проецирования из исходного пространства в целевое пространство определенная точка станет ближайшей к большинству узлов, и также указано, что проблема точки поворота — это проблема, которая часто возникает в многомерном пространстве. Например, когда для классификации используется модель обучения с нулевой выборкой, используемый алгоритм представляет собой алгоритм ближайшего соседнего узла (K-Nearest Neighbor, KNN), и в точке может быть несколько или даже десятки ближайших соседних узлов, в результате чего различные результаты приводят к снижению производительности модели.
Есть два основных решения: первое — использовать модель гребневой регрессии для установления отображения от низкоразмерного к многомерному, а в компьютерном зрении — установить отображение от семантики к зрению, которое также называется обратным отображением. . Второй — использовать генеративную модель, а второй — использовать генеративную модель для создания псевдовыборок и добавления их в процесс тестирования.
2.3 Обобщенное обучение с нулевым выстрелом
Категории обучающих наборов взаимоисключающие с категориями тестовых наборов. Предпосылка обучения с нулевым выстрелом состоит в том, что тестовый набор и обучающий набор не пересекаются, то есть видимый класс равен обучающему набору, а невидимый класс равен тестовому набору. Это означает, что на этапе тестирования, если образцы взяты из обучающей выборки, это невозможно предсказать. Это не реально в реальной жизни.
Есть два основных решения: первое — сначала разделить видимые и невидимые данные в тестовом наборе с помощью классификатора. Если это видимые данные класса, классификатор используется непосредственно для классификации, если это невидимые данные класса, для предсказания используется вспомогательная информация. Вторая генеративная модель использует генеративную модель для создания невидимых образцов класса, а затем обучает классификатор с помощью сгенерированных образцов и видимых образцов класса, преобразуя обобщенное обучение с нулевой выборкой в традиционное контролируемое обучение.
2.4 Семантический интервал
Семантическое пространство отличается от визуального, и между ними существует разрыв. Общее решение для обучения с нулевым выстрелом для предсказания невидимых данных класса состоит в том, чтобы построить отношения между изображениями и семантикой.
Основное решение, предлагаемое учеными в настоящее время, состоит в том, чтобы сопоставить визуальные признаки, извлеченные из пространства изображения, и семантической информации, извлеченной из семантического пространства, в общее пространство и совместить эти два понятия.
2.5 Пример набора данных
В соответствии с различными типами приложений, текст, изображение, видео, соответственно вводятся наборы данных, обычно используемые в обучении с нулевым выстрелом.
текст:
Языковой набор LASER, набор данных английских слов wordNet, набор данных здравого смысла ConceptNet
изображение:
WAW животное, мелкозернистая CUB птица, смешанная категория APY, мелкозернистая сцена SUN, мелкозернистая сцена imageNet
видео:
UCF101, ActivityNet, поведение человека, CCV, социальная активность USAA
3. Разработка нулевой модели
В этой статье представлены классические модели обучения с нулевым выстрелом на трех этапах разработки, а также предоставляется теоретическая поддержка построения прикладной системы в главе 3. Три этапа разработки: во-первых, обучение с нулевым выстрелом на основе атрибутов, во-вторых, обучение с нулевым выстрелом на основе встраивания и, в-третьих, обучение с нулевым выстрелом на основе генеративной модели.
3.1 Обучение нулевому выстрелу на основе атрибутов
Атрибут представляет собой разновидность семантической информации. Этот метод является новаторской работой в области обучения с нулевой выборкой, а также основой для последующего развития обучения с нулевой выборкой.
1. Модель ДАП
Следующие два шага: во-первых, используйте машину опорных векторов (SVM), чтобы обучить сопоставление данных видимого класса с общими атрибутами и изучить классификатор атрибутов для каждого видимого класса данных.Общее пространство между видимыми классами. Во-вторых, используйте формулу Байеса, чтобы предсказать атрибуты невидимого класса, а затем определите категорию, к которой принадлежит невидимый класс, через отношения между невидимым классом и атрибутом.
Используя атрибуты, модель DAP успешно предсказывает классы без данных с высокой точностью. Но ДАП
Есть три явных недостатка. Во-первых, для недавно добавленных данных видимого класса классификатор атрибутов необходимо переобучить, и классификатор не может быть оптимизирован и улучшен. Во-вторых, трудно использовать другую вспомогательную информацию, кроме атрибутов (например, данные Wordnet о сетевой структуре). В-третьих, благодаря использованию атрибутов в качестве промежуточного слоя модель может быть оптимальной для прогнозирования атрибутов. Но для прогнозируемой категории это не обязательно лучший результат.
2. Модель ИПД
Два шага: во-первых, сопоставление видимого класса с атрибутом и невидимого сопоставления класса с атрибутом обучается с использованием машины опорных векторов (SVM). Во-вторых, используйте формулу Байеса, чтобы получить вероятность данных видимого класса и видимого класса, изучите классификатор класса для каждого видимого класса данных, а затем определите класс, к которому принадлежат данные невидимого класса, посредством отношения класс-атрибут.
Как и модель DAP, модель IAP также успешно предсказывает классы без данных и является более гибкой и простой, чем модель DAP. Когда есть новые классы для обучения, затраты времени на обучение модели IAP невелики. Однако эффект модели IAP в эксперименте не так хорош, как у модели DAP.
3.2 Обучение нулевому выстрелу на основе встраивания
С непрерывным развитием машинного обучения компьютерное зрение постепенно стало центром внимания исследователей. Только обучение с нулевым выстрелом по атрибутам далеко от удовлетворения потребностей обработки изображений, а обучение с нулевым выстрелом на основе атрибутов также имеет много проблем. Таким образом, обучение с нулевым выстрелом предлагает обучение с нулевым выстрелом на основе встраивания, которое тесно сочетает семантическую информацию с информацией об изображении. Основные методы включают встраивание семантической информации в пространство изображения, встраивание информации об изображении в семантическое пространство, встраивание семантической информации и информации об изображении в публичное пространство и так далее.
Обучающие функции, часто используемые при встраивании информации об изображении в семантическое пространство, включают одиночную линейную функцию, билинейную функцию, нелинейную функцию и т. д., а функция потерь включает потери при сортировке, квадратичные потери и т. д.
1.ESZSL
Два этапа: этап обучения и этап вывода. Обучение билинейным функциям с помощью SVM. Один использует умножение экземпляра обучающей выборки и матрицы признаков на этапе обучения, чтобы установить сопоставление между пространством признаков и пространством атрибутов; другой использует описание обучающей выборки и сопоставление между пространством признаков и пространством атрибутов. на этапе вывода, чтобы получить окончательный прогноз.Модель изучает отображение из пространства изображения в семантическое пространство для каждой категории. Стоит отметить, что оба этапа можно выполнить одной строкой, при этом нет необходимости вызывать другие функции, а завершить обучение нулевым выстрелом очень просто. ESZSL также устанавливает соответствующий метод регуляризации и функцию квадратичных потерь для оптимизации модели.
3.3 Нулевое обучение на основе генеративных моделей
В области обучения с нулевым выстрелом генеративные модели часто используются для внедрения семантической информации в пространство изображения. На основе получения известной визуальной информации и семантической информации посредством семантической согласованности известных и неизвестных классов генерируются образцы невидимых классов, превращая обучение с нулевой выборкой в традиционное контролируемое обучение и применяя генеративную модель к Extreme.
1.SAE
Сочетание обучения с нулевым выстрелом с AE. Модель SAE использует семантическое пространство в качестве скрытого слоя, отображает информацию об изображении видимого класса в семантическое пространство через кодировщик, а затем использует декодер для создания невидимого изображения класса из семантической информации посредством семантической согласованности между известным классом и класс агностиков Превратите обучение с нуля в традиционное контролируемое обучение.
Предпосылка модели SAE заключается в том, что матрица отображения информации об изображении в семантическое пространство представляет собой транспонирование матрицы вложения сгенерированного изображения в семантическое пространство, и добавляется ограничение штрафных членов, то есть матрица вложения изображения информации в семантическое пространство и представление информации о видимом изображении Произведение равно представлению скрытого слоя. Это позволяет закодированному изображению максимально сохранить всю информацию исходного изображения.
Модель SAE не только проста и эффективна, но также может использоваться в обобщенном обучении с нулевой выборкой и может решить проблему дрейфа области. Однако функция внедрения семантической информации и информации об изображении, используемая моделью SAE, слишком проста и фиксирована, поэтому она не может генерировать высококачественные изображения и не может точно предсказывать невидимые образцы.
4. Применение обучения с нулевым выстрелом
Применение обучения с нулевым выстрелом в трех измерениях. Первое измерение – это слова. Слова обрабатываются с использованием методов обучения с нулевым выстрелом и применяются к нескольким областям; второе измерение — это изображения. Текстовая информация, сгенерированная в одномерном приложении, может использоваться в качестве семантической информации и внедряться в визуальное пространство, чтобы продвигать применение обучения с нулевым выстрелом в процессе обработки изображений. Третье измерение — видео. Каждый кадр в видео можно использовать как картинку. Видео разделено на изображения, и метод второго измерения используется для дальнейшего применения обучения с нулевым выстрелом в видео.
1. Слова: диалоговые системы, машинный перевод, классификация текстов.
2. Изображение: поиск изображения, распознавание объектов, семантическая сегментация.
3. Видео: распознавание поведения человека, сверхвысокое разрешение,
С повышением производительности метода обучения с нулевым выстрелом его применение в практических сценариях постепенно расширяется.
(1) Компьютерное зрение. Самое большое применение обучения с нулевым выстрелом — это изучение изображений и видео. Обучение с нулевым выстрелом может не только выполнять задачи классификации и решать мелкие задачи классификации, такие как птицы и цветы, но также использоваться для таких задач, как сегментация изображений, поиск изображений и адаптация предметной области. Обучение с нулевым выстрелом также использовалось для изучения проблем, связанных с видео, где его можно использовать для идентификации видео с неизвестными действиями и неизвестными эмоциональными ярлыками. Кроме того, обучение с нулевым выстрелом также используется для таких задач, как локализация действий, повествование о событиях и создание описаний (текста).
(2) Обработка естественного языка. В последние годы обучение с нулевым выстрелом также нашло место в области обработки естественного языка. При изучении редких и редких языков нулевое обучение помогает создавать двуязычные словари; в задачах машинного перевода нулевое обучение используется для нулевого перевода в языковых парах без параллельных корпусов. Кроме того, обучение с нулевым выстрелом также используется для понимания разговорной речи и классификации семантического дискурса. В дополнение к вышесказанному, нулевое обучение также можно использовать для решения проблем, связанных с обработкой естественного языка, таких как извлечение сущностей веб-страницы, детализированные именованные типы сущностей, поиск документов на разных языках и извлечение отношений.
(3) Другие. В дополнение к вышеупомянутым областям, с датчиками, обучение с нулевым выстрелом может использоваться для идентификации человеческой деятельности; в вычислительной биологии обучение с нулевым выстрелом может анализировать состав молекулярных соединений; в области безопасности и конфиденциальности обучение с нулевым выстрелом может помочь передатчику идентификация.
5. Обнаружение вторжений на основе обучения с нулевым выстрелом
1. Атакуйте построение семантической базы знаний
Обучение с нулевой выборкой завершает идентификацию невидимых классов за счет эффективной передачи «знаний» от видимых классов к невидимым классам. В обучении с нулевой выборкой знания можно разделить на три уровня, а именно первичные знания, абстрактные знания и внешние знания. . Если мы хотим завершить передачу «знаний» от атак невидимого класса к атакам видимого класса, нам нужны знания, соответствующие характеристикам образца. Следовательно, мы можем выбрать получение семантических знаний, соответствующих образцам атак, из внешних текстовых описаний типов атак.
Использование общедоступного набора данных NSL-KDD не дает подробного описания соответствующей категории атак, а только предоставляет данные и метки. Нам необходимо самостоятельно завершить сбор семантических знаний о различных категориях атак в наборе данных и преобразовать их в машиночитаемые векторы семантического встраивания, чтобы сформировать нашу базу семантических знаний об атаках. (Обобщите научно-популярные знания из Википедии, энциклопедии Baidu и веб-сайтов по безопасности, чтобы завершить сбор информации о семантических описаниях всех категорий атак.) Преобразование текста в векторы слов с помощью технологии НЛП для создания базы семантических знаний об атаках.
2. Автоэнкодер
Обучающий набор видимого класса вводится в кодировщик, а соответствующий вектор семантического встраивания вводится в слой семантического вложения автокодировщика.Наша цель — обновить параметры кодировщика, декодера и регрессора, чтобы дискриминативное вложение слой может извлекать более репрезентативные данные. Декодер может генерировать псевдовыборки невидимых классов, которые содержат достаточную информацию о семантическом встраивании и отличительные признаки.
3. Классификатор
После создания псевдообразцов атак невидимого класса мы можем использовать образец и его соответствующую метку для обучения контролируемого классификатора атакам невидимого класса.