Руководство для начинающих по обучению с нуля

глубокое обучение
Руководство для начинающих по обучению с нуля

Эта статья подготовлена ​​технической командой OPPO Internet, укажите автора для перепечатки. В то же время приглашаем обратить внимание на нашу общедоступную учетную запись: OPPO_tech, чтобы поделиться с вами передовыми интернет-технологиями и деятельностью OPPO.

Метод обучения с нулевым выстрелом является одним из важных передовых направлений научных исследований.

Хотя большое количество научных исследователей аннотировали многие стандартные наборы данных. Но даже такой известный, как ImageNet, он разделен только на 21 841 категорию в своих десятках миллионов наборов данных.Данные, которые были помечены в реальном мире, по-прежнему лишь небольшое количество, и есть много сцен, таких как изображения болезней. Данные трудно получить в больших количествах.

Поэтому очень важно изучить, как эффективно учиться и делать прогнозы, когда в целевой области нет размеченных данных.

И поскольку эволюция этой парадигмы обучения с одной выборкой и обучения с несколькими выборками (решение) может быть эффективно применена в отрасли, команда интернет-технологов OPPO представляетНулевые методы обучения для передачи парадигм обучения(ZSL) и ввести несколько методов в сочетании с границей.

  • Метод обучения с нулевым выстрелом: обучение с нулевым выстрелом, то же самое ниже для ZSL;

  • Обучение с одним образцом: однократное обучение, OSL то же самое, что и ниже;

  • Небольшое обучение: Небольшое обучение, FSL то же самое, что и ниже.

1. Введение

1.1 Определение проблемы ZSL

Метод обучения с нулевым выстрелом (ZSL), который определяется как: изучение и прогнозирование результатов невидимых (невидимых, немаркированных) наборов данных на основе набора данных видимых меток и набора видимых меток (просмотренных). Невидимый набор тегов доступен, а пересечение видимого набора тегов и невидимого набора тегов пусто.

Процесс показан на рисунке ниже:

1.2 Введение в знания

W Wang, VW Zheng, H Yu и др. (2019) [1] резюмировали исследования ZSL по трем режимам: CIII, CTII, CTIT.

CIII

Параметр Class-Inductive Instance-Inductive относится к обучению модели с использованием только обучающего экземпляра и видимого набора меток.

CTII

Параметр Class-Transductive Instance-Inductive относится к использованию обучающего экземпляра и набора видимых меток, а также набора невидимых меток для обучения модели;

CTIT

Параметр Class-Transductive Instance-Inductive относится к использованию обучающего экземпляра и видимого набора меток, а также невидимого набора меток, соответствующего немаркированному тестовому набору для обучения модели;

Фактически, вышеупомянутые три категории соответствуют только трем режимам работы выбора данных.В каждой категории существует множество способов построения моделей в соответствии с семантическим пространством отображения и конкретным выбором на основе модели или на основе экземпляра.

Как показано ниже:

Также стоит упомянуть, что парадигма решения ZSL, используемая в этой статье, может рассматриваться как классспециальное трансферное обучение. (За базовыми знаниями о трансферном обучении обращайтесь к самим читателям, и я не буду повторять их в этой статье)

2. Метод и данные

2.1 На основе семантического встраивания — метод DeViSE

Фром, А., Коррадо, Г. С., Шленс, Дж. и др. (2013) [2] предложили метод DeViSE, который является базовым методом для решения задач ZSL на основе метрического обучения, как показано на следующем рисунке:

Метод, показанный на рисунке, таков:Завершите сопоставление невидимых изображений и меток, внедрив сопоставление, что является результатом классификации.

заизображение, выполните обычное обучение модели классификации и выведите ее представление внедрения для изображения тестового набора.

заЭтикетка, потому что текст может использовать обучение языковой модели для получения встраивания, соответствующего тексту метки, и получения соответствующей метки любого изображения с помощью метода сопоставления подобия, а его функция потерь разработана как потеря ранга шарнира:

почему это называетсябазовая модель, потому что в этой статье представлена ​​хорошая идея — идея -embedding означает сопоставление. Но в то же время недостатки этого метода очевидны: в методе взаимодействие — это сопоставление, а в результатах существенное различие пространства признаков домена изображения-метки.

2.2 На основе семантического автоэнкодера — SAE: семантический автоэнкодер

Чтобы решить серьезную проблему, вызванную разными пространствами признаков разных доменов, Кодиров, Э., Сян, Т., & Гонг, С. (2017) [3] предложил этометод самокодирования: то есть обучение из пространства экземпляров в семантическое пространство, а затем из семантического пространства в пространство экземпляров, что сглаживает разницу между двумя разными пространствами признаков.

План выглядит следующим образом:

так что вы можетеУстановите цели оптимизации:

Уравнение с жесткими ограничениями такого рода на самом деле трудно решить из-за того, что статистическую концепцию трудно гарантировать, поэтому его можно изменить намягкие ограничения:

До сих пор, предполагая A=SST, B=λXXT, C=(1+λ)SXT, формулу можно преобразовать в формулу Сильвестра, а матрицу можно вычислить непосредственно с использованием существующего математического алгоритма. После решения параметра W таким образом модель, естественно, можно использовать для сопоставления логического вывода.

2.3 На основе построения атрибутивного семантического пространства (атрибутного семантического пространства)

Li, Y., Zhang, J., Zhang, J., & Huang, K. (2018) [4] также предложили улучшенную схему:Построить атрибутивное семантическое пространство, искусственно создав набор атрибутов, описывающих изображения.. Он не только может обеспечить более подробное и точное семантическое представление, но и уменьшить пространственную разницу между доменом экземпляра и доменом метки, убивая двух зайцев одним выстрелом.

Как показано ниже:

На схеме есть две модели, соответствующие набору атрибутов и набору меток соответственно.Дополненная матрицаразделен надве части:

  1. user-defined attributes (UA)

  2. latent discriminative attributes (LA)

Каждая модель учится сопоставлять кодировку экземпляра и метки, скрытую семантику экземпляра и примечания, а результаты объединяются в матрицу, часть подмассива атрибутов вычисляет логарифмическую потерю, а скрытая семантическая подмассив рассчитывается в соответствии с потерей шарнирного ранга.

Так как есть две модели,окончательный дизайн потериДа:

2.4 Резюме

В задаче изображения ZSL из-за существенной разницы в пространстве признаков обычно используется именно он.промежуточное семантическое пространствоПуть. В области НЛП, несмотря на то, что пространство признаков остается прежним, практика показывает, что увеличение семантического пространства по-прежнему эффективно.

Протестировано на 5 стандартных наборах данных, представленных SUN, CUB, AWA1, AWA2 и aPY. После 2017 года модель обычного ZSL SOTA показала хорошие результаты на некоторых наборах данных.

Как показано на рисунке ниже, SS и PS представляют собой два разных известных и неизвестных метода классификации.

3. Заключение и перспективы

3.1 Резюме

Хотя текущие модели SOTA хорошо работают со стандартными наборами данных, они по-прежнему плохо работают с реальными бизнес-данными.

В существующих методах также много допущений.дефект:

(1) Предполагается, что маркировка исходного домена и целевого домена безошибочна, на самом деле даже ручная маркировка может привести к ошибкам;

(2) Метка целевого домена не имеет сильной корреляции;

(3) Данные исходной области легко получить (большое количество) предположений (на самом деле часто длиннохвостое распределение) и т. д., что принесет много проблем.

3.2 Применение

Одновыборочные (OSL) и маловыборочные (FSL) можно рассматривать как специальные задачи обучения с нулевой выборкой (ZSL) по существу, а в реальных задачах небольшой объем данных можно размечать вручную (то есть задача ZSL ), поэтому решение задач с малой выборкой. Одной из парадигм проблемы (FSL) является эволюция методов, основанных на обучении с нулевым выстрелом (ZSL).

То есть на основе ZSL он может повысить уровень обучения некоторых помеченных данных и интегрировать алгоритм слияния двух частей для достижения цели значительного улучшения эффекта.Парадигма эволюционного решения.

3.3 Перспективы

Кроме того, некоторые ученые предложили универсальныйИсследование модели ZSL, чтобы построить модель для вывода, которая, как ожидается, будет независимой от формы исходных данных. Например, использование изображения/аудио для построения модели для рассуждений о тексте представляет направление исследования.

использованная литература

[1] Wei Wang, Vincent W. Zheng, Han Yu, and Chunyan Miao.(2019). A Survey of Zero-Shot Learning: Settings, Methods, and Applications. ACM Trans. Intell. Syst. Technol.10, 2, Article 13, (January 2019), 37 pages.

[2] Frome, A. , Corrado, G. S. , Shlens, J. , Bengio, S. , Dean, J. , & Ranzato, M. , et al. (2013). DeViSE: a deep visual-semantic embedding model. Proceedings of the 26th International Conference on Neural Information Processing Systems - Volume 2. Curran Associates Inc.

[3] Kodirov, E. , Xiang, T. , & Gong, S. . (2017). Semantic autoencoder for zero-shot learning.

[4] Li, Y. , Zhang, J. , Zhang, J. , & Huang, K. . (2018). Discriminative learning of latent features for zero-shot recognition.