Небольшое обучение и основы метаобучения

компьютерное зрение

Небольшое обучение и основы метаобучения

ИИ в конечном итоге полагается на обучение на основе больших данных. Сложно быстро обобщить модель с очень небольшим количеством данных. Вместо этого люди могут быстро применить то, чему они научились в прошлом, чтобы узнать что-то новое. Важным направлением является сокращение разрыва между искусственным интеллектом и человеком. Обучение с ограниченными данными.

обучение за несколько выстрелов

Глубокое обучение — это метод нехватки данных, который требует больших объемов данных, помеченных или не помеченных. Исследования по методу обучения с помощью нескольких выстрелов — это изучение того, как учиться на небольшом количестве образцов. Возьмем, к примеру, задачу классификации: каждый класс имеет только один или несколько образцов. Обучение с небольшим количеством выстрелов можно разделить на обучение с нулевым выстрелом (т. один или несколько образцов).

Люди способны учиться на нескольких образцах. Возьмем в качестве примера обучение с нулевым выстрелом. Например, есть китайское слово «сдаться», и вас просят выбрать соответствующее английское слово из пяти слов я, ваш, она, их, отречение, даже если вы не Я не знаю, что такое английское слово, означающее «сдаться», но вы будете сравнивать «сдаваться» с каждым словом, а в своем предыдущем исследовании вы уже знаете китайское значение слов «я», «ваш», «она», «их» и «они». не «сдаваться», поэтому вы выберете отречение.

Сначала определите несколько понятий (1)support set: Набор образцов для каждой тренировки (2)query set: выборка, используемая для сравнения с обучающей выборкой. Вообще говоря, набор запросов является образцом (3) В опорном наборе, если имеется n типов, и каждый тип имеет k выборок, то этот процесс обучения называется n-ходовым k-шотом, а следующий рисунок — 5-ходовым 1-шотом.

метаобучение

Мета-обучение — это «обучение тому, как учиться».Метаобучение рассматривается как основа для реализации искусственного общего интеллекта (AGI), что также избавит искусственный интеллект от дилеммы глубокого обучения. В настоящее время методы метаобучения в основном делятся на: методы измерения, методы моделей, методы оптимизации и аугментации на основе данных.

Основная идея метаобучения на основе метрик аналогична алгоритмам ближайших соседей (классификация k-NN, кластеризация k-средних) и оценке плотности ядра. Вероятность, предсказываемая этим классом методов на наборе известных меток, представляет собой взвешенную сумму выборочных меток в опорном наборе. Вес вычисляется функцией ядра, и вес представляет собой сходство между двумя выборками данных. Сверточная сиамская нейронная сеть предлагает метод однократной классификации изображений с помощью сети близнецов; после того, как сеть сопоставления извлекает признаки набора поддержки, она использует косинус для измерения в пространстве встраивания и реализует классификацию путем вычисления степени совпадения тестовых образцов; Структура модуля отношения предложенная сетью отношений Relation Network заменяет метрики косинусного и евклидова расстояния в Matching Network и Prototype Network, что делает его изученным нелинейным классификатором для оценки отношений и реализации классификации; Prototype Network использует идеи кластеризации для набора поддержки, проецируемого в метрическое пространство , и среднее значение вектора получается на основе метрики евклидова расстояния, а расстояние до каждого прототипа рассчитывается для тестовой выборки для достижения классификации. Однако хотя обучающую модель не нужно настраивать для тестовой задачи, она плохо работает, когда тест находится далеко от обучающей задачи, а попарные сравнения требуют больших вычислительных ресурсов, когда задача становится больше.

Мета-обучение — это обучение тому, как учиться, а обучение за несколько шагов — это цель, которую нужно достичь (с небольшим количеством обучающих данных мы можем обучить желаемые результаты). Как вы думаете, почему мета-обучение и обучение за несколько шагов похожи? Я просто хочу добиться обучения за несколько выстрелов, и мне нужен алгоритм обучения, который можно изучить, только увидев немного информации. Алгоритм обучения с несколькими выстрелами часто получается с помощью метаобучения.

k-way — это количество классов в наборе поддержки, n-shot — сколько примеров есть у каждого класса.

Если выполняется классификация с несколькими выстрелами, на точность прогнозирования будет влиять количество категорий и выборок в наборе поддержки. С увеличением количества классов классификации точность снижается, с увеличением количества выстрелов прогнозируемое значение увеличивается.

Изучите функцию, чтобы судить о сходстве.

разное

Омниглот набор данных

Office website

Tensorflow

Часто используемые наборы данных: Omniglot — наиболее часто используемый набор данных для метаобучения. Этот набор данных небольшой, всего несколько мегабайт, и подходит для академического использования. Omniglot чем-то похож на MNIST. В MNIST 10 классов по 6000 образцов в каждом, в Omniglot много классов, но мало образцов на класс, более 1600 классов и только 20 образцов на класс.

Другой набор данных — Mini-ImageNet. Всего 100 классов, в каждом классе по 600 сэмплов, а сэмплы представляют собой маленькие картинки 84*84.

https://deepai.org/dataset/imagenet

Проблема классификации: (1) Сиамская нейронная сеть (2) Соответствующая сеть (3) Прототип сети (4) Сеть отношений

Вводятся два метода обучения. Во-первых, взять две выборки одновременно и сравнить их сходство, для чего требуется большой набор данных, каждая категория имеет метки, и в каждой категории есть много выборок. Используйте обучающий набор для создания положительных образцов и отрицательных образцов.Положительные образцы сообщают нейронной сети, что такое один и тот же класс, а отрицательные образцы могут сообщать нейронной сети, чем они отличаются. Положительные образцы отбираются путем выборки одного изображения за раз, а затем случайной выборки другого изображения из того же класса с меткой, установленной на 1. Отрицательный образец состоит в том, чтобы случайным образом выбрать изображение, а затем исключить эту категорию и случайным образом выбрать одно из оставшихся категорий.Два изображения относятся к разным категориям, а метка установлена ​​​​на 0.

Есть надежда, что выход нейронной сети близок к метке, а разница между меткой и предсказанием записывается как функция потерь, которая может быть перекрестной энтропией. С функцией потерь можно использовать обратное распространение для вычисления градиента, а затем можно использовать градиентный спуск для обновления параметров модели.

Сиамская сеть предназначена для расчета сходства между двумя парами. Другой метод — тройная потеря. Каждый раз для раунда обучения требуется три изображения.Сначала из обучающего набора выбирается случайное изображение в качестве якоря, фиксируется точка привязки, затем случайным образом выбирается изображение из категории в качестве положительного образца, а затем это исключено.Категория, сделайте случайную выборку и получите отрицательный образец.

Прототипные сети основаны на идее, что для каждой категории существует точка в пространстве вложений, называемая прототипом класса, и представление каждого образца в пространстве вложений будет сгруппировано вокруг этой точки. Для этого ввод сопоставляется с пространством вложений с помощью нелинейного отображения нейронной сети, а среднее значение набора опор в пространстве вложений используется в качестве прототипа класса. При прогнозировании классификации необходимо только сравнить, какой прототип класса ближе к классу опорного набора.

Основная идея метаобучения на основе метрик аналогична алгоритмам ближайших соседей (классификация k-NN, кластеризация k-средних) и оценке плотности ядра. Вероятность, предсказываемая этим классом методов на наборе известных меток, представляет собой взвешенную сумму выборочных меток в опорном наборе. Вес вычисляется функцией ядра, и вес представляет собой сходство между двумя выборками данных. Поэтому изучение хорошей функции ядра имеет решающее значение для моделей метаобучения на основе метрик. Мета-обучение метрик - это метод, предложенный для этой проблемы, и его цель - изучить метрику или функцию расстояния между различными выборками. Определение хорошей метрики отличается для разных задач, но оно должно представлять связь между входными данными в пространстве задач и может помочь нам решить проблему.

Siamese Neural NetworkМетод двойниковой сети для однократной классификации изображений;Matching NetworkПосле извлечения признаков из набора поддержки используйте косинус для измерения в пространстве встраивания и реализуйте классификацию, вычислив степень соответствия тестовой выборки;Relation NetworkСтруктура модуля отношений, предложенная реляционной сетью, заменяет метрики косинусного и евклидова расстояния в MatchingNet и Prototype Net, что делает его обученным нелинейным классификатором для оценки отношений и реализации классификации;Prototypical NetworkИспользуя идею кластеризации, опорный набор проецируется в метрическое пространство, среднее значение вектора получается на основе метрики евклидова расстояния, а расстояние до каждого прототипа рассчитывается для тестовой выборки для достижения классификации.

Однако, хотя модель не нуждается в корректировке тренировочной миссии для теста, но тестирование и тренировочные миссии на расстоянии малоэффективны, кроме того, когда задача становится больше, попарное сравнение результатов при расчете затратно. Стремитесь в максимально возможной степени извлечь образец, содержащий задачу долларовой меры направления обучения на основе признаков, используя функцию, определяющую тип образца, а не способ, поэтому как извлечь признаки, которые лучше всего представляют характеристики образца, стали направленность исследований в этом направлении. По сравнению с обычными характеристиками, полученными в результате обучения, упомянутое представление характеристик, полученное элементом обучения (мета-обученные представления), отличается, но также помогает изучить меньшее количество образцов.

Характеристики использования обучения в юанях представляют собой эффекты улучшения обучения с меньшим количеством образцов, автор классифицирует их как два разных механизма: (1) Параметры модуля выделения фиксированных признаков обновляются (тонкая настройка) окончательного уровня классификации (Уровень классификации). В рамках этого механизма точки данных категории будут более агрегированы в пространстве признаков, чем при точной настройке, граница классификации не будет столь чувствительна к предоставленным образцам. (2) В пространстве параметров модели наибольшее преимущество используется в качестве базовой модели.Наибольшее преимущество близко к наиболее выгодной точке параметров модели для конкретной задачи, поэтому, когда возникает новая конкретная задача, расчет градиента может быть рассчитаны в несколько шагов.Обновить базовую модель до конкретной модели для новых задач. Впоследствии постоянно обновляйте статьи об обучении на малых выборках.

Ежедневное питание вовремя никогда не бывает поверхностным, я стремлюсь постоянно находить больше человеческой еды, а потом... потом я располнел.

Все должны есть вовремя ♥️

Поздравляем всех с Национальным праздником! ?