Зачем переводить эту старую статью, опубликованную в 2007 году? Есть четыре основные причины:
(1) В этой статье четко представлена концепция поэтапного обучения. (2) Диссертация имеет определенную теоретическую и прикладную ценность. (3) Авторы статьи все еще активны, и чтение предыдущей работы помогает понять последнюю работу. (4) После цикла изменений я чувствую себя ближе, и мне легче понять текст, который я перевел. Ниже приводится перевод, а примечания выделены курсивом.
[1] Дж. Уэнг, «Инкрементная иерархическая дискриминантная регрессия», стр. 28, 2007.
Резюме
В статье представлена пошаговая иерархическая дискриминантная регрессия (IHDR). IHDR может поэтапно строить дерево решений или дерево регрессии в режиме онлайн для очень многомерных пространств регрессии или решений. Среди биологических идей — компьютерная модель автоматического развития ассоциативной коры головного мозга. Эта ассоциативная модель касается перцептивного ввода сверху вниз для проекции движения снизу вверх. В каждом внутреннем узле дерева IHDR выходная информация напрямую используется для автоматического получения локальных подпространств (эти подпространства — это те, которые могут делить входное пространство в соответствии с выходными кластерами, так что каждое подпространство имеет наивысшую степень дискриминации. особенность) . Некоторые параметры в методе являются автоматическими и управляются данными, что позволяет дереву IHDR автоматически подбирать неизвестные формы распределения. Иерархическая модель распределения вероятностей, встроенная в дерево, которое используется для исключения тех случаев, которые наименее вероятны при поиске. Деревья IHDR динамически распределяют долговременную память, чтобы избежать проблемы забывчивости (распространенной в алгоритмах, используемых для обучения глобальной подгонке, таких как нейронные сети). В процессе построения дерева может быть большое количество очень разных образцов. В этом случае для определения больших выборок, малых выборок, несбалансированных выборок и т. д.
keywords : online learning, incremental learning, cortical development, discrimenant analysis, local invariance, plasticity, decision trees, high dimensional data, classification, regression, and autonomus development.
введение
Кора головного мозга представляет собой регрессионную модель, которая выполняет числовой ввод для вывода данных. В подходящей временной шкале частота активации нейронов была смоделирована как основной источник информации, передаваемой нейронными аксонами. Область коры постепенно развивается (адаптируется и самоорганизуется) с опытом обработки сигналов. Мозг человека имеет четыре типа коры: первичную, ассоциативную (ассоциативную), мультимодальную и паракортикальную. Ассоциативная кора находится между первичной корой и моторной зоной. Математическая модель, построенная в данной работе, может рассматриваться как грубая аппроксимационная вычислительная модель развития ассоциативной коры головного мозга. На самом деле в мозгу человека еще много неизвестных мест. Таким образом, вычислительная модель, представленная в этой статье, не предназначена для полного соответствия тому, что описано в биологии.
Деревья классификации (выводятся в виде меток классов) и деревья регрессии (выводятся в виде числовых векторов) служат двум целям: индексация и предсказание. Деревья индексов, такие как деревья K-D и R-деревья, широко использовались для извлечения известных данных дерева из наборов данных в качестве эффективной структуры хранения данных для уменьшения временной сложности поиска.). Деревья прогнозов, также известные как деревья решений, широко используются в машинном обучении для создания набора правил прогнозирования на основе дерева. Поскольку построенные деревья решений обычно неглубокие, временная сложность не является проблемой для деревьев решений. Кроме того, для этой статьи требуется система искусственной нейронной сети с добавочным обучением в режиме реального времени. Поэтому мы рассматриваем эффективность времени и важную производительность обобщения. Кроме того, нам нужно строить дерево постепенно, чтобы его можно было использовать для обработки постепенно поступающих данных. Например, ввод видеоинформации об окружающей среде в роботизированную систему в режиме реального времени.
Традиционное дерево классификации или регрессии использует одну переменную для разделения ее на каждом внутреннем узле для построения дерева, например CART, C5.0 и многие другие методы дерева. Это означает, что гиперплоскость, используемая для разделения входного пространства в узле, ортогональна одной из осей пространства. Многомерное линейное разбиение не обязательно должно быть ортогональным к какой-либо оси координат, поэтому оно может правильно разделить пространство вдоль границы решения, что приводит к лучшему прогнозированию и обобщению. Дерево, построенное с несколькими переменными, называетсяoblique trees.
Существующие наклонные деревья включают OC1, SHOSLIF. OC1 использует рекурсивный поиск разделенной плоскости. SHOSLIF использует PCA и LDA для прямого вычисления разделения. SHOSLIF использует многомерное нелинейное разделение (поверхности, разделяющие поверхности в произвольной ориентации). Почему LDA важен, потому чтоLDA использует информацию из выходного пространствадля разделения входного пространства. PCA использует только информацию из входного пространства. Следствием этого является то, что переменные во входном пространстве, которые не связаны с выходными данными (например, шумовые компоненты), также захватываются PCA. Включение методов дискриминантного анализа, таких как LDA, может игнорировать входные компоненты, которые не имеют отношения к выходным данным.
Проблема усложняется, когда выход представляет собой многомерный аналоговый сигнал (например, сигнал управления движением робота в реальном времени). Метки классов трудно найти, поэтому методы LDA нельзя применять напрямую. Иерархическая дискриминантная регрессия (HDR) выполняет операции кластеризации как во входном, так и в выходном пространстве, а кластеризация в выходном пространстве предоставляет виртуальные метки для направления кластеризации во входном пространстве. В этом документе предлагается инкрементная версия HDR, IHDR.
Инкрементная регрессия
Полностью поэтапное обучение — очень сложная задача. Полное инкрементное обучение означает, что дерево должно обновлять дерево (модель) для каждого входного вектора. Вполне разумно предположить, что мозг является полностью инкрементным мозгом, который должен работать и обновляться при каждом сенсорном вводе. В системе инкрементного обучения кадры данных поступают последовательно в последовательности. каждый кадрВекторы данных меняют мир во времениОбразец (снимок) файла . Поскольку поток данных наблюдений может продолжаться в течение длительного времени или даже никогда не прекращаться, система должна иметь возможность каждый раз обновлять систему текущими данными. После того, как каждый кадр данных используется для обновления, он отбрасывается. Основные причины последовательного обучения включают: (а) невозможность хранения всех входящих данных; (б) пакетная обработка (включая обучение в последовательностях, разбитых на фрагменты) требует времени и вносит временные задержки, начиная с первого пакета данных. следующая партия поступающих данных значительна; (c) обновление дерева происходит очень быстро, но для построения полного дерева требуется больше времени. Следовательно, эффект задержки обновления дерева одним кадром данных короче.
Преимущества поэтапного обучения
(a) Выполнить во время строительства. IHDR может работать до завершения сборки (для прогнозирования); (b) Сосредоточьтесь на трудных частях исследования. Будут ли собираться более поздние обучающие выборки, зависит от производительности текущего дерева, что позволяет использовать более эффективные обучающие выборки для обучения труднообучаемых частей; (c) Количество обучающих выборок определяется динамически. Учитывая задачу классификации или регрессии, трудно определить, сколько обучающих выборок требуется для этой задачи. Инкрементное обучение позволяет роботу динамически определять необходимые данные обучающей выборки в соответствии с текущей производительностью системы; (d) Эти выборки (микрокластеры, присутствующие в листовых узлах в IHDR) принимаются в разное время и могут храниться в разных местах дерева, что может повысить производительность.
По сравнению с другими методами дополнительного обучения IHDR имеет следующие характеристики:
-
Долговременная и кратковременная память с систематической организацией. Долговременная память в основном включает информацию в неглубоких узлах и микрокластерах (редко используемых) в листовых узлах. Кратковременная память включает в себя микрокластеры (часто используемые) в листовых узлах. Детали игнорируются добавочным усреднением. Долговременная память позволяет IHDR избежать таких проблем, как катастрофическое забывание (обычно присутствует в сетях прямой и обратной связи, основанных на BP).
-
Параметры определяются динамически и автоматически, в том числе и степени свободы дерева. Эти параметры включают в себя матрицы среднего и дисперсии вероятностной модели, соответствующие каждому внутреннему узлу. Степень свободы дерева также не фиксирована, а это означает, что количество слоев в дереве и количество дочерних узлов, которые имеет каждый узел, автоматически корректируются в соответствии с задачей обучения.
-
Оценено по многослойному распределению от грубого к мелкому.
-
Быстрые локальные обновления, не требующие итерации. Некоторые существующие методы, такие как эволюционные вычисления и моделируемый отжиг, могут справиться с проблемой локальных минимумов, но требуют итеративных вычислений. И это не работает с живыми обновлениями.
метод
А. Объединение задач классификации и регрессии
В зависимости от типа вывода (классический или символьный вывод по сравнению с числовым выводом) задачи дискриминантного анализа можно разделить на две категории: классификация и регрессия.
Задачу классификации можно определить следующим образом: Учитывая набор обучающей выборки, здесьвходной (признаковый) вектор,заСоответствующая символьная метка, задача классификации для ввода любой неизвестной категорииОпределите, к какой категории он относится.
Задача регрессии аналогична задаче классификации, за исключением того, что метка классазаменить,. Задача регрессии определяется следующим образом: Учитывая обучающий набор данных, задача регрессии для любого входного вектораОцените его соответствующий выходной вектор.
Регрессионные задачи очень распространены. Проблема обучения — это задача регрессии, поскольку системе необходимо управлять исполнительными механизмами с изменяющимися значениями. Например: моторы, рубрики, тормоза и машины различного промышленного назначения. Кора головного мозга в биологии также выполняет задачи регрессии.
В задачах классификации метка класса не предоставляет больше информации, чтобы указать на разницу между классами, поэтому нельзя оценить, что определенный класс больше похож или отличается от одного класса, чем от другого. Сколь угодно разные классы - это совсем разные, не плавные отношения, а резкие отношения на краю класса. В действительности категория действительно ближе к одним из них и дальше к другим. Например, оценка тигра как кошки более приемлема, чем оценка его как автомобиля.
Мы можем спроецировать задачу классификации в задачу регрессии, которая может легко формировать грубые классы путем слияния некоторых исходных классов. Эти грубые классы используются для реализации точной классификации и регрессии с использованием деревьев решений. Этот подход используется далее в этой статье.
Здесь мы перечисляем три подхода к проецированию задачи классификации в задачу регрессии.
- Каноническое отображение. будетклассные отметки сопоставляются собъемное выходное пространство. во-первыхкласс, соответствующий выходной векторзаразмерный вектор, гдеКаждый элемент равен 1, а все остальные элементы равны 0. Этот метод имеет большие ограничения в контексте поэтапного обучения, поскольку максимальное количество классов ограничено.
- Внедрение матрицы затрат. Если матрица затратдоступно, тоМетки классов могут быть встроены вразмерное выходное пространство, используя векторУказывает категорию, так чтоиоколо. Этот процесс не всегда возможен из-за предопределенной матрицы затрат.Не часто легко получить. Количество категорий здесь также ограничено и не относится к поэтапному обучению.
- Среднее значение входного пространства категорий. каждый относится к категорииобразец, превращаются в, здесьдля всех принадлежащих к одной категорииизсреднее значение . В добавочном обучении это среднее может быть обновлено средним значением амнезии. Этот метод является предпочтительным решением из-за предположения, что аналогичные входные данные влекут за собой аналогичные выходные данные в большинстве задач обучения.
Б. Мотивация
В оставшейся части этой статьи мы рассматриваем общую проблему регрессии: постепенное приближение карты:
Предположим, что обучающие выборки. Смысл пошаговой аппроксимации в том, что разработчик d использует только модель отображения предыдущего моментаи текущий входной образецсоздать новую карту:
В дереве IHDR есть три типа кластеров (также называемых нейронами): x-кластеры, y-кластеры и микрокластеры.
- x-кластеры и y-кластеры: чтобы охарактеризовать границу разделения подпространства отличительных признаков D каждого внутреннего узла. y-кластеры находятся вПредставление в пространстве, используемое для предоставления виртуальных меток x-кластерам. x-кластеры определены впространство, чтобы разделить входное пространство вдоль дискриминативного подпространства D на внутренние узлы.
- микрокластер: состоит изУказывает, что он существует только на листовых узлах. Конечно, если дерево IHDR допускает операции обрезки, то внутренние узлы нуждаются в микрокластере, потому что при удалении конечного узла его родительский узел может непосредственно выступать в роли конечного узла.
D. Бикластеризация
Каждый внутренний узел IHDR поддерживает y-кластеры и x-кластеры постепенно. Как показано на рисунке ниже, каждую категорию каждого узла можно разделить не более чем на q категорий (q — заданное максимальное значение).Математически описывается как входное пространствоКластеризация находится в выходном пространствекак условие. Итак, для каждого x-кластера есть случайная величинаО случайных величинахУсловное распределение вероятностей , обозначаемое как,впервыйy-кластеры,.
y-кластеры основаны наКаждый поступающий образец идентифицируетсявиртуальная этикетка. Виртуальные метки используются для определения текущего, следует использовать егоКакой x-кластер обновить. Каждое x-скопление находится примерно наВыборочная совокупность в пространстве, к которому она относится. Если требуется более точное приближение, он может создать дочерний узел.
Шаги для добавочного обновления следующие:
В каждом узле текущая выборкасередина, используется для поиска ближайшего y-кластера (евклидово расстояние) и его использования для обновления центра этого y-кластера. Самый последний y-кластер указывает наСвязанный x-кластер. потомИспользуется для обновления статистики x-кластера (средний вектор и матрица дисперсии). Статистика каждого x-кластера используется для оценки текущей выборки.Вероятность принадлежности к каждому x-кластеру (здесь моделируется как многомерное распределение Гаусса).
Кроме того, центры x-кластеров предоставляют много важной информации, которую можно использовать для разделения подпространств. потому что эти x-кластеры сделаны в соответствии сВиртуально генерируются в космосе. Мы определяем пространство максимального дискриминантного признака (MDF)как линейное пространство, разделяющее эти x-кластеры. q x-кластерам требуется q-1 дискриминантных признаков (поддерживающих q-1-мерное дискриминативное пространство D)
Почему оно называется максимальным дискриминантным пространством? Например, предположим, что у наших входных данных есть две функции, одна из которых содержит информацию, относящуюся к выходным данным, а другая не связана с выходными данными (как показано на рисунке ниже). Поскольку в центре двух x-кластеров есть функция, значение которой в основном одинаковое, эта функция игнорируется. Еще одна особенность с большими различиями важна для разделения двух классов. Таким образом, «шумовые» характеристики, не связанные с выходными данными, экранируются, и снижается влияние на эффективность обучения. Как показано на рисунке ниже, максимальный дискриминантный признак не обязательно ортогонален оси, на которой расположен признак, и его направление произвольно.
E. Адаптивная локальная квазиинвариантность
входная выборкапринимаются последовательно. непрерывный векториВозможно, связано с изображением отслеживаемого объекта (например, уход, движение в одном направлении, вращение, деформация, мимика, изменение освещения и т. д.) Эта квазиинвариантность носит адаптивный и локальный характер.
Адаптивность означает, что квазиинвариантность вытекает из опыта перцептивного действия, а не создается вручную. Локальность означает, что квазиинвариантная производительность применяется к локальным многообразиям во входном пространстве, а не ко всему входному пространству. А квази означает, что эта инвариантность приблизительная и не совсем безошибочная.
Пока нет аналогичного метода, который может эффективно достичь хорошей локальной квазиинвариантности в предпосылке постепенного обучения. Евклидово расстояние обычно используется для измерения разницы между двумя векторами.
Используя описанный выше метод, можно получить адаптивное квазиинвариантное подпространство максимального дискриминационного признака.
Как показано в (а) на приведенном выше рисунке, входные данные соответствуют четырем видам выходных данных, которые представлены разными символами. Но если не учитывать выходную информацию, то в этих состояниях бардак. Четкой закономерности не видно.
На рисунке (b), поскольку учитывается выходная информация, эти выборки могут быть разделены более разумно.
Дополнение читателя: все это основано на предположении, что аналогичные входные данные имеют аналогичные выходные данные. Помните! ! !
F. Биологические перспективы
На изображении ниже показано дерево IHDR. Каждый узел напоминает область коры. государственное пространствопредставлен d-мерным вектором, который изначально грубо разделен на 4 части. Каждый раздел является дочерним элементом корневого узла. Каждый дочерний узел имеет свою небольшую область. Это деление от грубого к мелкому постепенно делит входное пространство на небольшие области. Если дочерний узел получает достаточно выборок, он будет разделен на q дочерних узлов. В листовых узлах микрокластеры начинаются сформа существует.
еслидано, ноЕсли оно неизвестно, мы можем получить соответствующее выходное значение в качестве предсказания текущего состояния путем поиска в дереве IHDR до конечного узла.
Алгоритм IHDR
Алгоритм пошагового построения дерева IHDR описан ниже. Обучающие данные алгоритма вводятся в робот последовательно по времени, аОбразцы, полученные на данный момент, помечены как. Чем глубже построено дерево (чем больше слоев), тем меньше дисперсия x-кластеров. Когда количество выборок в узле слишком мало для получения статистической оценки x-кластеров, узел остается листовой точкой.
Процедура 1: Алгоритм IHDR.
- Инициализируйте корневой узел.
- Для t=0,1,2,... сделайте следующее: Получить текущий образец. еслиЕсли известно, вызовите update-tree(root,, ), в противном случае вызовите calculate-response(root,,), и вывод.
A. Update tree
Ниже приведен алгоритм постепенного обновления дерева. Корневой узел данного дерева и обучающие выборки, используя только текущую выборкуОбновите дерево. Каждый раз, когда вызывается функция обновления дерева, дерево может увеличиваться. Программа для работы с адаптивной корковой пластичностью (три слоя). Системный параметр: q — максимальное количество подкластеров на внутренний узел.- количество выборок, необходимых для каждого постоянного параметра (степени свободы) (взятых в этой статье).
Procedure 2: Update-tree(root,, )
- 1) Инициализировать. Пусть A будет активированным узлом (ожидающим поиска), а A инициализирован как корневой узел.
-
- поиск дерева. Когда A не является листовым узлом, выполнение выглядит следующим образом:
-
- Обновите податливые внутренние узлы. Обновите родительский узел A активного конечного узла (Примечание: чтобы избежать крупномасштабного разделения временного пространства для ограниченной пластичности, узлы-предки над родительским узлом листового узла не нужно обновлять.) вызвать update-note(A,,) для обновления узла A.
- 4) Инкрементная кластеризация. Вызовите update-cluster-pair(A,,).
- 5) Для листового узла A, если количество выборокбольше порогового значения (автоматически рассчитывается), A используется как внутренний узел, и генерируются q конечных узлов (путем назначения микрокластеров A его новым дочерним узлам).
B. Update node
Учитывая узел N и обучающую выборку, который используетОбновите узел N. Эта процедура имеет дело с адаптивной пластичностью корковых блоков (внутри листовых точек).
Procedure 3: Update-node(N, x,$$y)
- Обновите y-кластеры. Пусть c будет набором y-кластеров в N узлах. Вызывая update-clusters(,), функция возвращает ближайшийиндекс чего-либо.
2) Обновите x-кластер, связанный с индексом y-кластера на предыдущем шаге. использоватьОбновите среднее значение x-кластера, которое вводит механизм забывания для усиления эффекта новых данных. 3) Использовать наибольший дискриминантный признак для обновления подпространства узла N, так как i-й x-кластер уже обновлен. Следовательно, подпространство из N узлов необходимо повторно разделить.
C. Update clusters
данный образеци набор кластеров, обновление программыкластеризация в . Параметры включают: qМаксимальное количество кластеров в ;является разрешением выходного пространства.
Procedure 4: Update-clusters(, )
1) Еслии(Чтобы предотвратить создание нескольких кластеров очень маленьким или одним и тем же образцом), увеличьте, настроить новый кластер, и волядобавить в, возвращение. В противном случае сделайте следующее: 2) Найдите ближайшего соседа по следующей метрике:. 3) Обновить определенную часть самого последнего кластера(Например,Обновите только 20% кластеров), введите механизм забывания и верните.
D. Update-cluster-pair
данный образеци набор пар кластеров. Программа обновленаЛучший соответствующий кластер в . Программа представляет собой локальную операцию над каждым выходным нейроном (микрокластером). Параметры включают:— максимально допустимое количество микрокластеров в листовых узлах;является разрешением входного пространства.
Procedure 5: Update-cluster-pair(,,)
1) Еслии,, и установите новый кластер, и воляувеличить в, и вернуться. В противном случае сделайте следующее: 2) Используйте следующие показатели, чтобы найти ближайший:. 3) Воспользуйтесь преимуществами новых образцовкластер обновления, и ввести механизм забывания. 4) Воспользуйтесь преимуществами новых образцовкластер обновления, и ввести механизм забывания. 5) Вернуть обновленный.
E. Compute response
Когда образец имеет только ввод, не зная времени выхода. Мы вызываем программу вычисления-ответа IHDR, чтобы получитьПрогноз.
Procedure 6: Compute-response(root,,)
- Сначала выполните ту же операцию в дереве обновлений, чтобы найти наиболее подходящий конечный узел A.
2) Рассчитать выход. Пусть микрокластеры в листовом узле будут. Используйте следующие показатели, чтобы найтиНаиболее подходящее совпадение:Пусть прогнозируемый результат,возвращение.
F. Механизмы забывания
Введение механизма забывания вдохновлено пластичностью нейронов головного мозга (требующей адаптивной адаптации к текущему опыту). Он также подлежит следующей статистической достоверности, описанной математическим языком: Чтобы оценить средний вектор распределения(например, наблюденияСредний вектор нейронных синапсов используется в качестве вектора весов для нейронных синапсов), а среднее значение выборок является наиболее эффективной оценкой большого класса неизменных во времени распределений (например, экспоненциально распределенных кластеров, таких как распределения Гаусса). Определив наиболее эффективную оценку- наименьшая ожидаемая ошибка среди всех возможных оценок,. Однако в практических ситуациях распределение наблюдений не является постоянным во времени, и необходимо использовать механизм забывания для медленного изменения распределения при сохранении квазиоптимальной достоверности оценки.
С точки зрения алгоритма пошагового обучения центр кластера начального состояния определяется более ранними данными. По мере поступления дополнительных данных эти центры перемещаются в более подходящие места. Если центры этих кластеров используются для выделения границ каждого кластера, исходные данные не будут правильно классифицированы. Другими словами, некоторые ранние данные, содержащиеся в центре каждой категории, могут больше не принадлежать этой категории на данный момент. Чтобы уменьшить влияние ранних данных, можно использовать механизм забывания для вычисления центра каждого кластера. Механизм забывания может лучше отслеживать динамику входной среды.
для каждых входных данныхСреднее значение задается как
Для приведенного выше утверждения каждыйпутем умножения веса, затем сложите и просуммируйте. Это называется усреднением равных весов. еслиИнкрементальное прибытие, нам нужно постепенно обновлять среднее значение:
В среднем внедрение механизма забывания выглядит следующим образом:.
когда, является параметром забывания.
Однако по мере того, как данные продолжают поступать, количество выборок продолжает увеличиваться, т. е.растет. еслиявляется фиксированным значением, то вКогда он очень большой, его эффект почти равен нулю. Поэтому более целесообразнодолжно медленно возрастать со временем, т. е. как функция времени. может быть выражена в виде кусочной функции, например, когдаПри параметр забывания не вводится, т.е.;когда, мы делаеммедленно от 0 до(Например,);когда, мы делаеммедленное изменение скорости ростаУвеличивать. Вкратце это можно выразить следующим образом
так как,когдаПри увеличении до большого значения вес новых данных примерно такой же, как и без введения механизма забывания.Вычисление равновзвешенного среднего по выборкам. такой ростПозволяет среднему отследить нестационарные случайные (означает медленно изменяющиеся во времени) входные данные..
Формула пошагового обновления выборочной ковариационной матрицы выглядит следующим образом:
Здесь следует отметить, что в приведенном выше выражении для расчета ковариации предполагается, что степень свободы выборки равна, а не в пакетных вычислениях. Потому что, даже если есть только одна выборка, связанная с ней ковариационная матрица не должна оцениваться как нулевой вектор, потому чтоЭто никогда не будет точным из-за теоремы неопределенности в физике. Например, исходная матрица отклоненийможно оценить как,ижелаемый цифровой шум.
Дискриминантное подпространство и границы оптимальных классов
Каждый внутренний узел поддерживает подпространство максимального различительного признака (MDF), которое используется для улучшения способности модели к обобщению. Подпространство MDF каждого внутреннего узла обновляется образцами, назначенными этому узлу. В целях разделения каждый дочерний узел внутреннего узла представляет класс. Нам нужно использовать оптимальную границу класса, основанную на вероятности (на основе подпространства MDF), чтобы разделить входное пространство внутренних узлов. {выходное пространство--->MDF--->граница оптимального класса--->разделить входное пространство}
А. Дискриминантное подпространство
Когда размерность ввода очень высока (обычно не менее нескольких тысяч измерений), для эффективности вычислений мы не должны находиться в исходном входном пространстве.представлять данные. Далее, чтобы лучше представить признаки, мы используем дискриминативное подпространствоТакже игнорируются те, кто не имеет отношения к выходу.
Сначала мы рассмотрим X-кластеры, каждый X-кластер представлен своей статистической информацией (среднее значение и дисперсия). Когда размерность входного состояния очень велика, дисперсия представляет собой очень большую матрицу, поддерживать которую нереально. Мы вводим более эффективный способ: использование субстрипов для представления исходного пространства состояний.
Каждый внутренний узел содержит q x-кластеров. Центры этих q x-кластеров обозначаются как
Центры этих кластеров содержат подпространстваинформация о местоположении в пространстве состояний.является дискриминантным пространством, потому что его форма кластеризации определяется выходным пространствомрешил.
дискриминантное подпространствоШаги расчета следующие:
Предположим, что количество отсчетов в i-м кластере равно, поэтому общее количество выборок этого внутреннего узла равно.
сделатьявляется центром всех q кластеров.
отПерейдите к вектору центра кластера, чтобы получить новый столбец векторов.,Как показано ниже. мы называем это поПоддерживаемое подпространство — span(S).
И ортонормированный базис span(S)в состоянии использоватьпостроить (программа GSO ортогонализации Грама-Шмидта):
В приведенной выше программе следует отметить, что когда знаменатель первого шага равен 0, т. е.Когда он равен нулю, он называется вырожденным. связанный с дегенерациейследует удалить. Количество базисных векторов, полученных с помощью GSO, равно количеству линейно независимых элементов в S.
Предполагая, что эти ортонормированные базисы получены с помощью описанной выше процедуры, в этот момент приходит вектор состояния, сначала вычислим его точечную часть, а затем вычислитьПроекция на дискриминантное пространство,в. мы называемзав линейном коллекторедискриминантные признаки. Среднее значение и дисперсия кластеров рассчитываются на основе дискриминантного подпространства.
B. Вероятностные меры
Одним из ограничений подпространства наибольшего дискриминантного признака является то, что его размерность может быть только q-1. В подпространстве нам нужно автоматически определить оптимальную границу класса для каждого дочернего узла на основе предполагаемого распределения вероятностей. Различные модели распределения вероятностей получают разные меры расстояния.
- отрицательное логарифмическое правдоподобие (NLL):
мы называем это состояниемГауссовский NLL для атрибутивного кластера i.и- среднее значение и матрица дисперсии сгруппированных выборок. Они обновляются с использованием среднего значения амнезии.
- Махаланобис NLL:
- Euclidean NLL:
здесь,- матрица средней дисперсии q кластеров:
Евклидова NLL одинаково обрабатывает все измерения и является хорошим выбором, когда количество выборок невелико.
Mahalanobis NLL использует внутриклассовую матрицу баллов. Таким образом, NLL Махаланобиса равен евклидову NLL плюс LDA Фишера. Веса каждого измерения разные, а количество параметров, поэтому Mahalanobis NLL требует больше выборок.
C. Автоматический плавный переход между различными мерами
Поскольку выборки поступают постепенно, выбор различных мер расстояния зависит от количества выборок, доступных в каждом узле.
Мы будем использовать евклидову NLL, когда количество выборок невелико. Когда количество образцов увеличится, мы будем использовать Mahalanobis NLL. Мы используем полный гауссовский NLL, когда кластер имеет богатую выборку наблюдений.Границы NSPP ограничивают рост NSPP.
Границы NSPP
Границы NSPP
Границы NSPP
матрица рассеяния, зависящая от размера (SDSM):
некоторые места,,- нормировочный коэффициент.
Используйте матрицу рассеяния, зависящую от размера, зависящее от размера отрицательное логарифмическое правдоподобие (SDNLL) получается как:
так какавтоматически изменится,будет плавно переключаться на эти подходящие меры расстояния.
D. Учитывайте вычислительную эффективность
Из-за необходимости вычислений в реальном времени необходимо разработать эффективную схему неитеративных вычислений.
отк каждому центру x-кластераМатрица взвешенных квадратов расстояний выглядит следующим образом:
Расстояния между состояниями во всех узлах рассчитываются вразмерное дискриминантное пространство. Итак, СДСМсимметричная квадратная матрица. Нам просто нужно оценитьпараметры.
Чтобы более эффективно вычислить вышеуказанное расстояние, используйте алгоритм разложения Холецкого: симметричную квадратную матрицу можно разложить на
Разложение Холецкого см. в блоге.Разложение матрицы Разложение Холецкого
Предположим, мы получили разложение Холецкого,, и разрешино
путем решения,Потома также, решатьОбратный метод можно использовать, когда , так какдля нижней треугольной матрицы.
遗留的问题
На шаге (3) алгоритма обновления узла B говорится, что минимальное дискриминантное подпространство узла нуждается в обновлении.Необходимо ли пересчитывать базисный вектор минимального дискриминантного подпространства? Алгоритму IHDR необходимо обновить минимальное дискриминативное подпространство родительского узла A активированного конечного узла. Затем в узле A есть два типа пространств: исходное пространство состояний (как правило, высокой размерности, нелегко напрямую вычислить матрицу дисперсии) X и минимальное дискриминантное подпространство D. Алгоритм говорит только об обновлении минимального дискриминантного подпространства узла A, а интуитивное понимание заключается в обновлении базисного вектора. Однако, как только базисный вектор изменяется, D изменяется. Среднее значение и дисперсия, рассчитанные ранее в этом пространстве, больше не доступны. Итак, как восстановить информацию о среднем значении и дисперсии в новом D? Среди них среднее может быть восстановлено путем синхронного поддержания среднего значения в пространстве X. Но как насчет дисперсии? Невозможно синхронно поддерживать информацию о дисперсии в пространстве X, верно? Потому что первоначальное намерение минимального дискриминантного подпространства состояло в том, чтобы избежать вычисления чрезмерно большой матрицы дисперсии в исходном пространстве X. Итак, как восстановить информацию о дисперсии? Если восстановление выполняется с использованием пары x-y листового узла, которому он принадлежит, является ли шаг обновления дисперсии с помощью механизма забывания избыточным? Потому что каждый раз, когда приходят новые данные, D будет обновляться, и дисперсию придется пересчитывать. Прежде чем он успеет итеративно обновиться, дисперсия снова изменится.
Если нет необходимости пересчитывать базисные векторы, минимальное дискриминантное подпространство фиксируется с самого начала и может быть объединено с инкрементальной RBF-сетью.