Ненавязчивый метод идентификации нагрузки на основе усовершенствованного алгоритма kNN

машинное обучение искусственный интеллект

«Это 19-й день моего участия в ноябрьском испытании обновлений. Подробную информацию об этом событии см.:Вызов последнего обновления 2021 г."

предисловие

В начале статьи объясните несколько терминов в статье:

  • NILM: Это относится к установке контрольного оборудования на входе питания.Контролируя напряжение, ток и другие сигналы там, можно проанализировать тип и работу отдельной нагрузки в кластере нагрузки. После идентификации полученной информации о нагрузке можно узнать, какие электроприборы используются в настоящее время? Есть ли вина и т.
  • KNN: Алгоритм K-ближайших соседей, основанный на евклидовом расстоянии, если большинство из K наиболее похожих выборок в пространстве признаков (то есть ближайших соседей в пространстве признаков) принадлежат к определенной категории, выборка также принадлежит к этой категории . (Источник объяснения: энциклопедия Baidu)

Информация о статье

  • Название: Метод неинтрузивной идентификации нагрузки на основе усовершенствованного алгоритма kNN
  • Авторы: Янь Фэй, Чжан Жуйсян, Сунь Яоцзе, Тао Юхуэй, Хуан Гопин, Сунь Вэйтао
  • Журнал: Fudan Journal (издание Natural Science), 2021, 60 (02)
  • Ключевые слова: идентификация нагрузки, алгоритм kNN, бинарная V-I траектория, полное сходство,
  • Ключевые слова на английском языке: идентификация нагрузки, алгоритм KNN, бинарная траектория V-I, полное сходство.

Краткое содержание статьи

KNN Когда в наборе данных возникает проблема дисбаланса, категория с большим количеством выборок будет мешать категории с небольшим количеством выборок.В ответ на эту проблему в статье обучающим выборкам присваиваются разные веса, чтобы увеличить количество образцов в решении о классификации Право голоса.

Характеристики нагрузки, выбранные в этой статье,V-IПредлагается метод оценки траектории и амплитуды, а также категории нагрузки, основанный на полном сходстве этих двух признаков.

заV-IКривая нормализована отображением, а исходнаяV-IПреобразование данных в двоичныеV-Iтраектория.

Индекс оценки принимает макросреднее значениеF1, точность, полнота и т. д.

наконец прошлоPLAIDУлучшенная проверка наборов данных и полученных лабораторных данныхKNNэффективность алгоритма.

запись об обучении

Недостатки алгоритма KNN

Недостатком алгоритма kNN является то, что при несбалансированном наборе данных обучающие выборки мажоритарного класса с большим количеством выборок легко выбираются в качестве K ближайших соседей, что будет мешать оценке миноритарного класса.

Решения недостатков KNN

  1. Недостаточная и избыточная выборка: удалите образцы класса большинства и синтезируйте образцы класса меньшинства, тем самым устраняя проблему дисбаланса набора данных (аналогично синтетическим данным, упомянутым в англоязычной литературе).

Как синтезировать данные и по каким правилам синтезировать данные? (для запроса)

  1. Улучшите алгоритм, назначьте разные веса обучающим выборкам и увеличьте право голоса выборок меньшинства при принятии решения о классификации.

Метод, используемый в этой статье, является вторым методом, и метод распределения веса также относительно прост.weight(i) = 1 / size(i), и следуйте принципу, согласно которому вес выборки класса меньшинства велик, а вес выборки класса большинства мал.

Вопросы и перспективы присвоения весов КНН

Действительно ли хорошо назначать веса только по размеру выборки? Повысится ли точность алгоритма, если использовать более профессиональный метод присвоения весов?

Я просмотрел несколько статей, в настоящее время посвященных другим направлениям исследований.KNNОбщее использованиеDS-WKNNна основе взвешивания расстояния илиKDF-WKNNМетод реконструкции различий на основе ядра распределяет веса или добавляет поправочный коэффициент к вышеупомянутым методам для дальнейшего повышения рациональности распределения весов.

В основном я проверял бумаги CNKI, и в настоящее времяKNNсуществуетNILMПриложений не так много, а улучшение всего одно, не знаю, может ли оно стать направлением исследований для другого улучшения, поэтому запишу его первым.

Комплексный метод дискриминации

Идея комплексного метода дискриминации несложна и может быть условно разделена на следующие четыре части:

  1. Вычислить разницу между тестовой выборкой и всеми обучающими выборкамиV-IСходство траекторий и сходство амплитуд, обозначаемое какSim1иSim2
    Sim1 = 1 / (1 + dist1)
    Sim2 = 1 / (1 + dist2)
    dist1 и dist2 соответственно2между образцамиV-IРасстояние траектории и расстояние амплитуды оба являются евклидовым расстоянием.

  2. Сортировать в порядке убывания по размеру Sim1, брать первыйKКусокSim1В качестве K ближайших соседей текущей тестовой выборки используется самая большая обучающая выборка;

  3. Вычислить полное сходство между текущим тестируемым образцом и всеми K ближайшими соседями

    Sim(a, Tj) = Sim1(a, Tj) * weight(Tj) - Sim2(a, Tj)

  4. Статистические тестовые образцы иKВ качестве результата прогнозирования принимается общее полное сходство каждой категории в ближайших соседях и класс с наибольшим полным полным сходством.

Показатели оценки

Использовать макроусреднениеF1значение для оценки эффективности алгоритма.

макро среднийF1Ссылка на значение:Среднее значение макроса, точность, отзыв и т. д.

сомневаться

  1. двоичное значениеV-IКак сделать траекториюKNN, как найти его евклидово расстояние?
  2. двоичное значениеV-IКак нормируются траектории?