«Это 19-й день моего участия в ноябрьском испытании обновлений. Подробную информацию об этом событии см.:Вызов последнего обновления 2021 г."
предисловие
В начале статьи объясните несколько терминов в статье:
- NILM: Это относится к установке контрольного оборудования на входе питания.Контролируя напряжение, ток и другие сигналы там, можно проанализировать тип и работу отдельной нагрузки в кластере нагрузки. После идентификации полученной информации о нагрузке можно узнать, какие электроприборы используются в настоящее время? Есть ли вина и т.
- KNN: Алгоритм K-ближайших соседей, основанный на евклидовом расстоянии, если большинство из K наиболее похожих выборок в пространстве признаков (то есть ближайших соседей в пространстве признаков) принадлежат к определенной категории, выборка также принадлежит к этой категории . (Источник объяснения: энциклопедия Baidu)
Информация о статье
- Название: Метод неинтрузивной идентификации нагрузки на основе усовершенствованного алгоритма kNN
- Авторы: Янь Фэй, Чжан Жуйсян, Сунь Яоцзе, Тао Юхуэй, Хуан Гопин, Сунь Вэйтао
- Журнал: Fudan Journal (издание Natural Science), 2021, 60 (02)
- Ключевые слова: идентификация нагрузки, алгоритм kNN, бинарная V-I траектория, полное сходство,
- Ключевые слова на английском языке: идентификация нагрузки, алгоритм KNN, бинарная траектория V-I, полное сходство.
Краткое содержание статьи
KNN Когда в наборе данных возникает проблема дисбаланса, категория с большим количеством выборок будет мешать категории с небольшим количеством выборок.В ответ на эту проблему в статье обучающим выборкам присваиваются разные веса, чтобы увеличить количество образцов в решении о классификации Право голоса.
Характеристики нагрузки, выбранные в этой статье,V-I
Предлагается метод оценки траектории и амплитуды, а также категории нагрузки, основанный на полном сходстве этих двух признаков.
заV-I
Кривая нормализована отображением, а исходнаяV-I
Преобразование данных в двоичныеV-I
траектория.
Индекс оценки принимает макросреднее значениеF1
, точность, полнота и т. д.
наконец прошлоPLAID
Улучшенная проверка наборов данных и полученных лабораторных данныхKNN
эффективность алгоритма.
запись об обучении
Недостатки алгоритма KNN
Недостатком алгоритма kNN является то, что при несбалансированном наборе данных обучающие выборки мажоритарного класса с большим количеством выборок легко выбираются в качестве K ближайших соседей, что будет мешать оценке миноритарного класса.
Решения недостатков KNN
- Недостаточная и избыточная выборка: удалите образцы класса большинства и синтезируйте образцы класса меньшинства, тем самым устраняя проблему дисбаланса набора данных (аналогично синтетическим данным, упомянутым в англоязычной литературе).
Как синтезировать данные и по каким правилам синтезировать данные? (для запроса)
- Улучшите алгоритм, назначьте разные веса обучающим выборкам и увеличьте право голоса выборок меньшинства при принятии решения о классификации.
Метод, используемый в этой статье, является вторым методом, и метод распределения веса также относительно прост.weight(i) = 1 / size(i)
, и следуйте принципу, согласно которому вес выборки класса меньшинства велик, а вес выборки класса большинства мал.
Вопросы и перспективы присвоения весов КНН
Действительно ли хорошо назначать веса только по размеру выборки? Повысится ли точность алгоритма, если использовать более профессиональный метод присвоения весов?
Я просмотрел несколько статей, в настоящее время посвященных другим направлениям исследований.KNN
Общее использованиеDS-WKNN
на основе взвешивания расстояния илиKDF-WKNN
Метод реконструкции различий на основе ядра распределяет веса или добавляет поправочный коэффициент к вышеупомянутым методам для дальнейшего повышения рациональности распределения весов.
В основном я проверял бумаги CNKI, и в настоящее времяKNN
существуетNILM
Приложений не так много, а улучшение всего одно, не знаю, может ли оно стать направлением исследований для другого улучшения, поэтому запишу его первым.
Комплексный метод дискриминации
Идея комплексного метода дискриминации несложна и может быть условно разделена на следующие четыре части:
-
Вычислить разницу между тестовой выборкой и всеми обучающими выборками
V-I
Сходство траекторий и сходство амплитуд, обозначаемое какSim1
иSim2
Sim1 = 1 / (1 + dist1)
Sim2 = 1 / (1 + dist2)
dist1 и dist2 соответственно2
между образцамиV-I
Расстояние траектории и расстояние амплитуды оба являются евклидовым расстоянием. -
Сортировать в порядке убывания по размеру Sim1, брать первый
K
КусокSim1
В качестве K ближайших соседей текущей тестовой выборки используется самая большая обучающая выборка; -
Вычислить полное сходство между текущим тестируемым образцом и всеми K ближайшими соседями
Sim(a, Tj) = Sim1(a, Tj) * weight(Tj) - Sim2(a, Tj)
-
Статистические тестовые образцы и
K
В качестве результата прогнозирования принимается общее полное сходство каждой категории в ближайших соседях и класс с наибольшим полным полным сходством.
Показатели оценки
Использовать макроусреднениеF1
значение для оценки эффективности алгоритма.
макро средний
F1
Ссылка на значение:Среднее значение макроса, точность, отзыв и т. д.
сомневаться
- двоичное значение
V-I
Как сделать траекториюKNN
, как найти его евклидово расстояние? - двоичное значение
V-I
Как нормируются траектории?