Аннотация: В этом документе в основном представлена схема вертикальной федеративной логистической регрессии (LR), принятая службой интеллектуальных вычислений Huawei Cloud Trusted Intelligent Computing Service (TICS).
Эта статья опубликована в сообществе HUAWEI CLOUD.«Логистическая регрессия (LR) в сценарии вертикального федеративного обучения», Автор: В безалкогольные напитки нужно добавлять лед.
Массивные обучающие данные являются важным условием успешного применения технологий искусственного интеллекта в различных областях. Например, алгоритмы искусственного интеллекта в компьютерном зрении и системах рекомендаций по финансированию бизнеса полагаются на крупномасштабные хорошо размеченные данные для достижения лучших результатов логического вывода. Однако в сфере медицинского обслуживания, банковского дела и некоторых государственных дел защита конфиденциальности данных в отрасли становится все сильнее и сильнее, что приводит к серьезной нехватке доступных данных. В ответ на вышеуказанные проблемы служба HUAWEI CLOUD Trusted Intelligent Computing Service (TICS) разработала многостороннее решение для федеративного обучения, чтобы преодолеть барьеры данных в таких отраслях, как банки, правительство и предприятия, и обеспечить безопасность обмена данными.
1. Что такое логистическая регрессия?
Регрессия — это метод статистического анализа, описывающий взаимозависимость между независимыми и зависимыми переменными. Как распространенный метод регрессии, линейная регрессия часто используется для подбора линейных моделей (или линейных отношений).
Хотя логистическую регрессию также называют регрессией, это не метод подбора модели, а простой алгоритм «бинарной классификации». Он имеет много преимуществ, таких как простая реализация и эффективный алгоритм.
Рисунок 1.1 Двумерная линейная регрессия
Рисунок 1.2 Трехмерная линейная регрессия
1.1 Линейная регрессия
На рисунках 1.1 и 1.2 представлены соответственно двумерная и трехмерная модели линейной регрессии. Подгонка рисунка 1.1 (синяя линия) может быть выражена как y=ax+b, а общее евклидово расстояние от всех точек данных (красные точки ) до прямой является кратчайшим, а евклидово расстояние является кратчайшим. Оно часто используется для расчета целевой функции потерь, а затем решения модели; аналогично, все точки данных на рисунке 1.2 имеют кратчайшее полное евклидово расстояние до двумерная плоскость. Таким образом, модель линейной регрессии обычно может быть выражена как:
Где θ представляет коэффициенты модели.
1.2 Логистическая регрессия (LR)
LR — это простой алгоритм машинного обучения с учителем.Для входа x модель логистической регрессии может дать вероятность y0, а затем сделать вывод, является ли образец положительным или отрицательным.
LR вводит сигмовидную функцию, чтобы вывести вероятность того, что образец является положительным образцом Вероятность того, что входной образец x является положительным образцом, может быть выражен как: P (y | x) = g (y), где g () сигмовидная функция,
График показан на рисунке 1.3, а выходной диапазон равен 0~1:
Рисунок 1.3 Сигмовидная кривая
Для известной модели θ и выборки x вероятность y=1 может быть выражена как:
Таким образом, сигмоид особенно подходит для задач бинарной классификации.Когда g(y) > 0,5, это означает P(y=1|x) > 0,5, и считается положительной выборкой, соответствующей y>0; в противном случае, когда g(y)
1.3 Функция потерь LR
LR принимает логарифмическую функцию потерь, и для обучающего набора x ∈ S функция потерь может быть выражена как (см.Колонка Calling.com/afraid/44591359)…
Алгоритм градиентного спуска является одним из классических решений модели LR.Выражение итеративного обновления модели выглядит следующим образом:
из которых
-
l() — это целевая функция потерь, которая по существу представляет собой среднелогарифмическую функцию потерь.
-
S' представляет собой набор пакетных данных (размер равен размеру пакета), и случайные возмущения вводятся посредством пакетной обработки, чтобы веса модели могли быстрее приближаться к оптимальному значению.
-
α - скорость обучения, которая напрямую влияет на скорость сходимости модели.Если скорость обучения слишком велика, левые и правые колебания потерь не могут достичь крайней точки.Если скорость обучения слишком мала, скорость сходимости потерь будет слишком медленным, а крайнюю точку долго не найдут.
2. LR в сценарии вертикального федеративного обучения
Внедрение вертикального федеративного обучения было обычным явлением, и на рынке появилось много отличных продуктов, таких как FATE, Huawei Trusted Intelligent Computing TICS и т. д. Вертикальная федерация может позволить нескольким пользователям обмениваться данными и функциями, не раскрывая свои собственные данные, и обучать модели с более высокой точностью, что имеет большое значение для многих отраслей, таких как финансы и государственные дела.
Рисунок 2.1 Вертикальная федерация LR
2.1 Реализация вертикальной федерации LR
Участники вертикального федеративного обучения присоединяются к федерации с целью обмена данными и защиты своих собственных данных, поэтому любые конфиденциальные данные должны быть зашифрованы, прежде чем они смогут покинуть свой доверенный домен (рис. 2.1, см.АР Вест V.org/PDF/1711.10…
Процесс вертикальной федерации LR показан на рисунке 2.2.Хост представляет сторону только с функциями, а гость представляет сторону с метками.
Рис. 2.2 Процесс реализации алгоритма вертикальной федерации LR
-
Перед началом обучения обе стороны должны обменяться гомоморфными открытыми ключами.
-
В каждом цикле цикла эпохи (итерации) пакета (один раунд размера пакета рассчитывается как пакет) цикла, включая calEncryptedU-->calEncryptedGradient-->decryptGradient-->updateLrModel, четыре шага, и гость, и хост должны выполняться в этом порядке. (процесс На рисунке показан только поток выполнения гостя как инициатора).
-
Целью добавления случайного шума к градиенту на шаге A2 является предотвращение утечки собственного U, вызывающей проблемы с безопасностью.
Поскольку вычисление гомоморфного шифрования поддерживает только сложение и умножение целых чисел и чисел с плавающей запятой, экспоненциальная часть в формуле итерации модели в 1.3 выражается как выражение Тейлора:
Нажмите «Подписаться», чтобы впервые узнать о новых технологиях HUAWEI CLOUD~