Эта статья была впервые опубликована вПространство Фэн Юя
написать впереди
См. ссылку «Федеративное обучение: проблемы, методы и будущее, 2020 г.» для более подробного ознакомления с текущими проблемами и решениями FL, а также с возможными будущими направлениями исследований или отправными точками.
Federated Learning: Challenges, methods, and future
Резюме
Федеративное обучение включает в себя обучение статистических моделей на удаленных устройствах или в изолированных центрах обработки данных (таких как сотовые телефоны или больницы) при сохранении локальных данных. Обучение работе в разнородных и потенциально крупномасштабных сетях ставит новые задачи, требующиепринципиально отличается отСтандартные методы крупномасштабного машинного обучения, распределенной оптимизации и анализа данных с сохранением конфиденциальности. В этой статье мы обсудим уникальные характеристики и проблемы федеративного обучения, предоставим широкий обзор текущих подходов и наметим несколько будущих направлений.
Из-за роста вычислительной мощности устройств (смартфонов, носимых устройств и автономных транспортных средств) и опасений по поводу передачи частной информации хранение данных локально и на границе сетевых вычислений становится более привлекательным. ==>> Пограничные вычисления
Именно благодаря хранению и вычислительной мощности этих устройств в распределенной сети можно использовать расширенные локальные ресурсы на каждом устройстве.Кроме того, информация о конфиденциальности пользователя хранится локально, чтобы избежать проблем с конфиденциальностью. ==>> Федеративное обучение
Приложения ФЛ
-
смартфон
-
Ассоциация слов "А. Хард, К. Рао, Р. Мэтьюз, Ф. Бофейс, С. Аугенштейн, Х. Эйхнер, К. Киддон и Д. Рэмедж, Федеративное обучение для предсказания клавиатуры на мобильных устройствах. 2018. [В сети]. Доступно : архив: 1811.03604》
-
Проблема: пользователи могут неохотно делиться данными или экономить ограниченную пропускную способность/аккумулятор телефона, чтобы защитить личную конфиденциальность.
-
FL может обеспечить возможности прогнозирования на смартфонах, не ставя под угрозу пользовательский опыт и не раскрывая личную информацию.
-
-
Организации -- медицинские учреждения
- L. Huang, Y. Yin, Z. Fu, S. Zhang, H. Deng, and D. Liu, LoAdaBoost: Loss-based adaboost federated machine learning on medical data. 2018. [Online]. Available: arXiv:1811.12629
-
Интернет вещей — носимые устройства, автономные транспортные средства, умные дома
Применение метода FL в компании
- К. Бонавиц, Х. Эйхнер, В. Грискамп, Д. Хуба, А. Ингерман, В. Иванов, К. Киддон, Дж. Конекни и др., «На пути к федеративному обучению в масштабе: проектирование системы», в материалах конференции «Машинное обучение и системы», 2019.
- М. Дж. Шеллер, Г. А. Рейна, Б. Эдвардс, Дж. Мартин и С. Бакас, «Многоучрежденческое моделирование глубокого обучения без обмена данными о пациентах: технико-экономическое обоснование сегментации опухоли головного мозга», в Proc. Int. MICCAI Brainlesion Workshop, 2018 г. , стр. 92–104. doi: 10.1007/978-3-030-11723-8_9.
Приложения, требующие конфиденциальности
- Т. С. Брисими, Р. Чен, Т. Мела, А. Ольшевский, И. С. Пащалидис и В. Ши, «Федеративное обучение прогностических моделей на основе федеративных электронных медицинских карт», Международный журнал медицинской информатики, т. 112, апрель 2018 г. , стр. 59–67. doi: 10.1016/j.ijmedinf.2018.01.007
- L. Huang, Y. Yin, Z. Fu, S. Zhang, H. Deng, and D. Liu, LoAdaBoost: Loss-based adaboost federated machine learning on medical data. 2018. [Online]. Available: arXiv:1811.12629
вызов
Цель:
m представляет общее количество устройств, p_k>=0 и SUM(p_k)=1, F_k — локальная целевая функция k-го набора
-
дорогие расходы на связь
-
Чтобы сделать модели подходящими для данных, генерируемых устройствами в федеративной сети, необходимо разработать эффективные методы связи, которые могут итеративно отправлять небольшие сообщения или обновления модели в рамках процесса обучения, а не отправлять весь набор данных по сети.
-
Чтобы еще больше сократить общение в этой настройке, необходимо учитывать два ключевых аспекта.
- Сократите общее количество раундов общения
- Уменьшите размер сообщений, отправляемых каждый раунд
-
-
систематическая неоднородность
Из-за различий в оборудовании (процессор и память), подключении к сети (3G, 4G, 5G, Wi-Fi), энергопотреблении (уровень заряда батареи) возможности хранения, вычислений и связи каждого устройства в федеративной сети различаются.
-
Проблемы, такие как устранение отставания и отказоустойчивость, значительно усугубляются функциями системного уровня;
-
Выполнен метод ФЛ.
- Ожидайте небольшое количество участников
- Терпимость к гетерогенному оборудованию
- Достаточно прочный в сетях связи, чтобы предотвратить падение оборудования
-
-
статистическая неоднородность
Устройства часто генерируют и собирают данные в сети совершенно разными способами.
- [42] В. Смит, К.-К. Чианг, М. Санджаби и А. Талвалкар, «Федеративное многозадачное обучение», в Proc.Advanced in Neural Information Processing Systems, 2017, стр. 4424–4434 Данные Парадигма генерации нарушает предположение о независимом и равномерном распределении (iid), часто используемом в распределенной оптимизации, что потенциально усложняет моделирование проблем, теоретический анализ и эмпирическую оценку решений.
- многозадачное обучениеиметаобучениеОба поддерживают персонализацию или моделирование для конкретных устройств, что часто является более естественным подходом к работе со статистической неоднородностью данных для лучшей персонализации.
-
Частные вопросы
- SMC для безопасных многосторонних вычислений
- Дифференциальная конфиденциальность DP
- Вышеупомянутые методы обычно жертвуют защитой конфиденциальности за счет снижения производительности модели или эффективности системы, поэтому сложно сбалансировать отношения между этими двумя факторами.
Связанных с работой
Было предложено много подходов для решения дорогостоящих проблем связи в сообществах, занимающихся оптимизацией и обработкой сигналов [28, 40, 43], но эти подходы не могут полностью справиться с проблемами размера федеративной сети, системной и статистической неоднородностью.
-
эффективность коммуникации
Несмотря на то, что в рамках данной статьи не предусмотрен отдельный обзор методов обучения, эффективных с точки зрения коммуникации, мы указываем на несколько общих направлений, которые мы классифицируем как 1) методы локального обновления, 2) схемы сжатия и 3) децентрализованное обучение. местное обновление
-
локальное обновление
- Методы мини-пакетной оптимизации, которые включают расширение классических стохастических методов для одновременной обработки нескольких точек данных, стали популярной парадигмой распределенного машинного обучения в средах центров обработки данных. На практике, однако, они демонстрируют ограниченную гибкость в адаптации к коммуникационным вычислительным компромиссам. Системы, 2015. С. 685–693».
- Некоторые недавние подходы: повысить эффективность связи в распределенных условиях, разрешив параллельное применение переменных к каждому компьютеру в каждом раунде связи (вместо того, чтобы вычислять их только локально, а затем применять централизованно). [44] «SU Stich, «Местный SGD быстро сходится и мало общается», в Proc. Int. Conf. Learning Representations, 2019.». Это делает объем вычислений более гибким по сравнению с объемом коммуникаций.
- Для выпуклых целей популярным методом для таких задач стал примитивный метод распределенного локального обновления [43] "V. Smith, S. Forte, C. Ma, M. Ta kac, MI Jordan, and M. Jaggi, "CoCoA: Общая структура для эффективной распределенной оптимизации», J. Mach. Learning Res., т. 18, № 1, стр. 8590–8638, 2018 г.»; некоторые примитивные методы распределенного локального обновления для невыпуклых целей. дополнительные преимущества
- Наиболее часто используемым методом оптимизации является алгоритм Federated Average (FedAvg). На практике было показано, что FedAvg хорошо работает, особенно для невыпуклых задач, но он не имеет гарантий сходимости и будет хорошо работать в реальных условиях с неоднородностью данных. 25] «Т. Ли, А. К. Саху, М. Санджаби, М. Захир, А. Талвалкар и В. Смит, «Федеративная оптимизация в гетерогенных сетях», в Proc. Conf. Machine Learning and Systems, 2020.
-
Схема сжатия
-
В то время как методы локального обновления могут уменьшить общее количество раундов связи, схемы сжатия моделей, такие как разреженность и квантование, могут значительно уменьшить размер сообщений, доставляемых за раунд. Всеобъемлющий обзор [47] H. Wng, S. Sievert, S. Liu, Z. Charles, D. Papailiopoulos и S. Wright, «ATOMO: коммуникационно-эффективное обучение с помощью атомной разреженности», в Proc.Advanced in Neural Information Processing Systems, 2018, стр. 1–12».
-
В среде FL низкое участие устройств, неравномерно распределенные локальные данные и схемы локального обновления создают новые проблемы для методов сжатия моделей.
-
Практические стратегии в условиях FL
- Сделать модель обновления разреженной и низкоранговой [22]
- Квантование с использованием структурированного случайного вращения [22]
- Используйте сжатие с потерями и потери, чтобы уменьшить обмен данными между сервером и устройством [9].
-
Теоретически в предыдущей работе исследовались гарантии сходимости для обучения с низкой точностью при наличии неидентичных данных [45], но были сделаны предположения, которые не учитывали общие черты федеративных сред, такие как низкое участие устройств или методы оптимизации локальных обновлений.
-
-
Децентрализованное (распределенное) обучение
-
Было показано, что в среде центра обработки данных распределенное обучение работает быстрее, чем централизованное, при работе в сетях с низкой пропускной способностью или высокой задержкой. В некоторых работах предлагаются методы, основанные на крайнем сроке, когда все рабочие используют переменное количество выборок в фиксированный глобальный период для вычисления локальных градиентов, что помогает смягчить влияние бродяг [16], [39]. (полный обзор [18])
[18] Л. Хе, А. Биан и М. Джагги, «Кола: децентрализованное линейное обучение», в книге «Достижения в области систем обработки нейронной информации», 2018 г., стр. 4541–4551.
-
В федеративном обучении распределенный алгоритм теоретически может снизить высокую стоимость связи на центральном сервере. В некоторых недавних работах изучалось децентрализованное обучение на разнородных данных с использованием схемы локального обновления [18]. Однако они либо ограничиваются линейными моделями [18], либо предполагают полное участие в устройстве
-
-
-
систематическая неоднородность
-
Асинхронная связь
-
активная выборка
-
Отказоустойчивость
- Хотя в некоторых работах исследуются теоретические гарантии сходимости методов вариантов FL, немногие работы допускают низкое участие или прямое исследование последствий падения устройств. FedProx
- Кодированное вычисление путем введения избыточности алгоритма [11]
-
-
статистическая неоднородность
-
Моделирование разнородных данных
- Метаобучение, многозадачное обучение [12, 14, 21], например MOCHA [42]
-
Гарантии конвергенции для данных, отличных от iid
- Параллельный SGD и его родственные варианты были проанализированы в настройках IID [38, 48, 53], чтобы сделать локальные обновления похожими на FedAvg. Однако результаты основаны на предположении, что каждый локальный решатель является копией одного и того же случайного процесса (допущение iid), что не имеет места в типичной федеративной среде.
- FedProx, ключевая идея: существует взаимодействие между систематической и статистической неоднородностью. FedProx вносит небольшую модификацию в метод FedAvg, который позволяет выполнять частичную работу на разных устройствах на основе базовых системных ограничений и использует проксимальные термины для безопасного объединения частичной работы. Думайте об этом как о репараметризации FedAvg.
-
-
Конфиденциальность
-
Конфиденциальность в машинном обучении
Среди этих различных методов конфиденциальности дифференциальная конфиденциальность [13] является наиболее широко используемой из-за ее надежных теоретико-информационных гарантий, алгоритмической простоты и относительно небольших системных издержек.
- Дифференциальная конфиденциальность для передачи зашумленных эскизов данных
- Гомоморфное шифрование для работы с зашифрованными данными
- Оценка функции безопасности (SFE) или многосторонний расчет
- k-анонимность и σ-присутствие
Всесторонний обзор HE и SMC [7] «Р. Бост, Р. А. Попа, С. Ту и С. Голдвассер, «Классификация машинного обучения по зашифрованным данным», в Proc. Network and Distributed System Security Symp., 2015. doi : 10.14722 /ndss.2015.23241"
-
Конфиденциальность в федеративном обучении
Классификация конфиденциальности федеративного обучения: 1) глобальная конфиденциальность, 2) локальная конфиденциальность
- Текущая работа, направленная на улучшение конфиденциальности федеративного обучения, часто основывается на предыдущих классических криптографических протоколах (SMC[4] и DP[2]).
- Безопасное агрегирование — это метод без потерь, который сохраняет исходную точность при сохранении высокой степени защиты конфиденциальности. Но окончательный подход влечет за собой много дополнительных затрат на связь.
- Другие методы, такие как применение DP к федеративному обучению и обеспечение глобальной дифференциальной конфиденциальности [32], имеют множество гиперпараметров, влияющих на коммуникацию и точность, и должны быть тщательно выбраны.
- DP можно использовать в сочетании с методами сжатия модели, чтобы сократить объем обмена данными и получить преимущества конфиденциальности [1] «Н. Агарвал, А. Т. Суреш, Ю. FXX, С. Кумар и Б. МакМахан, «cpSGD: Коммуникация-эффективная и дифференциально-частная». распределенный SGD », в Proc. Advances in Neural Information Processing Systems, 2018, стр. 7564–7575 »
-
будущие направления исследований
-
Идеальное коммуникационное решение
- Хотя однократные схемы связи или схемы связи «разделяй и властвуй» были исследованы в традиционных средах центров обработки данных [29], поведение этих подходов не совсем понятно в крупномасштабных и статистически неоднородных сетях.
-
Редукция связи с границей Парето
- Методы сокращения общения в федеративном обучении — это локальные обновления и сжатие модели.Важно понимать взаимосвязь между этими методами и систематически анализировать компромисс между точностью и общением для каждого метода.
- Эффективный вывод нейронной сети необходим для методов уменьшения связи FL.
-
Новая асинхронная модель
- Метод пакетной синхронизации
- Асинхронные методы (при ограниченной задержке)
-
Гетерогенный диагноз
Открытый вопрос:
- Существуют ли простые средства диагностики, которые могут быстро предопределить уровень неоднородности в федеративных сетях?
- Можно ли разработать аналогичный диагностический метод для количественной оценки степени неоднородности, связанной с системой?
- Можно ли разработать новые эмпирические и теоретические объединенные методы оптимизации с улучшенной сходимостью, используя существующие или новые определения неоднородности?
-
Детализированные ограничения конфиденциальности
На практике ограничения конфиденциальности могут различаться между устройствами или даже между точками данных для одного устройства, поэтому необходимо сегментировать проблемы конфиденциальности.
- конфиденциальность для конкретного образца [24] «Дж. Ли, М. Ходак, С. Калдас и А. Талвалкар, «Дифференциально частное метаобучение», в Proc.
- device-specifiv privacy
-
Помимо контролируемого обучения
-
Продуктивное федеративное обучение
В дополнение к основным проблемам, обсуждаемым в этой статье, существует ряд практических проблем при запуске федеративного обучения в производственной среде. особенно такие какконцептуальный дрейф(когда базовая модель генерации данных со временем меняется),суточный ход(когда устройства ведут себя по-разному в разное время дня или недели) [14] ипроблема с холодным запуском(Когда новое оборудование входит в сеть) необходимо обращаться с осторожностью.
[5] К. Бонавиц, Х. Эйхнер, В. Грискамп, Д. Хуба, А. Ингерман, В. Иванов, К. Киддон, Дж. Конечный и др., «На пути к федеративному обучению в масштабе: Системный дизайн» в Proc. Conf. Machine Learning and Systems, 2019.» обсуждаются некоторые практические проблемы, связанные с системами, в производственных системах федеративного обучения.
Суммировать
Обсуждается уникальная природа и связанные с ней проблемы федеративного обучения в сравнении с традиционными вычислениями в распределенных центрах обработки данных и классическим обучением с сохранением конфиденциальности. Предоставляются обширные обзоры классических результатов, а также недавняя работа в федеральных условиях. Наконец, намечены некоторые открытые вопросы для дальнейшего исследования. Для решения этих проблем потребуются междисциплинарные исследования в многочисленных исследовательских сообществах.
использованная литература
- [1] Federated Learning: Challenges, methods, and future, 2020
–fzhiy.Обновлено 2 сентября 2020 г. в 16:51.