Эта статья была впервые опубликована вПространство Фэн Юя

написать впереди

См. ссылку «Федеративное обучение: проблемы, методы и будущее, 2020 г.» для более подробного ознакомления с текущими проблемами и решениями FL, а также с возможными будущими направлениями исследований или отправными точками.

Federated Learning: Challenges, methods, and future

Резюме

Федеративное обучение включает в себя обучение статистических моделей на удаленных устройствах или в изолированных центрах обработки данных (таких как сотовые телефоны или больницы) при сохранении локальных данных. Обучение работе в разнородных и потенциально крупномасштабных сетях ставит новые задачи, требующиепринципиально отличается отСтандартные методы крупномасштабного машинного обучения, распределенной оптимизации и анализа данных с сохранением конфиденциальности. В этой статье мы обсудим уникальные характеристики и проблемы федеративного обучения, предоставим широкий обзор текущих подходов и наметим несколько будущих направлений.

Из-за роста вычислительной мощности устройств (смартфонов, носимых устройств и автономных транспортных средств) и опасений по поводу передачи частной информации хранение данных локально и на границе сетевых вычислений становится более привлекательным. ==>> Пограничные вычисления

Именно благодаря хранению и вычислительной мощности этих устройств в распределенной сети можно использовать расширенные локальные ресурсы на каждом устройстве.Кроме того, информация о конфиденциальности пользователя хранится локально, чтобы избежать проблем с конфиденциальностью. ==>> Федеративное обучение

Приложения ФЛ

смартфон
- Ассоциация слов "А. Хард, К. Рао, Р. Мэтьюз, Ф. Бофейс, С. Аугенштейн, Х. Эйхнер, К. Киддон и Д. Рэмедж, Федеративное обучение для предсказания клавиатуры на мобильных устройствах. 2018. [В сети]. Доступно : архив: 1811.03604》
- Проблема: пользователи могут неохотно делиться данными или экономить ограниченную пропускную способность/аккумулятор телефона, чтобы защитить личную конфиденциальность.
- FL может обеспечить возможности прогнозирования на смартфонах, не ставя под угрозу пользовательский опыт и не раскрывая личную информацию.
Организации -- медицинские учреждения
- L. Huang, Y. Yin, Z. Fu, S. Zhang, H. Deng, and D. Liu, LoAdaBoost: Loss-based adaboost federated machine learning on medical data. 2018. [Online]. Available: arXiv:1811.12629
Интернет вещей — носимые устройства, автономные транспортные средства, умные дома

Применение метода FL в компании

К. Бонавиц, Х. Эйхнер, В. Грискамп, Д. Хуба, А. Ингерман, В. Иванов, К. Киддон, Дж. Конекни и др., «На пути к федеративному обучению в масштабе: проектирование системы», в материалах конференции «Машинное обучение и системы», 2019.
М. Дж. Шеллер, Г. А. Рейна, Б. Эдвардс, Дж. Мартин и С. Бакас, «Многоучрежденческое моделирование глубокого обучения без обмена данными о пациентах: технико-экономическое обоснование сегментации опухоли головного мозга», в Proc. Int. MICCAI Brainlesion Workshop, 2018 г. , стр. 92–104. doi: 10.1007/978-3-030-11723-8_9.

Приложения, требующие конфиденциальности

Т. С. Брисими, Р. Чен, Т. Мела, А. Ольшевский, И. С. Пащалидис и В. Ши, «Федеративное обучение прогностических моделей на основе федеративных электронных медицинских карт», Международный журнал медицинской информатики, т. 112, апрель 2018 г. , стр. 59–67. doi: 10.1016/j.ijmedinf.2018.01.007
L. Huang, Y. Yin, Z. Fu, S. Zhang, H. Deng, and D. Liu, LoAdaBoost: Loss-based adaboost federated machine learning on medical data. 2018. [Online]. Available: arXiv:1811.12629

вызов

Цель:

m представляет общее количество устройств, p_k>=0 и SUM(p_k)=1, F_k — локальная целевая функция k-го набора

дорогие расходы на связь
- Чтобы сделать модели подходящими для данных, генерируемых устройствами в федеративной сети, необходимо разработать эффективные методы связи, которые могут итеративно отправлять небольшие сообщения или обновления модели в рамках процесса обучения, а не отправлять весь набор данных по сети.
- Чтобы еще больше сократить общение в этой настройке, необходимо учитывать два ключевых аспекта.
  - Сократите общее количество раундов общения
  - Уменьшите размер сообщений, отправляемых каждый раунд
систематическая неоднородность

Из-за различий в оборудовании (процессор и память), подключении к сети (3G, 4G, 5G, Wi-Fi), энергопотреблении (уровень заряда батареи) возможности хранения, вычислений и связи каждого устройства в федеративной сети различаются.
- Проблемы, такие как устранение отставания и отказоустойчивость, значительно усугубляются функциями системного уровня;
- Выполнен метод ФЛ.
  - Ожидайте небольшое количество участников
  - Терпимость к гетерогенному оборудованию
  - Достаточно прочный в сетях связи, чтобы предотвратить падение оборудования
статистическая неоднородность

Устройства часто генерируют и собирают данные в сети совершенно разными способами.
- [42] В. Смит, К.-К. Чианг, М. Санджаби и А. Талвалкар, «Федеративное многозадачное обучение», в Proc.Advanced in Neural Information Processing Systems, 2017, стр. 4424–4434 Данные Парадигма генерации нарушает предположение о независимом и равномерном распределении (iid), часто используемом в распределенной оптимизации, что потенциально усложняет моделирование проблем, теоретический анализ и эмпирическую оценку решений.
- многозадачное обучениеиметаобучениеОба поддерживают персонализацию или моделирование для конкретных устройств, что часто является более естественным подходом к работе со статистической неоднородностью данных для лучшей персонализации.
Частные вопросы
- SMC для безопасных многосторонних вычислений
- Дифференциальная конфиденциальность DP
- Вышеупомянутые методы обычно жертвуют защитой конфиденциальности за счет снижения производительности модели или эффективности системы, поэтому сложно сбалансировать отношения между этими двумя факторами.

Связанных с работой

Было предложено много подходов для решения дорогостоящих проблем связи в сообществах, занимающихся оптимизацией и обработкой сигналов [28, 40, 43], но эти подходы не могут полностью справиться с проблемами размера федеративной сети, системной и статистической неоднородностью.

эффективность коммуникации

Несмотря на то, что в рамках данной статьи не предусмотрен отдельный обзор методов обучения, эффективных с точки зрения коммуникации, мы указываем на несколько общих направлений, которые мы классифицируем как 1) методы локального обновления, 2) схемы сжатия и 3) децентрализованное обучение. местное обновление
- локальное обновление
  - Методы мини-пакетной оптимизации, которые включают расширение классических стохастических методов для одновременной обработки нескольких точек данных, стали популярной парадигмой распределенного машинного обучения в средах центров обработки данных. На практике, однако, они демонстрируют ограниченную гибкость в адаптации к коммуникационным вычислительным компромиссам. Системы, 2015. С. 685–693».
  - Некоторые недавние подходы: повысить эффективность связи в распределенных условиях, разрешив параллельное применение переменных к каждому компьютеру в каждом раунде связи (вместо того, чтобы вычислять их только локально, а затем применять централизованно). [44] «SU Stich, «Местный SGD быстро сходится и мало общается», в Proc. Int. Conf. Learning Representations, 2019.». Это делает объем вычислений более гибким по сравнению с объемом коммуникаций.
  - Для выпуклых целей популярным методом для таких задач стал примитивный метод распределенного локального обновления [43] "V. Smith, S. Forte, C. Ma, M. Ta kac, MI Jordan, and M. Jaggi, "CoCoA: Общая структура для эффективной распределенной оптимизации», J. Mach. Learning Res., т. 18, № 1, стр. 8590–8638, 2018 г.»; некоторые примитивные методы распределенного локального обновления для невыпуклых целей. дополнительные преимущества
  - Наиболее часто используемым методом оптимизации является алгоритм Federated Average (FedAvg). На практике было показано, что FedAvg хорошо работает, особенно для невыпуклых задач, но он не имеет гарантий сходимости и будет хорошо работать в реальных условиях с неоднородностью данных. 25] «Т. Ли, А. К. Саху, М. Санджаби, М. Захир, А. Талвалкар и В. Смит, «Федеративная оптимизация в гетерогенных сетях», в Proc. Conf. Machine Learning and Systems, 2020.
- Схема сжатия
  - В то время как методы локального обновления могут уменьшить общее количество раундов связи, схемы сжатия моделей, такие как разреженность и квантование, могут значительно уменьшить размер сообщений, доставляемых за раунд. Всеобъемлющий обзор [47] H. Wng, S. Sievert, S. Liu, Z. Charles, D. Papailiopoulos и S. Wright, «ATOMO: коммуникационно-эффективное обучение с помощью атомной разреженности», в Proc.Advanced in Neural Information Processing Systems, 2018, стр. 1–12».
  - В среде FL низкое участие устройств, неравномерно распределенные локальные данные и схемы локального обновления создают новые проблемы для методов сжатия моделей.
  - Практические стратегии в условиях FL
    - Сделать модель обновления разреженной и низкоранговой [22]
    - Квантование с использованием структурированного случайного вращения [22]
    - Используйте сжатие с потерями и потери, чтобы уменьшить обмен данными между сервером и устройством [9].
  - Теоретически в предыдущей работе исследовались гарантии сходимости для обучения с низкой точностью при наличии неидентичных данных [45], но были сделаны предположения, которые не учитывали общие черты федеративных сред, такие как низкое участие устройств или методы оптимизации локальных обновлений.
- Децентрализованное (распределенное) обучение
  - Было показано, что в среде центра обработки данных распределенное обучение работает быстрее, чем централизованное, при работе в сетях с низкой пропускной способностью или высокой задержкой. В некоторых работах предлагаются методы, основанные на крайнем сроке, когда все рабочие используют переменное количество выборок в фиксированный глобальный период для вычисления локальных градиентов, что помогает смягчить влияние бродяг [16], [39]. (полный обзор [18])
    
    [18] Л. Хе, А. Биан и М. Джагги, «Кола: децентрализованное линейное обучение», в книге «Достижения в области систем обработки нейронной информации», 2018 г., стр. 4541–4551.
  - В федеративном обучении распределенный алгоритм теоретически может снизить высокую стоимость связи на центральном сервере. В некоторых недавних работах изучалось децентрализованное обучение на разнородных данных с использованием схемы локального обновления [18]. Однако они либо ограничиваются линейными моделями [18], либо предполагают полное участие в устройстве
систематическая неоднородность
- Асинхронная связь
- активная выборка
- Отказоустойчивость
  - Хотя в некоторых работах исследуются теоретические гарантии сходимости методов вариантов FL, немногие работы допускают низкое участие или прямое исследование последствий падения устройств. FedProx
  - Кодированное вычисление путем введения избыточности алгоритма [11]
статистическая неоднородность
- Моделирование разнородных данных
  - Метаобучение, многозадачное обучение [12, 14, 21], например MOCHA [42]
- Гарантии конвергенции для данных, отличных от iid
  - Параллельный SGD и его родственные варианты были проанализированы в настройках IID [38, 48, 53], чтобы сделать локальные обновления похожими на FedAvg. Однако результаты основаны на предположении, что каждый локальный решатель является копией одного и того же случайного процесса (допущение iid), что не имеет места в типичной федеративной среде.
  - FedProx, ключевая идея: существует взаимодействие между систематической и статистической неоднородностью. FedProx вносит небольшую модификацию в метод FedAvg, который позволяет выполнять частичную работу на разных устройствах на основе базовых системных ограничений и использует проксимальные термины для безопасного объединения частичной работы. Думайте об этом как о репараметризации FedAvg.
Конфиденциальность
- Конфиденциальность в машинном обучении
  
  Среди этих различных методов конфиденциальности дифференциальная конфиденциальность [13] является наиболее широко используемой из-за ее надежных теоретико-информационных гарантий, алгоритмической простоты и относительно небольших системных издержек.
  - Дифференциальная конфиденциальность для передачи зашумленных эскизов данных
  - Гомоморфное шифрование для работы с зашифрованными данными
  - Оценка функции безопасности (SFE) или многосторонний расчет
  - k-анонимность и σ-присутствие
  Всесторонний обзор HE и SMC [7] «Р. Бост, Р. А. Попа, С. Ту и С. Голдвассер, «Классификация машинного обучения по зашифрованным данным», в Proc. Network and Distributed System Security Symp., 2015. doi : 10.14722 /ndss.2015.23241"
- Конфиденциальность в федеративном обучении
  
  Классификация конфиденциальности федеративного обучения: 1) глобальная конфиденциальность, 2) локальная конфиденциальность
  - Текущая работа, направленная на улучшение конфиденциальности федеративного обучения, часто основывается на предыдущих классических криптографических протоколах (SMC[4] и DP[2]).
  - Безопасное агрегирование — это метод без потерь, который сохраняет исходную точность при сохранении высокой степени защиты конфиденциальности. Но окончательный подход влечет за собой много дополнительных затрат на связь.
  - Другие методы, такие как применение DP к федеративному обучению и обеспечение глобальной дифференциальной конфиденциальности [32], имеют множество гиперпараметров, влияющих на коммуникацию и точность, и должны быть тщательно выбраны.
  - DP можно использовать в сочетании с методами сжатия модели, чтобы сократить объем обмена данными и получить преимущества конфиденциальности [1] «Н. Агарвал, А. Т. Суреш, Ю. FXX, С. Кумар и Б. МакМахан, «cpSGD: Коммуникация-эффективная и дифференциально-частная». распределенный SGD », в Proc. Advances in Neural Information Processing Systems, 2018, стр. 7564–7575 »

будущие направления исследований

Идеальное коммуникационное решение
- Хотя однократные схемы связи или схемы связи «разделяй и властвуй» были исследованы в традиционных средах центров обработки данных [29], поведение этих подходов не совсем понятно в крупномасштабных и статистически неоднородных сетях.
Редукция связи с границей Парето
- Методы сокращения общения в федеративном обучении — это локальные обновления и сжатие модели.Важно понимать взаимосвязь между этими методами и систематически анализировать компромисс между точностью и общением для каждого метода.
- Эффективный вывод нейронной сети необходим для методов уменьшения связи FL.
Новая асинхронная модель
- Метод пакетной синхронизации
- Асинхронные методы (при ограниченной задержке)
Гетерогенный диагноз

Открытый вопрос:
- Существуют ли простые средства диагностики, которые могут быстро предопределить уровень неоднородности в федеративных сетях?
- Можно ли разработать аналогичный диагностический метод для количественной оценки степени неоднородности, связанной с системой?
- Можно ли разработать новые эмпирические и теоретические объединенные методы оптимизации с улучшенной сходимостью, используя существующие или новые определения неоднородности?
Детализированные ограничения конфиденциальности

На практике ограничения конфиденциальности могут различаться между устройствами или даже между точками данных для одного устройства, поэтому необходимо сегментировать проблемы конфиденциальности.
- конфиденциальность для конкретного образца [24] «Дж. Ли, М. Ходак, С. Калдас и А. Талвалкар, «Дифференциально частное метаобучение», в Proc.
- device-specifiv privacy
Помимо контролируемого обучения
Продуктивное федеративное обучение

В дополнение к основным проблемам, обсуждаемым в этой статье, существует ряд практических проблем при запуске федеративного обучения в производственной среде. особенно такие какконцептуальный дрейф(когда базовая модель генерации данных со временем меняется),суточный ход(когда устройства ведут себя по-разному в разное время дня или недели) [14] ипроблема с холодным запуском(Когда новое оборудование входит в сеть) необходимо обращаться с осторожностью.

[5] К. Бонавиц, Х. Эйхнер, В. Грискамп, Д. Хуба, А. Ингерман, В. Иванов, К. Киддон, Дж. Конечный и др., «На пути к федеративному обучению в масштабе: Системный дизайн» в Proc. Conf. Machine Learning and Systems, 2019.» обсуждаются некоторые практические проблемы, связанные с системами, в производственных системах федеративного обучения.

Суммировать

Обсуждается уникальная природа и связанные с ней проблемы федеративного обучения в сравнении с традиционными вычислениями в распределенных центрах обработки данных и классическим обучением с сохранением конфиденциальности. Предоставляются обширные обзоры классических результатов, а также недавняя работа в федеральных условиях. Наконец, намечены некоторые открытые вопросы для дальнейшего исследования. Для решения этих проблем потребуются междисциплинарные исследования в многочисленных исследовательских сообществах.

использованная литература

[1] Federated Learning: Challenges, methods, and future, 2020

–fzhiy.Обновлено 2 сентября 2020 г. в 16:51.