Заметки о федеральном исследовании (3)

машинное обучение

Эта статья была впервые опубликована вПространство Фэн Юя

написать впереди

См. ссылку «Федеративное обучение: проблемы, методы и будущее, 2020 г.» для более подробного ознакомления с текущими проблемами и решениями FL, а также с возможными будущими направлениями исследований или отправными точками.

Federated Learning: Challenges, methods, and future

Резюме

Федеративное обучение включает в себя обучение статистических моделей на удаленных устройствах или в изолированных центрах обработки данных (таких как сотовые телефоны или больницы) при сохранении локальных данных. Обучение работе в разнородных и потенциально крупномасштабных сетях ставит новые задачи, требующиепринципиально отличается отСтандартные методы крупномасштабного машинного обучения, распределенной оптимизации и анализа данных с сохранением конфиденциальности. В этой статье мы обсудим уникальные характеристики и проблемы федеративного обучения, предоставим широкий обзор текущих подходов и наметим несколько будущих направлений.

Из-за роста вычислительной мощности устройств (смартфонов, носимых устройств и автономных транспортных средств) и опасений по поводу передачи частной информации хранение данных локально и на границе сетевых вычислений становится более привлекательным. ==>> Пограничные вычисления

Именно благодаря хранению и вычислительной мощности этих устройств в распределенной сети можно использовать расширенные локальные ресурсы на каждом устройстве.Кроме того, информация о конфиденциальности пользователя хранится локально, чтобы избежать проблем с конфиденциальностью. ==>> Федеративное обучение

Приложения ФЛ

  • смартфон

    • Ассоциация слов "А. Хард, К. Рао, Р. Мэтьюз, Ф. Бофейс, С. Аугенштейн, Х. Эйхнер, К. Киддон и Д. Рэмедж, Федеративное обучение для предсказания клавиатуры на мобильных устройствах. 2018. [В сети]. Доступно : архив: 1811.03604》

    • Проблема: пользователи могут неохотно делиться данными или экономить ограниченную пропускную способность/аккумулятор телефона, чтобы защитить личную конфиденциальность.

    • FL может обеспечить возможности прогнозирования на смартфонах, не ставя под угрозу пользовательский опыт и не раскрывая личную информацию.

  • Организации -- медицинские учреждения

    • L. Huang, Y. Yin, Z. Fu, S. Zhang, H. Deng, and D. Liu, LoAdaBoost: Loss-based adaboost federated machine learning on medical data. 2018. [Online]. Available: arXiv:1811.12629
  • Интернет вещей — носимые устройства, автономные транспортные средства, умные дома

Применение метода FL в компании

  • К. Бонавиц, Х. Эйхнер, В. Грискамп, Д. Хуба, А. Ингерман, В. Иванов, К. Киддон, Дж. Конекни и др., «На пути к федеративному обучению в масштабе: проектирование системы», в материалах конференции «Машинное обучение и системы», 2019.
  • М. Дж. Шеллер, Г. А. Рейна, Б. Эдвардс, Дж. Мартин и С. Бакас, «Многоучрежденческое моделирование глубокого обучения без обмена данными о пациентах: технико-экономическое обоснование сегментации опухоли головного мозга», в Proc. Int. MICCAI Brainlesion Workshop, 2018 г. , стр. 92–104. doi: 10.1007/978-3-030-11723-8_9.

Приложения, требующие конфиденциальности

  • Т. С. Брисими, Р. Чен, Т. Мела, А. Ольшевский, И. С. Пащалидис и В. Ши, «Федеративное обучение прогностических моделей на основе федеративных электронных медицинских карт», Международный журнал медицинской информатики, т. 112, апрель 2018 г. , стр. 59–67. doi: 10.1016/j.ijmedinf.2018.01.007
  • L. Huang, Y. Yin, Z. Fu, S. Zhang, H. Deng, and D. Liu, LoAdaBoost: Loss-based adaboost federated machine learning on medical data. 2018. [Online]. Available: arXiv:1811.12629

вызов

Цель:

m представляет общее количество устройств, p_k>=0 и SUM(p_k)=1, F_k — локальная целевая функция k-го набора

  • дорогие расходы на связь

    • Чтобы сделать модели подходящими для данных, генерируемых устройствами в федеративной сети, необходимо разработать эффективные методы связи, которые могут итеративно отправлять небольшие сообщения или обновления модели в рамках процесса обучения, а не отправлять весь набор данных по сети.

    • Чтобы еще больше сократить общение в этой настройке, необходимо учитывать два ключевых аспекта.

      • Сократите общее количество раундов общения
      • Уменьшите размер сообщений, отправляемых каждый раунд
  • систематическая неоднородность

    Из-за различий в оборудовании (процессор и память), подключении к сети (3G, 4G, 5G, Wi-Fi), энергопотреблении (уровень заряда батареи) возможности хранения, вычислений и связи каждого устройства в федеративной сети различаются.

    • Проблемы, такие как устранение отставания и отказоустойчивость, значительно усугубляются функциями системного уровня;

    • Выполнен метод ФЛ.

      • Ожидайте небольшое количество участников
      • Терпимость к гетерогенному оборудованию
      • Достаточно прочный в сетях связи, чтобы предотвратить падение оборудования
  • статистическая неоднородность

    Устройства часто генерируют и собирают данные в сети совершенно разными способами.

    • [42] В. Смит, К.-К. Чианг, М. Санджаби и А. Талвалкар, «Федеративное многозадачное обучение», в Proc.Advanced in Neural Information Processing Systems, 2017, стр. 4424–4434 Данные Парадигма генерации нарушает предположение о независимом и равномерном распределении (iid), часто используемом в распределенной оптимизации, что потенциально усложняет моделирование проблем, теоретический анализ и эмпирическую оценку решений.
    • многозадачное обучениеиметаобучениеОба поддерживают персонализацию или моделирование для конкретных устройств, что часто является более естественным подходом к работе со статистической неоднородностью данных для лучшей персонализации.
  • Частные вопросы

    • SMC для безопасных многосторонних вычислений
    • Дифференциальная конфиденциальность DP
    • Вышеупомянутые методы обычно жертвуют защитой конфиденциальности за счет снижения производительности модели или эффективности системы, поэтому сложно сбалансировать отношения между этими двумя факторами.

Связанных с работой

Было предложено много подходов для решения дорогостоящих проблем связи в сообществах, занимающихся оптимизацией и обработкой сигналов [28, 40, 43], но эти подходы не могут полностью справиться с проблемами размера федеративной сети, системной и статистической неоднородностью.

  • эффективность коммуникации

    Несмотря на то, что в рамках данной статьи не предусмотрен отдельный обзор методов обучения, эффективных с точки зрения коммуникации, мы указываем на несколько общих направлений, которые мы классифицируем как 1) методы локального обновления, 2) схемы сжатия и 3) децентрализованное обучение. местное обновление

    • локальное обновление

      • Методы мини-пакетной оптимизации, которые включают расширение классических стохастических методов для одновременной обработки нескольких точек данных, стали популярной парадигмой распределенного машинного обучения в средах центров обработки данных. На практике, однако, они демонстрируют ограниченную гибкость в адаптации к коммуникационным вычислительным компромиссам. Системы, 2015. С. 685–693».
      • Некоторые недавние подходы: повысить эффективность связи в распределенных условиях, разрешив параллельное применение переменных к каждому компьютеру в каждом раунде связи (вместо того, чтобы вычислять их только локально, а затем применять централизованно). [44] «SU Stich, «Местный SGD быстро сходится и мало общается», в Proc. Int. Conf. Learning Representations, 2019.». Это делает объем вычислений более гибким по сравнению с объемом коммуникаций.
      • Для выпуклых целей популярным методом для таких задач стал примитивный метод распределенного локального обновления [43] "V. Smith, S. Forte, C. Ma, M. Ta kac, MI Jordan, and M. Jaggi, "CoCoA: Общая структура для эффективной распределенной оптимизации», J. Mach. Learning Res., т. 18, № 1, стр. 8590–8638, 2018 г.»; некоторые примитивные методы распределенного локального обновления для невыпуклых целей. дополнительные преимущества
      • Наиболее часто используемым методом оптимизации является алгоритм Federated Average (FedAvg). На практике было показано, что FedAvg хорошо работает, особенно для невыпуклых задач, но он не имеет гарантий сходимости и будет хорошо работать в реальных условиях с неоднородностью данных. 25] «Т. Ли, А. К. Саху, М. Санджаби, М. Захир, А. Талвалкар и В. Смит, «Федеративная оптимизация в гетерогенных сетях», в Proc. Conf. Machine Learning and Systems, 2020.
    • Схема сжатия

      • В то время как методы локального обновления могут уменьшить общее количество раундов связи, схемы сжатия моделей, такие как разреженность и квантование, могут значительно уменьшить размер сообщений, доставляемых за раунд. Всеобъемлющий обзор [47] H. Wng, S. Sievert, S. Liu, Z. Charles, D. Papailiopoulos и S. Wright, «ATOMO: коммуникационно-эффективное обучение с помощью атомной разреженности», в Proc.Advanced in Neural Information Processing Systems, 2018, стр. 1–12».

      • В среде FL низкое участие устройств, неравномерно распределенные локальные данные и схемы локального обновления создают новые проблемы для методов сжатия моделей.

      • Практические стратегии в условиях FL

        • Сделать модель обновления разреженной и низкоранговой [22]
        • Квантование с использованием структурированного случайного вращения [22]
        • Используйте сжатие с потерями и потери, чтобы уменьшить обмен данными между сервером и устройством [9].
      • Теоретически в предыдущей работе исследовались гарантии сходимости для обучения с низкой точностью при наличии неидентичных данных [45], но были сделаны предположения, которые не учитывали общие черты федеративных сред, такие как низкое участие устройств или методы оптимизации локальных обновлений.

    • Децентрализованное (распределенное) обучение

      • Было показано, что в среде центра обработки данных распределенное обучение работает быстрее, чем централизованное, при работе в сетях с низкой пропускной способностью или высокой задержкой. В некоторых работах предлагаются методы, основанные на крайнем сроке, когда все рабочие используют переменное количество выборок в фиксированный глобальный период для вычисления локальных градиентов, что помогает смягчить влияние бродяг [16], [39]. (полный обзор [18])

        [18] Л. Хе, А. Биан и М. Джагги, «Кола: децентрализованное линейное обучение», в книге «Достижения в области систем обработки нейронной информации», 2018 г., стр. 4541–4551.

      • В федеративном обучении распределенный алгоритм теоретически может снизить высокую стоимость связи на центральном сервере. В некоторых недавних работах изучалось децентрализованное обучение на разнородных данных с использованием схемы локального обновления [18]. Однако они либо ограничиваются линейными моделями [18], либо предполагают полное участие в устройстве

  • систематическая неоднородность

    • Асинхронная связь

    • активная выборка

    • Отказоустойчивость

      • Хотя в некоторых работах исследуются теоретические гарантии сходимости методов вариантов FL, немногие работы допускают низкое участие или прямое исследование последствий падения устройств. FedProx
      • Кодированное вычисление путем введения избыточности алгоритма [11]
  • статистическая неоднородность

    • Моделирование разнородных данных

      • Метаобучение, многозадачное обучение [12, 14, 21], например MOCHA [42]
    • Гарантии конвергенции для данных, отличных от iid

      • Параллельный SGD и его родственные варианты были проанализированы в настройках IID [38, 48, 53], чтобы сделать локальные обновления похожими на FedAvg. Однако результаты основаны на предположении, что каждый локальный решатель является копией одного и того же случайного процесса (допущение iid), что не имеет места в типичной федеративной среде.
      • FedProx, ключевая идея: существует взаимодействие между систематической и статистической неоднородностью. FedProx вносит небольшую модификацию в метод FedAvg, который позволяет выполнять частичную работу на разных устройствах на основе базовых системных ограничений и использует проксимальные термины для безопасного объединения частичной работы. Думайте об этом как о репараметризации FedAvg.
  • Конфиденциальность

    • Конфиденциальность в машинном обучении

      Среди этих различных методов конфиденциальности дифференциальная конфиденциальность [13] является наиболее широко используемой из-за ее надежных теоретико-информационных гарантий, алгоритмической простоты и относительно небольших системных издержек.

      • Дифференциальная конфиденциальность для передачи зашумленных эскизов данных
      • Гомоморфное шифрование для работы с зашифрованными данными
      • Оценка функции безопасности (SFE) или многосторонний расчет
      • k-анонимность и σ-присутствие

      Всесторонний обзор HE и SMC [7] «Р. Бост, Р. А. Попа, С. Ту и С. Голдвассер, «Классификация машинного обучения по зашифрованным данным», в Proc. Network and Distributed System Security Symp., 2015. doi : 10.14722 /ndss.2015.23241"

    • Конфиденциальность в федеративном обучении

      Классификация конфиденциальности федеративного обучения: 1) глобальная конфиденциальность, 2) локальная конфиденциальность

      • Текущая работа, направленная на улучшение конфиденциальности федеративного обучения, часто основывается на предыдущих классических криптографических протоколах (SMC[4] и DP[2]).
      • Безопасное агрегирование — это метод без потерь, который сохраняет исходную точность при сохранении высокой степени защиты конфиденциальности. Но окончательный подход влечет за собой много дополнительных затрат на связь.
      • Другие методы, такие как применение DP к федеративному обучению и обеспечение глобальной дифференциальной конфиденциальности [32], имеют множество гиперпараметров, влияющих на коммуникацию и точность, и должны быть тщательно выбраны.
      • DP можно использовать в сочетании с методами сжатия модели, чтобы сократить объем обмена данными и получить преимущества конфиденциальности [1] «Н. Агарвал, А. Т. Суреш, Ю. FXX, С. Кумар и Б. МакМахан, «cpSGD: Коммуникация-эффективная и дифференциально-частная». распределенный SGD », в Proc. Advances in Neural Information Processing Systems, 2018, стр. 7564–7575 »

будущие направления исследований

  • Идеальное коммуникационное решение

    • Хотя однократные схемы связи или схемы связи «разделяй и властвуй» были исследованы в традиционных средах центров обработки данных [29], поведение этих подходов не совсем понятно в крупномасштабных и статистически неоднородных сетях.
  • Редукция связи с границей Парето

    • Методы сокращения общения в федеративном обучении — это локальные обновления и сжатие модели.Важно понимать взаимосвязь между этими методами и систематически анализировать компромисс между точностью и общением для каждого метода.
    • Эффективный вывод нейронной сети необходим для методов уменьшения связи FL.
  • Новая асинхронная модель

    • Метод пакетной синхронизации
    • Асинхронные методы (при ограниченной задержке)
  • Гетерогенный диагноз

    Открытый вопрос:

    • Существуют ли простые средства диагностики, которые могут быстро предопределить уровень неоднородности в федеративных сетях?
    • Можно ли разработать аналогичный диагностический метод для количественной оценки степени неоднородности, связанной с системой?
    • Можно ли разработать новые эмпирические и теоретические объединенные методы оптимизации с улучшенной сходимостью, используя существующие или новые определения неоднородности?
  • Детализированные ограничения конфиденциальности

    На практике ограничения конфиденциальности могут различаться между устройствами или даже между точками данных для одного устройства, поэтому необходимо сегментировать проблемы конфиденциальности.

    • конфиденциальность для конкретного образца [24] «Дж. Ли, М. Ходак, С. Калдас и А. Талвалкар, «Дифференциально частное метаобучение», в Proc.
    • device-specifiv privacy
  • Помимо контролируемого обучения

  • Продуктивное федеративное обучение

    В дополнение к основным проблемам, обсуждаемым в этой статье, существует ряд практических проблем при запуске федеративного обучения в производственной среде. особенно такие какконцептуальный дрейф(когда базовая модель генерации данных со временем меняется),суточный ход(когда устройства ведут себя по-разному в разное время дня или недели) [14] ипроблема с холодным запуском(Когда новое оборудование входит в сеть) необходимо обращаться с осторожностью.

    [5] К. Бонавиц, Х. Эйхнер, В. Грискамп, Д. Хуба, А. Ингерман, В. Иванов, К. Киддон, Дж. Конечный и др., «На пути к федеративному обучению в масштабе: Системный дизайн» в Proc. Conf. Machine Learning and Systems, 2019.» обсуждаются некоторые практические проблемы, связанные с системами, в производственных системах федеративного обучения.

Суммировать

Обсуждается уникальная природа и связанные с ней проблемы федеративного обучения в сравнении с традиционными вычислениями в распределенных центрах обработки данных и классическим обучением с сохранением конфиденциальности. Предоставляются обширные обзоры классических результатов, а также недавняя работа в федеральных условиях. Наконец, намечены некоторые открытые вопросы для дальнейшего исследования. Для решения этих проблем потребуются междисциплинарные исследования в многочисленных исследовательских сообществах.

использованная литература

  • [1] Federated Learning: Challenges, methods, and future, 2020

–fzhiy.Обновлено 2 сентября 2020 г. в 16:51.