Аккаунт WeChat: ilulaoshi / Персональный сайт lulaoshi.info
Что такое федеративное обучение
Федеративное обучение — это концепция, которая стала популярной в последние годы.Его основная проблема заключается в том, что в условиях все более строгих правил конфиденциальности данных в различных странах предприятия и исследовательские учреждения не могут произвольно продавать, покупать или обменивать связанных пользователей.Частные данные, без данных , невозможно использовать глубокое обучение для обучения моделей нейронных сетей и невозможно построить мощный искусственный интеллект.
Большая часть упомянутых здесь «данных» — это персональные данные пользователей. Например, поиск и просмотр записей в приложении, личное потребление и финансовая информация, история болезни и т. д. Эти пользовательские данные близки к конфиденциальности человека и находятся в центре внимания регулирующих органов. Я работал в крупной компании. Для крупной компании с большим количеством пользователей компания всегда будет собирать различную информацию о пользователях. Данные, собранные бизнес-подразделением А, могут быть переданы бизнес-подразделению Б. Например, если вы искали определенное ключевое слово в приложении и в другом приложении той же компании, вскоре вы можете увидеть рекламу по этому ключевому слову. Однако для малых и средних предприятий и исследовательских институтов у них нет инструментов, платформ и возможностей для сбора пользовательских данных, и они не могут получить такие данные, поэтому они не могут проводить большой анализ данных и приложения машинного обучения на основе этих данных. . Когда регулирование не является особенно строгим, некоторые компании будут покупать и продавать данные через некоторые подпольные каналы. Но теперь покупка и продажа пользовательских данных — это уже красная черта, и большинство компаний не смеют рисковать, покупая и продавая данные, если только некоторые люди не занимаются черным производством данных, просто хотят проголосовать и убежать, независимо от долгого времени. -срок развития компании.
Поэтому проблема сейчас в том, что данные используются исключительно компанией, которой они принадлежат, и данные не могут быть переданы. Термин «хранилища данных» специально используется для описания этой ситуации. Проблема невозможности обмена данными особенно серьезна для колледжей и университетов, поскольку колледжи и университеты не могут собирать данные из реальных бизнес-сценариев и, следовательно, не могут проводить научные исследования на основе реальных бизнес-сценариев. Подавляющее большинство университетских исследователей опираются на десенсибилизированные общедоступные массивы данных в Интернете, которые прошли некоторую обработку и не могут восстановить реальное положение предприятий. Кроме того, некоторые колледжи и университеты имеют возможность сотрудничать с предприятиями.Учителя обычно отправляют студентов на предприятия для выполнения операций, связанных с данными, на сервере предприятия.Данные не должны утекать из центра обработки данных предприятия.Этот метод имеет высокую транспортировку и управление расходы.
В традиционном машинном обучении «большие и полные» данные размещаются в центре обработки данных, а обучение модели сосредоточено в одном центре обработки данных. Федеративное обучение надеется решить проблему невозможности совместного использования данных. Федеративное обучение может в полной мере использовать данные, возможности вычислений и моделирования участников, так что несколько сторон могут сотрудничать для создания общей модели машинного обучения без обмена данными. В условиях все более строгого контроля за данными федеративное обучение может решить ключевые проблемы, такие как владение данными, конфиденциальность данных и права доступа к данным.Поэтому, поскольку концепция федеративного обучения была предложена, она востребована в индустрии искусственного интеллекта. , Многие отрасли зависят от определенных приложений, таких как оборона, телекоммуникации, медицина и Интернет вещей.
Федеративное обучение может:
- Все данные хранятся локально, без утечек и нарушений законов и правил.
- Несколько участников объединяют данные, строят общую модель и вместе получают прибыль
- По сравнению со сбором данных со всех сторон федеративное обучение должно гарантировать, что эффект не сильно отличается.
Ци Хунвэй, генеральный директор Datatang, дал более яркое объяснение. Мы сравниваем машинное обучение с выращиванием овец, овцы — это модели машинного обучения, а трава, которую едят овцы, — это данные. Традиционное централизованное машинное обучение заключается в том, чтобы собирать траву в прерии и отправлять ее в загон для овец, где овцы едят, а овцы всегда фиксируются в загоне для овец. Федеративное обучение больше не фиксирует овец в овчарне, а превращается в кочевое, пасущееся на разных пастбищах.
Три типа федеративного обучения
WeBank выпустил официальный документ по федеративному обучению. WeChat поискilulaoshi
, подпишитесь на официальный аккаунт, ответьте на «Федеративное обучение» и получите технический документ.
В официальном документе федеративное обучение подразделяется на три категории: горизонтальное федеративное обучение, вертикальное федеративное обучение и федеративное трансферное обучение. Эта классификация в основном основана на распределении данных. Например, мы хотим смоделировать пользователя, пользователи U1, U2... Каждый пользователь имеет различные характеристики X1, X2, X3... Метка пользователя называется меткой.В финансовой сфере кредит пользователя может быть — это ярлык, который мы хотим предсказать; в сфере электронной коммерции желание пользователя купить может быть ярлыком, который мы хотим предсказать; в сфере образования оценки учащегося могут быть ярлыком, который мы хотим предсказать. Тогда распределение данных можно разделить на три случая:
- Пользовательские характеристики (X1, X2...) двух наборов данных в основном одинаковы, но перекрытие пользователей (U1, U2...) невелико: например, бизнес-логика в приложениях двух банков в основном то же самое: используется банк A, а другие пользователи в основном используют банк B. С точки зрения двух банков перекрытие пользователей невелико.
- Пользователи (U1, U2...) двух наборов данных имеют большое перекрытие, в то время как пользовательские функции (X1, X2...) перекрываются меньше: например, есть много пользователей в учебном заведении Xueersi и в McDonald's внизу. Существует частичное совпадение, поскольку многие учащиеся и родители посещают занятия в Xueersi и покупают фаст-фуд в McDonald's, но у Xueersi и McDonald's разные характеристики пользователей.
- Пользователи (U1, U2...) и пользовательские характеристики (X1, X2...) двух наборов данных различны: например, пользователи и характеристики магазина косметики и цифрового магазина различны. такие же, как пользовательские данные, собранные китайским банком.
Горизонтальное федеративное обучение, вертикальное федеративное обучение и федеративное трансферное обучение соответствуют трем вышеупомянутым распределениям данных соответственно.
Горизонтальное федеративное обучение
Характеристика горизонтального федеративного обучения заключается в том, что бизнес (функции) схожи, но пользователи (образцы) разные.
Процедура обработки в этом случае обычно выглядит следующим образом:
-
Каждый участник загружает последнюю модель с сервера А;
-
Каждый участник использует локальные данные для обучения модели, а зашифрованный градиент загружается на сервер А, а сервер А агрегирует градиенты каждого пользователя для обновления параметров модели;
-
Сервер A возвращает обновленную модель каждому участнику;
-
Каждый участник обновляет свои модели.
Вертикальное федеративное обучение
Особенностью вертикального федеративного обучения является то, что в распределенном наборе данных присутствует большое количество пользователей, сервер использует такие данные для обучения модели соответствующего пользователя, но не получает релевантных данных.
Например, заведений много, одно — местный супермаркет, другое — туристическое агентство, а последнее — WeBank. У супермаркетов есть история потребления и покупок пользователей, у туристических агентств есть информация о потреблении пользователей в деловых поездках, а у банков есть записи о доходах, расходах и кредитах пользователей. Разные учреждения имеют разные характеристики пользователей, и сочетание этих характеристик имеет важное значение для бизнеса для разных учреждений.
Архитектура вертикального федеративного обучения выглядит следующим образом:
- Сервер отправляет открытый ключ клиенту
- Обмен промежуточными результатами обучения между клиентами
- Зашифрованные агрегированные данные о градиенте и потерях
- обновить модель
Федеративное трансферное обучение
Федеративное трансферное обучение подходит для сценариев с небольшим перекрытием функций и образцов среди участников, например, для совместного обучения между банками и супермаркетами в разных регионах.
Трансферное обучение относится к процессу обучения, в котором модель, обученная в исходной области, применяется к целевому домену, используя сходство между данными, задачами или моделями. Грубо говоря, это как рисовать тигра по коту. Все мы знаем, что при вождении в материковом Китае водитель сидит слева, а едет по правой стороне дороги. Это основное правило. Однако при вождении в Соединенном Королевстве, Гонконге и других регионах водитель сидит справа и должен двигаться по левой стороне дороги. Итак, если мы приедем из материкового Китая в Гонконг, как мы можем быстро адаптироваться к их манере вождения? Хитрость заключается в том, чтобы найти здесь инвариант: независимо от того, где вы находитесь, водитель остается ближе к середине дороги. Это инвариант в нашей задаче о вождении. Поиск сходств (инвариантов) является основой трансферного обучения.
Основные этапы федеративного трансферного обучения:
- Обе стороны обмениваются открытыми ключами
- Обе стороны вычисляют шифрование и обмениваются промежуточными результатами обучения по отдельности
- Обе стороны вычисляют зашифрованный градиент, добавляют запутанный код и отправляют его другой стороне.
- Обе стороны расшифровывают градиенты и обмениваются, расшифровывают и обновляют локальную модель.
По сравнению с первыми двумя видами федеративного обучения федеративное трансферное обучение является наиболее сложным.
использованная литература