Текущая проблема с искусственным интеллектом заключается в том, что вы не можете иметь и то, и другое, то есть трудно сбалансировать конфиденциальность и удобство использования. Возможно, придется пожертвовать конфиденциальностью, если системы ИИ должны работать. Однако в большом количестве реальных сценариев, если конфиденциальность и удобство использования не могут учитываться одновременно, это приведет ко многим трудностям при реализации ИИ.
С введением Закона о безопасности данных и защите конфиденциальности некогда обширный обмен данными был поставлен под сомнение, и различные владельцы данных вернулись к состоянию хранилища данных. В то же время интернет-компаниям стало сложнее собирать и использовать личные данные пользователей, и хранилища данных стали нормой. Если вы хотите лучше использовать данные, вы должны обмениваться данными между различными организациями, компаниями и пользователями при условии обеспечения защиты конфиденциальности и безопасности данных.
Чтобы решить эту проблему, многие технологические компании в стране и за рубежом последовательно запускали решения, такие как федеративное обучение, запущенное Google, и совместное использование данных, предложенное Ant Financial. В этой статье InfoQ естьЧжоу Цзюнь, руководитель мидл-офиса алгоритмов машинного обучения Ant FinancialПровел интервью, чтобы узнать, как совместное использование интеллектуальных данных может решить проблемы обмена данными в финансовом секторе.
Разница между общим интеллектом и федеративным обучением
Прежде чем представить техническую практику, нам нужно некоторое время, чтобы прояснить разницу между общим интеллектом и федеративным обучением, чтобы помочь читателю понять объем этой статьи.
В настоящее время в отрасли существует два основных технологических маршрута обмена данными для решения проблемы утечки конфиденциальной информации и злоупотребления данными. Один из них — это доверенные вычисления на основе аппаратной технологии Trusted Execution Environment (TEE: Trusted Execution Environment), а другой — многосторонние вычисления (MPC: Multi-party Computation) на основе криптографии.
TEE буквально означает Trusted Execution Environment.Основная концепция заключается в том, что стороннее оборудование используется в качестве носителя, а данные совместно используются в доверенной среде выполнения, созданной аппаратным обеспечением. В настоящее время наиболее зрелой технологией TEE, доступной в производственной среде, является технология Intel SGX. В отрасли также популярны различные приложения, основанные на технологии SGX. Microsoft, Google и другие компании инвестировали в это направление.
MPC (Multi-party Computation) всегда была горячей темой в академических кругах, но слабо представлена в промышленном мире.До этого некоторые небольшие стартапы проводили исследования в этом направлении, такие как Sharemind, Privitar, Пока Компания Google предложила концепцию «Федеративного обучения» (Federated Learning) на основе MPC в персональных терминальных устройствах, технология MPC стала популярной в отрасли в одночасье.
В настоящее время в отрасли запущены некоторые решения, использующие указанные выше технические маршруты для сценариев обмена данными, включая машинное обучение с сохранением конфиденциальности PPML, федеративное обучение, совместное обучение, доверенное машинное обучение и т. д. Технические пути, используемые в разных решениях, будут различаться. друг от друга. Чжоу Цзюнь сказал, что общий интеллект (также известный как совместное машинное обучение), предложенный Ant Financial, сочетает в себе два маршрута TEE и MPC и в то же время сочетает в себе характеристики собственных бизнес-сценариев Ant, ориентируясь на приложения в финансовой отрасли. .
Проще говоря, концепция совместного использования данных или идея заключается в объединении информации от нескольких сторон для анализа и машинного обучения в сценарии, в котором участвуют несколько сторон, а поставщики данных и стороны платформы не доверяют друг другу и обеспечивают конфиденциальность. каждой стороны.
Что касается разницы между общим интеллектом и федеративным обучением, Чжоу Цзюнь сказал, что в настоящее время федеративное обучение включает в себя две разные концепции:
Во-первых, это федеративное обучение, предложенное Google, которое направлено на решение проблемы неразоблачения конфиденциальности на конце во время облачного + конечного обучения, Это сценарий горизонтальной сегментации данных To C +. Помимо защиты конфиденциальности данных на терминале, основное внимание уделяется решению проблемы, связанной с тем, что сам терминал может отключиться в процессе обучения.
Второй — федеративное обучение, предложенное в Китае, которое в основном используется для решения проблемы неразглашения конфиденциальности всех сторон в сценарии To B. Его можно применять как к горизонтальной сегментации данных, так и к вертикальной сегментации данных. данные. Они сосредоточены на различных сценариях обмена данными и имеют разные технические акценты.
В 2019 году в обзорной статье о федеративном обучении «Достижения и открытые проблемы в федеративном обучении», написанной многими известными университетами и предприятиями, определение и описание федеративного обучения относительно ясно. Прежде всего, архитектура федеративного обучения состоит из центрального сервера и нескольких вычислительных узлов.Центральный сервер будет участвовать во всем вычислительном процессе, поэтому он не подходит для некоторых сценариев приложений, не требующих узла центрального сервера (это режим называется в статье Полностью децентрализованное распределенное обучение). Кроме того, федеративное обучение требует, чтобы исходные данные не могли выйти за пределы предметной области, что также ограничивает технические решения, которые можно использовать, а совместное использование данных начинается с проблемы. различные сложные сценарии.Набор технических решений для решения всех задач, поэтому решение совместного использования интеллекта не только включает в себя режим участия центрального сервера в вычислениях, аналогичный федеративному обучению, но и включает в себя полностью децентрализованные решения, а также совместное обучение на основе TEE решения.
В разных сценариях разные решения имеют свои преимущества и недостатки. Чжоу Цзюнь сказал, что в настоящее время еще много прорывов в машинном обучении при совместном использовании данных.Мы не запутались в проблеме федеративного обучения или децентрализованного распределенного обучения или каких-либо других технических решений.Я надеюсь, что все смогут работать вместе, чтобы решить эту отрасль проблема.
Практика применения общего интеллекта Ant Financial
С 2016 года Ant Financial начала инвестировать в исследование общего интеллекта, отправной точкой которого является решение проблем, возникающих в бизнесе, таких как проблема координации информации между учреждениями и Ant Financial. Исходя из этого, Ant Financial исследовала различные схемы, такие как дифференциальная конфиденциальность и матричное преобразование, и определила текущее техническое направление.
Чжоу Цзюнь считает, что весь этап исследований и разработок можно условно разделить на три периода: период разведки, технический прорыв и техническое применение.
- Период исследования: провести всесторонний обзор соответствующих технологий в отрасли, разработать сотни решений, проверить осуществимость одно за другим и неоднократно улучшать технологию в реальных сценариях для достижения прорывов от 0 до 1;
- В течение периода технических испытаний после предыдущего исследования было определено несколько решений, которые могут быть применимы в отрасли, а безопасность и производительность этих решений были дополнительно оптимизированы и улучшены одно за другим в крупномасштабных промышленных сценариях;
- В период применения технологии она начала применяться в реальных бизнес-сценариях в больших масштабах, отвечая потребностям бизнеса, дорабатывая технологию и принимая рыночные испытания.
Что касается технических деталей совместного использования интеллекта, Чжоу Цзюнь сказал, что его можно понять в соответствии с двумя путями TEE и MPC.
Совместное обучение на основе TEE
Нижний уровень Ant Shared Learning использует технологию Intel SGX и совместим с другими реализациями TEE. Далее речь пойдет о
Совместное обучение на основе TEE — это внедоменная схема шифрования данных, которая в настоящее время поддерживает онлайн-прогнозирование и автономное обучение кластерных моделей.
1. Моделируйте онлайн-прогнозирование
Прогнозирование обычно представляет собой онлайн-сервис. По сравнению с офлайн-обучением онлайн-прогнозирование относительно просто по сложности алгоритма, но требует более высокой стабильности. Одной из ключевых технологий повышения стабильности онлайн-сервисов является реализация кластеризации — решение проблем стабильности, таких как балансировка нагрузки, отработка отказа и динамическое расширение емкости за счет кластеризации.
Однако из-за специфики самой технологии SGX традиционные кластерные решения не могут работать на SGX.
С этой целью Ant Financial разработала следующую базовую структуру для распределенных онлайн-сервисов:
Разница между этой инфраструктурой и традиционной распределенной инфраструктурой заключается в том, что при запуске каждой службы она регистрируется в диспетчере кластеров (CM) и поддерживает пульс. эти анклавы для синхронизации ключей.После того как анклавы получат уведомление, они подтвердят свою личность друг с другом посредством удаленной аутентификации. Когда подтверждается, что подписи анклавов друг друга идентичны, ключи согласовываются и синхронизируются по безопасному каналу.
2. Смоделируйте офлайн-обучение
На этапе обучения модели, в дополнение к поддержке обучения LR и GBDT на основе самостоятельно разработанной системы обучения, Ant Financial также использовала LibOS Occlum (разработанную Ant, с открытым исходным кодом) и собственную распределенную сетевую систему для успешной интеграции нативных Xgboost Портирован в SGX и поддерживает многостороннее слияние данных и распределенное обучение. С помощью вышеуказанного решения можно не только сократить объем повторяющихся работ по разработке, но и после того, как сообщество Xgboost получит новые обновления функций, новые функции можно будет повторно использовать непосредственно в SGX без дополнительной разработки. В настоящее время Ant Financial использует это решение для миграции инфраструктуры TensorFlow.
Кроме того, в ответ на проблему ограничения памяти в 128 МБ, которую в настоящее время критикует SGX (более 128 МБ вызовет операцию смены страницы, что приведет к значительному падению производительности), Ant Financial значительно уменьшила влияние ограничения памяти на производительность за счет оптимизации алгоритма и распределенные технологии.
Вышеупомянутая схема в процессе обучения и обучения с многосторонним обменом данными выглядит следующим образом:
1. Институциональные пользователи загружают инструменты шифрования из Data Lab.
2. Используйте инструменты шифрования для шифрования данных.Инструмент шифрования имеет встроенный процесс RA, чтобы гарантировать, что зашифрованная информация будет расшифрована только в указанном анклаве.
3. Пользователь загружает зашифрованные данные в облачное хранилище
4. Пользователи создают учебные задачи на учебной платформе Data Lab.
5. Учебная платформа отправляет тренировочные задания в тренировочный движок.
6. Модуль обучения запускает анклав, связанный с обучением, и считывает зашифрованные данные из облачного хранилища, чтобы выполнить заданную задачу обучения.
Кроме того, для некоторых сценариев, когда поставщики данных не хотят, чтобы данные выходили за пределы домена, Ant также предоставляет техническое решение для шифрования информации о параметрах во время процесса обучения с использованием TEE.
Совместное обучение на основе MPC
Платформа общего обучения Ant на основе MPC разделена на три уровня:
- Уровень технологий безопасности:Уровень технологии безопасности обеспечивает реализацию базовой технологии безопасности, такой как вышеупомянутое совместное использование секрета, гомоморфное шифрование и схемы запутывания, а некоторые из них тесно связаны с безопасностью, например, технология дифференциальной конфиденциальности, алгоритм DH и т. д.;
- Уровень базового оператора:На основе уровня технологии безопасности Ant Financial будет инкапсулировать некоторые базовые операторы, в том числе многостороннее пересечение безопасности данных, сложение матриц, матричное умножение, а в многосторонних сценариях — расчет сигмоидной функции, функцию ReLU и т. д.; один и тот же оператор. Может существовать множество схем реализации для адаптации к различным требованиям сцены при сохранении согласованности интерфейса;
- Алгоритмы безопасного машинного обучения:С базовыми операторами очень удобно разрабатывать безопасные алгоритмы машинного обучения.Техническая сложность здесь заключается в том, как максимально повторно использовать существующие алгоритмы и существующие структуры.Ant Financial предприняла здесь несколько полезных попыток, но также столкнулась с большими проблемами.
В настоящее время эта платформа совместного обучения на основе MPC поддерживает головные алгоритмы, включая LR, GBDT, DNN и т. д. В будущем мы продолжим добавлять больше алгоритмов в соответствии с потребностями бизнеса, а также предоставим больше алгоритмов для различных операторов. решения для реализации различных бизнес-сценариев.
Процесс обучения и обучения с многосторонним обменом данными на основе MPC выглядит следующим образом:
1. Институциональные пользователи загружают учебный сервис из Data Lab и развертывают его локально.
2. Пользователи создают учебные задачи на учебной платформе Data Lab.
3. Учебная платформа отправляет тренировочные задания в тренировочный движок.
4. Учебный движок отправляет задание на учебный сервер Worker на стороне учреждения.
5. Worker загружает локальные данные
6. В соответствии с задачами обучения, выданными работниками, задачи обучения выполняются посредством взаимодействия многосторонних протоколов безопасности.
Конкретная архитектура тренировочного движка выглядит следующим образом:
Среди них координатор развертывается на платформе ant для контроля и координации задач и не участвует в самой операции. Рабочие развернуты в учреждениях, которые участвуют в многосторонних безопасных вычислениях, и выполняют фактические интерактивные вычисления на основе безопасных многосторонних протоколов.
Поток обучающей задачи, созданный пользователем на платформе моделирования, будет отправлен диспетчеру потока задач координатора, а диспетчер потока задач разберет задачу и отправит конкретный алгоритм исполнителю задачи на стороне работника через задачу. Менеджер.Исполнитель задач основан на диаграмме алгоритма.Вызвать оператора безопасности на работника для завершения фактической операции.
Используя этот метод, обмен данными может осуществляться без выхода за пределы домена, а средства обучения могут быть развернуты на локальных серверах.
Значение для финансового сектора
Будь то федеративное обучение или совместное использование информации, многие технические практики отдают предпочтение финансовой сфере. По сравнению с другими областями, финансовая сфера имеет более строгое управление и контроль данных и уделяет больше внимания конфиденциальности данных, поэтому это также область, которая больше всего нуждается в решении проблемы островов данных с помощью технических средств.
Чжоу Цзюнь сказал, что в финансовой сфере совместная разведка фокусируется на решении проблем в большой области «открытия», таких как совместный маркетинг, совместный контроль рисков и т. д. Эти два сценария относительно легче увидеть конкретные эффекты реализации. По сравнению с другими областями, финансовая сфера уделяет больше внимания защите данных, и поток данных в этой области более сложен, поэтому использование общих интеллектуальных технологий может обеспечить лучшую защиту конфиденциальности и сделать данные пригодными для использования и невидимыми. ключевой усилитель.
Например, благодаря слиянию данных общий интеллект Ant Financial помог компании Zhonghe Rural Credit значительно повысить эффективность контроля рисков, превратив первоначальный традиционный автономный режим в онлайн-режим автоматического просмотра, и для завершения продления кредита требуется всего 5 минут, 8 месяцев. накопительный кредит 3,19 млрд, количество успешных кредитов 440000 человек, бизнес охватывает более 20 провинций, более 300 уездов, более 10000 деревень.
Как решить дилемму посадки?
Хотя внедрение этой технологии имеет большое значение для финансовых предприятий, многие компании столкнулись с проблемами в процессе фактического внедрения, которые могут быть связаны с техническими причинами или опасениями по поводу результатов.
Во время интервью Чжоу Цзюнь сказал, что технология совместного использования данных является междисциплинарной областью, включающей криптографию, машинное обучение и другие технологии, и что существуют определенные пороговые значения.Предприятия, внедряющие такие технологии, должны всесторонне учитывать свои собственные технические возможности и потребности бизнеса. Конечно же, Ant Financial также активно изучает технологии и решения, позволяющие снизить порог входа компаний в землю.
Кроме того, общий интеллект Ant Financial представляет собой открытую экосистему, и я надеюсь, что больше компаний смогут участвовать в совместном строительстве, не прибегая к многочисленным окольным путям, которые Ant Financial делала раньше. Финансовые предприятия могут своевременно следить за последними событиями в отрасли в соответствии со своими потребностями в развитии бизнеса, чтобы выбирать более подходящие технологии и партнеров для решения бизнес-задач. Способность выиграть бизнес и решить болевые точки бизнеса является наиболее важным фактором здесь.
Что еще более важно, совместно используемая информация решает проблему доверия, поэтому предпосылкой крупномасштабного внедрения является то, что пользователи всесторонне понимают общую информацию и доверяют ей. Ant Financial постепенно укрепляет доверие пользователей к совместно используемой аналитике, устанавливая ориентиры, продвигая стандарты и ориентируясь на открытый исходный код. В настоящее время Ant Financial внедрила сравнительные бизнес-сценарии во многих учреждениях в области смарт-кредитования. В то же время он играет ведущую роль в продвижении отраслевых стандартов, стандартов альянсов, национальных стандартов и международных стандартов, таких как IEEE и ITU-T, для обмена информацией. Чжоу Цзюнь сказал, что мы считаем, что с одновременным развитием технологий и умов пользователей вскоре произойдет широкомасштабное внедрение общего интеллекта, и первыми выиграют финансовые технологии, основанные на данных, которые имеют большой спрос на защиту конфиденциальности. ... и индустрии медицинских технологий.
заключительные замечания
Глядя в будущее, Чжоу Цзюнь сказал, что основное внимание уделяется дальнейшему продвижению всей отрасли для совместного решения проблемы обмена данными. Ant Financial будет постепенно открывать свои технические возможности для расширения возможностей компаний, нуждающихся в отрасли, и в то же время будет работать с большим количеством подразделений, включая исследовательские институты и предприятия, для совместного решения технических проблем. В конечном счете, есть надежда, что вся отрасль сможет совместно построить общую интеллектуальную сеть, которая сможет реализовать взаимосвязь данных и функциональную совместимость на основе защиты конфиденциальности пользователей и предотвращения злоупотребления данными, чтобы лучше реализовать инклюзивное финансирование.
Экспертное введение
Чжоу Цзюнь, отвечающий за среднюю стадию алгоритма машинного обучения Ant Financial, включая совместное машинное обучение, графовое машинное обучение, автоматическое машинное обучение и состязательное машинное обучение. За более чем 8 лет работы в Alibaba он разработал распределенную операционную систему Alibaba Cloud-Feitian, платформу обработки больших данных MaxCompute и платформу искусственного интеллекта PAI, а также занимался оценкой CTR, такой как реклама, рекомендации и поиск. лучше применять к основным сценариям, таким как рост числа пользователей и анализ рисков.