Многосторонние безопасные вычисления: методы пересечения множества с сохранением конфиденциальности

искусственный интеллект

Аннотация: PSI расшифровывается как Private Set Intersection (PSI), что означает, что две стороны, владеющие данными, могут вычислить пересечение наборов данных обеих сторон, не раскрывая никакой информации о наборе данных, кроме пересечения.

Эта статья опубликована в сообществе HUAWEI CLOUD.«Краткое обсуждение запроса PSI на сбор информации о конфиденциальности для взаимодействия», оригинальный автор: тики волшебная раковина.

Полное название PSI — PrivateSet Intersection (PSI), что означает, что две стороны, владеющие данными, могут вычислить пересечение наборов данных обеих сторон, не раскрывая никакой информации о наборе данных, кроме пересечения.

PSI обычно имеет следующие три характеристики:

1. Полудоверенный сценарий: обе стороны данных не желают раскрывать все данные и только надеются получить пересечение наборов данных;

2. Минимизация данных: данные, кроме пересечения наборов данных, не могут быть переданы какой-либо стороне;

3. Безопасные двусторонние вычисления. Обе стороны, участвующие в вычислениях, должны совместно внедрить набор безопасных вычислительных протоколов для обеспечения безопасности данных.

Существует несколько реализаций PSI, ниже приведены некоторые распространенные реализации и их сложность.

1. Простой случай

В соответствии с данными, выбранными двумя сторонами, и полем, которое однозначно идентифицирует данные (которое можно понимать как первичный ключ, например, удостоверение личности, удостоверение личности, номер мобильного телефона), найдите записи, общие для наборов данных двух сторон. партии, упорядочить их в том же порядке и сохранить как результаты выравнивания.

Например: A и B имеют две таблицы a и b соответственно.

Сформируйте форму депозита физического лица:

Таблица b Сводная таблица потребления:

Две стороны проводят PSI через поле удостоверения личности и подсчитывают, что последние общие записи — это три, отмеченные красным.Результаты следующие:

Во время этого процесса Сторона A не хочет, чтобы Сторона B знала данные о депозитах на банковских картах перекрестка, а Сторона B не хочет, чтобы Сторона A знала годовой объем потребления данных перекрестка и другие данные, и Сторона A не должна знать что Сторона B по-прежнему имеет идентификатор пользователя «01234», и наоборот. Обе стороны должны знать только то, что идентификаторы в результате являются пересечением наборов данных.

2. Технический принцип

Ниже приводится краткое введение в PSI, реализованное с использованием псевдослучайной функции.

Предположим, что есть две стороны, A и B, с наборами идентификаторов данных X и Y соответственно.

1. H() означает, что обе стороны A и B хешируют свои собственные наборы идентификаторов данных, чтобы гарантировать, что данные расчета PSI двух сторон имеют одинаковую длину.

2. Сторона B использует случайный коэффициент r, сгенерированный псевдослучайной функцией, умножает свое собственное H(Y) и отправляет его Стороне A.

3. Сторона A использует ключ k, сгенерированный псевдослучайной функцией, для умножения собственных H(X) и B1, отправленных стороной B, для получения A и B2, а затем отправляет оба результата расчета стороне B.

4. Сторона B использует обратное r-1 случайного фактора r для умножения B2, исключая случайный фактор r и получая B

5. A и B зашифрованы одним и тем же ключом k, и пересечение зашифрованных текстов можно сравнить и вычислить.

3. Сценарии применения

  • Рассчитайте фактическую эффективность вашей рекламы

Интернет-реклама является важным видом рекламы. Распространенным методом измерения эффективности рекламы является расчет так называемого коэффициента конверсии, то есть того, сколько пользователей, просматривающих рекламу, в конечном итоге просматривают соответствующую страницу продукта или, наконец, покупают соответствующий продукт или услугу. Общий метод расчета рассчитывается путем вычисления пересечения информации о пользователе, просматривающей рекламу (принадлежащей отправителю рекламы), и информации о пользователе, выполняющей соответствующую транзакцию (принадлежащей продавцу) (например, расчет общей суммы транзакции или общего объема транзакции и т. д.). ).

  • найти контакт

Когда пользователь регистрируется для использования новой службы (например, WeChat, Whatsapp и т. д.), в большинстве случаев необходимо выяснить, какие службы того же типа были зарегистрированы из существующих контактов пользователя. Это эффективно достигается путем отправки контактов пользователя поставщику услуг, но в то же время контактная информация пользователя, которая в большинстве случаев считается конфиденциальной, также предоставляется поставщику услуг. Следовательно, в этом сценарии использование контактной информации пользователя в качестве входных данных одной стороны и всей пользовательской информации поставщика услуг в качестве входных данных другой стороны для выполнения протокола PSI может завершить функцию обнаружения контактов и может предотвратить информация, кроме перекрестка, просочилась к любой стороне.

  • Федеративное выравнивание образца обучения

Прежде чем федеративное обучение инициирует обучение, необходимо выполнить PSI на основе данных обеих сторон и использовать пользовательскую информацию, совместно используемую обеими сторонами (например, идентификатор пользователя), чтобы найти пересечение, чтобы оно соответствовало функциям и меткам. данные двух сторон и выполнить обучение модели на согласованном наборе данных.

4. Ссылка

  • Технология пересечения сбора данных о защите конфиденциальности PSI — Xiaolu (blog.alien star.talent/2020/10/10/…)

  • Цуй Хунжуй, Лю Тяньи, Юй Юй, Ченг Юэцян, Чжан Юлун, Вэй Тао: многосторонняя точка доступа для безопасных вычислений - анализ и исследовательский отчет о пересечении с сохранением конфиденциальности (PSI) (Безопасность. Baidu.com/upload/UE/…)

Нажмите «Подписаться», чтобы впервые узнать о новых технологиях HUAWEI CLOUD~