Аннотация: PSI расшифровывается как Private Set Intersection (PSI), что означает, что две стороны, владеющие данными, могут вычислить пересечение наборов данных обеих сторон, не раскрывая никакой информации о наборе данных, кроме пересечения.
Эта статья опубликована в сообществе HUAWEI CLOUD.«Краткое обсуждение запроса PSI на сбор информации о конфиденциальности для взаимодействия», оригинальный автор: тики волшебная раковина.
Полное название PSI — PrivateSet Intersection (PSI), что означает, что две стороны, владеющие данными, могут вычислить пересечение наборов данных обеих сторон, не раскрывая никакой информации о наборе данных, кроме пересечения.
PSI обычно имеет следующие три характеристики:
1. Полудоверенный сценарий: обе стороны данных не желают раскрывать все данные и только надеются получить пересечение наборов данных;
2. Минимизация данных: данные, кроме пересечения наборов данных, не могут быть переданы какой-либо стороне;
3. Безопасные двусторонние вычисления. Обе стороны, участвующие в вычислениях, должны совместно внедрить набор безопасных вычислительных протоколов для обеспечения безопасности данных.
Существует несколько реализаций PSI, ниже приведены некоторые распространенные реализации и их сложность.
1. Простой случай
В соответствии с данными, выбранными двумя сторонами, и полем, которое однозначно идентифицирует данные (которое можно понимать как первичный ключ, например, удостоверение личности, удостоверение личности, номер мобильного телефона), найдите записи, общие для наборов данных двух сторон. партии, упорядочить их в том же порядке и сохранить как результаты выравнивания.
Например: A и B имеют две таблицы a и b соответственно.
Сформируйте форму депозита физического лица:
Таблица b Сводная таблица потребления:
Две стороны проводят PSI через поле удостоверения личности и подсчитывают, что последние общие записи — это три, отмеченные красным.Результаты следующие:
Во время этого процесса Сторона A не хочет, чтобы Сторона B знала данные о депозитах на банковских картах перекрестка, а Сторона B не хочет, чтобы Сторона A знала годовой объем потребления данных перекрестка и другие данные, и Сторона A не должна знать что Сторона B по-прежнему имеет идентификатор пользователя «01234», и наоборот. Обе стороны должны знать только то, что идентификаторы в результате являются пересечением наборов данных.
2. Технический принцип
Ниже приводится краткое введение в PSI, реализованное с использованием псевдослучайной функции.
Предположим, что есть две стороны, A и B, с наборами идентификаторов данных X и Y соответственно.
1. H() означает, что обе стороны A и B хешируют свои собственные наборы идентификаторов данных, чтобы гарантировать, что данные расчета PSI двух сторон имеют одинаковую длину.
2. Сторона B использует случайный коэффициент r, сгенерированный псевдослучайной функцией, умножает свое собственное H(Y) и отправляет его Стороне A.
3. Сторона A использует ключ k, сгенерированный псевдослучайной функцией, для умножения собственных H(X) и B1, отправленных стороной B, для получения A и B2, а затем отправляет оба результата расчета стороне B.
4. Сторона B использует обратное r-1 случайного фактора r для умножения B2, исключая случайный фактор r и получая B
5. A и B зашифрованы одним и тем же ключом k, и пересечение зашифрованных текстов можно сравнить и вычислить.
3. Сценарии применения
- Рассчитайте фактическую эффективность вашей рекламы
Интернет-реклама является важным видом рекламы. Распространенным методом измерения эффективности рекламы является расчет так называемого коэффициента конверсии, то есть того, сколько пользователей, просматривающих рекламу, в конечном итоге просматривают соответствующую страницу продукта или, наконец, покупают соответствующий продукт или услугу. Общий метод расчета рассчитывается путем вычисления пересечения информации о пользователе, просматривающей рекламу (принадлежащей отправителю рекламы), и информации о пользователе, выполняющей соответствующую транзакцию (принадлежащей продавцу) (например, расчет общей суммы транзакции или общего объема транзакции и т. д.). ).
- найти контакт
Когда пользователь регистрируется для использования новой службы (например, WeChat, Whatsapp и т. д.), в большинстве случаев необходимо выяснить, какие службы того же типа были зарегистрированы из существующих контактов пользователя. Это эффективно достигается путем отправки контактов пользователя поставщику услуг, но в то же время контактная информация пользователя, которая в большинстве случаев считается конфиденциальной, также предоставляется поставщику услуг. Следовательно, в этом сценарии использование контактной информации пользователя в качестве входных данных одной стороны и всей пользовательской информации поставщика услуг в качестве входных данных другой стороны для выполнения протокола PSI может завершить функцию обнаружения контактов и может предотвратить информация, кроме перекрестка, просочилась к любой стороне.
- Федеративное выравнивание образца обучения
Прежде чем федеративное обучение инициирует обучение, необходимо выполнить PSI на основе данных обеих сторон и использовать пользовательскую информацию, совместно используемую обеими сторонами (например, идентификатор пользователя), чтобы найти пересечение, чтобы оно соответствовало функциям и меткам. данные двух сторон и выполнить обучение модели на согласованном наборе данных.
4. Ссылка
-
Технология пересечения сбора данных о защите конфиденциальности PSI — Xiaolu (blog.alien star.talent/2020/10/10/…)
-
Цуй Хунжуй, Лю Тяньи, Юй Юй, Ченг Юэцян, Чжан Юлун, Вэй Тао: многосторонняя точка доступа для безопасных вычислений - анализ и исследовательский отчет о пересечении с сохранением конфиденциальности (PSI) (Безопасность. Baidu.com/upload/UE/…)
Нажмите «Подписаться», чтобы впервые узнать о новых технологиях HUAWEI CLOUD~