Вопросы конфиденциальности в больших языковых моделях

машинное обучение глубокое обучение
Вопросы конфиденциальности в больших языковых моделях

Видео введение:Вопросы конфиденциальности в больших языковых моделях

Языковые модели на основе машинного обучения, обученные предсказывать следующее слово в предложении, становятся все более мощными, вездесущими и полезными, что приводит к прорывным улучшениям в таких приложениях, как ответы на вопросы, перевод и многое другое. Но по мере того, как языковые модели продолжают развиваться, могут возникать новые и неожиданные риски, требующие от исследовательского сообщества активных усилий по разработке новых подходов для смягчения потенциальных проблем.

Один из рисков заключается в том, что модель может утечь детали из обучающих данных. Хотя это может быть проблемой для всех больших языковых моделей, могут возникнуть другие проблемы, если модели, обученные на частных данных, будут использоваться публично. Поскольку эти наборы данных могут быть большими (сотни гигабайт) и поступать из различных источников, они иногда могут содержать конфиденциальные данные, в том числе личную информацию (PII) — имена, номера телефонов, адреса и т. д., даже при обучении на общедоступных данных. Это увеличивает вероятность того, что модель, обученная на таких данных, сможет отразить некоторые из этих частных деталей в своих выходных данных. Поэтому важно выявлять и минимизировать риск таких утечек и разрабатывать стратегии для решения проблем с будущими моделями.

В разделе «Извлечение обучающих данных из больших языковых моделей» в сотрудничестве с OpenAI, Apple, Стэнфордом, Беркли и Северо-восточным университетом мы демонстрируем, что можно извлекать определенные сегменты памяти модели, если предварительно обученные языковые модели могут быть запрошены для получения обучающих данных. . Таким образом, атаки с извлечением обучающих данных представляют собой реальную угрозу для современных больших языковых моделей. Это исследование представляет собой ранний важный шаг в информировании исследователей о таких уязвимостях, чтобы они могли предпринять шаги по их устранению.

Этика атак языковых моделей

Атаки с извлечением обучающих данных с наибольшей вероятностью причинят вред, если они применяются к общедоступным моделям, но не к наборам данных, используемым при обучении. Однако из-за потенциально пагубных последствий проведения этого исследования на таком наборе данных мы вместо этого проводим пробную атаку извлечения обучающих данных на GPT-2, крупномасштабную общедоступную языковую модель, разработанную OpenAI, с использованием только общедоступных данные для обучения. Хотя эта работа специально посвящена GPT-2, результаты применимы для понимания возможных угроз конфиденциальности в больших языковых моделях.

Как и в случае с другими исследованиями, связанными с конфиденциальностью и безопасностью, важно учитывать этику таких атак, прежде чем их выполнять. Чтобы свести к минимуму потенциальные риски этой работы, атака извлечения обучающих данных в этой работе была разработана с использованием общедоступных данных. Кроме того, сама модель GPT-2 была обнародована OpenAI в 2019 году, обучающие данные, используемые для обучения GPT-2, были собраны из общедоступного Интернета, и любой, кто следил за процессом сбора данных, задокументированным в документе GPT-2, может загрузить его. .

Кроме того, в соответствии со спецификацией ответственного раскрытия информации о компьютерной безопасности, мы отслеживаем лиц, извлекших персональные данные, и получаем их разрешение, прежде чем публиковать ссылки на эти данные. Кроме того, во всех публикациях этой работы мы отредактировали любую личную информацию, которая может идентифицировать человека. Мы также тесно сотрудничаем с OpenAI по анализу GPT-2.

Атака извлечения обучающих данных

По своему замыслу языковые модели позволяют очень легко генерировать большие объемы выходных данных. Заполнив модель случайными фразами, модель может генерировать миллионы продолжений, возможных фраз, завершающих предложение. В большинстве случаев эти продолжения будут простыми строками разумного текста. Например, когда его просят предсказать непрерывность строки «У Мэри было немного...», языковая модель будет иметь высокую уверенность в том, что следующим токеном будет слово «ягненок». Однако если в конкретном учебном документе несколько раз повторяется строка «У Мэри был маленький вомбат», модель может вместо этого предсказать эту фразу.

Цель обучающих атак с извлечением данных — просеять миллионы выходных последовательностей языковых моделей и предсказать, какие тексты следует запомнить. Чтобы достичь этого, наш подход использует тот факт, что модели, как правило, более уверены в результатах, полученных непосредственно из обучающих данных. Эти атаки на вывод о членстве позволяют нам предсказать, используется ли результат в обучающих данных, путем изучения уверенности модели в конкретной последовательности.

Основным техническим вкладом этой работы является разработка метода вывода о членстве с высокой точностью и метода выборки из модели таким образом, чтобы стимулировать вывод содержимого памяти. Мы протестировали множество различных стратегий выборки, причем наиболее успешная из них генерировала текст, зависящий от различных входных фраз. Затем мы сравниваем вывод двух разных языковых моделей. Когда одна модель имеет высокую достоверность последовательности, а другая (столь же точная) модель имеет низкую достоверность последовательности, вполне вероятно, что первая модель запомнила данные.

результат

Из 1800 последовательностей-кандидатов для языковой модели GPT-2 мы извлекли более 600 воспоминаний из общедоступных обучающих данных, общее количество ограничено необходимостью ручной проверки. Запомненные примеры охватывают широкий спектр контента, включая заголовки новостей, сообщения журнала, код JavaScript, персональные данные и многое другое. Хотя эти примеры редки в обучающем наборе данных, многие из них запоминаются. Например, для многих извлеченных нами образцов PII они были найдены только в одном документе в наборе данных. Однако в большинстве случаев исходный документ содержит несколько экземпляров PII, поэтому модель все равно запоминает его как текст с высокой вероятностью.

Наконец, мы также обнаружили, что чем больше языковая модель, тем легче запомнить обучающие данные. Например, в одном эксперименте мы обнаружили, что модель GPT-2 XL с 1,5 миллиардами параметров запоминает в 10 раз больше информации, чем модель GPT-2 Small со 124 миллионами параметров. Учитывая, что исследовательское сообщество обучило модели в 10–100 раз больше, это означает, что необходимо проделать дополнительную работу, чтобы отслеживать и смягчать эту проблему во все более крупных языковых моделях с течением времени.

уроки выучены

Хотя мы демонстрируем эти атаки конкретно на GPT-2, они показывают потенциальные недостатки во всех крупных генеративных языковых моделях. Тот факт, что такие атаки возможны, имеет важные последствия для будущих исследований в области машинного обучения с использованием моделей такого типа.

К счастью, есть несколько способов облегчить эту проблему. Самое простое решение — убедиться, что модель не обучается на каких-либо потенциально проблемных данных. Но это сложно сделать на практике.

Использование дифференциальной конфиденциальности позволяет проводить обучение на наборах данных без раскрытия каких-либо деталей отдельных обучающих примеров и является одним из наиболее принципиальных методов обучения моделей машинного обучения с конфиденциальностью. В TensorFlow этого можно добиться с помощью модуля tensorflow/privacy (или аналогичного PyTorch или JAX), который является заменой существующих оптимизаторов. Даже это было бы ограничением и не помешало бы запоминанию содержания, которое повторялось достаточное количество раз. Если это невозможно, мы рекомендуем хотя бы измерить объем используемой памяти, чтобы можно было предпринять соответствующие действия.

Языковые модели продолжают демонстрировать огромную полезность и гибкость, однако, как и все инновации, они также могут таить в себе риски. Ответственное их развитие означает активное выявление этих рисков и разработку способов их снижения. Мы надеемся, что эта попытка выявить текущие недостатки в моделировании больших языков повысит осведомленность об этой проблеме в более широком сообществе машинного обучения и вдохновит исследователей на дальнейшую разработку эффективных методов обучения моделей с меньшим объемом памяти.

Инструкции по обновлению: Приоритет отдается обновлению общедоступной учетной записи WeChat «Блог дождливой ночи», а блог будет обновлен позже, а затем будет распространен на различные платформы.Если вы хотите узнать больше заранее, обратите внимание на Публичный аккаунт WeChat «Блог дождливой ночи».

Источник блога:Блог Дождливой ночи