Что следует учитывать обычному инженеру, прежде чем открывать проект с открытым исходным кодом?

открытый источник
Что следует учитывать обычному инженеру, прежде чем открывать проект с открытым исходным кодом?

Гипернейронный

До того, как OpenAI выпустила GPT-2, нельзя было представить, что его поведение с открытым исходным кодом вызовет бурю негодования в академических и промышленных кругах, конечно, это во многом связано с их исследовательскими достижениями и высоким уровнем научных исследований.

Как обычный разработчик, каковы риски и преимущества открытого исходного кода? В этой статье перечислены несколько вопросов, которые необходимо рассмотреть перед открытым исходным кодом, а также опыт некоторых авторов.O

OpenAI является открытым исходным кодом, каков результат?

До того, как OpenAI выпустила GPT-2, нельзя было представить, что его поведение с открытым исходным кодом вызовет бурю негодования в академических и промышленных кругах, конечно, это во многом связано с их исследовательскими достижениями и высоким уровнем научных исследований.

Как обычный разработчик, каковы риски и преимущества открытого исходного кода? В этой статье перечислены несколько вопросов, которые необходимо рассмотреть перед открытым исходным кодом, а также опыт некоторых авторов.

На прошлой неделе OpenAI представила GPT-2, современную модель генерации текста в области NLP, но в конце концов они решили не публиковать полные данные, заявив:

«Мы не выпускаем обученные модели из-за опасений, что технология может быть применена злонамеренно».

С момента выпуска GPT-2 компанией OpenAI до объявления о том, что только некоторые результаты были открыты, возникло огромное противоречие. Существует точка зрения, что если все данные будут в открытом доступе, будет злонамеренное использование и даже преступление; в то время как сторонники раскрытия информации считают, что нераскрытие всех данных затруднит воспроизведение результатов другими исследователями.

Анима Ананкумар работает над скоординированной разработкой теории и приложений машинного обучения. Ее ответ в Твиттере на решение OpenAI выпустить модель был таким:

Это черно-белый вопрос. Вы используете средства массовой информации для раскрутки языковых моделей. На эту тему проведено много исследований. Вы утверждаете, что результаты исследования поразительны, но сообщаете только подробности журналистам. Исследователи, а не журналисты, должны иметь право знать.

Стивен Мерити резюмировал реакцию социальных сетей, сетуя на то, что у сообщества машинного обучения мало опыта в этой области:

Итог дня (об OpenAI): Никто из нас не согласен ни с чем в отношении ответственного раскрытия информации, двойного использования или того, как взаимодействовать со СМИ. Это должно быть актуально для каждого из нас, как внутри, так и вне поля.

Открытый исходный код этого вопроса, я считаю, что многие люди извлекли из этого пользу. Итак, если это касается нас как независимых инженеров или инженеров, прикрепленных к компаниям или учреждениям, должны ли наши собственные модели быть открытыми?

Кто-то составил руководство, которое поможет вам сделать шаг вперед, когда вы колеблетесь.

Хардкорные советы по открытому исходному коду для обычных инженеров Q

Следует ли вам рассмотреть возможность открытия собственной модели с открытым исходным кодом?

Конечно, это является!

Независимо от конечного результата, подумайте о возможности моделей с открытым исходным кодом и не уклоняйтесь от него вообще. Однако если ваша модель включает личные данные, вы должны учитывать риск преступников, которые могут получить исходные данные путем декомпиляции.Q

О чем мне беспокоиться, если вся модель взята из общедоступных наборов данных?

Даже если все они взяты из общедоступных наборов данных, они могут иметь новые последствия, которые отличаются от направлений и целей исследований других людей.

Поэтому необходимо задать вопрос: даже если используются только общедоступные наборы данных, будут ли различные направления исследований иметь какое-либо влияние на данные или модели?

Например, во время «арабской весны» в некоторых районах часто перекрывались дороги из-за беспорядков, местная молодежь жаловалась в Twitter, а соответствующие организации использовали мониторинг контента пользователей в Twitter для анализа военной линии противника.

Отдельный фрагмент данных может показаться бесполезным, но после их объединения можно получить много конфиденциальных результатов.

Итак, рассмотрите этот вопрос: будут ли объединенные данные в модели более чувствительными, чем одна точка данных?

Как оценить риск после open source?

С точки зрения безопасности взвесьте влияние «не с открытым исходным кодом» и «с открытым исходным кодом, но со злоупотреблением», какое из них более серьезно. ?

Стоимость рассмотрения каждой политики как «изменяемой» меры безопасности может быть выше, чем стоимость защищаемых данных. Например, некоторая информация требует конфиденциальности, но предпосылкой является своевременность. По истечении срока действия информация перестает быть конфиденциальной. , Но он по-прежнему имеет большую исследовательскую ценность.

Следовательно, от плохих политик безопасности следует вовремя отказаться, чтобы эффективно идентифицировать и поддерживать ценность наборов данных.

Кроме того, измерьте сложность используемой модели, что проще по сравнению с порогом, используемым плохими парнями? После подтверждения этого влияния решите, открывать исходный код или нет.

В случае с OpenAI они могут подумать, что не открывать полную модель достаточно, чтобы предотвратить злонамеренное использование в Интернете.

Но нужно признать, что для многих людей в отрасли, даже если все модели будут открыты, они могут не иметь возможности воспроизвести бумагу, а тем, кто злонамеренно ее использует, также потребуются большие затраты.

Должен ли я верить рискам открытого исходного кода, описанным в СМИ?

Нет.

Описания в СМИ всегда определяют общественное мнение, журналисты хотят, чтобы их читали чаще, а сенсационные заголовки и мнения привлекают больше внимания. Журналисты могут предпочесть открытый исходный код, потому что им легче писать репортажи.С другой стороны, решение не открывать исходный код может привести к стигматизирующим слухам (как в случае с OpenAI, независимо от того, преувеличен ли журналистами открытый исходный код).Q

Стоит ли доверять мнению властей о рисках open source?

Очевидно нет.

Конечно, вы должны сначала убедиться, что исследование является законным и обоснованным.Сотрудники этих государственных органов также могут быть непрофессиональными, и они могут быть больше обеспокоены давлением общественного мнения.

Однако, как и журналисты, мы должны не только рассматривать правительство как важного партнера, но и понимать, что друг к другу предъявляются разные требования.

Стоит ли вам думать о решениях негативных вариантов использования после открытия исходного кода?

Да!

Именно здесь OpenAI потерпел неудачу на этот раз. Если модель можно использовать для создания фейковых новостей, то фальшивые новости также могут быть обнаружены в дальнейшем. Например, создайте задачу классификации текста, чтобы точнее различать то, что написано человеком, и вывод модели OpenAI.

Facebook, WeChat и различные медиа-сайты приложили много усилий для борьбы с фейковыми новостями и слухами. Это исследование, проведенное OpenAI, очевидно, полезно. Можно ли обнаружить выходные данные этой модели соответствующим образом для борьбы с фейковыми новостями? новостями?

Само собой разумеется, что OpenAI может найти решение за короткое время, но они этого не сделали.Q

Следует ли уделить внимание балансированию негативных и позитивных вариантов использования модели?

да.

Выпуская модели с положительными приложениями, такими как медицинское обслуживание, безопасность и защита окружающей среды, легко внести свой вклад во все аспекты социальной деятельности.

Еще одним первоначальным провалом OpenAI было отсутствие разнообразия в их исследованиях. Исследование, опубликованное OpenAI, доступно только на английском и некоторых других языках. Но на английский приходится только 5% разговоров в мире. Что касается порядка слов в предложениях, нормализованного написания и того, как «слова» используются в качестве атомарных единиц для функций машинного обучения, ситуация с английским языком может не относиться к другим языкам.

Являясь пионером в области научных исследований, OpenAI также несет ответственность за использование других типов языковых исследований, чтобы помочь языкам и регионам, которые больше нуждаются в помощи.Q

В какой степени данные должны быть десенсибилизированы перед моделью с открытым исходным кодом?

Рекомендуется снизить чувствительность к полевому уровню, по крайней мере, начать оценку с полевого уровня.

Например, когда я работаю в AWS, который оказывается: сервисом распознавания именованных объектов, я должен учитывать: распознавать ли адрес на уровне улицы как явное поле и сопоставлять ли конкретные координаты с адресом.

Это по своей сути очень конфиденциальная частная информация, и ее следует принимать во внимание, особенно при ее производстве коммерческими компаниями. Итак, подумайте об этом в любом исследовательском проекте: были ли ключевые данные десенсибилизированы?Q

Должен ли я открывать исходный код своей модели, когда все остальные говорят, что исходный код может быть открытым?

Нет, вы должны исходить из собственного суждения.

Согласны вы с решением OpenAI или нет, окончательное решение они принимают сами, а не слепо следуют мнению пользователей сети.

Оригинальный текст: Роберт Манро

Сборник: Мисс Нерв