Являясь ведущей компанией в области облачных решений в Китае, Tencent Cloud также берет на себя ответственность и миссию по обеспечению безопасности в Интернете и защите от хакеров, внедряя инновационные облачные технологии. На специальной сессии QCon Beijing 2018 «Практика искусственного интеллекта и глубокого обучения» Ван Гоинь, эксперт-исследователь Tencent Cloud, поделился рядом решений и мер Tencent Cloud в области защиты интернет-безопасности. В этой статье организованы основные выступления основных учителей Ван Гоиня.Заинтересованные читатели могут посмотреть видео живых выступлений Ван Гоиня.
Введение
С быстрым развитием Интернета, интеллектуальных устройств и различных новых видов бизнеса данные в Интернете резко возросли, а интерактивный контент, такой как изображения, видео, публикации и чаты, стал неотъемлемой частью выражения чувств людьми, записи событий и повседневной жизни. работа. .
Этот растущий контент также полон различных неконтролируемых факторов риска, таких как непристойные и плохие комментарии, спам-реклама, незаконные транзакции/пропаганда, вульгарный и нецивилизованный и другой спам-контент, который необходимо серьезно рассматривать и управлять различными веб-сайтами и платформами. .
2. Состояние безопасности контента
Непристойные и непристойные комментарии, незаконные и незаконные сделки серьезно сказываются на здоровом развитии основного бизнеса. Столкнувшись с такими проблемами, как их решить владельцам бизнеса?
Один из методов заключается в привлечении рабочей силы для увеличения аудиторских усилий. Характеристики этого метода заключаются в следующем:
- Спам-комментарии составляют небольшую долю, и ручную проверку легко пропустить один за другим.
- Масштабы данных комментариев пользовательского контента огромны, миллиарды, десятки миллиардов и т. д. в день, а трудозатраты слишком высоки.
- Затраты на набор аудиторов и расходы на управление высоки
Другой способ - нанять профессиональных инженеров ИИ для создания собственных моделей распознавания.Характеристики этого метода заключаются в следующем:
- Инженеры ИИ очень дорогие
- Безопасность контента, как правило, не является частью основного бизнеса и требует меньших вложений.
- Эффект модели распознавания ограничен размером и качеством выборки, и требуются постоянные инвестиции в маркировку данных.
Последний способ — купить страховку: поручите решение вопросов безопасности контента профессиональной компании, чтобы получить «четыре ляна по тысяче фунтов».
3. Существующие решения
Текущие основные методы выявления такого спама: режим фильтрации по ключевым словам, режим фильтрации по грамматике ключевых слов, режим машинного обучения, который обучает модель идентификации спама на помеченных данных, или гибридный режим, который сочетает ключевые слова и машинное обучение, а именно:
- Режим фильтрации по ключевым словам: Преимущество этого режима в том, что он вступает в силу немедленно, но из-за проблемы неоднозначности сегментации слов это приводит к непредумышленному убийству, способность к обобщению незарегистрированных случаев слаба, а стоимость обслуживания тезауруса высокий.
- Режим фильтрации на основе грамматики ключевых слов: поскольку учитывается контекст ключевых слов, этот метод обладает определенной способностью устранения неоднозначности по сравнению с фильтрацией ключевых слов, но грамматику ключевых слов необходимо обобщать вручную, а контекст нелегко перечислить, что делает трудозатраты более затратными. В то же время, при непрерывном появлении вариантов, грамматика перехвата добывается из вариантов, а трудозатраты неконтролируемы.
- Статическая модель машинного обучения или гибридная модель, которая включает фильтрацию грамматики ключевых слов: поскольку модель является статической, она не может справиться с проблемой вариантов после выхода в сеть, что приводит к быстрому сбою модели.
Новые варианты постоянно появляются, что быстро будет обойти текущую метод идентификации мусора, что делает текущий метод «сбой». Компании должны вложить много рабочей силы на варианты исследования, суммируют стратегии перехвата или этикетки новых образцов. В то же время, Мусор на каждой бизнес-платформе существует большая разница в содержании, и есть также большие различия в масштабе клиентов для одного типа мусора. При условии спасения затрат на трудоустройство, как решить такие проблемы с конфронтацией и достижение индивидуальной индивидуальной настройки уровня клиента стала серьезной проблемой в отрасли. Tencent Yuntianyu соответственно от:
- Активное обучение добывает высококачественный корпус и уменьшает количество ручного просмотра
- Создайте замкнутый цикл данных, чтобы сократить инвестиции в исследования и разработки, эксплуатацию и техническое обслуживание.
- Распределенное хранилище KV реализует обновление модели на уровне ГБ за считанные секунды
- Модель непрерывного обновления T+1 против вариантов
Создайте комплексное решение для защиты контента в четырех измерениях.
4. План Tencent Yuntianyu
4.1 Классификация пользовательского контента
Tianyu делит типы текста комментариев пользовательского контента на 6 категорий:
- плохой
- неприличный
- Незаконные правила: Пользовательский контент содержит недопустимые слова или контент, который по закону запрещает онлайн-транзакции.
- Рекламные объявления: законная реклама, направленная третьими сторонами, масштаб которой зависит от типа бизнеса платформы.
- Вульгарно и некультурно: ругань, нецензурная брань и т.д.
- нормальный
4.2 Характеристики пользовательского контента и стратегии выживания Тяньюй
Рисунок 1. Стратегия выживания Тяньюй
На рис. 1 показано, что основные характеристики пользовательского контента в Интернете следующие:
- Масштабы огромны, Tianyu разрабатывает высококонкурентный алгоритмический движок, который можно гибко развертывать для обработки десятков миллиардов запросов на перехват спам-комментариев каждый день.
- Состязательный: новый вариант может легко обойти текущую стратегию предотвращения и контроля.Tencent Yuntianyu добывает корпус вариантов для идентификации мусора посредством распознавания аномалий (на основе активного обучения), что значительно экономит объем ручного просмотра; идентификация мусора будет извлекать историю аномалии Запись (которая была проверена вручную), обучение последней модели идентификации спама, построение цикла данных для ненормальной идентификации и идентификации спама, чтобы модель можно было обновить с изменением содержания спама, эффективно решая проблемы конфронтации и значительного сокращения инвестиций в НИОКР Затем модель каждого клиента заносится в таблицу, и информация о клиенте добавляется в каждую строку, чтобы добиться изоляции модели между разными клиентами Распределенное хранение моделей по строкам обеспечивает автоматическую пакетную онлайн-передачу нескольких моделей на второй уровне, что значительно снижает затраты на обслуживание системы.
- Масштабы предотвращения и контроля варьируются в зависимости от типа бизнеса.Tianyu обучит модель для каждого типа бизнеса, чтобы реализовать индивидуальную настройку модели.
4.3 Архитектура системы фильтрации пользовательского контента Tianyu
Рисунок 2. Архитектура системы Tianyu
Из рисунка 2 видно, что системная архитектура Tencent Yuntianyu UGC, фильтрующая спам-комментарии, в основном разделена на четыре уровня:
- нижележащий уровень данных
- основная компетенция
- Тип запрета и уровень политики запрета
- уровень клиента
Уровень основных компетенций включает 4 модуля:
1. Идентификация аномалий, цель состоит в том, чтобы обнаружить последние варианты из различных типов аномалий.Работа, проделанная по идентификации аномалий, показана на рисунке 3:
Рисунок 3. Идентификация аномалии
На рисунке 3 типы аномалий в основном разделены на аномалии контента и аномалии поведения.Обычные аномалии контента в основном включают варианты и жаргонные/кодовые слова, а поведенческие аномалии проявляются в том, что один и тот же человек публикует один и тот же контент в разных местах или одни и те же контент пересылают разные люди и т. д. Метод выявления аномалий в основном заключается в статистическом анализе для поиска вариантов слов, вариантов выражений и т. Д. Некоторые варианты поочередно вставляют в контент специальные символы, а их языковой состав отличается от обычных текстов. Для обнаружения таких вариантов можно использовать машинное обучение; Подозрительный контент обычно определяется с помощью ручной помощи + внедрение политики, чтобы определить, является ли это вариантом.
2. Платформа маркировки обеспечивает маркировку данных, ежедневную выборочную проверку эффектов алгоритма и т. д. Основные функции делятся на:
- a) Совместная работа нескольких человек: цель состоит в том, чтобы повысить эффективность маркировки, часть данных будет разделена на несколько точек, и несколько человек будут выполнять маркировку.
- б) Стратегия выборки, из-за огромного количества комментариев пользовательского контента, независимо от того, является ли это эффектом алгоритма выборки или ежедневной выборки, требуются разные стратегии выборки, и, наконец, небольшое количество выборок может охватывать все случаи.
- c) Стратегия проверки, которая делится на предварительную проверку одним человеком, слепую проверку с голосованием нескольких человек, оценку эффекта перехвата клиентов и т. д. Этот блок обеспечивает качество маркировки данных.
3. Модельная платформа, включая обучение модели и запуск модели, в том числе:
- а) Стратегия разделения.Разные клиенты и разные бизнес-сценарии имеют разные масштабы предотвращения и контроля, которые требуют целевого обучения.Платформа моделей будет обучать до тысяч моделей одновременно. Стратегия разделения играет роль разделения данных и идентификации модели.
- b) Разработка функций: включая извлечение функций, выбор функций, преобразование функций и т. д., преобразование функций, таких как различные учетные записи, числа, операции нормализации смайликов и т. д.
- в) Модельное обучение
- г) KV распределен, его функция заключается в повышении эффективности работы в сети, поддержке гибкого развертывания и снижении степени ручного вмешательства.
- e) Стратегия оценки, функция которой заключается в оценке эффекта модели и определении возможности запуска модели.Основной метод – закрытое тестирование.
- f) Стратегия обновления, модель поддерживает непрерывное обновление T+N, конкретный процесс показан на рисунке ниже.
Рисунок 4. Платформа модели и процесс
На рисунке 4 «стратегия обновления N» представляет собой временную задачу, значение N представляет собой количество дней для однократного обновления, а T означает, что корпус для обучения модели представляет собой данные об осадках за T дней. Во время обучения модели Trainer представляет задачу Reducer, результатом которой является создание модели, Merger — это операция по сохранению всех моделей, распределенных в KV, и ввод информации об идентификаторе модели [раздел + функция] в K, V — это классификация. этикетка и список информации о весе этикетки.
4. Идентификация мусора, его работа показана на следующем рисунке:
Рисунок 5. Идентификация спама
Как видно из рисунка 5, однотипный мусор обычно делится на 2 или 3 типа по степени влияния на здоровье бизнеса и разным типам стратегий отказа клиентов:
- Белый: нормальный контент
- Серый: подозревается [необязательно]
- черный: вредоносный контент
Что касается идентификации спам-контента, Tencent Yuntianyu применяет метод классификации текста с фильтрацией грамматики ключевых слов + динамическое обновление модели для реализации системы идентификации спама, которая поддерживает персонализированную конфигурацию грамматики одного ключевого слова.
Спамовая реклама и незаконные и незаконные транзакции обычно содержат различную контактную информацию, и наличие или отсутствие в них контактной информации стало наиболее важной характеристикой идентификации спама. Общие способы связи включают в себя:
- Телефонный номер
- QQ-номер
- Мы общаемся по номеру
- URL-ссылка
4.4 Выбор алгоритма классификации текста: FastText
FastText — это быстрый текстовый классификатор, разработанный Facebook, который предоставляет простые и эффективные методы для классификации текста и изучения представлений. Метод FastText состоит из трех частей: архитектура модели, иерархический Softmax и функции N-граммы.
4.4.1 FastTextАрхитектура модели
Рисунок 6. Архитектура модели FastText
Модель FastText вводит последовательность слов (фрагмент текста или предложение) и выводит вероятность того, что последовательность слов принадлежит к разным категориям.
Слова и фразы в последовательности образуют вектор признаков, и вектор признаков сопоставляется со средним слоем посредством линейного преобразования, а средний слой сопоставляется с меткой.
FastText использует нелинейные функции активации при прогнозировании меток, но не использует нелинейные функции активации в промежуточных слоях.
Архитектура модели FastText очень похожа на модель CBOW в Word2Vec. Разница в том, что fastText предсказывает метки, а модель CBOW предсказывает промежуточные слова, как показано на следующем рисунке:
Рисунок 7. Структура модели FastText
4.4.2 FastTextИерархический Софтмакс
Рисунок 8. Иерархический softmax FastText
Для наборов данных с большим количеством категорий fastText использует иерархический классификатор (а не плоскую архитектуру). Различные категории объединены в древовидную структуру (представьте себе двоичное дерево вместо списка). В некоторых задачах классификации текста существует много категорий, и сложность вычисления линейного классификатора высока. Чтобы улучшить время выполнения, модель FastText использует прием Hierarchical Softmax. Метод Hierarchical Softmax основан на кодировании Хаффмана, которое кодирует метки и может значительно уменьшить количество целей, прогнозируемых моделью.
Это значительно снижает сложность обучения и время тестирования текстовых классификаторов, учитывая линейные и логарифмические модели нескольких классов. FastText также использует тот факт, что классы не сбалансированы (некоторые классы появляются чаще, чем другие), используя алгоритм Хаффмана для построения древовидной структуры для представления классов. Поэтому глубина древовидной структуры часто встречающихся категорий меньше, чем у редко встречающихся категорий, что также делает дальнейшие вычисления более эффективными.
4.4.3 FastText N-gramособенность
Обычно используемой функцией является модель мешка слов. Но модель мешка слов не может учитывать порядок слов, поэтому FastText также добавляет функции N-грамм. Особенности модели мешка слов в предложении «Я люблю ее» - это «я», «люблю», «она». Эти черты те же, что и в предложении «Она меня любит». Если добавить 2-Ngram, то признаками первого предложения будут также «я-люблю» и «люблю-ее», и можно различить два предложения «я люблю ее» и «она любит меня». Конечно, для повышения эффективности нам нужно отфильтровать низкочастотные N-граммы.
С каждым словом в fastText связан низкоразмерный вектор. Скрытое представление является общим для всех классификаторов разных классов, так что текстовую информацию можно использовать вместе в разных классах. Такие представления называются наборами слов (здесь игнорируется порядок слов). Векторы также используются в fastText для представления n-грамм слов, чтобы учитывать локальный порядок слов, что важно для многих задач классификации текста.
Например: fastText может узнать, что «мальчик», «девочка», «мужчина» и «женщина» относятся к определенному полу, и может сохранить эти значения в связанных документах. Затем, когда программа делает запрос пользователя (скажем, «моя девушка сейчас здесь?»), она может сразу посмотреть в сгенерированном fastText документе и понять, что пользователь хочет задать вопрос о женщинах.
4.4.5 FastTextПреимущество вектора слова
1. Подходит для больших данных + эффективная скорость обучения: возможность обучить модель «обрабатывать более 1 миллиарда слов за 10 минут с использованием стандартного многоядерного процессора», особенно по сравнению с глубокими моделями, fastText может сократить время обучения с дней до несколько секунд. Использование стандартного многоядерного ЦП позволяет обучить более миллиарда моделей словарного запаса за 10 минут. Кроме того, FastText может классифицировать 500 000 предложений по более чем 300 000 категорий за пять минут.
2. Поддержка многоязычного выражения: используя свою языковую морфологическую структуру, fastText может быть разработан для поддержки нескольких языков, включая английский, немецкий, испанский, французский и чешский. Он также использует простой и эффективный способ включения информации о подсловах, который очень хорошо работает при использовании в морфологически богатом языке, таком как чешский, что также демонстрирует, что хорошо спроектированные особенности символьной н-граммы являются важным источником богатого лексического представления. Производительность FastText значительно выше, чем у популярного инструмента word2vec, а также лучше, чем у других современных морфологических лексических представлений.
Рисунок 9. FastText по сравнению с другими методами
3. FastText фокусируется на классификации текста, достигая современной производительности во многих стандартных задачах (таких как анализ восприимчивости текста или прогнозирование меток). Сравнение методов, основанных на FastText и глубоком обучении:
4. Сходство считается большим, чем word2vec.Например, обучение встраиванию слов в fastText может учитывать один и тот же суффикс между английским и британским, но word2vec не может.
4.5 Замкнутый цикл данных
Рисунок 10. Замкнутый цикл данных Tianyu
Tencent Yuntianyu создает замкнутый цикл данных для идентификации мусора, выявления аномалий и ручной проверки:
- Ручной просмотр осажденных данных обеспечивает обучающий корпус для идентификации мусора.Поскольку данные маркируются каждый день, создаются условия для модели непрерывного обновления T+1 для идентификации мусора.
- Детали, идентифицированные как черные при ежедневном случайном осмотре, используются в качестве контрольных образцов для эффектов статистического алгоритма.
- Стратегия аудиторской выборки платформы аудита создает небольшую выборку, которая лучше всего отражает общую совокупность, охватывает как можно больше случаев и значительно сокращает объем ручного аудита.
5. Резюме и размышления
5.1 Системные индикаторы
Рисунок 11. Метрики системы
- Прецизионность, полнота и точность закрытого теста используются для измерения качества маркировки образца.
- Точность и полнота на тестовом наборе используются для измерения качества модели.
- Коэффициент точности выборки используется для измерения онлайн-эффекта алгоритма.
- Количество входящих аудитов, эффективность рабочей силы и средняя задержка аудита напрямую определяют стоимость аудита с привлечением персонала.
- Частота выборки слепого обзора и частота консенсуса слепого обзора отражают стандартное понимание персоналом маркировки данных в отношении маркировки данных.
5.2 Производительность Тяньюй
Рисунок 12. Производительность Тяньюй
5.3 Мышление
Текстовое содержимое для Стороны А:
- Неосновной бизнес, недостаточно внимания этому блоку
- Ценность бизнеса трудно измерить, а карьерный рост сотрудников ограничен.
- Масштабы бизнес-данных огромны, а ввод и вывод нерентабельны.
- Бюджет слишком маленький, непристойный, плохие комментарии, незаконные и незаконные легко касаются красной черты закона, что серьезно влияет на основной бизнес.
Подводя итог, можно сказать, что безопасность контента в будущем станет дешевой и беспроблемной тенденцией.Выбор зрелого решения в отрасли может обеспечить здоровое развитие бизнеса при обеспечении безопасности контента.
С 23 по 24 мая в Гуанчжоу пройдет саммит Tencent Cloud + Future Summit 2018. Подфорум по безопасности, который состоится утром 24-го числа, соберет ведущих экспертов из нескольких групп безопасности Tencent Group (TK (Ю Ян), Killer (Дун Чжицян) и т. д.) и партнеров из тяжелой промышленности; это будет впервые. чтобы объявить о роли Tencent в корпоративной безопасности.Панорамный макет облачной трубы, более передовые технологии обмена анти-квантовой, алгоритм шифрования и безопасности. Зарегистрируйтесь и перейдите на официальный сайт Tencent Cloud~