С ростом популярности Интернета все больше и больше пользователей привыкли оставлять комментарии в Интернете. Эти комментарии выражают эмоциональные настроения пользователей, и такая информация представляет большую ценность как для компаний, так и для частных лиц.
Однако перед лицом массивных данных о комментариях пользователей практически невозможно выполнить анализ тональности исключительно вручную. Итак, нам нужно использовать методы НЛП, чтобы справиться с этой задачей.
Анализ тональности: судить об эмоциональной окраске (похвалы и неодобрения) текста, содержащего субъективную информацию, для определения мнений, предпочтений и эмоциональных тенденций текста.
Как показано на следующем рисунке, есть три основных элемента анализа настроений:
- Владелец мнения: относится к пользователям, которые оставляют комментарии, например: пользователи Dianping.
- Мнение/Полярность: Положительные и отрицательные комментарии, например: вкусно, некрасиво.
- Объект оценки: обычно включает объекты и атрибуты, такие как: обеденная среда KFC.
Среди них многие анализы настроений также будут учитывать измерение «времени» и анализировать их в соответствии с различными периодами времени, чтобы можно было более объективно оценить эмоциональные тенденции пользователя, например: использование анализа настроений Twitter для прогнозирования акций рынок.
В настоящее время существует два основных метода анализа настроений:
- На основе словаря тональности он относится к извлечению слов тональности из текста, который необходимо проанализировать в соответствии с построенным словарем тональности, а затем к вычислению его тенденции тональности.
- Анализ тональности, основанный на машинном обучении, заключается в выборе слов тональности в качестве характерных слов, векторизации текста для анализа и его классификации с использованием классификаторов (LR, SVM и т. д.).
В этой статье мы сосредоточимся на анализе настроений на основе словаря настроений, потому что его метод относительно проще и удобнее в использовании, для него не нужно овладевать соответствующими знаниями в области машинного обучения, а также не требуется большого количества помеченных обучающих данных. и его эффект зависит от словаря чувств совершенства.
Эмоциональный словарь
Словарь тональности обычно в основном включает: слова тональности и слова степени. Пользователи используют эмоциональные слова, чтобы выразить свое отношение, например: нравится, ненавижу и т. д., а пользователи используют слова-степени, чтобы выразить степень силы, например: очень, общий и т. д.
В Интернете есть несколько словарей китайских настроений с открытым исходным кодом, которые можно использовать напрямую, но качество, как правило, неравномерное. Если вам нужен высококачественный целевой китайский словарь эмоций, вам нужно создать его самостоятельно, что, естественно, неотделимо от технологии сегментации китайских слов.Вот буклет самородков для всех в Amway.«Углубленное понимание сегментации китайских слов в НЛП: от принципа к практике», чтобы вы могли с нуля освоить технологию сегментации китайских слов.
Предположим, у нас уже есть китайский словарь настроений, который выглядит так:
эмоциональное слово | Численная величина |
---|---|
как | 1 |
Любовь | 2 |
недостаток | -1 |
Разочарованный | -2 |
Среди них эмоциональные слова с положительными значениями выражают положительное, и наоборот, оно выражает отрицательное. Разные эмоциональные слова передают разные степени, например: симпатия — это легкая любовь, а любовь — глубокая симпатия.
Словарь степеней выглядит так:
Градусные слова | Численная величина |
---|---|
Маленький | 1 |
Очень | 2 |
очень сильно | 3 |
Пользователи будут использовать прилагательные для дальнейшей передачи своих эмоциональных тенденций, и мы также можем ввести некоторые символы для расширения слов степени, например: восклицательный знак (!).
Теперь мы можем приступить к обработке текста для анализа и собрать данные отзывов пользователей об отеле, перечисленных ниже:
- Дежурный на стойке регистрации хороший, комната тихая и чистая, единственный слив в ванной комнате не очень хорошо спроектирован, в результате чего происходит небольшое количество воды.
- Хорошее расположение в центре города, номер как всегда чистый.
- Ночью не отапливают!!!!!!
Среди них, такие как «нет» и «нет», есть некоторые инверсионные слова, мы устанавливаем такие слова в -1, что может изменить исходный символ значения эмоционального слова.
Сначала мы токенизируем эти предложения, и мы получим следующие результаты:
1. 前台 楼层 服务员 很 不错 房间 安静 整洁 唯一 卫生间 地漏 设计 不好 导致 少量 积水
2. 位置 不错 市中心 房间 一如既往 干净
3. 半夜 没 暖气 住 ! ! ! ! ! ! ! ! ! !
Слова в результате сегментации слов сопоставляются по словарю настроений, а числовой подсчет можно разделить на положительное и отрицательное направления, на примере одного из них:
1. 前台 楼层 服务员 不错 房间 安静 整洁 唯一 卫生间 地漏 设计 不好 导致 少量 积水
正向匹配结果:
很: 1 # 程度词
不错: 1
安静: 1
整洁: 1
正向数值结果: 1 + 1 + 1 + 1 = 4
负向匹配结果:
不好: -1
积水: -1
负向数值结果:|-1| + |-1| = 2
最后情感倾向结果:(4, 2),综合数值为 4 - 2 = 2
Вышеупомянутый метод анализа настроений на основе словаря настроений.Нетрудно обнаружить, что сегментация китайских слов оказывает большое влияние на конечный результат. С помощью таких методов анализа настроений мы можем автоматически и в пакетном режиме анализировать отзывы пользователей, быстро получать реальную обратную связь от пользователей и соответствующим образом корректировать логику продукта или личные покупательские намерения.
Краткое введение в анализ настроений на основе машинного обучения:
- Во-первых, требуются вручную помеченные данные классификации настроений.Положительная маркировка равна 1, а отрицательная маркировка равна 0. Они делятся на обучающие данные и тестовые данные.
- Затем выберите «характерные слова» в тексте, такие как слова описания продукта (простой, модный) и т. д., и преобразуйте слова в векторы, чтобы сформировать матрицу слов.
- Наконец, модель классификатора (LR, SVM, NB) используется для изучения обучающих данных, и после получения модели тестовые данные используются для прогнозирования, и выбирается модель с лучшим эффектом.
В этой статье рассказывается о том, как выполнять анализ настроений, который в основном соответствует вашим повседневным потребностям в анализе настроений.Если вы хотите узнать о некоторых продвинутых методах, вы можете следить за моей колонкой, и я обновлю соответствующий контент позже. Если вас интересует сегментация китайских слов, поддержите мой буклет Nuggets.«Углубленное понимание сегментации китайских слов в НЛП: от принципа к практике», большое спасибо!