Многие недавние хитовые драмы связаны с психологическим консультированием.В «Женщине-психологе» есть такое приложение для анализа данных, которое привлекло внимание Mr.Tech.
▲ Источник изображения: Youku драма «Женщина-психолог».
В центре психологического спасения, где работает героиня, есть не только крутые экраны визуальной информации, но и весьма продвинутые на видИнтеллектуальная система распознавания голоса. Эта интеллектуальная система распознавания голоса может не только переводить голосовой контент обеих сторон в текст в режиме реального времени, но и делать ранние предупреждения на основе содержания звонка, помогая психологам принимать решения и принимать решения, чтобы лучше оказывать помощь.
Как реализовать такую «черную технологию»? Далее Mr.Tech даст вам всестороннюю интерпретацию с картинками и текстами.
Шаг 1. Преобразуйте звуковой сигнал в волновые данные с помощью преобразования Фурье.
Как мы все знаем, компьютеры не могут напрямую выполнять вычисления и обучение машинному обучению на звуковых файлах. Инженерам-алгоритмам необходимо обрабатывать звуковые файлы и преобразовывать MP3, MP4 и другие звуковые файлы в математические задачи, которые хорошо решают компьютеры.
Изучая физику в средней школе, мы все знаем, что сущностью звука является волна, а частота и амплитуда — два важных свойства для описания звуковых волн. ** Мы делаем наглядную диаграмму амплитуды и частоты звука в течение определенного периода времени, чтобы получить сонограмму.
Когда вы видите приведенную выше сонограмму, что приходит вам на ум? Это по математике?Синусоидальная функцияИзображение очень похоже?
Бинго!
Первым шагом в интеллектуальном распознавании речи является выбор правильного типа функции для описания различных звуковых волн, а затем передача данных машине для обучения и расчета.
Поймите это, ваша правая нога ступила на порог интеллектуальной науки распознавания речи!
Однако звуковые волны сложны. Звуковая волна представляет собой суперпозицию синусоидальных волн разной частоты и интенсивности. Когда мы визуализируем звук, все, что мы получаем, — это наложенная и синтезированная сонограмма. Чтобы лучше понять звуковой сигнал, инженерам-алгоритмам также необходимо разложить сонограмму.
Как показано ниже:
Этот процесс разложения (преобразования) звукового сигнала называется «преобразованием Фурье», часто упоминаемым в машинном обучении.
**Преобразование Фурье (сокращенно «ПФ»)** — очень распространенный алгоритм в области машинного обучения. Его функция заключается в анализе цифровых сигналов для облегчения последующей обработки данных.
Шаг 2: Базовая функция распознавания звуков
После преобразования звукового файла в спектрограмму машина может выполнить простое распознавание признаков и оценку звука, например пол и возраст говорящего.
Мы знаем, что мужские и женские голоса очень различны. Вообще говоря, мужские голоса громче, выше по амплитуде и ниже по частоте; женские голоса жестяные, выше по частоте и ниже по амплитуде. В то же время существуют некоторые ненормальные ситуации, такие как громкий крик о помощи, стоны от боли и др., которые также можно описать по частоте и амплитуде.
Шаг 3. Преобразование речи в текст для машинного обучения
Интеллектуальная система распознавания голоса в «Женщине-психологе» также может переводить голосовой контент в текст в режиме реального времени и делать ранние предупреждения на основе голосового контента.
Как компьютеры понимают человеческий язык?
Так называемый «искусственный интеллект» неотделим от роли «искусственного интеллекта».Суть реализации интеллектуального распознавания речи фактически состоит в том, чтобы сопоставлять характеристики звуковой волны с конкретными словами одно за другим. Это требует предварительной подготовкиБиблиотека образцов речи, образцы голоса помечаются вручную, а затем извлекается соответствующая связь между функцией формы звуковой волны и текстом, и машина может учиться. Благодаря длительным тренировкам и обучению компьютер научился преобразовывать речь в текст.
Однако на данном этапе переведенный текст является для компьютера «книгой с неба»: компьютер не может ни понять смысл, заключенный в тексте, ни получить те эмоции, которые говорящий хочет выразить в тексте.
Следовательно, необходимо также научить компьютеры слушать и «понимать» человеческую речь, а также иметь определенный уровень профессиональных знаний, чтобы иметь возможность выполнять эмоциональный анализ и автономное рассуждение по текстовому содержанию, чтобы реализовать интеллектуальные ранние предупреждение и лучше помочь в исследованиях и суждениях.
Как этого достичь? Давайте вместе рассмотрим четвертый шаг.
Шаг 4: Анализ тональности текстового контента
Как мы знаем, предложения состоят из слов, в том числе слов-пауз (из, и, земли, к, между...), положительных комментариев (дешево, чисто, красиво, хорошего качества и дешево...), слов отрицательных комментариев ( Май Тай, Грязный, Плохой, Плохой...), Степенные слова (Хорошо, Очень хорошо, Адекватно, Общий, Особый...), Вопросительные слова (Делал, Ци, На самом деле, На самом деле, Действительно, Просто, Это, на наоборот, почему, почему...) и отрицательные слова (нет, мо, нет, фу, нон, нет...) и т.д. Чтобы понять эмоцию и отношение предложения, необходимо проанализировать часть речи каждого слова в предложении.Следовательно, нам нужно выполнить сегментацию слов в переведенном тексте на предыдущем этапе, а затем синтезировать эмоциональную тенденцию каждого слова, чтобы в конечном итоге получить общее эмоциональное отношение предложения.
Когда компьютер анализирует тональность текста, его все равно необходимо преобразовать в математическую задачу, прежде чем ее можно будет решить.
Компьютеры обычно используют следующие типы математических выражений для вычисления эмоционального отношения к предложению:
Например, в «Должен ли я говорить плохо?» (Вопросительное слово «Сделал» часто сочетается с отрицательным словом, чтобы играть двойную отрицательную роль, а иногда люди используют «Сделал» только как отрицательное слово). В предложении «Did» и «No» являются отрицательными словами, поэтому можно рассчитать общий балл предложения, он равен (-1)^2*1*-1 = -1, тогда это предложение негативное отношение к выражению.
Для другого примера, в «Разве это не плохо?», как «не», так и «нет» являются отрицательными словами, а оценка равна (-1)^2*1*1=1, тогда настроение этого приговор положительный. .
Вообще говоря, положительное или отрицательное значение слова имеет разные стандарты и выражения в разных областях. Например, «громкий звук» на самом деле очень положительное слово в аудиоиндустрии, но в индустрии бытовой техники, говоря, что стиральная машина «громкая», на самом деле выражает негативное отношение.Поэтому инженерам-алгоритмистам в разных отраслях необходимо строить характерный тезаурус своих отраслей или областей.
В это время, если посмотреть на интеллектуальную систему распознавания речи в спектакле «Женщина-психолог», можно очень хорошо понять ее «сообразительность». В области психологического консультирования или спасения «прыжок со здания» и «самоубийство» являются отрицательными словами, а также есть отрицательное слово «нет» в предложении «не используйте его, чтобы найти меня». Поэтому, когда система решит, что голосовой контент очень негативный и негативный, она автоматически выдаст соответствующее предупреждение.
▲ Источник изображения: Youku драма «Женщина-психолог».
Увидев этот шаг, поздравляем вас с тем, что вы ступили левой ногой в дверь интеллектуальной науки распознавания речи!
Шаг 5. Постройте диаграмму отраслевых знаний
Видно, что во всплывающем окне предупреждения на приведенном выше рисунке также есть напоминание о том, что «требуется профессиональная поддержка», и уровень интеллекта высокий. Фактически, в реальных сценариях интеллектуальные системы обслуживания клиентов, созданные многими компаниями в области электронной коммерции, интернет-медицины и других отраслей, также развились до очень высокого уровня интеллекта.Они могут не только понимать текстовый контент, но и независимо рассуждать. и ассоциировать, выдвигать соответствующие профессиональные предложения и помогать в принятии решений.
И реализация этого уровня «мощности мозга» как раз и используетсяГрафик знаний(График знаний).
Граф знаний, который по сути представляет собой семантическую сеть, выявляющую отношения между сущностями, широко используется в поисковых системах, анализе текста и других областях. Например, когда пользователь ищет «фрукты» с помощью поисковой системы, появятся связанные термины, такие как «классификация фруктов», «пищевая ценность фруктов», «где находится ближайший магазин фруктов», которые основаны на знаниях в поле «фрукты» Атлас.
«Интеллект» интеллектуальной системы обслуживания клиентов, которую мы используем в реальной жизни, также исходит из непрерывного изучения карты знаний конкретной отрасли. Например, интеллектуальное обслуживание клиентов платформы электронной коммерции опирается на карту знаний о товарах, заказах и логистике. Когда пользователь спрашивает об определенном продукте, интеллектуальная служба поддержки вызовет соответствующую карту, чтобы предоставить пользователю соответствующую информацию и предложения, такие как сведения о продукте, статус заказа, статус логистики, исторические тенденции цен на продукт и как использовать продукт.
После прочтения этой статьи я считаю, что у каждого есть глубокое понимание технических принципов интеллектуального распознавания речи и графов знаний. Техника не только производительная, но и теплая. При правильном подходе к приложению большие данные и искусственный интеллект могут сыграть огромную положительную роль во всех сферах жизни.
Практика извлечения графов Getui
Как компания по анализу данных, Getui также имеет богатый опыт работы с графами знаний, интеллектуальным анализом графов и т. д. Например, когда Getui проводила противоэпидемические операции с большими данными, она основывалась на построении и анализе графов триллионного уровня, реализуяАнализ эпидемической ситуации и анализ путей передачии другие сценарии. Подробный вид>>2021WAIC | Технический директор Daily Interactive Е Синьцзян: анализ данных на уровне триллиона