Удобная навигация по стенограммам регистратора с помощью интеллектуальной прокрутки

Видео введение:Удобная навигация по стенограммам регистратора с помощью интеллектуальной прокрутки

В прошлом году мы запустили Recorder, новое приложение для записи, которое делает записи более умными и полезными за счет использования машинного обучения (ML) на устройстве для расшифровки записей, выделения аудиособытий и предложения подходящих меток для заголовков. Recorder упрощает редактирование, совместное использование и поиск расшифровок. Однако, поскольку рекордер может транскрибировать очень длинные записи (до 18 часов!), пользователям по-прежнему трудно находить определенные части, поэтому необходимо новое решение для быстрого просмотра таких длинных транскрипций.
Чтобы улучшить навигацию по контенту, мы представили новую функцию на основе машинного обучения Smart Scrolling в регистраторе, которая может автоматически отмечать важные разделы в расшифровке стенограммы, выбирать наиболее репрезентативные ключевые слова из каждого раздела, а затем ключевые слова отображаются на вертикальная полоса прокрутки, например, названия глав. Затем пользователи могут прокручивать ключевые слова или нажимать на них, чтобы быстро перейти к интересующим разделам. Используемая модель достаточно легкая, чтобы ее можно было выполнять на устройстве без загрузки скрипта, тем самым защищая конфиденциальность пользователя.
капот
Следующая функция Smart Scroll состоит из двух разных задач. Первый извлекает репрезентативные ключевые слова из каждого раздела, а второй выбирает, какие разделы текста являются наиболее информативными и уникальными.
Для каждой задачи мы используем два разных метода обработки естественного языка (NLP): модель дистиллированного двунаправленного преобразователя (BERT), предварительно обученную на данных, полученных из набора данных Википедии, и улучшенную модель извлеченного термина «частотно-обратная частота документа» (TF-IDF). Используя двунаправленные преобразователи и модели на основе TF-IDF параллельно для извлечения ключевых слов и задач идентификации важных частей, а также эвристики агрегирования, мы можем использовать преимущества каждого метода и смягчить их соответствующие недостатки (подробнее см. следующий раздел). информационный фестиваль).
Двунаправленный преобразователь — это архитектура нейронной сети, в которой используется механизм самоконтроля для достижения контекстно-зависимой обработки входного текста непоследовательным образом. Это обеспечивает параллельную обработку входного текста для определения контекстных сигналов до и после заданной позиции в стенограмме.
Метод Extractive TF-IDF ранжирует термины в соответствии с их частотой в тексте по сравнению с их обратной частотой в обучающем наборе данных и может находить уникальные репрезентативные термины в тексте.
Обе модели обучаются на общедоступных наборах данных диалогов, которые маркируются и оцениваются независимыми оценщиками. Наборы данных разговоров поступают из той же области, что и предполагаемые варианты использования продукта, с упором на конференции, лекции и интервью, обеспечивая такое же частотное распределение слов (закон Ципфа).
Извлечение репрезентативных ключевых слов
Модели на основе TF-IDF обнаруживают информативные ключевые слова, присваивая каждому слову оценку, соответствующую тому, насколько репрезентативно это ключевое слово в тексте. Модель делает это, как и стандартная модель TF-IDF, используя долю вхождений данного слова в тексте по сравнению со всем набором данных разговора, но также принимает во внимание конкретный термин, то есть его общность или специфичность пола. Кроме того, модель затем объединяет эти функции в оценку, используя предварительно обученную функциональную кривую. Между тем, модель двунаправленного преобразователя, точно настроенная для задачи извлечения ключевых слов, обеспечивает глубокое семантическое понимание текста, позволяя извлекать точные контекстно-зависимые ключевые слова.
Метод TF-IDF является консервативным, поскольку в тексте легко найти необычные ключевые слова (высокое смещение), в то время как недостаток модели двустороннего преобразования состоит в высокой дисперсии возможных ключевых слов, которые можно извлечь. Но при совместном использовании две модели дополняют друг друга, создавая сбалансированный компромисс между смещением и дисперсией.
Как только оценки ключевых слов получены из обеих моделей, мы нормализуем и объединяем их, используя эвристики НЛП (например, взвешенное усреднение), удаляя дубликаты в разделах и удаляя стоп-слова и глаголы. Результатом этого процесса является упорядоченный список предлагаемых ключевых слов для каждого раздела.
Оцените важность разделов
Следующая задача — определить, какие разделы следует выделить как информативные и уникальные. Чтобы решить эту задачу, мы снова объединим две модели, упомянутые выше, чтобы получить две разные оценки важности для каждой части. Мы рассчитываем первую оценку, беря оценки TF-IDF для всех ключевых слов в разделе и взвешивая их по их соответствующим встречам в разделе, а затем суммируя эти отдельные оценки ключевых слов. Мы вычисляем вторую оценку, пропуская часть текста через модель двунаправленного преобразователя, которая также обучена части задачи рейтинга. Оценки двух моделей нормализуются, а затем объединяются для получения частичных оценок.
некоторые проблемы
Одной из больших проблем при разработке Smart Scrolling было определение важности определенного раздела или ключевого слова — то, что важно для одного человека, может быть неважным для другого. Смысл в том, чтобы выделять разделы только тогда, когда из них можно извлечь полезные ключевые слова.
Для этого мы настраиваем решение для выбора разделов с самым высоким рейтингом, которые также имеют ключевые слова с высоким рейтингом, а количество выделенных разделов пропорционально длине записи. В контексте функции Smart Scroll ключевое слово оценивается выше, если оно лучше представляет уникальную информацию раздела.
Чтобы научить модель понимать этот критерий, нам нужно подготовить размеченный обучающий набор данных, адаптированный для этой задачи. Работая с командой опытных оценщиков, мы применяем эту цель маркировки к небольшому набору примеров, чтобы создать исходный набор данных для оценки качества меток и руководства оценщиков в случае отклонений от ожиданий. После завершения процесса маркировки мы вручную просматриваем данные маркировки и при необходимости вносим исправления в маркировку, чтобы привести ее в соответствие с нашим определением значимости.
Используя этот ограниченный помеченный набор данных, мы запускаем автоматическую оценку модели, чтобы установить начальные показатели качества модели, которые используются в качестве менее точных заменителей качества модели, что позволяет нам быстро оценить производительность модели и применить архитектуру и эвристику в изменении. Как только метрики решения будут удовлетворительными, мы используем более точный процесс ручной оценки набора тщательно отобранных закрытых примеров, представляющих предполагаемые варианты использования Recorder. Используя эти примеры, мы используем надежную оценку качества модели для настройки эвристических параметров модели для достижения желаемого уровня производительности.
улучшения во время выполнения
После первоначального выпуска средства записи мы провели серию пользовательских исследований, чтобы понять, как улучшить удобство использования и производительность функции Smart Scroll. Мы обнаружили, что многие пользователи хотели указать ключевые слова для навигации и выделить разделы, как только запись была завершена. Поскольку вычислительный конвейер, описанный выше, может занять значительное время для вычислений для длинных записей, мы разработали решение для частичной обработки, которое амортизирует эти вычисления в течение всего периода записи. Во время записи каждый сегмент обрабатывается по мере захвата, а промежуточные результаты затем сохраняются в памяти. После завершения записи регистратор агрегирует промежуточные результаты.
При работе на Pixel 5 этот подход сократил среднее время обработки часовой записи (около 9 000 слов) с 1 минуты 40 секунд до 9 секунд при сохранении тех же результатов.
Суммировать
Цель Рекордера — улучшить возможность пользователей получать доступ к своим записям и легко перемещаться по ним. Мы добились значительного прогресса в этом направлении благодаря существующим возможностям машинного обучения, которые могут автоматически предлагать заголовки для записей и позволяют пользователям искать звуки и текст в записях. Интеллектуальная прокрутка предоставляет дополнительные возможности навигации по тексту, которые еще больше повышают полезность средства записи, позволяя пользователям быстро отображать интересующие части даже для длинных записей.

Инструкции по обновлению: Приоритет отдается обновлению общедоступной учетной записи WeChat «Блог дождливой ночи», а блог будет обновлен позже, а затем будет распространен на различные платформы.Если вы хотите узнать больше заранее, обратите внимание на Публичный аккаунт WeChat «Блог дождливой ночи».

Источник блога:Блог Дождливой ночи

капот

Извлечение репрезентативных ключевых слов

Оцените важность разделов

некоторые проблемы

улучшения во время выполнения

Суммировать