Чего еще не умеет ИИ? Применение технологии письма роботов

машинное обучение искусственный интеллект робот прямая трансляция
Чего еще не умеет ИИ? Применение технологии письма роботов



Источник контента:8 июля 2017 г. доктор Ван Сяоцзюнь из Института компьютерных наук и технологий Пекинского университета выступил с речью на тему «Технологии и приложения машинного письма» на «Глобальном саммите по искусственному интеллекту и робототехнике CCF-GAIR 2017 — специальная сессия AI+». . IT Dajiashuo (идентификатор WeChat: itdakashuo), как эксклюзивный видео-партнер, имеет право публиковать видео после просмотра организатором и спикерами.

Количество слов для чтения:2685 | 7 минут чтения

Видео с гостевым выступлением и ссылка на PPT:t.cn/RnvWoea

Резюме

На конференции CCF-GAIR, глобальном саммите по искусственному интеллекту и робототехнике, гость поделился предысторией и текущим состоянием машинного письма.В будущем он считает, что машинное письмо не только в медиа-индустрии, но и сотрудничает с некоторыми игровыми индустрии и индустрии разведки. Однако он считает, что сложнее всего дать машинам научиться рассуждать и обобщать, а также писать действительно подробные отчеты, но это и является целью дальнейших исследований.

Статус-кво машинного письма — за рубежом

Машинное письмо началось несколько лет назад за границей. За рубежом создан ряд известных компаний, таких как ARRIA, AI, NARRATIVESCIENCE и др. Основной технологией является механизм генерации естественного языка, который в основном используется при написании прогнозов погоды, качества воздуха, медицинских отчетов, финансов, спорта и других областях. Компании ИИ подготовили сотни миллионов новостей для Associated Press и других организаций, а NARRATIVESCIENCE продолжает создавать новости для FORBES. В основном для английского и некоторых западных языков.

Текущая ситуация с машинным письмом — внутри страны

С развитием технологии искусственного интеллекта в последние годы машинное письмо постепенно привлекало внимание в Китае. Некоторые средства массовой информации и академические учреждения сотрудничали, чтобы запустить роботов для написания рукописей. Есть также некоторые интернет-гиганты, такие как Baidu, Microsoft, Tencent и другие подразделения, которые также разрабатывают свои собственные технологии машинного письма. Типы письма в основном сосредоточены на новостях о спорте, финансах, средствах к существованию и развлечениях.

Оригинальное VS вторичное создание

Мы считаем, что есть два способа машинного письма: один — оригинальное создание, а другой — вторичное создание. Оригинальность — это не текстовая рукопись, а только структурированные данные. Мы создаем новые рукописи на основе структурированных данных. Например, прогнозы погоды, отчеты о качестве воздуха, финансовые отчеты, брошюры о продуктах и ​​т. д.

Вторичное создание заключается в создании новой рукописи на основе содержания существующей рукописи. Например, обзоры новостей, сводки новостей, переписывание новостей и т. д.

Технология НЛП, связанная с машинным письмом

Технологии, на которые опираются два разных творческих метода, также различаются. Одна из них — технология генерации естественного языка, а другая — технология автоматического суммирования. Технология генерации естественного языка генерирует естественные предложения непосредственно из структурированных данных или семантических выражений, подходящих для оригинальности. Технология автоматического реферирования строит рукописи на основе существующих текстовых материалов, которые подходят для вторичного создания.

Есть также некоторые другие связанные технологии, такие как технология рекомендации текстовой информации. То есть, когда мы хотим процитировать известные цитаты, поэзию Тан и поэзию Сун, когда мы пишем рукопись, она будет давать рекомендации и автоматически вставлять известные предложения, когда мы пишем здесь.

Существуют также приемы перефразирования текста. Из-за проблем с авторскими правами, если исходный контент копируется напрямую, возникает подозрение в плагиате, поэтому в настоящее время необходимо повторить его и выразить одну и ту же семантику на разных языках.

Применяется к традиционным носителям VS self-media

Разные прикладные единицы предъявляют разные требования к рукописям. Традиционные медиа-единицы предъявляют очень строгие требования к рукописям, не допускают ошибок и должны проверяться вручную перед публикацией.

Для самоиздания требования к контенту относительно высоки, но некоторые проблемы с качеством можно допустить. Например, связность некоторых предложений плохая, есть несколько опечаток и т. д.

Разные требования к качеству определяют разные способы машинного письма.

Машинные писатели против авторов

Между роботами и репортерами должно быть разделение труда и сотрудничество. Роботы быстрые, неутомимые и умеют писать информационные бюллетени. Но роботы могут выполнять только низкоуровневую повторяющуюся работу. Журналисты, с другой стороны, очень вдумчивы и могут писать подробные отчеты. Возможна творческая работа на высоком уровне.

Когда репортер пишет рукопись, он может четко знать, что он написал, но когда робот пишет рукопись, хотя он написал каждое предложение, он не может на самом деле понять, что он написал.

Наши исследования и приложения в области машинного письма

Мы провели много фундаментальных исследований, включая автоматическое суммирование, генерацию естественного языка и другие технологии. Кроме того, было проведено множество прикладных технологических исследований, таких как автоматическая генерация новостной информации, автоматическая генерация сводки новостей и автоматическая генерация комментариев пользователей.

Новостная информация генерируется автоматически

Наш письменный ввод — это структурированные данные и, возможно, текстовый материал. Будут созданы рукописи с контролируемой длиной, которые могут генерировать короткие сообщения из нескольких крестиков или длинные сообщения из тысяч слов. Кроме того, есть много областей, включая спорт, средства к существованию людей и развлечения.

Спортивная рассылка автоматически генерируется

Мы возьмем некоторые данные о спортивных событиях из Интернета, проведем анализ данных на основе этих данных, а затем займемся планированием документации и выполнением заявлений. Он может генерировать несколько простых отчетов о событиях. Отчеты короткие, вокруг несколько крестиков. Чтобы сделать репортаж более ярким, мы будем излагать одни и те же новости на разных языках.

Автоматическое формирование развернутых отчетов о спортивных событиях

Есть очень важный материал под названием «живой текст о спорте». Всякий раз, когда есть известная игра Tiyun, будут живые тексты, которые будут преобразованы в тексты через живое видео. Текстовые трансляции обычно включают в себя описание ведущих интересных деталей игры. Отличные описания отбираются с помощью методов машинного обучения и, наконец, помещаются в отчет. Этот отчет относительно длинный, более тысячи слов.

Прямые трансляции широко распространены и охватывают все основные матчи. Он характеризуется, прежде всего, информативностью, спортивным текстом в прямом эфире, освещающим любую важную информацию, связанную с игрой. Во-вторых, хорошая гибкость, и разные конкурсы могут создавать разные стили новостей. Третий момент заключается в том, что он имеет хорошую производительность в реальном времени, а новости могут создаваться и публиковаться вовремя в любой момент игры.

Процесс создания новостных отчетов заключается в том, чтобы сначала отсортировать предложения живого текста, затем использовать машинное обучение для интеллектуального выбора предложений и, наконец, создать отчет о событии со средней длиной более 1000 слов.

Развлекательные новости генерируются автоматически

Развлекательные новости могут быть созданы на основе Weibo. Теперь знаменитости часто публикуют Weibo, и некоторые Weibo могут стать нашими развлекательными новостями. Поэтому у нас будет метод машинного обучения, чтобы автоматически определять, может ли каждая публикация знаменитости стать новостью в Weibo и имеет ли она новостную ценность. Затем определите, какие из комментариев в Weibo являются ценными, а затем объедините Weibo с его комментариями и соответствующей справочной информацией, чтобы сформировать развлекательные новости.

Сводки новостей генерируются автоматически

Автоматическая генерация сводки новостей предназначена для автоматического создания более длинной сводки событий на основе нескольких новостных сообщений об одном и том же событии.

Поскольку вы хотите сформировать отзыв, это не единица предложения, а подтема. Разделите новость на подтемы и получите одну из подтем. Каждая подтема соответствует абзацу, и, наконец, важность подтем сортируется. Наконец, подтемы выбираются, а затем объединяются, и, наконец, получается полная сводка событий. Эта сводка может иметь длину в тысячи байтов.

Отзывы пользователей генерируются автоматически

Помимо создания фактических новостей, мы также пытаемся генерировать отзывы пользователей. В основном это основано на обзорах продуктов, и мы используем модель глубокого обучения.

Наше приложение в машинном письме

Мы сотрудничали с Toutiao, Southern Metropolis Daily и Guangzhou Daily, чтобы запустить роботов для написания рукописей Xiaoming, Xiaonan и Atong.

Робот-чертеж Xiaoming может писать короткие сообщения и длинные отчеты из тысяч слов на основе данных спортивных событий и прямых трансляций.

Робот для написания рукописей Сяонаня пишет новости о средствах к существованию людей и новости о двух сессиях для приложения Southern Metropolis Daily.

Робот для написания рукописей Ah Tong — это робот для написания рукописей, запущенный в сотрудничестве с Guangzhou Daily, который анализирует и интерпретирует горячие слова и ключевые данные различных рабочих отчетов в течение двух сессий.

Прогноз тенденций

Машинное письмо будет все шире использоваться во всех сферах жизни, не только для СМИ, но и в других отраслях.

Мы хотим сделать рукопись более гуманной с отношением и точкой зрения. Пишите подробные отчеты с помощью индукции и рассуждений.

На сегодня это все, всем спасибо!