"Это седьмой день моего участия в ноябрьском испытании обновлений, ознакомьтесь с подробностями события:Вызов последнего обновления 2021 г."
Обзор поля
Язык — это фонетическая и знаковая система с единым стандартом кодирования и декодирования, разработанная для нужд повседневного общения между биологическими видами. Прелесть и уникальность языка заключается в том, что разные контексты дают разную семантику, что требует соответствующего логического мышления для понимания и ведения диалога. Если диалог происходит между двумя людьми, не имеющими сходного мышления и опыта, общение не будет гладким, а выражение смысла будет недостаточно четким, что сильно удорожает общение. С развитием транспорта и информации смешение культур и общение перестанут быть проблемой между людьми. Сегодня компьютеры служат для людей машинами. Люди пытаются общаться с компьютерами на естественном языке. Люди предпочитают общаться с машинами так, как общаются с людьми. Научить машины понимать язык стало необходимым условием для развития искусственного интеллекта. . . . Так родилась обработка естественного языка. НЛП (программирование на естественном языке), как следует из названия, изучает, как работать с естественным языком.Проще говоря, это означает, что машины хотят узнать, что люди выражают, как понимать и как имитировать человеческую речь.Естественный язык то, что мы используем каждый день.Для фонетических и символьных систем процесс обучения машин представляет собой массовый процесс обучения.
Обработка естественного языка является важной областью компьютеров и искусственного интеллекта. Однако понимание естественного языка и создание естественного языка гораздо менее просты, чем предполагалось. Мы используем слова для описания наших повседневных переживаний и мыслей.Помимо чтения сформированная литература часто требует дополнительных операций, таких как перевод ее на другие языки, обобщение содержания и осмысление содержания, чтобы найти определенную проблему. выяснить, какие люди и вещи упоминаются в этом документе и как они связаны между собой и т. д. Хотя все эти потребности могут быть удовлетворены посредством чтения человеком, огромный объем литературы приводит к серьезной нехватке возможностей для ручной обработки текста. Изобретение компьютеров в 1940-х годах позволило обрабатывать информацию машинами, а не людьми. Обработка естественного языка является областью изучения информатики с 1950-х годов. Однако до 1980-х годов системы НЛП по-прежнему основывались на сложном наборе настраиваемых человеком правил, а компьютеры просто выполняли эти правила механически или выполняли простые вычисления с точки зрения сопоставления символов и статистики частоты слов. В конце 1980-х развитие машинного обучения представило новые идеи для НЛП. При обработке текста жесткие ручные правила все чаще заменяются гибкими вероятностными статистическими моделями. В последние годы, с развитием глубокого обучения, множественные нейронные сети также были введены в область НЛП и стали технологией решения проблем.
В настоящее время проблемы, с которыми приходится иметь дело НЛП, многочисленны и сложны, и каждая проблема должна обсуждаться в сочетании с соответствующими сценариями и конкретными потребностями. Как помочь различным продуктам переводить и взаимодействовать с потребностями пользователей, как анализировать вопросы искателей в окне поиска и сопоставлять наиболее похожие результаты. Как понять сложные потребности водителя в вождении и спланировать разумный маршрут, как распознать контекстуальную семантику других языков и сопоставить результаты китайского перевода с аналогичным мышлением, как понять сотни миллионов инструкций, не говорящих на сяоду, и быстро понять И обратная связь первые соответствующие инструкции и диалоги, как синтезировать множественную информацию и потребности и реорганизовать часть языка для создания новой статьи. Однако у этих задач также есть немало общих черт, поэтому мы можем классифицировать странные задачи по различным типам задач в соответствии с этими общими чертами, такими как классификация текста, сопоставление текста, маркировка последовательности и понимание прочитанного. Для этих задач сотрудники НЛП изучили множество методов, которые, в свою очередь, соответствуют разным технологиям. Когда интеллектуальное голосовое взаимодействие стало новой жизненной привычкой китайцев и когда язык перестал быть препятствием для общения, НЛП бессознательно интегрировалось в жизнь людей, влияя на их жизненные привычки и способствуя развитию искусственного интеллекта.
2. Основные проблемы
1. Трудности с пониманием естественного языка
Понимание естественного языка является важной частью обработки естественного языка, и его эффект напрямую влияет на правильность последующей обработки. Однако в настоящее время все еще существуют дилеммы в понимании естественного языка. С одной стороны, люди понимают предложение не только по грамматике, а предложения часто имеют не только буквальное значение, но и используют массу других знаний, включая здравый смысл и специализированные знания о жизни, знания обновляются в режиме реального времени, и это знания не могут быть полностью сохранены в компьютере, пока нет возможности гибко и быстро вызывать различные знания для понимания семантики. С другой стороны, система понимания естественного языка может анализировать только отдельное предложение на основе ограниченного словарного запаса, шаблонов предложений и конкретных предметных областей.Влияние в основном игнорируется, грамматика естественного языка обычно неоднозначна, а семантические проблемы, вызванные полисемией , опущение слов и ссылка на местоимение также не подвергаются систематическому исследованию.Результаты анализа не так эффективны, как должны быть.
2. Дилемма применения НЛП в состоянии ограниченных ресурсов
По данным Организации Объединенных Наций по вопросам образования, науки и культуры, из более чем 7000 зарегистрированных языков в мире более 400 находятся под угрозой исчезновения и более 200 находятся в состоянии, близком к исчезновению. С развитием экономики и общества быстро вымирает большое количество языков меньшинств с языковыми особенностями и культурными коннотациями. Сохранение оригинального языка и культурной информации, а также сохранение драгоценного и находящегося под угрозой исчезновения языка и культурного наследия являются неотложными целями и задачами современной эпохи. Однако большая часть NLP сосредоточена только на исследовании более 20 популярных языков в мире, таких как английский и китайский, и редко использует корпуса с низким уровнем ресурсов, такие как языки меньшинств и региональные диалекты. Обучение НЛП обычно требует большого количества наборов аннотаций данных.В настоящее время малоресурсные языки имеют лишь небольшое количество высококачественных разговорных языковых корпусов.Опираясь только на эти одноязычные данные, исследователи не могут знать семантику, передаваемую за ними. Применение НЛП с языков с высокими ресурсами Миграция на языки с низкими ресурсами в настоящее время является серьезной проблемой, поэтому трудно эффективно проводить соответствующее обучение и исследования, не говоря уже о сохранении жизнеспособности этих исчезающих языков. этнические меньшинства и стоящая за ними местная культура.
3. Задача обнаружения и отслеживания ложной информации сложна
Обнаружение ложной информации направлено на проверку новостных сообщений и выявление мошеннических слухов и ложной информации с помощью технологии искусственного интеллекта.Это горячая тема в области приложений НЛП. Модель обнаружения ложной информации НЛП обычно получает данные из открытых онлайн-социальных сетей, дополнительно анализирует новостной контент, атрибуты поведения пользователей и методы распространения, а также искусственно создает характеристики из уст в уста источников новостей для оценки достоверности новостей. авторитетными СМИ по умолчанию будет иметь значение «true». Однако на этапе раннего обнаружения ложной информации, то есть когда информация публикуется на новостных каналах, но еще не распространяется в социальных сетях, невозможно полагаться на информацию о распространении новостей и поведение пользователей для извлечения признаков, поскольку они нуждаются в накапливаться в течение определенного периода времени.Поэтому невозможно вовремя обнаружить новые фейковые новости.Видно, что есть много недостатков, таких как одностороннее рассмотрение и трата рабочей силы в искусственно созданных функциях.
После генерации ложной информации отслеживание общественного мнения в Интернете также очень важно для контроля общественного мнения в Интернете.Только эффективный контроль пути эволюции общественного мнения в Интернете может вовремя остановить потери. В настоящее время было предпринято много попыток исследования пути эволюции технологии НЛП на основе тематической модели или анализа социальных сетей, но есть методологические недостатки. Во-первых, во многих исследованиях рассматривается только один тип текстовой информации, что может привести к неполному техническому отображению пути. Во-вторых, изменения темы в каждую эпоху не могут быть определены автоматически, что затрудняет динамическое отслеживание темы. В-третьих, метод интеллектуального анализа данных нельзя эффективно сочетать с визуальным анализом, что влияет на оперативность и гибкость картографирования. Эффективное отслеживание ценной информации на основе эволюции тем, изменений в эмоциях и поведении остается чрезвычайно сложной задачей.
3. Применение и перспективы
НЛП является важной частью области искусственного интеллекта, и прогресс НЛП будет способствовать развитию искусственного интеллекта. За последние два десятилетия NLP добилась больших успехов во многих отношениях, используя результаты исследований в области машинного обучения и глубокого обучения. Следующие десять лет станут золотым веком развития НЛП.
В будущем текстовые большие данные из различных отраслей будут лучше собираться, обрабатываться и храниться, а спрос на НЛП со стороны поисковых систем, обслуживания клиентов, бизнес-аналитики, голосовых помощников, перевода, образования, права, финансов и других сфер значительно возрастет. К качеству NLP также предъявляются все более высокие требования. Мультимодальное слияние текстовых данных, голоса и данных изображения постепенно станет жестким требованием для будущих роботов.
Поэтому исследования НЛП будут склоняться к следующим аспектам:
l Внедрить знания и здравый смысл в существующие системы обучения на основе данных.
l Методы обучения малоресурсным задачам НЛП.
l Моделирование контекста, многораундовое семантическое понимание.
l Интерпретируемый НЛП, основанный на семантическом анализе, знаниях и здравом смысле.
Идеальной архитектурой системы НЛП в будущем может быть следующая общая структура обработки естественного языка:
(1) Сначала выполните базовую обработку данного ввода на естественном языке, включая сегментацию слов, маркировку частей речи, анализ зависимостей, распознавание именованных объектов, классификацию намерений/отношений и т. д.
(2) Во-вторых, используйте кодировщик для кодирования ввода, чтобы преобразовать его в соответствующее семантическое представление. В этом процессе, с одной стороны, предварительно обученные вложения слов и сущностей используются для увеличения информации о словах и именах сущностей во входных данных; с другой стороны, входные предложения могут быть закодированы с использованием предварительно обученных множественных вложений. кодировщики задач Слияние различных кодировок посредством трансферного обучения.
(3) Затем, на основе семантического представления выходных данных кодера, декодер, зависящий от задачи, используется для генерации соответствующих выходных данных. Многозадачное обучение также может быть введено для введения других связанных задач в качестве вспомогательных в модель обучения основной задачи. Если требуется несколько раундов моделирования, важная информация о выходных результатах текущего раунда должна быть записана в базу данных и использована в последующем понимании и рассуждениях.
Очевидно, что для достижения этой идеальной структуры НЛП необходимо проделать большую работу:
(1) необходимо создать крупномасштабную базу данных здравого смысла и четко продвигать соответствующие исследования посредством значимой оценки;
(2) Исследуйте более эффективные методы кодирования слов, фраз и предложений и создавайте более мощные предварительно обученные модели нейронных сетей;
(3) Чтобы способствовать обучению без учителя и обучению с полуучителем, необходимо рассмотреть возможность использования небольшого количества человеческих знаний для повышения способности к обучению и создания новых методов межъязыкового внедрения;
(4) необходимо более эффективно отражать эффективность многозадачного обучения и трансфертного обучения в задачах НЛП, а также повышать роль обучения с подкреплением в задачах НЛП, таких как применение нескольких раундов диалогов в автоматическом обслуживании клиентов;
(5) Эффективное моделирование на уровне текста или многораундовое моделирование диалога и многоэтапный семантический анализ;
(6) учитывать пользовательские факторы при проектировании системы для обеспечения пользовательского моделирования и персонализированного вывода;
(7) Построить экспертную систему нового поколения, основанную на знании предметной области и здравом смысле, которая всесторонне использует систему рассуждений, решение задач и диалоговую систему;
(8) Используйте семантический анализ и системы знаний, чтобы улучшить интерпретируемость систем НЛП.
В будущем НЛП вместе с другими технологиями искусственного интеллекта коренным образом изменит человеческую жизнь. Конечно, светлое будущее и повороты дороги - это вечная истина. Чтобы реализовать это светлое будущее, мы должны быть смелыми и инновационными, строгими и реалистичными, и вместе продвигаться вперед, и вместе войти в следующий славный десятилетие НЛП.