Эта статья была изначально создана "AI Frontline", оригинальная ссылка:Научит вас быстро создавать собственные классификаторы
Автор | Шашанк Гупта
Переводчик | Лю Чжиюн
Редактор | Эмили
Руководство по передовой ИИ:”Классификация является очень важным методом интеллектуального анализа данных. Классификатор должен изучить функцию классификации или построить модель классификации на основе существующих данных. Эта функция или модель может сопоставлять записи данных в базе данных с одной из заданной категории, чтобы можно было применять прогнозы данных. Сегодня AI Frontier представляет вам статью Шашанка Гупты из Towards Data Science под названием «Введение в пользовательские классификаторы — создание собственных моделей классификации текста без каких-либо обучающих данных». Пользовательский классификатор — «Создайте собственную модель классификации текста без каких-либо обучающих данных) [1], рассказывает, как использовать веб-службу ParallelDots, управляемую искусственным интеллектом, для быстрого создания собственной классификации текста без каких-либо обучающих данных. "
вводить
Одной из наиболее успешных парадигм машинного обучения является обучение с учителем, которое позволяет строить модели, которые обобщают, обучаясь на большом количестве обучающих примеров. Обучение с учителем широко используется в обработке естественного языка (NLP) для создания классификаторов текста с несколькими классами или несколькими метками для таких случаев использования, как обнаружение спама, анализ настроений, анализ выражений, анализ намерений клиентов и многое другое. Любой, кто знаком с процессом построения модели классификации текста, знает, что он состоит из следующих трех шагов:
Подготовьте обучающие данные: Обучающие данные (также называемые помеченными данными) представляют собой предметно-ориентированный корпус, который вручную аннотируется метками, которые должен классифицировать классификатор.
Обучите модель классификации текста: Затем выберите подходящий алгоритм машинного обучения для обучения модели на помеченном наборе данных. Мы рассмотрели некоторые советы по построению моделей анализа настроений в нашем предыдущем сообщении в блоге «Прорывные исследовательские работы и модели для анализа настроений» [2].
Тест и проверка: часть помеченного набора данных отводится для тестирования и проверки обученной модели, чтобы оценить ее способность к обобщению.
Традиционная парадигма контролируемого обучения перестает работать, когда у нас недостаточно размеченных данных для обучения надежной модели. Реальные проекты классификации текста часто сталкиваются с самым большим препятствием при доступе к огромным объемам данных и ручном аннотировании данных. В результате большинство реальных проектов застревают на первом этапе. Те, кто успешно сделал первый шаг, часто обнаруживали, что их данные либо недостаточны, либо смещены в сторону определенных классов, что приводит к смещению модели ИИ.
Что такое пользовательский классификатор?
Большая часть исследований в области глубокого обучения направлена на получение более качественных представлений из меньшего количества данных, и интересная область — это обучение с нулевым выстрелом. Процитируем ответ Яна Гудфеллоу на Quora: «Обучение с нулевым выстрелом решает задачу даже без получения каких-либо обучающих примеров.» Другими словами, представьте, что без предоставления каких-либо обучающих примеров твитов с пометкой настроений предскажите настроение, выраженное твитами.
Собственная исследовательская группа ParallelDots разработала собственную модель «нулевого обучения» для классификации текста и опубликовала исследовательскую работу «Обучение один раз, тестирование в любом месте: бессистемное обучение для классификации текста». 3].
Кроме того, мы выполняем свое обещание сделать ИИ доступным. Мы решили превратить это увлекательное исследование в коммерческое приложение, поэтому мы запустили новый API, который позволяет вам использовать всю мощь обучения с нуля для ваших вариантов использования классификации текста. Мы называем его настраиваемым классификатором, потому что он позволяет вам создавать свой текстовый классификатор на пользовательских категориях. Это революционный шаг в разработке передовых решений для искусственного интеллекта, которые позволяют пользователям разрабатывать и интегрировать пользовательские модели классификации текста без создания каких-либо обучающих данных.
Обучение на примере — построение примера модели классификации текста
Это также снижает затраты и время, необходимые для построения модели классификации текста, поскольку данные для обучения не требуются. Со всей предысторией давайте попробуем увидеть пользовательский классификатор в действии. На скриншоте демонстрации пользовательского классификатора [4], показанном ниже, мы выбрали заголовок спортивной новости и определили пять категорий, которые мы хотим разделить на: мировая политика, спорт, религия, развлечения, бизнес.
Как видно из результатов, спортивная категория имеет наивысший показатель вероятности и, следовательно, является наиболее вероятной категорией для нашего входного текста. Обратите внимание, что мы определяем категории во время тестирования, и базовая модель ИИ не обучается на них явно. Затем мы пытаемся дополнительно разделить спортивную категорию на разные категории, такие как футбол, гольф и т. д., чтобы увидеть, сможет ли наш классификатор их понять.
Опять же, мы видим, что классификатор точно определил спортивную категорию без явного обучения. Надеюсь, вы уже начали понимать потенциал этой технологии. В качестве последнего шага мы попытаемся еще больше разделить нашу футбольную категорию на различные типы лиг по всему миру и посмотреть, сможет ли наш классификатор правильно предсказать то же самое.
Действительно невероятно! Наш классификатор правильно выбрал лигу.
Таким образом, «настраиваемые классификаторы» могут дать вам приблизительное представление о будущем классификации текста, где для надежной классификации фрагмента текста как пользовательской категории «Определить» требуется мало обучающих примеров или вообще не требуется их вообще. Эта возможность откроет бесконечные возможности и даст новую жизнь бесчисленным бездействующим проектам по анализу текста, которые никогда не увидят свет из-за нехватки обучающих данных или обучающих ресурсов.
Настройка пользовательского классификатора
Настройка пользовательского классификатора проста и выполняется в три простых шага:
- прибытьwww.paralleldots.com/Зарегистрируйте бесплатную учетную запись API ParallelDots и войдите в панель управления.
- Перейдите в раздел «Пользовательские классификаторы» на панели инструментов, введите образец текста и определите некоторые категории для анализа текста. По умолчанию вы находитесь в тестовом режиме, и вы можете изменять список категорий сколько угодно раз бесплатно.
- Когда вы будете удовлетворены точностью классификации, нажмите кнопку «Опубликовать», чтобы развернуть классификатор для производственного использования и получить идентификатор классификатора. После публикации вы можете получить доступ к своему пользовательскому классификатору через конечную точку API.
Документацию по API для пользовательских классификаторов можно найти по адресуwww.paralleldots.com/docsоказаться. Скоро появятся надстройки для Microsoft Excel.
В этом сообщении блога мы представляем новую парадигму классификации текстов, которая, как мы надеемся, будет полезна нашим пользователям. Мы видели несколько интересных вариантов использования, которые наши пользователи решали с помощью настраиваемых классификаторов, таких как категоризация объявлений о вакансиях, категоризация новостных статей, обработка отзывов об открытых опросах и многое другое. Часто первым шагом в анализе необработанных данных является их классификация по интересующим вас категориям и отслеживание этих тенденций с течением времени для получения полезных сведений.
Преимущества пользовательской классификации по сравнению со стандартной текстовой классификацией
При анализе неструктурированных данных, таких как речь клиентов, стандартных моделей классификации текста, таких как анализ настроений, не всегда достаточно для получения целостного представления. С другой стороны, пользовательский классификатор может позволить вам классифицировать эти данные по более тонким категориям, которые нам интересны. Например, с помощью пользовательского классификатора владелец сети быстрого питания может использовать социальные сети для категоризации отзывов своих клиентов, включая такие категории, как цена, окружающая среда, поведение сотрудников, качество еды и т. д., чтобы лучше понять, в чем ей нужно улучшить свою работу. бизнес. Используя простой анализ настроений, он может знать, как обстоят дела в его бизнесе в целом, но он также может упустить ключевые тенденции, такие как корреляция между поведением сотрудников и посещаемостью. Потенциал пользовательского классификатора заключается в классификации текста по меткам настроений (положительным, отрицательным или нейтральным) [5], поэтому вы можете не только узнать, сколько негативных отзывов есть о продукте, но и что пользователи говорят в этих негативных отзывах. контент.
Мы считаем, что пользовательские классификаторы позволяют пользователям, не имеющим опыта работы с данными, создавать и развертывать свои собственные классификаторы и получать преимущество над конкурентами. Это также поможет предприятиям коренным образом превратиться в организации, управляемые данными, что в конечном итоге ускорит индустриализацию искусственного интеллекта и машинного обучения. Вы также можете изучить другие блоги по классификации текстов здесь.
blog.parallel dots.com/category/cheat…
ParallelDots AI API — это веб-служба на основе глубокого обучения от ParallelDots, Inc., которая понимает большие объемы неструктурированного текста и визуального контента для повышения эффективности вашего продукта.
Справочный текст:
[1] Представляем пользовательский классификатор — Создайте собственную модель классификации текста без каких-либо обучающих данных
к data science.com/introduction…
[2] Breakthrough Research Papers and Models for Sentiment Analysis
blog.parallel dots.com/data — Вознаграждение за благосклонность…
[3] TRAIN ONCE, TEST ANYWHERE: ZERO-SHOT LEARNING FOR TEXT CLASSIFICATION
параллельные точки следующая остановка/zero-shot-l…
[4] Custom Classifier DEMO
параллельные точки следующая остановка/zero-shot-l…
[5] Analyze the sentiment of content on social networks, customer feedbacks and surveys
woohoo.parallel dots.com/sentiment-ahhh…
Для большего содержания сухих товаров вы можете обратить внимание на AI Frontline, ID:ai-front, фоновый ответ "AI", "TF", "Большие данные«Вы можете получить серию мини-книг в формате PDF и карт навыков «AI Frontline».