Аннотация: С быстрым развитием ИИ, как быстро подготовить большое количество высококачественных данных, стало очень сложной проблемой в процессе разработки ИИ!
Эта статья опубликована в сообществе HUAWEI CLOUD.Как быстро подготовить качественные данные ИИ? 》, оригинальный автор: Сюй Бо.
1. Предпосылки
Вообще говоря, тремя элементами искусственного интеллекта ИИ являются данные, алгоритмы и вычислительная мощность. Эти три элемента незаменимы, и все они являются необходимыми условиями для быстрого развития искусственного интеллекта. Быстрое развитие этого витка бума ИИ также связано с готовностью этих трех элементов. Качество данных повлияет на точность модели.Вообще говоря, большой объем высококачественных данных с большей вероятностью поможет обучить высокоточную модель ИИ. Многие алгоритмы теперь используют обычные данные для достижения уровня точности 85% или 90%, но коммерческие приложения часто предъявляют более высокие требования.Если точность модели должна быть увеличена до 96% или даже 99%, большое количество высококачественных данных Данные потребуются более точные, основанные на сценариях и специализированные, что часто становится ключевым условием для преодоления узких мест моделями ИИ.
В большинстве проектов ИИ и машинного обучения на подготовку данных и инженерные задачи приходится более 80% времени, а на очистку и маркировку данных приходится около 50% всего проекта. Подготовка данных очень трудоемка, и как быстро подготовить большое количество качественных данных стало очень сложной проблемой в процессе разработки ИИ.
ModelArts — это универсальная платформа разработки для разработчиков ИИ, которая может поддерживать весь процесс разработки разработчиков от данных до приложений ИИ, включая обработку данных, разработку алгоритмов, обучение модели, развертывание модели и другие операции. Он также предоставляет функцию AI Gallery, которая может делиться данными, алгоритмами, моделями и т. д. с другими разработчиками на рынке. Чтобы помочь пользователям быстро подготовить большие объемы высококачественных данных, управление данными ModelArts предоставляет следующие основные возможности:
-
Предоставляет такие функции, как предварительный просмотр данных и многомерная фильтрация, чтобы помочь разработчикам ИИ быстро идентифицировать данные;
-
Предоставляет функции обработки данных, такие как проверка данных и автоматическая группировка для ускорения очистки данных;
-
Предоставляется более 12 инструментов аннотации, которые помогают пользователям аннотировать данные каждой сцены;
-
Предоставляет такие функции, как интеллектуальная маркировка и групповая маркировка, для ускорения маркировки и обеспечения качества маркировки.
Дополнительные функции см.ModelArtsУправление данными:
Возможности, предоставляемые ModelArts Data Management для подготовки высококачественных данных ИИ.
Этот пример будет основан на исходном наборе данных для распознавания дорожных знаков, который будет продемонстрирован вам с помощью ModelArts:
-
Как использовать функцию проверки данных для быстрой очистки данных;
-
Как использовать функцию автоматической группировки для выбора нужных данных из большого количества данных;
-
Как использовать инструмент аннотации для быстрого завершения аннотации;
-
Как использовать такие функции, как интеллектуальная маркировка, для ускорения маркировки данных.
Пользователям нужно только подтвердить или внести незначительные изменения для завершения маркировки, что может значительно повысить эффективность маркировки данных и сэкономить время пользователей.
Когда вы закончите с этим примером, вы узнаете, как использовать ModelArts для быстрой подготовки больших объемов высококачественных данных.
2. Подготовка
Прежде чем начать, вам необходимо выполнить соответствующие приготовления, включая регистрацию учетной записи HUAWEI CLOUD, аутентификацию по реальному имени, глобальную настройку ModelArts и операции, связанные с OBS.Подробности см. в этом документе.
3. Операция
Этот случай в основном разделен на следующие этапы: ① Загрузите набор данных из галереи AI в управление данными ModelArts, ② Проверка данных: работа с незаконными данными, ③ Автоматическая группировка: удаление ненужных данных, ④ Аннотация данных: маркировка данных, ⑤ Интеллектуальная аннотация: используйте технологию ИИ для ускорить аннотацию данных, ⑥Опубликовать набор данных: поделиться данными.
Блок-схема операции
1. Загрузите набор данных
Имя набора данных для этого случая — «Исходный набор данных распознавания дорожных знаков», который был загружен в AI Gallery, а адрес AI Gallery —marketplace.huaweicloud.com/markets/hobby…. После входа в AI Gallery вам нужно выбрать столбец данных, а затемAI GalleryНайдите имя набора данных «Необработанный набор данных для распознавания дорожных знаков» или щелкните набор данных.Ссылка на сайтскачать.
Найдите имя набора данных "Необработанный набор данных распознавания дорожных знаков"
"Необработанный набор данных для распознавания дорожных знаков" Подробности
Выберите набор данных для загрузки, настройте целевое местоположение набора данных (сейчас OBS необходимо создать корзину и каталог), измените имя на «распознавание дорожных знаков» и добавьте описание в соответствии с вашей собственной ситуацией. После нажатия для подтверждения загрузки страница перейдет на страницу «Мои данные». В это время вы можете щелкнуть страницу «Моя загрузка», чтобы проверить ход загрузки.
Загрузить «Необработанный набор данных для распознавания дорожных знаков»
Прогресс загрузки
Детали набора данных
2. Очистка данных
1) Идентификация данных
Когда данные загружаются, обычно необходимо сначала идентифицировать данные и проверить общее состояние данных, например, сколько данных имеется, на что похожи данные и нужно ли их очищать. В это время вы можете нажать «Начать маркировку», вы можете просмотреть данные и увидеть список образцов набора данных. Всего 706 изображений: 500 штук данных распознавания дорожных знаков, из которых 100 штук отмечены и 400 штук не отмечены, 200 штук растений, 6 штук других данных. Изображения в списке образцов также будут отображать информацию о метках, а правая сторона содержит всю информацию о метках набора данных. Существующие теги:
Информация на этикетке
Список образцов набора данных
2) Фильтрация данных
При просмотре данных данные часто фильтруются, и выбираются данные, которые вы хотите увидеть. В это время вы можете нажать «Развернуть» справа от условий фильтрации и выбрать соответствующие условия для фильтрации. Управление данными ModelArts поддерживает фильтрацию имен тегов, имен файлов, аннотаторов, атрибутов образцов и информации о сложных случаях. Вы также можете выбрать несколько условий фильтрации для одновременной фильтрации.
Фильтрация данных
Например, если вы хотите просмотреть информацию о списке образцов с именем тега «green_go», вы можете напрямую выбрать имя тега для его просмотра.
Примерный список с именем тега "green_go".
В сценариях практического применения данные часто смешиваются с недопустимыми данными, и данные необходимо очистить. Этот набор данных также содержит незаконные данные: 2 неправильных кодирования (badencode1.jpg, badencode2.jpg), 2 неправильных суффикса изображения (badsuffix1.png, badsuffix2.png), 2 одиночных канала (badchannel1.jpg, badchannel2.jpg). Например, по имени файла «badencode1.jpg» для просмотра недопустимых данных можно увидеть, что изображение загружается ненормально, поскольку возникла проблема с кодировкой изображения.
Просмотр незаконных данных на основе имени файла «badencode1.jpg»
3) Создайте задание обработки данных типа «Проверка данных».
ModelArtsобработка данныхДля проверки данных предусмотрена функция «Проверка данных». Вы можете перейти на домашнюю страницу ModelArts в разделеобработка данныхСтраница создает задание обработки данных.
страница обработки данных
При создании задания обработки данных вы можете изменить имя задания на «проверка данных», выбрать категорию сцены «Обнаружение объектов», тип обработки данных — «Проверка данных», ввод — версия V001 набора данных «Распознавание дорожных знаков». ", а данные представляют собой набор данных "Распознавание дорожных знаков" версии V002.
Создайте задание обработки данных типа «Проверка данных».
4) Просмотр результатов задания проверки данных
Подтверждение результатов проверки данных:Дождитесь завершения задания обработки данных, которое, как ожидается, займет несколько минут. Дождавшись завершения задания «проверка данных», вы можете просмотреть данные и выбрать набор выходных данных как «распознавание дорожных знаков» версии V002. В это время вам будет предложено переключить версию, нажмите «Да»., поменяет версиии перейдите на страницу набора данных, чтобы отобразить сведения о наборе данных. Если версия не переключается, набор данных по-прежнему отображает данные до проверки данных, что может привести к сбою последующих шагов. Глядя на результаты, вы можете видеть, что есть только 704 изображения, 2 изображения с неправильным форматом кодирования были удалены, 2 изображения с неправильным суффиксом и 2 изображения с одним каналом были изменены. То есть очистка данных в наборе данных завершена.
Выберите Просмотреть версию выходного набора данных.
Судя по названию файла "badencode1.jpg", нелегальные данные удалены.
3. Автоматическая группировка
1) Запустить задачу
После проверки данных выяснилось, что 500 изображений дорожных знаков, 200 изображений растений и 4 других изображения. Если предыдущие данные не были получены успешно, вы можете напрямую выбрать загрузку проверенного набора данных из Галереи AI:Набор проверенных данных распознавания дорожных знаков. Вы можете загрузить обработанные данные на соответствующем этапе, обратившись к следующему рисунку:
Данные, которые были обработаны на соответствующем этапе
В настоящее время, если вы выбираете данные, которые хотите пометить, один за другим или удаляете ненужные данные, это будет очень медленным и трудоемким. В это время вы можете запустить функцию автоматической группировки, чтобы сгруппировать данные аннотации трафика и данные завода. Войдите на страницу для всех, а затем нажмите на автоматическую группировку, чтобы запустить задание.
Запустить автоматическую группировку задач для выборки данных
При запуске задачи автоматической группировки заполните количество групп как 3 и имя атрибута как группу (которое также можно настроить), нажмите OK и дождитесь выполнения задачи. Автоматически сгруппированные задачи будут отображаться в правом верхнем углу.
Запустите задачу автоматической группировки и заполните параметры
Автоматический просмотр прогресса группы
2) Посмотреть результаты задачи
После завершения автоматической группировки вы можете развернуть условия фильтрации на всех вкладках, выбрать атрибут выборки «группа», а затем выбрать значение атрибута для просмотра результатов: атрибут выборки — «группа», а значения 0 и 1 — это данные распознавания дорожных знаков, разница в том, что две сцены съемки разные. Атрибут образца — «группа», а значение 2 — это в основном данные завода.
Отфильтруйте результаты с атрибутом образца «группа» и значением 0.
Отфильтруйте результаты с атрибутом образца «группа» и значением 1.
Отфильтруйте результаты с атрибутом образца «группа» и значением 2.
3) Удалить данные
Таким образом, данные были сгруппированы, и результаты группировки стали более точными. Мы можем удалять данные завода партиями в соответствии с результатами. Нажмите «Выбрать текущую страницу» в правом верхнем углу списка изображений, выберите все данные, а затем просмотрите данные. Если вы найдете нужные данные в выбранных данных, вы можете отменить выбор изображения, а затем нажать «Удалить». Изображение» после обработки. Вы можете завершить пакетное удаление изображения. После завершения удаления в основном остаются только данные распознавания дорожных знаков.
Массовое удаление ненужных изображений
4. Аннотация данных
После того, как очистка данных завершена и ненужные данные удалены, данные необходимо пометить. На данный момент в данных осталось около 500 изображений. Если предыдущие данные не были успешно получены, вы можете напрямую выбрать загрузку набора данных, который был очищен из AI Gallery:Очищенный набор данных для распознавания дорожных знаков
На странице списка образцов набора данных щелкните вкладку «Без метки», атрибутом образца в условии фильтра является «группа», а значение равно 0, вы можете увидеть данные первой сцены в наборе данных дорожных знаков. Дополнительную информацию об использовании можно просмотретьГид пользователя.
Атрибут образца вкладки «без метки» — это «группа», список образцов, значение которых равно 0.
Описание инструмента аннотации
Щелкните любое изображение, чтобы перейти на страницу сведений о образце для аннотаций.Страница аннотаций будет иметь такие функции, как панель инструментов аннотаций, отображение сведений об изображении, список изображений, список меток и переключение изображений, как показано на следующем рисунке.
Страница аннотации изображения
Выберите прямоугольник, щелкните левой кнопкой мыши, чтобы нарисовать, чтобы выбрать положение маркировки, а затем выберите метку, чтобы завершить маркировку.Нажатие следующего автоматически сохранит результат маркировки. Вы также можете использовать горячую клавишу N, чтобы переключиться на следующий.
аннотация данных
5. Умная аннотация
Во время использования вы можете почувствовать, что рабочая нагрузка по маркировке задачи обнаружения объектов очень велика, а эффективность ручной маркировки невысока.В это время вы можете использовать интеллектуальную функцию маркировки для ускорения.
Умная маркировка автоматически помечает данные, которые пользователь не помечает, и пользователю нужно только подтвердить или внести некоторые коррективы, чтобы завершить маркировку.
Принцип интеллектуального активного обучения с маркировкой заключается в использовании части существующих данных и встроенного алгоритма ModelArts для обучения модели, а затем использования модели для прогнозирования оставшихся неразмеченных изображений. Среди них быстрый тип — это контролируемый алгоритм, который использует помеченные данные для обучения, а точный тип — полууправляемый алгоритм, который использует для обучения помеченные и неразмеченные данные. Пользователи также могут выбирать свои собственные модели для интеллектуальной маркировки.В это время они могут выбрать функцию предварительной маркировки интеллектуальной маркировки, а также могут получить результаты прогнозирования автоматической маркировки. После завершения прогноза людям нужно только проверить точность результатов прогноза.Если прогноз точен, результаты аннотации алгоритма будут напрямую использованы.Если прогноз неточен, аннотация будет исправлена вручную.Улучшить эффективность маркировки и экономия времени пользователя.
1) Запустить умную выноску
Перед началом умной маркировки рекомендуется маркировать более 15 этикеток на одну этикетку, чтобы прогресс был выше. Нажмите «Начать интеллектуальную маркировку» в правом верхнем углу списка образцов, используйте параметры по умолчанию и нажмите «Отправить», чтобы начать интеллектуальную маркировку.
Запустить портал интеллектуальной маркировки
ОК, чтобы начать умную выноску
2) Просмотр хода умной аннотации
После отправки задачи смарт-маркировки вы будете перенаправлены на страницу хода выполнения смарт-маркировки.Вы также можете щелкнуть вкладку «Подтвердить», чтобы просмотреть ход выполнения задачи.
Ход выполнения задачи интеллектуальной маркировки
3) Подтвердите результат умной маркировки
После завершения смарт-маркировки вы можете увидеть результаты смарт-маркировки на вкладке «Требуется подтверждение».
Список результатов интеллектуальной маркировки
Есть 402 немаркированных изображения, и результат интеллектуальной маркировки также составляет 402 изображения. Нажмите на конкретное изображение, чтобы перейти на страницу сведений для подтверждения. Подтвердите точность метки. Если она верна, вы можете напрямую нажать «Подтвердить маркировку». Если окажется, что она неверна, вы можете изменить результат маркировки и нажать «Подтвердить маркировку».
Подтвердите результаты интеллектуальных аннотаций
6. Опубликуйте набор данных
1) Опубликовать версию набора данных
После завершения аннотации данных вы можете опубликовать версию набора данных, выбрать сегментацию данных и написать описание или не делать этого.
Опубликовать версию набора данных
После того, как выпуск будет завершен, будет выпущена фиксированная версия, и будет записано общее количество сэмплов и сколько сэмплов было помечено. Также создается файл манифеста. Манифест запишет всю информацию об образце и информацию о хранении файла аннотаций.Для обнаружения объекта аннотация не рассматривается как XML-файл в форме Pascal VOC.Подробное описание см.официальная документация.
Сведения о версии
2) Опубликовать версию набора данных в галерее AI.
После публикации версии набора данных вы можете выбрать эту версию для обучения в ModelArts или опубликовать набор данных в AI Gallery и поделиться им с другими пользователями. Перейти в галерею AIданныенажмите кнопку «Опубликовать», введите имя опубликованного набора данных, например «HDC2021 — набор данных распознавания дорожных знаков», выберите имя набора данных «Распознавание дорожных знаков» и версию «V003», выберите тип данных как изображение и выберите тип лицензии. Нажмите, чтобы опубликовать.
AI Gallery публикует набор данных
Публикация набора данных в AI Gallery
После публикации набора данных вы можете нажать кнопку «Изменить», чтобы улучшить информацию о наборе данных, включая домашнюю страницу набора данных.
Нажмите «Изменить», чтобы заполнить информацию о наборе данных.
На данный момент это дело завершено.
Нажмите «Подписаться», чтобы впервые узнать о новых технологиях HUAWEI CLOUD~