Практический пример 丨 Навыки применения ModelArts в маркировке данных и фильтрации данных: автоматическая группировка

Идентификация изображения

Чрезвычайно неэффективно последовательно маркировать большое количество сложных и беспорядочных изображений.Если одновременно можно маркировать большое количество изображений, эффективность маркировки значительно повысится.

Автоматическое групповое распознавание и извлечение признаков изображения, все изображения могут быть сгруппированы с помощью расширенного алгоритма кластеризации ModelArts: изображения со схожими характеристиками группируются в одну категорию, а изображения с большими различиями разделяются.

В проекте по распознаванию цветов необходимо маркировать большое количество немаркированных изображений цветов, а последовательная маркировка одуванчиков, тюльпанов, подсолнухов и т. д. потребует много драгоценного времени.

Групповая маркировка сцен

Запускаем автоматическую группировку, мы заранее знаем, что в датасете цветов 5 категорий, и группируем их в 6 категорий (Алгоритм кластеризации не может гарантировать, что 5 категорий должны быть полностью различимы, и требуется более подробная группировка, поэтому количество групп часто должно быть больше, чем фактическое количество категорий.):

Примерно через 3 минуты через условия фильтрации мы можем получить результаты автоматической группировки, например, первая категория - это почти все изображения тюльпанов, а третья категория - это почти все изображения одуванчиков.

Категория 1

Категория 3

Итак, выберите текущую страницу -> введитеодуванчик, вы можете напрямую отметить их одновременно.

Конечно, не каждая группа идеальна, например, большинствоподсолнух, но и смешанный сгербера. После выбора текущей страницыСнимите галочку в левом верхнем углу соответствующей картинки, отличной от подсолнухаПросто:

Сценарии фильтрации данных

На самом деле объем данных реального изображения невелик, что часто не может удовлетворить требования данных обучения сети глубокого обучения.Поэтому разработчики обычно выбирают изображения, которые им нужно сканировать, из сети, но сканируемые изображения сильно различаются по стилю и шумно Объем работы, необходимый для извлечения изображений, огромен.

Алгоритм автоматической группировки, предоставляемый ModelArts, не только эффективно группирует аннотации, но иЭто также трюк в сцене фильтрации данных..

В проекте шлема из-за слишком малого количества реальных изображений шлема из Google было просканировано большое количество изображений, связанных со шлемом.(около 3000 листов):

Но это не все «каски», которые нам нужны, нам нужны рабочие каски на фоне стройки.

Итак, при автоматической группировке мы делим эти изображения на 10 групп.(Чем больше количество групп, тем тоньше набор данных и тем больше зашумленных изображений можно разделить), ниже показано частичное групповое отображение:

Группа 0

Группа 1

Группа 4

Группа 9

Очевидно, что нужными нам результатами являются картинки, похожие на Группу 1 и Группу 9. Группы 1 и 4 можно удалить после просмотра, выбрать текущую страницу и удалить:

После удаления шумового изображенияОсталось всего около 1600 изображений, отфильтрованных на 50 % быстрее.:

Конечно, если еще много шума,Продолжаем группировать и автоматически группируем оставшиеся 1640 изображений в 10 классов

Как вы можете видеть, есть еще много несвязанных изображений, таких как:

Пройдитесь еще раз по всем группам, почистите данные и, наконец,Осталось всего 1008 изображений, отфильтровав около 65% зашумленных изображений., что значительно снижает нагрузку на маркировку.


Нажмите «Подписаться», чтобы впервые узнать о новых технологиях HUAWEI CLOUD~