компьютерное зрение в настоящее времяискусственный интеллектполесерединасамый быстрорастущийподполеодин. Исследователи и компании используют механизмы компьютерного зрения для решения множества проблем в различных областях, таких как производство, безопасность, анализ и диагностика медицинских изображений, автономное вождение и многое другое.
Здесь мы рассмотрим доступныекомпьютерное зрениевершина проектанабор данных с открытым исходным кодом.
ImageNet
Это набор данных изображений, организованный в соответствии с иерархией WordNet. В WordNet насчитывается более 100 000 синсетов, большинство из которых (более 80 000) — существительные. Цель ImageNet — предоставить в среднем 1000 изображений для иллюстрации каждой фразы. В исследованиях компьютерного зрения это мотивировано двумя важными потребностями. Это необходимость установить четкую путеводную звезду в компьютерном зрении и острая потребность в большем количестве данных, чтобы использовать более общие методы машинного обучения.
IMDB-Wiki
Это самый большой набор данных изображений лиц с открытым исходным кодом с метками пола и возраста для обучения. Этот набор данных содержит 523 051 изображение лица, из которых 460 723 изображения лица взяты у 20 284 знаменитостей из IMDB, а 62 328 — из Википедии.
MS Coco
Это крупномасштабный набор данных для обнаружения, сегментации и подписи объектов. Он имеет 330 000 изображений (> 200 000 меток), 1,5 миллиона экземпляров объектов, 80 категорий объектов, 91 категорию объектов, 5 подписей и 250 000 ключевых точек на изображение.
Flickr-30k
Это коллекция для описания и поиска изображений на основе предложений, состоящая из 30 000 изображений с пятью отдельными подписями, которые четко описывают характерные объекты и события. Изображения были выбраны из шести разных групп Flickr и, как правило, не содержат известных людей или мест, а были отобраны вручную.
Berkeley DeepDrive
Это движущий набор данных для гетерогенного многозадачного обучения. Он содержит 100 000 видеороликов о вождении, собранных из более чем 50 000 поездок. Продолжительность каждого видео составляет 40 секунд, а количество кадров — 30 кадров. Он содержит различные типы сцен, такие как городские улицы, жилые районы и автомагистрали, при различных погодных условиях в течение дня. Это помогает в обнаружении дорожек, обнаружении объектов, семантической сегментации, сегментации экземпляров, отслеживании нескольких объектов и т. д.
LSUN
Набор данных классификации крупномасштабных сцен (LSUN) содержит 10 категорий сцен: спальня, кухня, церковь под открытым небом, столовая и т. д. В каждой категории большое количество изображений, примерно от 120 000 до 3 000 000.
Проверочные данные состоят из 300 изображений, а тестовые данные содержат по 1000 изображений на категорию.
MPII human-pose
Набор данных включает около 25 000 изображений, содержащих более 40 000 человек, аннотированных суставами тела. Они собираются с использованием установленных таксономий повседневной деятельности человека. В общей сложности набор данных охватывает 410 видов человеческой деятельности с меткой деятельности для каждого изображения. Каждое изображение извлекается из видео YouTube с немаркированными кадрами впереди и сзади.
CIFAR-10&CIFAR-100
Набор данных CIFAR-10 состоит из 60 000 цветных изображений 32×32, разделенных на 10 классов по 6 000 изображений в каждом. Имеется 50 000 обучающих изображений и 10 000 тестовых изображений. CIFAR-100 похож на CIFAR-10, но имеет 100 классов, каждый из которых содержит 600 изображений.
Набор данных CIFAR-10 разделен на пять обучающих пакетов и один тестовый пакет, каждый из которых содержит 10 000 изображений. Тестовая партия содержит ровно 1000 изображений, случайно выбранных из каждого класса. Пакет обучения содержит остальные изображения в случайном порядке, но некоторые пакеты обучения могут содержать больше изображений из одного класса, чем из другого. Между ними обучающая партия содержит ровно 5000 изображений каждого класса.
В CIFAR-100 100 классов разбиты на 20 суперклассов. Каждое изображение имеет метку «точно» (класс, к которому оно принадлежит) и метку «грубо» (суперкласс, к которому оно принадлежит).
kinetics
Это крупномасштабный высококачественный набор данных, который включает URL-ссылки до 650 000 видеоклипов, охватывающих 400/600/700 категорий действий, в зависимости от версии набора данных. Видео включает в себя взаимодействие человека с объектом, например игру на музыкальных инструментах и взаимодействие человека с человеком. Каждый клип имеет одну категорию действий, аннотированную людьми, и имеет продолжительность около 10 секунд.