Интерпретация набора данных cifar-10

искусственный интеллект
Интерпретация набора данных cifar-10

набор данных сифар-10

下载方式:Официальный сайт:У-у-у. В это время. Торонто. Квота/~Горькие дни/Этот метод похож на…

Интерпретация веб-страницы:

CIFAR-10 и CIFAR-100 — это помеченные подмножества из 80 миллионов крошечных изображений (человек.Участвовал.Персик.Квота/Торр Аруба/Упоминание…) набор данных. Их собирают Алекс Кржижевски, Винод Наир и Джеффри Хинтон.

The CIFAR-10 dataset

Набор данных CIFAR-10 содержит 60000 цветных изображений 32x32, разделенных на 10 классов по 6000 изображений в каждом классе. Есть 50000 обучающих изображений и 10000 тестовых изображений.

Набор данных разделен на пять обучающих пакетов и один тестовый пакет, каждый из которых содержит 10 000 изображений. Тестовая партия содержит 1000 случайно выбранных изображений в каждом классе. Обучающие пакеты случайным образом содержат оставшиеся изображения, но некоторые обучающие пакеты могут содержать больше изображений из одного класса, чем из другого. Среди них изображений каждого класса в обучающей партии ровно 5000.

123454.PNG

Эти классы полностью взаимоисключающие. Между легковыми и грузовыми автомобилями нет пересечения. «Автомобиль» включает в себя седаны, внедорожники и тому подобное, а «грузовик» включает только большие грузовики. Ни один из них не включает пикапы.

Скачать (здесь мы загружаем версию CIFAR-10 python)

If you're going to use this dataset, please cite the tech report at the bottom of this page.

Version Size md5sum
CIFAR-10 python version 163 MB c58f30108f718f92721af3b95e74349a
CIFAR-10 Matlab version 175 MB 70270af85842c9e89bb428ec9976c926
CIFAR-10 binary version (suitable for C programs) 162 MB c32a1d4ab5d03f1284b67883e8d87530

Макет набора данных

Python / Matlab versions

Я опишу макет Python-версии набора данных. Макет версии Matlab такой же.

В архиве находятся файлы data_batch_1, data_batch_2, ..., data_batch_5 и test_batch. Каждый из этих файлов представляет собой «маринованный» объект Python, созданный с помощью cPickle (Вууху. Python.org/doc/2.5/wah…). Он откроет такой файл и вернет словарь:

версия python2
def unpickle(file):
    import cPickle
    with open(file, 'rb') as fo:
        dict = cPickle.load(fo)
    return dict
версия python3
def unpickle(file):
    import pickle
    with open(file, 'rb') as fo:
        dict = pickle.load(fo, encoding='bytes')
    return dict

Loaded in this way, each of the batch files contains a dictionary with the following elements:

  • data-- 10000x3072 пустой массив UINT8. Каждая строка массива хранит цветное изображение 32x32. Первые 1024 записи содержат значения красного канала, последние 1024 записи содержат значения зеленого канала, а последние 1024 записи содержат значения синего канала. Изображения хранятся в порядке возрастания строк, поэтому первые 32 элемента массива являются значениями красного канала для первой строки изображения.
    • Объяснение: 3072 равно 32 * 32 = 1024 Канал имеет в общей сложности 1024 пикселя, но это цветное изображение, содержащее 3 канала, 1024 * 3 = 3072 пикселя, всего 10000 изображений, окончательный массив 10000 * 3072.
  • labels-- Список из 10000 номеров в диапазоне от 0 до 9. число в индексе i представляет массивданныеМетка i-го изображения в .

Набор данных содержит еще один файл с именем batches.meta. Он также содержит объект словаря Python. Он содержит следующие записи:

  • label_names- Список из 10 элементов, дающих осмысленные имена числовым меткам в указанном выше массиве меток. Например, label_names[0]=="самолет", label_names[1]=="автомобиль" и т. д.

бинарная версия

Бинарная версия содержит файлы data_batch_1, data_batch_2, ..., data_batch_5 и test_batch. Формат каждого файла следующий:

...

другими словами,Первый байт — это метка первого изображения, представляющая собой число в диапазоне 0–9..Следующие 3072 байта — это значение пикселей изображения. Первые 1024 байта — значение красного канала, последние 1024 байта — значение зеленого канала, а последние 1024 байта — значение синего канала. Значения хранятся в порядке возрастания строк, поэтому первые 32 байта — это значения красного канала для первой строки изображения..

Каждый файл содержит 10000 таких «строк» ​​изображения размером 3073 байта, хотя и без какого-либо разделения строк. Поэтому длина каждого файла должна быть ровно 30730000 байт.

Существует еще один файл с именем batches.meta.txt. Это файл ASCII, который сопоставляет числовые метки в диапазоне от 0 до 9 с осмысленными именами классов. Это просто список из 10 имен классов, по одному в строке. Имя класса в строке i соответствует числовой метке i .

The CIFAR-100 dataset

Этот набор данных аналогичен CIFAR-10, за исключением того, что он содержит 100 классов, каждый из которых содержит 600 изображений. Каждый класс имеет 500 обучающих изображений и 100 тестовых изображений. 100 классов в CIFAR-100 разделены на 20 суперклассов. Каждое изображение имеет метку «точно» (класс, к которому оно принадлежит) и метку «грубо» (надкласс, к которому оно принадлежит).

Ниже приведен список классов в CIFAR-100:

Superclass Classes
aquatic mammals beaver, dolphin, otter, seal, whale
fish aquarium fish, flatfish, ray, shark, trout
flowers orchids, poppies, roses, sunflowers, tulips
food containers bottles, bowls, cans, cups, plates
fruit and vegetables apples, mushrooms, oranges, pears, sweet peppers
household electrical devices clock, computer keyboard, lamp, telephone, television
household furniture bed, chair, couch, table, wardrobe
insects bee, beetle, butterfly, caterpillar, cockroach
large carnivores bear, leopard, lion, tiger, wolf
large man-made outdoor things bridge, castle, house, road, skyscraper
large natural outdoor scenes cloud, forest, mountain, plain, sea
large omnivores and herbivores camel, cattle, chimpanzee, elephant, kangaroo
medium-sized mammals fox, porcupine, possum, raccoon, skunk
non-insect invertebrates crab, lobster, snail, spider, worm
people baby, boy, girl, man, woman
reptiles crocodile, dinosaur, lizard, snake, turtle
small mammals hamster, mouse, rabbit, shrew, squirrel
trees maple, oak, palm, pine, willow
vehicles 1 bicycle, bus, motorcycle, pickup truck, train
vehicles 2 lawn-mower, rocket, streetcar, tank, tractor

Да, я знаю, что грибы — это не настоящие фрукты или овощи, а медведи — не настоящие хищники.

Download

Version Size md5sum
CIFAR-100 python version 161 MB eb9058c3a382ffc7106e4002c42a8d85
CIFAR-100 Matlab version 175 MB 6a4bfa1dcd5c9453dda6bb54194911f4
CIFAR-100 binary version (suitable for C programs) 161 MB 03b5dce01913d631647c71ecec9e9cb8

Dataset layout

Python / Matlab versions

Версии Python и Matlab по структуре идентичны CIFAR-10, поэтому я не буду тратить время на их описание.