набор данных сифар-10
下载方式:
Официальный сайт:У-у-у. В это время. Торонто. Квота/~Горькие дни/Этот метод похож на…
Интерпретация веб-страницы:
CIFAR-10 и CIFAR-100 — это помеченные подмножества из 80 миллионов крошечных изображений (человек.Участвовал.Персик.Квота/Торр Аруба/Упоминание…) набор данных. Их собирают Алекс Кржижевски, Винод Наир и Джеффри Хинтон.
The CIFAR-10 dataset
Набор данных CIFAR-10 содержит 60000 цветных изображений 32x32, разделенных на 10 классов по 6000 изображений в каждом классе. Есть 50000 обучающих изображений и 10000 тестовых изображений.
Набор данных разделен на пять обучающих пакетов и один тестовый пакет, каждый из которых содержит 10 000 изображений. Тестовая партия содержит 1000 случайно выбранных изображений в каждом классе. Обучающие пакеты случайным образом содержат оставшиеся изображения, но некоторые обучающие пакеты могут содержать больше изображений из одного класса, чем из другого. Среди них изображений каждого класса в обучающей партии ровно 5000.
Эти классы полностью взаимоисключающие. Между легковыми и грузовыми автомобилями нет пересечения. «Автомобиль» включает в себя седаны, внедорожники и тому подобное, а «грузовик» включает только большие грузовики. Ни один из них не включает пикапы.
Скачать (здесь мы загружаем версию CIFAR-10 python)
If you're going to use this dataset, please cite the tech report at the bottom of this page.
Version | Size | md5sum |
---|---|---|
CIFAR-10 python version | 163 MB | c58f30108f718f92721af3b95e74349a |
CIFAR-10 Matlab version | 175 MB | 70270af85842c9e89bb428ec9976c926 |
CIFAR-10 binary version (suitable for C programs) | 162 MB | c32a1d4ab5d03f1284b67883e8d87530 |
Макет набора данных
Python / Matlab versions
Я опишу макет Python-версии набора данных. Макет версии Matlab такой же.
В архиве находятся файлы data_batch_1, data_batch_2, ..., data_batch_5 и test_batch. Каждый из этих файлов представляет собой «маринованный» объект Python, созданный с помощью cPickle (Вууху. Python.org/doc/2.5/wah…). Он откроет такой файл и вернет словарь:
версия python2
def unpickle(file):
import cPickle
with open(file, 'rb') as fo:
dict = cPickle.load(fo)
return dict
версия python3
def unpickle(file):
import pickle
with open(file, 'rb') as fo:
dict = pickle.load(fo, encoding='bytes')
return dict
Loaded in this way, each of the batch files contains a dictionary with the following elements:
-
data-- 10000x3072 пустой массив UINT8. Каждая строка массива хранит цветное изображение 32x32. Первые 1024 записи содержат значения красного канала, последние 1024 записи содержат значения зеленого канала, а последние 1024 записи содержат значения синего канала. Изображения хранятся в порядке возрастания строк, поэтому первые 32 элемента массива являются значениями красного канала для первой строки изображения.
- Объяснение: 3072 равно 32 * 32 = 1024 Канал имеет в общей сложности 1024 пикселя, но это цветное изображение, содержащее 3 канала, 1024 * 3 = 3072 пикселя, всего 10000 изображений, окончательный массив 10000 * 3072.
- labels-- Список из 10000 номеров в диапазоне от 0 до 9. число в индексе i представляет массивданныеМетка i-го изображения в .
Набор данных содержит еще один файл с именем batches.meta. Он также содержит объект словаря Python. Он содержит следующие записи:
- label_names- Список из 10 элементов, дающих осмысленные имена числовым меткам в указанном выше массиве меток. Например, label_names[0]=="самолет", label_names[1]=="автомобиль" и т. д.
бинарная версия
Бинарная версия содержит файлы data_batch_1, data_batch_2, ..., data_batch_5 и test_batch. Формат каждого файла следующий:
...
другими словами,Первый байт — это метка первого изображения, представляющая собой число в диапазоне 0–9..Следующие 3072 байта — это значение пикселей изображения. Первые 1024 байта — значение красного канала, последние 1024 байта — значение зеленого канала, а последние 1024 байта — значение синего канала. Значения хранятся в порядке возрастания строк, поэтому первые 32 байта — это значения красного канала для первой строки изображения..
Каждый файл содержит 10000 таких «строк» изображения размером 3073 байта, хотя и без какого-либо разделения строк. Поэтому длина каждого файла должна быть ровно 30730000 байт.
Существует еще один файл с именем batches.meta.txt. Это файл ASCII, который сопоставляет числовые метки в диапазоне от 0 до 9 с осмысленными именами классов. Это просто список из 10 имен классов, по одному в строке. Имя класса в строке i соответствует числовой метке i .
The CIFAR-100 dataset
Этот набор данных аналогичен CIFAR-10, за исключением того, что он содержит 100 классов, каждый из которых содержит 600 изображений. Каждый класс имеет 500 обучающих изображений и 100 тестовых изображений. 100 классов в CIFAR-100 разделены на 20 суперклассов. Каждое изображение имеет метку «точно» (класс, к которому оно принадлежит) и метку «грубо» (надкласс, к которому оно принадлежит).
Ниже приведен список классов в CIFAR-100:
Superclass | Classes |
---|---|
aquatic mammals | beaver, dolphin, otter, seal, whale |
fish | aquarium fish, flatfish, ray, shark, trout |
flowers | orchids, poppies, roses, sunflowers, tulips |
food containers | bottles, bowls, cans, cups, plates |
fruit and vegetables | apples, mushrooms, oranges, pears, sweet peppers |
household electrical devices | clock, computer keyboard, lamp, telephone, television |
household furniture | bed, chair, couch, table, wardrobe |
insects | bee, beetle, butterfly, caterpillar, cockroach |
large carnivores | bear, leopard, lion, tiger, wolf |
large man-made outdoor things | bridge, castle, house, road, skyscraper |
large natural outdoor scenes | cloud, forest, mountain, plain, sea |
large omnivores and herbivores | camel, cattle, chimpanzee, elephant, kangaroo |
medium-sized mammals | fox, porcupine, possum, raccoon, skunk |
non-insect invertebrates | crab, lobster, snail, spider, worm |
people | baby, boy, girl, man, woman |
reptiles | crocodile, dinosaur, lizard, snake, turtle |
small mammals | hamster, mouse, rabbit, shrew, squirrel |
trees | maple, oak, palm, pine, willow |
vehicles 1 | bicycle, bus, motorcycle, pickup truck, train |
vehicles 2 | lawn-mower, rocket, streetcar, tank, tractor |
Да, я знаю, что грибы — это не настоящие фрукты или овощи, а медведи — не настоящие хищники.
Download
Version | Size | md5sum |
---|---|---|
CIFAR-100 python version | 161 MB | eb9058c3a382ffc7106e4002c42a8d85 |
CIFAR-100 Matlab version | 175 MB | 6a4bfa1dcd5c9453dda6bb54194911f4 |
CIFAR-100 binary version (suitable for C programs) | 161 MB | 03b5dce01913d631647c71ecec9e9cb8 |
Dataset layout
Python / Matlab versions
Версии Python и Matlab по структуре идентичны CIFAR-10, поэтому я не буду тратить время на их описание.