33 часто используемых набора данных для машинного обучения

машинное обучение

Если эта статья может вам помочь, я надеюсь, что вы подпишитесь на нее и поделитесь ею! (Благодарность)

Создание систем искусственного интеллекта или машинного обучения стало проще, чем когда-либо прежде. Повсеместное распространение передовых инструментов с открытым исходным кодом, таких как TensorFlow, Torch и Spark, в сочетании с огромной вычислительной мощностью через AWS, Google Cloud или облачные вычисления от других поставщиков означает, что вы можете использовать свой ноутбук в свободное время во второй половине дня для обучения. Современные модели машинного обучения.

Важность наборов данных для моделей глубокого обучения очевидна, однако, в зависимости от характера, типа и области, наборы данных часто разбросаны по разным ресурсным платформам, и людям срочно нужно в них разобраться.

Без данных наши модели машинного обучения и глубокого обучения ничего не могут сделать. Скажем так, люди, которые создают наборы данных, которые позволяют нам обучать модели, — наши герои, хотя часто они не получают должного признания. К счастью, наиболее ценные наборы данных позже стали «академическими эталонами» — широко цитируемыми исследователями, особенно при сравнении изменений алгоритмов; многие имена стали нарицательными как внутри, так и вне круга, такие как MNIST, CIFAR 10, Imagenet и т. д. .

Если вы использовали эти наборы данных в своем исследовании, мы надеемся, что вы не забудете цитировать оригинальные статьи (мы предоставили ссылки на цитирование в форме); если вы используете их как часть коммерческого или образовательного проекта, рассмотрите возможность добавления подтверждения вместе с исходной ссылкой набора данных.

Мы часто цитируем эти наборы данных в нашем обучении, потому что они являются отличными примерами типов данных, с которыми учащиеся могут столкнуться, и потому что учащиеся могут сравнивать свою собственную работу с научной работой, ссылаясь на эти наборы данных, тем самым добиваясь прогресса. Кроме того, мы также будем использовать набор данных Kaggle Competitions, общедоступные списки лидеров Kaggle позволяют учащимся тестировать свои модели на лучших в мире наборах данных, но набор данных Kaggle не будет представлен в этой форме.

поле классификации изображений

1) МНИСТ

Классический небольшой (28x28 пикселей) набор данных рукописных цифр в градациях серого был разработан в 1990-х годах для тестирования самых сложных моделей того времени; сегодня набор данных MNIST больше считается базовым учебником по глубокому обучению. Версия набора данных fast.ai отказывается от исходного специального двоичного формата в пользу стандартного формата PNG для нормального рабочего процесса в большинстве кодовых баз сегодня; если вы просто хотите использовать тот же единственный входной канал, что и исходный, просто выберите один фрагмент в ось канала.

Ссылка: http://yann.lecun.com/exdb/publis/index.html#lecun-98

Адрес загрузки: https://s3.amazonaws.com/fast-ai-imageclas/mnist_png.tgz

2) СИФАР10

10 категорий, до 60 000 цветных изображений размером 32x32 пикселя (50 000 обучающих и 10 000 тестовых изображений), в среднем 6 000 изображений на категорию. Широко используется для тестирования производительности новых алгоритмов. Версия набора данных fast.ai отказывается от исходного специального двоичного формата в пользу

Стандартный формат PNG для обычного рабочего процесса, который сегодня используется в большинстве кодовых баз.

Ссылка: https://www.cs.toronto.edu/~kriz/learning-features-2009-TR.pdf

Адрес загрузки: https://s3.amazonaws.com/fast-ai-imageclas/cifar10.tgz

3) СИФАР100

Как и CIFAR-10, разница в том, что CIFAR-100 имеет 100 категорий, каждая категория содержит 600 изображений (500 обучающих изображений и 100 тестовых изображений), а затем эти 100 категорий делятся на 20 суперклассов. Таким образом, каждое изображение в наборе данных имеет метку «точно» (класс, к которому оно принадлежит) и метку «грубо» (надкласс, к которому оно принадлежит).

Ссылка: https://www.cs.toronto.edu/~kriz/learning-features-2009-TR.pdf

Адрес загрузки: https://s3.amazonaws.com/fast-ai-imageclas/cifar100.tgz

4) Калтех-UCSD Birds-200-2011

Набор данных изображений, содержащий фотографии 200 видов птиц (в основном птиц Северной Америки), которые можно использовать для работы по распознаванию изображений. Количество категорий: 200, количество изображений: 11 788, среднее количество аннотаций на изображение: 15 локальных местоположений, 312 бинарных атрибутов и 1 ограничительная рамка.

Ссылка: http://vis-www.cs.umass.edu/bcnn/

Адрес загрузки: https://s3.amazonaws.com/fast-ai-imageclas/CUB_200_2011.tgz

5) Калтех 101

Набор данных изображений содержит 101 категорию элементов, в среднем от 40 до 800 изображений в каждой категории, и большая часть категории имеет фиксированное количество около 50 изображений. Каждое изображение имеет размер примерно 300 x 200 пикселей. Этот набор данных также можно использовать для обнаружения и локализации объектов.

Ссылка: http://www.vision.caltech.edu/feifeili/Fei-Fei_GMBV04.pdf

Адрес загрузки: https://s3.amazonaws.com/fast-ai-imageclas/caltech_101.tar.gz

6) Оксфорд-IIIT Pet

Набор данных изображений, содержащий 37 категорий домашних животных, по 200 изображений в каждой категории. Эти изображения имеют богатые вариации масштаба, позы и освещения. Этот набор данных также можно использовать для обнаружения и локализации объектов.

Ссылка: http://www.robots.ox.ac.uk/~vgg/publications/2012/parkhi12a/parkhi12a.pdf

Адрес загрузки: https://s3.amazonaws.com/fast-ai-imageclas/oxford-iiit-pet.tgz

7) Оксфорд 102 цветка

Набор данных изображений, содержащий 102 категории цветов (в основном некоторые распространенные категории цветов в Великобритании), по 40–258 изображений в каждой категории. Эти изображения имеют богатые вариации масштаба, позы и освещения.

Ссылка: http://www.robots.ox.ac.uk/~vgg/publications/papers/nilsback08.pdf

Адрес загрузки: https://s3.amazonaws.com/fast-ai-imageclas/oxford-102-flowers.tgz

8) Еда-101

Набор данных изображений содержит 101 категорию продуктов питания, в общей сложности 101 000 изображений, в среднем 250 тестовых изображений и 750 обучающих изображений на категорию. Обучающие изображения не очищаются от данных. Все изображения были масштабированы до максимальной длины стороны 512 пикселей.

Цитирование: https://pdfs.semanticscholar.org/8e3f/12804882b60ad5f59aad92755c5edb34860e.pdf

Адрес загрузки: https://s3.amazonaws.com/fast-ai-imageclas/food-101.tgz

9) Стэнфордские автомобили

Набор данных изображений содержит 196 категорий автомобилей, в общей сложности 16 185 изображений, включая 8 144 обучающих изображения и 8 041 тестовое изображение, а соотношение типов изображений в каждой категории составляет в основном 55 к 50. Категории этого набора данных в основном основаны на марке, модели и году выпуска автомобиля.

Цитирование: https://ai.stanford.edu/~jkrause/papers/3drr13.pdf

Адрес загрузки: https://s3.amazonaws.com/fast-ai-imageclas/stanford-cars.tgz

область обработки естественного языка

1) Большой набор данных обзора фильмов IMDb

Набор данных для бинарной классификации настроений, который содержит 25 000 обзоров фильмов для обучения и 25 000 обзоров фильмов для тестирования, которые характеризуются крайней поляризацией. Кроме того, набор данных также содержит немаркированные данные, доступные для использования.

Ссылка: http://ai.stanford.edu/~amaas/papers/wvSent_acl2011.pdf

Адрес загрузки: https://s3.amazonaws.com/fast-ai-nlp/imdb.tgz

2) Викитекст-103

Набор данных из более чем 100 миллионов предложений, извлеченных из хороших и избранных статей Википедии. Широко используется в языковом моделировании, включая предварительно обученные модели, часто используемые в библиотеке fastai и алгоритме ULMFiT.

Ссылка: https://arxiv.org/abs/1609.07843

Адрес загрузки: https://s3.amazonaws.com/fast-ai-nlp/wikitext-103.tgz

3) Викитекст-2

Подмножество Wikitext-103, в основном используемое для проверки эффекта обучения языковой модели на небольших наборах данных.

Ссылка: https://arxiv.org/abs/1609.07843

Адрес загрузки: https://s3.amazonaws.com/fast-ai-nlp/wikitext-2.tgz

4) WMT 2015, параллельные тексты на французском и английском языках.

Французский/английский параллельный текст для обучения моделей перевода с более чем 20 миллионами французских и английских предложений. Этот набор данных был создан Крисом КаллисонБёрчем, который просматривает миллионы веб-страниц, затем использует набор простых эвристик для преобразования французских URL-адресов в английские URL-адреса и по умолчанию использует переводы между этими документами.

Ссылка: https://www.cis.upenn.edu/~ccb/publications/findings-of-the-wmt09-shared-tasks.pdf

Адрес загрузки: https://s3.amazonaws.com/fast-ai-nlp/giga-fren.tgz

5) Новости АГ

496 835 новостных статей из более чем 2000 источников новостей в 4 категориях AG News Corpus, набор данных ссылается только на поля заголовка и описания. Каждая категория имеет 30 000 обучающих и 1900 тестовых выборок соответственно.

Ссылка: https://arxiv.org/abs/1509.01626

Адрес загрузки: https://s3.amazonaws.com/fast-ai-nlp/ag_news_csv.tgz

6) Обзоры Amazon - Полный

34 686 770 отзывов от 6 643 669 пользователей Amazon о 2 441 053 продуктах, набор данных в основном получен из Стэнфордского проекта сетевого анализа (SNAP). Каждая категория набора данных содержит 600 000 обучающих и 130 000 тестовых выборок соответственно.

Ссылка: https://arxiv.org/abs/1509.01626

Адрес загрузки: https://s3.amazonaws.com/fast-ai-nlp/amazon_review_full_csv.tgz

7) Обзоры Amazon — полярность

34 686 770 отзывов от 6 643 669 пользователей Amazon о 2 441 053 продуктах, набор данных в основном получен из Стэнфордского проекта сетевого анализа (SNAP). Каждый набор данных о полярности настроений для этого подмножества содержит 1 800 000 обучающих выборок и 200 000 тестовых выборок соответственно.

Ссылка: https://arxiv.org/abs/1509.01626

Адрес загрузки: https://s3.amazonaws.com/fast-ai-nlp/amazon_review_polarity_csv.tgz

8) Онтология DBPedia

40 000 обучающих выборок и 5 000 тестовых выборок для 14 непересекающихся классов из DBpedia 2014.

Ссылка: https://arxiv.org/abs/1509.01626

Адрес загрузки: https://s3.amazonaws.com/fast-ai-nlp/dbpedia_csv.tgz

9) Новости Согу

2 909 551 новостная статья из 5 категорий новостных корпусов SogouCA и SogouCS. Каждая категория содержит 90 000 обучающих и 12 000 тестовых выборок соответственно. Эти китайские иероглифы были преобразованы в пиньинь.

Ссылка: https://arxiv.org/abs/1509.01626

Адрес загрузки: https://s3.amazonaws.com/fast-ai-nlp/sogou_news_csv.tgz

10) Yahoo! Ответы

10 основных категорий данных из набора данных «Всеобъемлющие вопросы и ответы 1.0» Yahoo! Каждая категория содержит 140 000 обучающих и 5 000 тестовых выборок соответственно.

Ссылка: https://arxiv.org/abs/1509.01626

Адрес загрузки: https://s3.amazonaws.com/fast-ai-nlp/yahoo_answers_csv.tgz

11) Yelp обзоры - Полный

1 569 264 образца из набора данных Yelp Dataset Challenge 2015 года. Каждый рейтинг содержит 130 000 обучающих и 10 000 тестовых выборок соответственно.

Ссылка: https://arxiv.org/abs/1509.01626

Адрес загрузки: https://s3.amazonaws.com/fast-ai-nlp/yelp_review_full_csv.tgz

12) Отзывы Yelp — полярность

1 569 264 образца из набора данных Yelp Dataset Challenge 2015 года. Различные полярности в этом подмножестве содержат 280 000 обучающих выборок и 19 000 тестовых выборок соответственно.

Ссылка: https://arxiv.org/abs/1509.01626

Адрес загрузки: https://s3.amazonaws.com/fast-ai-nlp/yelp_review_polarity_csv.tgz

Обнаружение цели и позиционирование

1) Camvid: набор данных для сегментации и распознавания движения

Набор данных из 700 сегментов изображений, содержащих семантическую сегментацию на уровне пикселей, каждое изображение было проверено и подтверждено вторым человеком для обеспечения точности данных.

Цитирование: https://pdfs.semanticscholar.org/08f6/24f7ee5c3b05b1b604357fb1532241e208db.pdf

Адрес загрузки: https://s3.amazonaws.com/fast-ai-imagelocal/camvid.tgz

2) Классы визуальных объектов PASCAL (VOC)

Стандартный набор данных изображений для распознавания классов — версии 2007 и 2012 доступны здесь. Версия 2012 года имеет 20 категорий. 11 530 изображений обучающих данных содержат 27 450 объектов с аннотациями ROI и 6 929 данных сегментации объектов.

Ссылка: http://host.robots.ox.ac.uk/pascal/VOC/pubs/everingham10.pdf

Адрес загрузки: https://s3.amazonaws.com/fast-ai-imagelocal/pascal-voc.tgz

Набор данных COCO

В настоящее время наиболее часто используемый набор данных для обнаружения и позиционирования изображений должен принадлежать набору данных COCO (полное название — Common Objects in Context). В этой статье представлены все файлы для набора данных COCO за 2017 год, а также подмножество набора данных, созданное fast.ai. Мы можем получить подробную информацию о каждом наборе данных COCO на странице загрузки набора данных COCO (http://cocodataset.org/#download). Подмножество данных, созданное fast.ai, содержит все изображения из пяти выбранных категорий: стулья, диваны, пульты от телевизора, книги и вазы.

Набор данных подмножества, созданный fast.ai: https://s3.amazonaws.com/fast-ai-coco/coco_sample.tgz

Набор обучающих изображений: https://s3.amazonaws.com/fast-ai-coco/train2017.zip

Набор данных контрольного изображения: https://s3.amazonaws.com/fast-ai-coco/val2017.zip

Набор тестовых изображений: https://s3.amazonaws.com/fast-ai-coco/test2017.zip

Набор данных изображений без меток: https://s3.amazonaws.com/fast-ai-coco/unlabeled2017.zip.

Детали набора данных тестового изображения: https://s3.amazonaws.com/fast-ai-coco/image_info_test2017.zip

Подробная информация о наборе данных изображений без меток: https://s3.amazonaws.com/fast-ai-coco/image_info_unlabeled2017.zip.

Набор аннотаций для обучения/проверки: https://s3.amazonaws.com/fast-ai-coco/annotations_trainval2017.zip

Набор аннотаций для обучения/проверки предмета: https://s3.amazonaws.com/fast-ai-coco/stuff_annotations_trainval2017.zip

Набор аннотаций для паноптического обучения/проверки: https://s3.amazonaws.com/fast-ai-coco/panoptic_annotations_trainval2017.zip

Сборщик наборов данных: Хуан Шаньцин (только для обучения)