Если эта статья может вам помочь, я надеюсь, что вы подпишитесь на нее и поделитесь ею! (Благодарность)

Создание систем искусственного интеллекта или машинного обучения стало проще, чем когда-либо прежде. Повсеместное распространение передовых инструментов с открытым исходным кодом, таких как TensorFlow, Torch и Spark, в сочетании с огромной вычислительной мощностью через AWS, Google Cloud или облачные вычисления от других поставщиков означает, что вы можете использовать свой ноутбук в свободное время во второй половине дня для обучения. Современные модели машинного обучения.

Важность наборов данных для моделей глубокого обучения очевидна, однако, в зависимости от характера, типа и области, наборы данных часто разбросаны по разным ресурсным платформам, и людям срочно нужно в них разобраться.

Без данных наши модели машинного обучения и глубокого обучения ничего не могут сделать. Скажем так, люди, которые создают наборы данных, которые позволяют нам обучать модели, — наши герои, хотя часто они не получают должного признания. К счастью, наиболее ценные наборы данных позже стали «академическими эталонами» — широко цитируемыми исследователями, особенно при сравнении изменений алгоритмов; многие имена стали нарицательными как внутри, так и вне круга, такие как MNIST, CIFAR 10, Imagenet и т. д. .

Если вы использовали эти наборы данных в своем исследовании, мы надеемся, что вы не забудете цитировать оригинальные статьи (мы предоставили ссылки на цитирование в форме); если вы используете их как часть коммерческого или образовательного проекта, рассмотрите возможность добавления подтверждения вместе с исходной ссылкой набора данных.

Мы часто цитируем эти наборы данных в нашем обучении, потому что они являются отличными примерами типов данных, с которыми учащиеся могут столкнуться, и потому что учащиеся могут сравнивать свою собственную работу с научной работой, ссылаясь на эти наборы данных, тем самым добиваясь прогресса. Кроме того, мы также будем использовать набор данных Kaggle Competitions, общедоступные списки лидеров Kaggle позволяют учащимся тестировать свои модели на лучших в мире наборах данных, но набор данных Kaggle не будет представлен в этой форме.

поле классификации изображений

1) МНИСТ

Классический небольшой (28x28 пикселей) набор данных рукописных цифр в градациях серого был разработан в 1990-х годах для тестирования самых сложных моделей того времени; сегодня набор данных MNIST больше считается базовым учебником по глубокому обучению. Версия набора данных fast.ai отказывается от исходного специального двоичного формата в пользу стандартного формата PNG для нормального рабочего процесса в большинстве кодовых баз сегодня; если вы просто хотите использовать тот же единственный входной канал, что и исходный, просто выберите один фрагмент в ось канала.

Ссылка: http://yann.lecun.com/exdb/publis/index.html#lecun-98

Адрес загрузки: https://s3.amazonaws.com/fast-ai-imageclas/mnist_png.tgz

2) СИФАР10

10 категорий, до 60 000 цветных изображений размером 32x32 пикселя (50 000 обучающих и 10 000 тестовых изображений), в среднем 6 000 изображений на категорию. Широко используется для тестирования производительности новых алгоритмов. Версия набора данных fast.ai отказывается от исходного специального двоичного формата в пользу

Стандартный формат PNG для обычного рабочего процесса, который сегодня используется в большинстве кодовых баз.

Ссылка: https://www.cs.toronto.edu/~kriz/learning-features-2009-TR.pdf

Адрес загрузки: https://s3.amazonaws.com/fast-ai-imageclas/cifar10.tgz

3) СИФАР100

Как и CIFAR-10, разница в том, что CIFAR-100 имеет 100 категорий, каждая категория содержит 600 изображений (500 обучающих изображений и 100 тестовых изображений), а затем эти 100 категорий делятся на 20 суперклассов. Таким образом, каждое изображение в наборе данных имеет метку «точно» (класс, к которому оно принадлежит) и метку «грубо» (надкласс, к которому оно принадлежит).

Ссылка: https://www.cs.toronto.edu/~kriz/learning-features-2009-TR.pdf

Адрес загрузки: https://s3.amazonaws.com/fast-ai-imageclas/cifar100.tgz

4) Калтех-UCSD Birds-200-2011

Набор данных изображений, содержащий фотографии 200 видов птиц (в основном птиц Северной Америки), которые можно использовать для работы по распознаванию изображений. Количество категорий: 200, количество изображений: 11 788, среднее количество аннотаций на изображение: 15 локальных местоположений, 312 бинарных атрибутов и 1 ограничительная рамка.

Ссылка: http://vis-www.cs.umass.edu/bcnn/

Адрес загрузки: https://s3.amazonaws.com/fast-ai-imageclas/CUB_200_2011.tgz

5) Калтех 101

Набор данных изображений содержит 101 категорию элементов, в среднем от 40 до 800 изображений в каждой категории, и большая часть категории имеет фиксированное количество около 50 изображений. Каждое изображение имеет размер примерно 300 x 200 пикселей. Этот набор данных также можно использовать для обнаружения и локализации объектов.

Ссылка: http://www.vision.caltech.edu/feifeili/Fei-Fei_GMBV04.pdf

Адрес загрузки: https://s3.amazonaws.com/fast-ai-imageclas/caltech_101.tar.gz

6) Оксфорд-IIIT Pet

Набор данных изображений, содержащий 37 категорий домашних животных, по 200 изображений в каждой категории. Эти изображения имеют богатые вариации масштаба, позы и освещения. Этот набор данных также можно использовать для обнаружения и локализации объектов.

Ссылка: http://www.robots.ox.ac.uk/~vgg/publications/2012/parkhi12a/parkhi12a.pdf

Адрес загрузки: https://s3.amazonaws.com/fast-ai-imageclas/oxford-iiit-pet.tgz

7) Оксфорд 102 цветка

Набор данных изображений, содержащий 102 категории цветов (в основном некоторые распространенные категории цветов в Великобритании), по 40–258 изображений в каждой категории. Эти изображения имеют богатые вариации масштаба, позы и освещения.

Ссылка: http://www.robots.ox.ac.uk/~vgg/publications/papers/nilsback08.pdf

Адрес загрузки: https://s3.amazonaws.com/fast-ai-imageclas/oxford-102-flowers.tgz

8) Еда-101

Набор данных изображений содержит 101 категорию продуктов питания, в общей сложности 101 000 изображений, в среднем 250 тестовых изображений и 750 обучающих изображений на категорию. Обучающие изображения не очищаются от данных. Все изображения были масштабированы до максимальной длины стороны 512 пикселей.

Цитирование: https://pdfs.semanticscholar.org/8e3f/12804882b60ad5f59aad92755c5edb34860e.pdf

Адрес загрузки: https://s3.amazonaws.com/fast-ai-imageclas/food-101.tgz

9) Стэнфордские автомобили

Набор данных изображений содержит 196 категорий автомобилей, в общей сложности 16 185 изображений, включая 8 144 обучающих изображения и 8 041 тестовое изображение, а соотношение типов изображений в каждой категории составляет в основном 55 к 50. Категории этого набора данных в основном основаны на марке, модели и году выпуска автомобиля.

Цитирование: https://ai.stanford.edu/~jkrause/papers/3drr13.pdf

Адрес загрузки: https://s3.amazonaws.com/fast-ai-imageclas/stanford-cars.tgz

область обработки естественного языка

1) Большой набор данных обзора фильмов IMDb

Набор данных для бинарной классификации настроений, который содержит 25 000 обзоров фильмов для обучения и 25 000 обзоров фильмов для тестирования, которые характеризуются крайней поляризацией. Кроме того, набор данных также содержит немаркированные данные, доступные для использования.

Ссылка: http://ai.stanford.edu/~amaas/papers/wvSent_acl2011.pdf

Адрес загрузки: https://s3.amazonaws.com/fast-ai-nlp/imdb.tgz

2) Викитекст-103

Набор данных из более чем 100 миллионов предложений, извлеченных из хороших и избранных статей Википедии. Широко используется в языковом моделировании, включая предварительно обученные модели, часто используемые в библиотеке fastai и алгоритме ULMFiT.

Ссылка: https://arxiv.org/abs/1609.07843

Адрес загрузки: https://s3.amazonaws.com/fast-ai-nlp/wikitext-103.tgz

3) Викитекст-2

Подмножество Wikitext-103, в основном используемое для проверки эффекта обучения языковой модели на небольших наборах данных.

Ссылка: https://arxiv.org/abs/1609.07843

Адрес загрузки: https://s3.amazonaws.com/fast-ai-nlp/wikitext-2.tgz

4) WMT 2015, параллельные тексты на французском и английском языках.

Французский/английский параллельный текст для обучения моделей перевода с более чем 20 миллионами французских и английских предложений. Этот набор данных был создан Крисом КаллисонБёрчем, который просматривает миллионы веб-страниц, затем использует набор простых эвристик для преобразования французских URL-адресов в английские URL-адреса и по умолчанию использует переводы между этими документами.

Ссылка: https://www.cis.upenn.edu/~ccb/publications/findings-of-the-wmt09-shared-tasks.pdf

Адрес загрузки: https://s3.amazonaws.com/fast-ai-nlp/giga-fren.tgz

5) Новости АГ

496 835 новостных статей из более чем 2000 источников новостей в 4 категориях AG News Corpus, набор данных ссылается только на поля заголовка и описания. Каждая категория имеет 30 000 обучающих и 1900 тестовых выборок соответственно.