Kaggle — любимая платформа для соревнований по науке о данных для многих новичков в области анализа данных и машинного обучения.
На этой платформе много наборов данных, близких к реальным бизнес-сценариям, которые очень подходят для практики.
Сегодня я рекомендую небольшой инструмент для загрузки наборов данных kaggle — kaggleAPI.
После того, как настройка завершена, можно написать скрипт, а загружать данные потом будет гораздо удобнее.
Установить
pip install kaggle
Выполнить после установки
kaggle compeitions list
Затем будет сообщено об ошибке, указывающей на отсутствие файла kaggle.json, поэтому игнорируйте его.
Этот шаг в основном предназначен для запуска и создания папки конфигурации, обычно на диске C-user-username.kaggle.
настроить
Войти на официальный сайт kaggleНажмите на аватарку в правом верхнем углу и выберите АккаунтПосле ввода прокрутите до нижнего API и выберите «Создать новый токен API».
Затем он автоматически загрузит файл kaggle.json и сохранит его в папке .kaggle на первом этапе.
Скачать набор данных
Сделайте следующее снова
kaggle compeitions list
Вы можете посмотреть некоторые недавние конкурсы, ориентируйтесь на следующие призы ?
Помимо списка, у соревнований kaggle есть и другие применения, которые не будут обсуждаться.
kaggle competitions {list, files, download, submit, submissions, leaderboard}
Загрузите наборы данных, которые всем интересны больше всего
kaggle datasets{list,files,download,create,version,init,metadata,status}
Чаще используются: list (список доступных наборов данных), files (файлы данных), download (загрузка)
kaggle datasets list
использование
usage: kaggle datasets list [-h] [--sort-by SORT_BY]
[--size SIZE] [--file-type FILE_TYPE] [--license LICENSE_NAME]
[--tags TaG_IDS] [-s SEARCH] [-m] [--user USER] [-p PAGE] [-v]
Здесь есть два часто используемых параметра: -s поиск, после него можно добавить ключевые слова; -p сколько строк отображать, по умолчанию 20
kaggle datasets download
использование
usage: kaggle datasets download
[-h] [-f FILE_NAME] [-p PATH] [-w] [--unzip]
[-o] [-q][dataset]
Более реальное использование
Если вы просто выполните команду загрузки в cmd, это будет излишним.Мы также можем использовать kaggleAPI для написания сценариев оболочки для выполнения более сложного использования, например:
#!/bin/sh
DATASET="noxmoon/chinese-official-daily-news-since-2016"
ARCHIVE_FILE="chinese-official-daily-news-since-2016.zip"
DATA_FILE="chinese_news.csv"
DATA_DIR="data"
COL_NAME="headline"
LINES=3000
OUTPUT_FILE="headlines.txt"
if [ -d ${DATA_DIR} ]; then
echo ${DATA_DIR}' exists, please remove it before running the script'
exit 1
fi
echo "Creating dir"
mkdir -p ${DATA_DIR}
cd ${DATA_DIR}
kaggle datasets download -d ${DATASET}
unzip ${ARCHIVE_FILE}
echo "Deleting original dataset archive"
rm -f ${ARCHIVE_FILE}
echo "Extracting, cutting, shuffling data"
awk -v col=$COL_NAME -F "\"*,\"*" '{print $COL_NAME}' $DATA_FILE | shuf -n 3000 > ${OUTPUT_FILE}
Скачать - разархивировать за один раз!