Артефакт арены Galloping AI Challenger Навыки использования обучающей платформы UCloud AI

искусственный интеллект TensorFlow Docker модульный тест
Артефакт арены Galloping AI Challenger Навыки использования обучающей платформы UCloud AI

Недавно был запущен «AI Challenger Global AI Challenge», запущенный Innovation Works, Sogou и Toutiao. Ведущий китайский поставщик услуг облачных вычислений UCloud, как единственный партнер конкурса AI GPU, предоставляет эксклюзивные услуги по обучению модели AI для конкурса ( UCloud AI Train). Чтобы помочь участникам AI Challenger лучше подготовиться к соревнованию и ответить на вопросы, UCloud предлагает серию упражнений по разъяснению навыков использования обучающей платформы AI для официальных лиц соревнования.

Официальная поддержка

В 20:00 12 сентября 2017 г. Фан Ронг, эксперт по искусственному интеллекту из UCloud Lab, представил участникам конкурса и энтузиастам ИИ прекрасное объяснение, рассказав об обзоре и особенностях сервисов обучения ИИ, а также на простом примере Tensorflow Mnist и соревнованиях. навыки и умения.

Основные преимущества сервиса обучения искусственному интеллекту UCloud

  • Основанный на кластере графических карт P40 и производительности с одинарной точностью 12TFlops, он может помочь игрокам быстро выполнять тренировочные задачи;
  • Используя технологию контейнера Docker, игрокам не нужно устанавливать работающую среду, а нужно только иметь клиент Docker локально, а затем они могут упаковать локальный код в контейнер Docker с помощью базового образа и инструментов автоматической упаковки, предоставляемых UCloud для проверить текущие результаты;
  • Используйте политику оплаты по мере использования. Плата будет рассчитываться только тогда, когда тренировочное задание, отправленное игроком, действительно начнется. Более того, благодаря отслеживанию задач в режиме реального времени игроки могут прекратить тренировку в любой момент, помогая игрокам тратить каждую копейку на край.

 

Возможности сервиса обучения искусственному интеллекту UCloud

1. Упаковка локального кода в один клик

  • процесс упаковки кода

Код проигрывателя —> ввести параметры замены uflag.py —> вызвать инструмент упаковки tf_deploy.py —> код проверки образа локального процессора —> отправить обучающее задание (выбрать соответствующий образ графического процессора).

2. Мониторинг онлайн-тренировок в режиме реального времени

  • Мониторинг фазы выполнения: ожидание, запуск, выполнение, остановка, ненормальный, прерванный, завершенный;
  • Журнал тренировок в реальном времени: 5-секундное обновление ротации, исторический журнал в UFile;
  • Диаграмма TensorBoard в реальном времени: просмотр в реальном времени, загрузка данных в UFile.

 

Простые шаги для легкого запуска Tensorflow Mnist

После понимания характеристик службы обучения ИИ в качестве примера будет использоваться алгоритм цифрового распознавания Mnist на официальном веб-сайте Tensorflow, чтобы увидеть, как стандартная задача обучения ИИ может быть запущена на платформе обучения ИИ UCloud после нескольких простых действий. поправки. .

Шаг 1. Настройте ссылки на параметры кода
Предположим, у вас уже есть файл mnist_summary.py, скопированный с официального сайта TensorFlow. Предпосылка перезаписи этого файла заключается в том, что он может использоваться сервисом обучения искусственного интеллекта UCloud. Затем сначала необходимо установить UCloud SDK локально, способ установки описан ниже. Основная цель перезаписи кода — привести способ передачи параметров исходного кода обучения в соответствие со спецификациями сервисов обучения ИИ. Ссылочный код дал переписанный mnist_summary.py.

1. Загрузите SDK:
git clone https://github.com/ucloud/uai-sdk
cd uai-sdk
sudo python setup.py install

2. Справочный код
https://github.com/ucloud/uai-sdk/blob/master/examples/tensorflow/train/mnist_summary_1.1/mnist_summary.py

3. Метод модификации локального кода

3.1 Добавить флаг импорта
Строка 34: from uaitrain.arch.tensorflow import uflag

3.2 Убедитесь, что на фиксированные параметры UCloud можно только ссылаться, но не изменять

  • Путь выполнения программы (FLAGS.work_dir):/data
    Как правило, цитаты не используются
  • Корневой путь входных данных (FLAGS.data_dir): /data/data

Строка 44: mnist = input_data.read_data_sets(FLAGS.data_dir, one_hot=True)

  • Корневой путь выходных данных (FLAGS.output_dir): /data/output

Строка 180: save_path = saver.save(sess, FLAGS.output_dir + "/model.ckpt")

  • Корневой путь данных TensorBoard (FLAGS.log_dir): /data/output

Строка 144: train_writer = tf.summary.FileWriter(FLAGS.log_dir + '/train', sess.graph)

Строка 145: train_writer = tf.summary.FileWriter(FLAGS.log_dir + '/test')

3.3 (Необязательно) Другие переменные параметры регистрируются с помощью tf.app.flags

Шаг 2: Упаковка в один клик

1. Скопируйте инструмент tf_deploy.py

2. Параметры вызова:

2.1 параметры относятся к учетной записи UCloud

  • Вам необходимо использовать учетную запись UCloud, пароль, открытый ключ, закрытый ключ, зеркальный репозиторий и другую информацию, зарегистрированную участником.Чтобы узнать о способе приобретения, обратитесь к «Руководству пользователя Docker» в письме о регистрации.

2.2 Зеленые параметры относятся к уровню пути хранения кода (см. рисунок)

  • code_path — это корневой путь, по которому находится обучающий код, и должен быть указан как относительный путь;
  • test_data_path, test_output_path — это локальные тестовые пути обучающих данных и результатов обучения, и эти два пути должны быть указаны как абсолютные пути.

2.3 Параметры оранжевого цвета могут быть настроены пользователем

  • uhub_imagename, uhub_imagetag — имя и метка запакованного образа, игроки могут назвать его сами;
  • train_params повторяет пользовательские параметры на предыдущем шаге, можно передавать пользовательские параметры (в данном случае параметры Learning_rate). При отправке задачи в следующий раз измените значение параметра.

3. Результат вызова:

3.1 Локальный тест: образ ЦП, команда «CMD для локального теста ЦП»

3.2 Информация о записи: имя образа графического процессора, команда «CMD, используемая для развертывания».

Шаг 3. Отправьте данные для обучения

1. Загрузить данные
Если вы используете официальные данные, вы можете пропустить этот шаг и использовать официальный URL пути напрямую.

2. Получить адрес
Извлеките URL-адрес в префикс, например: http://yourbucket.ufile.ucloud.com.cn//yourprefix/.

Шаг 4. Отправьте обучающее задание

Описание параметра:
1. Открытый ключ и закрытый ключ: см. «Руководство пользователя UFile».
2. Путь к изображению кода: переключите «Изображение пользователя», чтобы выбрать изображение графического процессора, созданное инструментом упаковки.
3. Путь ввода данных:
Самостоятельная обработка данных: перехват URL-адреса с префиксом, например: http://yourbucket.ufile.ucloud.com.cn//inputprefix/

Официальные данные, заполнять по треку:
Описание изображения на китайском языке: http://ai-challenger-caption.cn-bj.ufileos.com//ai_challenger_caption_train_20170902/
Классификация сцен: http://ai-challenger-scene.cn-bj.ufileos.com//ai_challenger_scene_train_20170904/
Ключевые точки человеческого скелета: http://ai-challenger-keypoint.cn-bj.ufileos.com//ai_challenger_keypoint_train_20170902/
Путь вывода данных: его можно изменить во входном пути, например: http://yourbucket.ufile.ucloud.com.cn//outputprefix/

4. Команда запуска обучения: файл uaitrain_cmd.txt Команда «CMD, используемая для развертывания».

Резюме: Миграция тренера TensorFlow
Первый шаг: переписать код так, чтобы он ссылался на фиксированные параметры uflag (Flag.data_dir, Flag.output_dir, Flag.log_dir);
Шаг 2: Используйте tf_deploy.py для упаковки и загрузки образа;
Шаг 3: Загрузите Ufile для обучающих данных (можно пропустить);
Шаг 4: Заполните форму «Создать тренировочное задание».

Советы по использованию конкурса
1. Используйте образ локального процессора для проверки
Используйте образ возможностей ЦП, сгенерированный локальным инструментом упаковки, для локального тестирования и проверки, чтобы не сообщать об ошибках на стороне сервера и не тратить время, отведенное на обучение.
2. Обрабатывайте обучающие данные TFRecords самостоятельно
Используйте TFRecords для обработки тренировочных данных и отправки собственных тренировочных данных в UFile, что может значительно сократить время загрузки данных (официальное время загрузки набора данных составляет около 4 часов).
3. Контролируйте частоту печати журнала
Контролируйте частоту печати стандартного потока вывода во время процесса обучения. Слишком большое количество журналов приведет к ненужным взаимодействиям ввода-вывода и замедлит выполнение программы обучения.
4. Вовремя прекращайте ненормальные тренировки
В полной мере используйте журналы в реальном времени и диаграммы TensorBoard для отслеживания аномалий обучения.Если тренд данных не соответствует ожиданиям или превышает соответствие, вы должны вовремя остановить обучение и скорректировать параметры.
5. Сохраните и загрузите контрольную точку
Хорошо поработайте над сохранением и загрузкой контрольных точек.Когда обучение достигает максимального времени или сервер, на котором находится обучение, неисправен, промежуточные результаты обучения можно сохранить в UFile. Чтобы вы могли перезапустить задачу, чтобы продолжить обучение позже, вам не нужно начинать с нуля.

Решение UCloud с искусственным интеллектом

Помимо описанных выше услуг по обучению ИИ, UCloud предлагает полный набор публичных облачных решений для ИИ: на уровне IaaS UCloud предоставляет мощный облачный хост GPU с графической картой P40 в качестве ядра, на уровне PaaS — Онлайн-сервисы ИИ и услуги по обучению ИИ. Это позволяет пользователям сосредоточиться на алгоритме и оградить себя от технических проблем, которые могут возникнуть при реализации проекта (таких как выбор фреймворка глубокого обучения, построение работающей среды, обеспечение высокой доступности кластеров и т. д.). Наконец, UCloud Safe House гарантирует конфиденциальность, целостность и отслеживаемость взаимодействия с данными. Есть надежда, что весь этот набор решений может помочь все большему количеству выдающихся личностей, университетов, предприятий и команд реализовать проекты ИИ и способствовать прогрессу отечественной науки и техники.

приложение
Ниже приведены 6 видео-руководств пользователя, которые помогут вам быстрее использовать продукты UCloud AI.
1. Как получить имя проекта:V.QQ.com/small/afraid/at 054…
2. Как получить открытый ключ API и закрытый ключ:V.qq.com/маленький/страх/ой 054...
3. Как использовать UHub для загрузки и скачивания изображений обучающего кода:V.QQ.com/small/afraid/day 054…
4. Как использовать UFile для загрузки и выгрузки данных о тренировках:V.QQ.com/small/afraid/just 054…
5. Как использовать ИИ Train запускает тренировочную задачу:V.QQ.com/small/afraid/V054…
6. Аутентификация по реальному имени:V.QQ.com/small/afraid/054…

Для получения дополнительной технической информации и информации о мероприятии вы можете отсканировать приведенный ниже QR-код и подписаться на общедоступную учетную запись WeChat на «Доске технических объявлений UCloud» или выполнить поиск по идентификатору WeChat: ucloud_tech, чтобы подписаться.

Post Views: 735