Недавно был запущен «AI Challenger Global AI Challenge», запущенный Innovation Works, Sogou и Toutiao. Ведущий китайский поставщик услуг облачных вычислений UCloud, как единственный партнер конкурса AI GPU, предоставляет эксклюзивные услуги по обучению модели AI для конкурса ( UCloud AI Train). Чтобы помочь участникам AI Challenger лучше подготовиться к соревнованию и ответить на вопросы, UCloud предлагает серию упражнений по разъяснению навыков использования обучающей платформы AI для официальных лиц соревнования.
Официальная поддержка
В 20:00 12 сентября 2017 г. Фан Ронг, эксперт по искусственному интеллекту из UCloud Lab, представил участникам конкурса и энтузиастам ИИ прекрасное объяснение, рассказав об обзоре и особенностях сервисов обучения ИИ, а также на простом примере Tensorflow Mnist и соревнованиях. навыки и умения.
Основные преимущества сервиса обучения искусственному интеллекту UCloud
- Основанный на кластере графических карт P40 и производительности с одинарной точностью 12TFlops, он может помочь игрокам быстро выполнять тренировочные задачи;
- Используя технологию контейнера Docker, игрокам не нужно устанавливать работающую среду, а нужно только иметь клиент Docker локально, а затем они могут упаковать локальный код в контейнер Docker с помощью базового образа и инструментов автоматической упаковки, предоставляемых UCloud для проверить текущие результаты;
- Используйте политику оплаты по мере использования. Плата будет рассчитываться только тогда, когда тренировочное задание, отправленное игроком, действительно начнется. Более того, благодаря отслеживанию задач в режиме реального времени игроки могут прекратить тренировку в любой момент, помогая игрокам тратить каждую копейку на край.
Возможности сервиса обучения искусственному интеллекту UCloud
1. Упаковка локального кода в один клик
- процесс упаковки кода
Код проигрывателя —> ввести параметры замены uflag.py —> вызвать инструмент упаковки tf_deploy.py —> код проверки образа локального процессора —> отправить обучающее задание (выбрать соответствующий образ графического процессора).
2. Мониторинг онлайн-тренировок в режиме реального времени
- Мониторинг фазы выполнения: ожидание, запуск, выполнение, остановка, ненормальный, прерванный, завершенный;
- Журнал тренировок в реальном времени: 5-секундное обновление ротации, исторический журнал в UFile;
- Диаграмма TensorBoard в реальном времени: просмотр в реальном времени, загрузка данных в UFile.
Простые шаги для легкого запуска Tensorflow Mnist
После понимания характеристик службы обучения ИИ в качестве примера будет использоваться алгоритм цифрового распознавания Mnist на официальном веб-сайте Tensorflow, чтобы увидеть, как стандартная задача обучения ИИ может быть запущена на платформе обучения ИИ UCloud после нескольких простых действий. поправки. .
Шаг 1. Настройте ссылки на параметры кода
Предположим, у вас уже есть файл mnist_summary.py, скопированный с официального сайта TensorFlow. Предпосылка перезаписи этого файла заключается в том, что он может использоваться сервисом обучения искусственного интеллекта UCloud. Затем сначала необходимо установить UCloud SDK локально, способ установки описан ниже. Основная цель перезаписи кода — привести способ передачи параметров исходного кода обучения в соответствие со спецификациями сервисов обучения ИИ. Ссылочный код дал переписанный mnist_summary.py.
1. Загрузите SDK:
git clone https://github.com/ucloud/uai-sdk
cd uai-sdk
sudo python setup.py install
2. Справочный код
https://github.com/ucloud/uai-sdk/blob/master/examples/tensorflow/train/mnist_summary_1.1/mnist_summary.py
3. Метод модификации локального кода
3.1 Добавить флаг импорта
Строка 34: from uaitrain.arch.tensorflow import uflag
3.2 Убедитесь, что на фиксированные параметры UCloud можно только ссылаться, но не изменять
- Путь выполнения программы (FLAGS.work_dir):/data
Как правило, цитаты не используются - Корневой путь входных данных (FLAGS.data_dir): /data/data
Строка 44: mnist = input_data.read_data_sets(FLAGS.data_dir, one_hot=True)
- Корневой путь выходных данных (FLAGS.output_dir): /data/output
Строка 180: save_path = saver.save(sess, FLAGS.output_dir + "/model.ckpt")
- Корневой путь данных TensorBoard (FLAGS.log_dir): /data/output
Строка 144: train_writer = tf.summary.FileWriter(FLAGS.log_dir + '/train', sess.graph)
Строка 145: train_writer = tf.summary.FileWriter(FLAGS.log_dir + '/test')
3.3 (Необязательно) Другие переменные параметры регистрируются с помощью tf.app.flags
Шаг 2: Упаковка в один клик
1. Скопируйте инструмент tf_deploy.py
2. Параметры вызова:
2.1 параметры относятся к учетной записи UCloud
- Вам необходимо использовать учетную запись UCloud, пароль, открытый ключ, закрытый ключ, зеркальный репозиторий и другую информацию, зарегистрированную участником.Чтобы узнать о способе приобретения, обратитесь к «Руководству пользователя Docker» в письме о регистрации.
2.2 Зеленые параметры относятся к уровню пути хранения кода (см. рисунок)
- code_path — это корневой путь, по которому находится обучающий код, и должен быть указан как относительный путь;
- test_data_path, test_output_path — это локальные тестовые пути обучающих данных и результатов обучения, и эти два пути должны быть указаны как абсолютные пути.
2.3 Параметры оранжевого цвета могут быть настроены пользователем
- uhub_imagename, uhub_imagetag — имя и метка запакованного образа, игроки могут назвать его сами;
- train_params повторяет пользовательские параметры на предыдущем шаге, можно передавать пользовательские параметры (в данном случае параметры Learning_rate). При отправке задачи в следующий раз измените значение параметра.
3. Результат вызова:
3.1 Локальный тест: образ ЦП, команда «CMD для локального теста ЦП»
3.2 Информация о записи: имя образа графического процессора, команда «CMD, используемая для развертывания».
Шаг 3. Отправьте данные для обучения
1. Загрузить данные
Если вы используете официальные данные, вы можете пропустить этот шаг и использовать официальный URL пути напрямую.
2. Получить адрес
Извлеките URL-адрес в префикс, например: http://yourbucket.ufile.ucloud.com.cn//yourprefix/.
Шаг 4. Отправьте обучающее задание
Описание параметра:
1. Открытый ключ и закрытый ключ: см. «Руководство пользователя UFile».
2. Путь к изображению кода: переключите «Изображение пользователя», чтобы выбрать изображение графического процессора, созданное инструментом упаковки.
3. Путь ввода данных:
Самостоятельная обработка данных: перехват URL-адреса с префиксом, например: http://yourbucket.ufile.ucloud.com.cn//inputprefix/
Официальные данные, заполнять по треку:
Описание изображения на китайском языке: http://ai-challenger-caption.cn-bj.ufileos.com//ai_challenger_caption_train_20170902/
Классификация сцен: http://ai-challenger-scene.cn-bj.ufileos.com//ai_challenger_scene_train_20170904/
Ключевые точки человеческого скелета: http://ai-challenger-keypoint.cn-bj.ufileos.com//ai_challenger_keypoint_train_20170902/
Путь вывода данных: его можно изменить во входном пути, например: http://yourbucket.ufile.ucloud.com.cn//outputprefix/
4. Команда запуска обучения: файл uaitrain_cmd.txt Команда «CMD, используемая для развертывания».
Резюме: Миграция тренера TensorFlow
Первый шаг: переписать код так, чтобы он ссылался на фиксированные параметры uflag (Flag.data_dir, Flag.output_dir, Flag.log_dir);
Шаг 2: Используйте tf_deploy.py для упаковки и загрузки образа;
Шаг 3: Загрузите Ufile для обучающих данных (можно пропустить);
Шаг 4: Заполните форму «Создать тренировочное задание».
Советы по использованию конкурса
1. Используйте образ локального процессора для проверки
Используйте образ возможностей ЦП, сгенерированный локальным инструментом упаковки, для локального тестирования и проверки, чтобы не сообщать об ошибках на стороне сервера и не тратить время, отведенное на обучение.
2. Обрабатывайте обучающие данные TFRecords самостоятельно
Используйте TFRecords для обработки тренировочных данных и отправки собственных тренировочных данных в UFile, что может значительно сократить время загрузки данных (официальное время загрузки набора данных составляет около 4 часов).
3. Контролируйте частоту печати журнала
Контролируйте частоту печати стандартного потока вывода во время процесса обучения. Слишком большое количество журналов приведет к ненужным взаимодействиям ввода-вывода и замедлит выполнение программы обучения.
4. Вовремя прекращайте ненормальные тренировки
В полной мере используйте журналы в реальном времени и диаграммы TensorBoard для отслеживания аномалий обучения.Если тренд данных не соответствует ожиданиям или превышает соответствие, вы должны вовремя остановить обучение и скорректировать параметры.
5. Сохраните и загрузите контрольную точку
Хорошо поработайте над сохранением и загрузкой контрольных точек.Когда обучение достигает максимального времени или сервер, на котором находится обучение, неисправен, промежуточные результаты обучения можно сохранить в UFile. Чтобы вы могли перезапустить задачу, чтобы продолжить обучение позже, вам не нужно начинать с нуля.
Решение UCloud с искусственным интеллектом
Помимо описанных выше услуг по обучению ИИ, UCloud предлагает полный набор публичных облачных решений для ИИ: на уровне IaaS UCloud предоставляет мощный облачный хост GPU с графической картой P40 в качестве ядра, на уровне PaaS — Онлайн-сервисы ИИ и услуги по обучению ИИ. Это позволяет пользователям сосредоточиться на алгоритме и оградить себя от технических проблем, которые могут возникнуть при реализации проекта (таких как выбор фреймворка глубокого обучения, построение работающей среды, обеспечение высокой доступности кластеров и т. д.). Наконец, UCloud Safe House гарантирует конфиденциальность, целостность и отслеживаемость взаимодействия с данными. Есть надежда, что весь этот набор решений может помочь все большему количеству выдающихся личностей, университетов, предприятий и команд реализовать проекты ИИ и способствовать прогрессу отечественной науки и техники.
приложение
Ниже приведены 6 видео-руководств пользователя, которые помогут вам быстрее использовать продукты UCloud AI.
1. Как получить имя проекта:V.QQ.com/small/afraid/at 054…
2. Как получить открытый ключ API и закрытый ключ:V.qq.com/маленький/страх/ой 054...
3. Как использовать UHub для загрузки и скачивания изображений обучающего кода:V.QQ.com/small/afraid/day 054…
4. Как использовать UFile для загрузки и выгрузки данных о тренировках:V.QQ.com/small/afraid/just 054…
5. Как использовать ИИ
Train запускает тренировочную задачу:V.QQ.com/small/afraid/V054…
6. Аутентификация по реальному имени:V.QQ.com/small/afraid/054…
Для получения дополнительной технической информации и информации о мероприятии вы можете отсканировать приведенный ниже QR-код и подписаться на общедоступную учетную запись WeChat на «Доске технических объявлений UCloud» или выполнить поиск по идентификатору WeChat: ucloud_tech, чтобы подписаться.
Post Views: 735