Аннотация: В декабре 2021 года с вами также официально встретится версия CANN 5.0. Благодаря совместной оптимизации программного и аппаратного обеспечения эта версия удвоит эффективность обучения и покажет «китайскую скорость» в области ИИ с его сила!
Эта статья опубликована в сообществе HUAWEI CLOUD.«Первый взгляд на хардкорную технологию CANN 5.0», Автор: kourei.
1. Введение
В сентябре 2018 года родилась платформа CANN 1.0 Huawei Ascend AI с поддержкой искусственного интеллекта;
В августе 2020 года была выпущена версия 3.0 CANN.В качестве гетерогенной вычислительной архитектуры, специально ориентированной на сценарии ИИ, она создала мост между структурой глубокого обучения верхнего уровня и базовой аппаратной платформой ИИ.Эффективность разработки и производительность являются ведущими в отрасли, и он может поддерживать пользователей во всех аспектах искусственного интеллекта.Требования к интеллектуальным вычислениям.
В прошлом году CANN объединила усилия с более чем 200 университетами/исследовательскими институтами, чтобы постоянно способствовать развитию научных исследований в области ИИ;
Благодаря поддержке архитектуры CANN модель искусственного интеллекта Pangu с сотнями миллиардов параметров обеспечивает беспрецедентную коммерческую ценность;
Количество разработчиков в сообществе Ascend выросло со 100 000 до 400 000, а экологический лагерь процветает…
В декабре 2021 года с вами также официально встретится версия CANN 5.0.Благодаря совместной оптимизации программного и аппаратного обеспечения эта версия удвоит эффективность обучения и своей силой продемонстрирует «Китайскую скорость» в области ИИ!
Сначала положите несколько пасхальных яиц, чтобы все успели заглянуть!
2. Базовая технология обеспечивает исключительную производительность
По сравнению с версией 3.0, CANN 5.0 может обеспечить повышение производительности от 30% до 140% в типичных сценариях логического вывода, крупномасштабное кластерное обучение и обучение общей модели могут даже удвоить производительность;
Какие ключевые технологии стоят за значительным улучшением производительности CANN 5.0?
2.1 Автоматический поток задач
Долгая операция загрузки данных во время запуска вычислений будет блокировать скорость запуска последующих вычислительных конвейеров, что недопустимо, так же как мобильный телефон можно включать только при достижении зарядом мощности 20%.
CANN 5.0 реализует многоконвейерный параллелизм для вычислительных инструкций и загрузки данных.Эта оптимизация позволяет пользователям сегментировать загруженные данные.Когда загруженные данные соответствуют объему сегментированных данных, последующая логика расчета запускается немедленно, а последующие данные загружаются непрерывно. Когда последующие сегментированные данные загружены, а конвейер простаивает, последующие вычисления запускаются последовательно, давая полную возможность многоконвейерному параллелизму процессора Ascend AI и реализуя бесшовное многоконвейерное соединение.
2.2 Оператор Deep Fusion
Поскольку структура сети становится все более и более сложной, нельзя игнорировать снижение производительности, связанное с перемещением данных в память и из нее, а также с несколькими операторами, соответствующими нескольким инструкциям.
CANN 5.0 идентифицирует больше сценариев слияния на основе 3.0, уменьшает количество вычислительных узлов за счет автоматического слияния нескольких операторов и эффективно уменьшает количество копий в памяти, что дает разработчикам больше преимуществ в производительности вычислений.
2.3 Сегментация адаптивного градиента
В крупномасштабных сценариях обучения кластеров обычно требуются тысячи итерационных вычислений, и каждая итерация включает послойные расчеты с прямой связью в прямом и обратном направлениях.
Большинство алгоритмов синхронного обновления требуют, чтобы перед началом следующего раунда итеративного прямого вычисления данные градиента должны быть синхронизированы между вычислительными узлами для завершения обновления веса. Это приводит к промежутку ожидания между двумя итерациями, известному как коммуникационный хвост.
CANN 5.0 автоматически ищет оптимальный метод сегментации параметров градиента с помощью интеллектуального алгоритма сегментации градиента, выбирает подходящее время связи и объем связи для передачи градиента, максимизирует параллельное выполнение вычислений и связи и минимизирует время задержки связи. тренировки для достижения оптимальной производительности.
2.4 Настройка интеллектуальных вычислений AutoTune
Как нельзя ожидать, что одна и та же бьюти-камера сможет приукрасить несравненную красоту, так и для разных сетей при использовании всех простых стратегий сегментации данных вычислительный блок будет загружен не полностью и производительность не будет соответствовать ожиданиям.
CANN 5.0 настраивает оптимальную стратегию сегментации сети с помощью интеллектуальной технологии сегментации данных, реализует вычисления с полной загрузкой одного вычислительного блока и полностью использует аппаратные ресурсы, тем самым обеспечивая значительный выигрыш в производительности.
В то же время, чтобы решить проблему трудоемкой настройки, CANN 5.0 задает большое количество правил оптимизации модели, что может значительно сократить время настройки и предоставить пользователям отличный опыт настройки.
3. Снизьте порог для использования разработчиками
Помимо сюрпризов в производительности, CANN 5.0 еще больше упрощает разработку кода и методы отладки на основе 3.0, помогая разработчикам добиться эффективной разработки ИИ.
-
Поддержка автоматической миграции моделей, нет необходимости вручную изменять код, завершите трансплантацию модели одним щелчком мыши и сразу же представьте себе прирост вычислительной мощности, обеспечиваемый ИИ-процессором Ascend 910.
-
Поддержка смешанного программирования, напрямую вызывайте функцию оператора в приложении и автоматически завершайте компиляцию, загрузку и выполнение.
- Поддержка автоматической генерации тестового кода оператора, и может выполнить результат одним щелчком мыши.
4. Использование сверхбольших моделей для ускорения инноваций
4.1 Поддержка моделей со сверхбольшими параметрами
За последние два года в отрасли появилось много крупных моделей, таких как GPT-3, с объемом параметров до 175 млрд. Для одной большой модели требуется 3 ТБ дискового пространства в месяц, а потребность в вычислительной мощности составляет еще больше ошеломляет.
Чтобы решить проблему «откладывания» модели и позволить пользователям использовать ее по-дружески, что вряд ли нужно менять исходный код, CANN5.0 находится на уровне «компилятора ИИ», в оптимизаторе градиент, вес и т. д. Модели обучаются параллельно в каждом измерении.
Благодаря распараллеливанию моделей на разных уровнях исходные модели, которые невозможно отложить, развертываются в кластере распределенным образом и могут обучаться с высокой загрузкой вычислительной мощности. Взяв в качестве примера модель Megatron на 8,3 миллиарда долларов, потребность в памяти для одной карты снижена с примерно 180 ГБ до менее чем 16 ГБ, так что сверхбольшая модель может быть «подогнана».
4.2 Поддержка расчета сверхбольших изображений
Кроме того, в некоторых сценариях приложений также может возникнуть проблема большого размера входных данных.
Например, в области применения дистанционного зондирования часто необходимо определить местонахождение корабля в бескрайнем море и определить местонахождение самолета в бескрайнем небе: 4*30000*30000 или даже больше, размер одной выборки часто 2-3 ГБ, и расчет больших изображений стал проблемой «застрявшей шеи» в развитии индустрии приложений для дистанционного зондирования.
CANN 5.0 помогает Уханьскому университету создать LuojiaNet, первую в мире специализированную платформу для дистанционного зондирования, чтобы решить проблему «крупноформатной, многоканальной» обработки изображений дистанционного зондирования. Эксперименты показывают, что точность модели FCN8S значительно повышается при обработке наборов данных ДЗЗ (разрешение изображения 30 000*30 000). В ней скрыто множество ключевых технологий:
1. Что делать, если картинка слишком большая, а видеопамяти недостаточно?
Воспользуйтесь всеми преимуществами кластера, завершите автоматическую сегментацию изображений в соответствии с объемом данных и масштабом кластера и разверните их на каждом вычислительном узле.
2. Что делать, если диапазон признаков большой, признак потерян, а край искажен?
Перед операцией свертки текущего среза автоматически вычисляются данные о перекрытии с характеристиками соседних срезов, чтобы предоставить контекстную информацию для текущего среза и обеспечить точность изображения.
3. Как эффективно обмениваться перекрывающимися данными?
С помощью эффективного оператора alltoallv данные передаются и принимаются между соседними узлами для обеспечения неблокирующего обмена данными.
CANN5.0 полагается на автоматическую декомпозицию и параллельную технологию, чтобы сделать обработку сверхбольших моделей такой же простой, как и обычные модели.Считается, что с помощью версии CANN5.0 индустрия ИИ продолжит ускорять инновации и открывать новый эпидемический период.
5. ModelZoo полностью поддерживает основные модели в отрасли.
ModelZoo — это предпочтительная библиотека моделей, предоставляемая Ascend, а загруженные модели можно напрямую эффективно выполнять на процессорах искусственного интеллекта Ascend. В настоящее время CANN 5.0 полностью поддерживает более 400 основных моделей в отрасли, включая TensorFlow, PyTorch и ONNX, и значительно улучшена полнота операторов.
Разработчики могут двигатьсяСообщество Вознесения Modelzooопыт.
6. Благодаря власти общественности экологический лагерь процветает.
Являясь базовой программной платформой для искусственного интеллекта, CANN продолжает совершать прорывы в базовых возможностях и ключевых технологиях, но если мы хотим идти дальше, мы можем работать только вместе. В прошлом году экосистема CANN для разработчиков работала в полную силу:
На данный момент активность сообщества Shengteng утроилась по сравнению с прошлым годом, оно объединило 400 000 разработчиков и 3 000 основных разработчиков, а в 2022 году планирует создать 1 миллион разработчиков и 10 000 основных разработчиков; оно аккумулировало более 200 разработчиков Университетские исследовательские группы сотрудничали, и проект Zhongzhi предоставил более 200 моделей и 500+ операторов.
Сбор — это огонь, а экологическое строительство — движущая сила устойчивого развития индустрии искусственного интеллекта.Благодаря открытому, совместному и взаимовыгодному подходу CANN будет продолжать работать с партнерами для поддержки индустрии искусственного интеллекта во всех направлений и множественных измерений, и помогите процветанию и развитию искусственного интеллекта!
Нажмите «Подписаться», чтобы впервые узнать о новых технологиях HUAWEI CLOUD~