AutoML Startup Intelligence Cube: естественный отбор и выживание сильнейших в моделях

искусственный интеллект глубокое обучение дизайн алгоритм

Сердце машины Оригинал, автор: Цю Лулу.

От появления регрессионного анализа до энергичного развития глубокого обучения эволюционный путь этого алгоритма не столько «машины заменяют людей», сколько «машины помогают людям делать то, в чем мы не очень хороши». Этот список «плохо умеет» включает «не умеет находить закономерности из большого количества данных», «не умеет оптимизировать большое количество переменных одновременно», «не умеет извлекать признаки из многомерных данных». ". Сегодня другая группа исследователей размышляет о том, не умеют ли люди также «не уметь проектировать и настраивать модели» и как машины могут помочь. За последние два года компании, представленные Google, еще раз привлекли внимание общественности к этой проблеме от имени AutoML, пытаясь выяснить, может ли эта технология позволить большему количеству отраслевых экспертов преодолеть инженерные барьеры и алгоритмы, и только использовать профессиональные навыки.По мере накопления знаний и данных разработка алгоритмов глубокого обучения может быть завершена с помощью машин.

В Китае Tanzhi Cube является компанией с таким видением.Эта компания, которая была создана в начале этого года, занимается разработкой платформы с возможностью «автономного проектирования моделей» - DarwinML - на основе эволюционных алгоритмов, чтобы найти модели, не полагающиеся на «эволюционный путь» искусственного проектирования, чтобы снизить порог применения искусственного интеллекта, чтобы ИТ-персонал и отраслевые эксперты в различных отраслях могли легче внедрять искусственный интеллект в различные подходящие и необходимые сценарии, решающие нехватку талантов и технологий Общая проблема недостаточного потенциала.

В июле Heart of the Machine взяла интервью у двух основателей Exploring Intelligence Cube, технического директора Цянь Гуангруи и директора по продукту Сун Ю, чтобы получить более глубокое представление об этой системе AutoML для практических приложений.

Сердце машины: какие проблемы надеется решить интеллектуальный куб с помощью AutoML?

Сун Ю: AutoML — концепция не новая, за последние два года она привлекла к себе всеобщее внимание, потому что все видят, что распределение самого набора данных тесно связано с моделью. Если модель с очень хорошим эффектом на бумаге применить к специальной сцене, производительность модели сильно ухудшится. Два-три года назад все больше и больше людей улучшали модель в виде «настройки гиперпараметров». Были предприняты различные попытки найти разумное пространство решений, близкое к оптимальному, от методов, основанных на правилах, до байесовских методов; по мере необходимости появилось множество автоматизированных инструментов для настройки гиперпараметров. Позже все выяснили, что помимо гиперпараметров иногда необходимо изменить структуру сети и так далее. Наконец все стали думать: может ли машина сконструировать какие-то модели.

Когда мы оптимизировали модель раньше, мы также чувствовали, что самым ограниченным ресурсом является человеческое время. Поэтому с прошлого года мы стараемся максимально абстрагировать процесс оптимизации модели в чисто математическую задачу, а затем использовать мощную вычислительную мощность машины для поиска глобального оптимального решения в ограниченное время и пространство путем поиска и подгонка. Сегодня Smart Cube фокусируется на AutoML для решения проблемы автоматического проектирования и оптимизации моделей приложений, связанных с искусственным интеллектом, в реальной среде.

Сердце машины: какие есть категории AutoML? Что из этого выбрал Интеллектуальный куб?

Цянь Гуанжуй:В отрасли существует около трех видов алгоритмов AutoML, выученных из «головы». В дополнение к эволюционным алгоритмам существуют также самые ранние алгоритмы обучения с чистым подкреплением, представленные Google. В настоящее время, с точки зрения статей и практических эффектов, эффективность эволюционных алгоритмов выше, чем у обучения с подкреплением. Кроме того, в настоящее время изучаются методы метаобучения.

Сами эволюционные алгоритмы также имеют множество ветвей, таких как «эволюционные стратегии» и «эволюционные методы». Google использует эволюционный подход, а OpenAI использует алгоритм «эволюционной стратегии». «Платформа DarwinML» Detective Cube представляет собой систему AutoML, основанную на «эволюционном» типе алгоритма.

Конечно, если это метод AutoML, не требующий обучения у «головы», то есть и предустановленная библиотека моделей, из которой выбирается соответствующая модель для оптимизации или миграции.

Сердце машины: на чем сосредоточена работа в AutoML для интеллектуального куба?

Сон Ю:Что отличает нас от других академических учреждений, так это то, что мы хотим обеспечить интерпретируемость модели с точки зрения AutoML.

Сегодняшнее исследование интерпретируемости больше сводится к тому, чтобы попросить исследователей вывести веса или активации промежуточных слоев извлечения признаков, изучить влияние каждого слоя, а затем передать свои наблюдения машине. Но время человека ограничено, и мы хотим, чтобы машина завершила этот процесс сама.

Мы хотим, чтобы машина сама резюмировала то, что было извлечено при «извлечении признаков». Узнайте, почему конкретная комбинация метода извлечения и вычисления функции потерь может сделать градиентный спуск более быстрым и с меньшими потерями при воздействии на конкретное распределение данных, а затем интерпретируйте это знание в машинопонятном представлении данных и получите обратную связь Система становится атрибутом предоставить руководство для следующего проекта и повысить эффективность дизайна.

Другими словами, мы также практикуем, может ли «мозг» проектирования моделей становиться все умнее и умнее, и может ли он быстро сократить время проектирования с «четырех дней до точности 80%» при разработке моделей для аналогичных задач или типов данных. день или даже несколько часов для достижения той же точности? Могут ли первые несколько поколений моделей войти в область решений, очень близкую к оптимальному решению, не делая слишком много обходных путей.

Цянь Гуанжуй: Большинство текущих академических исследований AutoML сосредоточено на самой методологии, но мы уделяем больше внимания тому, как позволить пользователям технологии AutoML объединять фактические данные и внедрять их в проекты.

Мы разработали «Платформу DarwinML». В процессе помощи большому количеству пользователей в изучении их собственных данных и обучении их собственных моделей платформа также стала умнее и эффективнее, помогая пользователям решать проблемы.


Сердце машины: кто является целевой базой пользователей платформы DarwinML? Что нужно сделать пользователю, чтобы выполнить задание? Что делает платформа?

Сун Ю: Платформа DarwinML — это платформа управления полным жизненным циклом.Конечная цель этой платформы — стать платформой для автоматической разработки моделей, позволяющей бизнес-персоналу или людям, не специализирующимся на исследованиях ИИ, разрабатывать модели, отвечающие бизнес-целям.

Что нужно сделать пользователю, так это подготовить данные и сделать некоторые выборы вычислительной мощности и ожидаемых эффектов: верхний предел используемой вычислительной мощности, требования к точности модели, максимальное время обучения и т. д. Пользователи, имеющие представление об алгоритме и опыт проектирования моделей, также могут задавать параметры в процессе проектирования модели, такие как максимальная эволюционная алгебра эволюционного алгоритма, максимальная ожидаемая глубина модели и даже динамически исключать ненужные "" в конструкции модели.гены», доля эволюционных операторов, регулирующих действие тех или иных изменений и т.д.

Остальная часть очистки данных, проектирования модели, обучения, настройки, оценки и рассуждений автоматически выполняется на платформе.

Сердце машины. Можете ли вы описать процесс, посредством которого платформа выполняет задачу?

Сун Ю: Во-первых, «Платформа DarwinML» будет извлекать статистическую информацию из данных и устанавливать начальные условия для эволюции в соответствии со статистической информацией, включая количество популяций модели, максимальное количество итераций эволюции, распределение распределенных вычислительных ресурсов. и пользовательские настройки, ограничение вычислительной мощности и т. д.

Затем платформа начинает автоматизировать проектирование модели. При переходе к каждому поколению модель будет оцениваться один раз, чтобы выбрать направление дальнейшей эволюции, и в то же время предотвратить популяцию, то есть общую скороспелость всех моделей (избегать повторного использования одних и тех же или похожих моделей с лучшими результатами). на ранней стадии и постарайтесь, чтобы выбор рассредоточился в пространстве решений).

Когда эволюция достигнет требуемой заказчиком степени точности или ограничения по времени, платформа DarwinML исправит структуру модели для еще одной тонкой настройки параметра и одновременно выполнит локальную оптимизацию гиперпараметров.

Наконец, после завершения всего процесса характеристики модели, аппаратная конфигурация и различные показатели производительности возвращаются пользователю в виде отчета.

Сердце машины: каковы основные строительные блоки модели?

Цянь Гуанжуй: Причина, по которой наша платформа называется «DarwinML», заключается в том, что ее основной алгоритм является эволюционным алгоритмом. Основная идея реализации эволюционных алгоритмов такая же, как и моделирование процесса биологической эволюции в природе.

Точно так же, как животные начинаются с одноклеточных животных и генерируют новых особей путем перекреста ДНК и мутаций во время размножения, дизайн нашей модели также начинается с инициализации модельной популяции первого поколения, сохраняя размер популяции в основном неизменным, и развивается из поколения в поколение. , Создавайте лучшие модели.

Для машинного обучения и глубокого обучения платформа использует один и тот же эволюционный базовый алгоритм, но базовые строительные блоки (которые мы называем «генами») для машинного и глубокого обучения, соответственно, различаются. Таким образом, гены являются основными строительными блоками в процессе создания модели «DarwinML Platform».

Модельный «ген» машинного обучения включает в себя некоторые операции предварительной обработки данных, такие как кластеризация и импьютер, а также более 40 базовых операций машинного обучения, связанных с такими задачами, как регрессия и классификация, и более 120 вариантов. Библиотека «генов» глубокого обучения еще больше и сложнее.Она включает в себя различные гены нейронов глубокого обучения, такие как модули свертки, модули LSTM, объединение, полностью связанные слои и т. д., и когда некоторые «гены» объединяются вместе. формируется более крупный «большой» модуль с отличными характеристиками, он также закрепится и станет новым «геном». Имея более 120 инициализированных генофондов глубокого обучения в сочетании с постоянно развивающимися более сложными «большими» генофондами, можно сделать так, чтобы модели машинного обучения и глубокого обучения имели как можно больше структурных вариаций и модулей. позволяет нам исследовать некоторые области за пределами человеческого воображения и обнаружить некоторые модельные структуры, которые отличаются от нашего известного опыта.

Сердце машины: Как проходил процесс первоначального создания модели?

Цянь Гуанжуй:В начальной популяции есть два источника моделей. Во-первых, платформа DarwinML случайным образом выбирает «гены» в соответствии с распределением данных и автоматически генерирует некоторые модели. Кроме того, мы также поддерживаем запуск с некоторых «отличных» исходных моделей, предоставленных самими пользователями.

Процесс генерации инициализации модели включает ряд операций инициализации, подобных «бросанию игральной кости», и ряд моделей генерируется случайным образом в соответствии с предварительно определенной глубиной и общим количеством нейронов. Разумеется, платформа DarwinML также извлечет уроки из предыдущего опыта обучения модели в сочетании с параметрами, введенными пользователем, чтобы изменить задачу инициализации с простой ситуации броска игральной кости на задачу настройки сгенерированного распределения в соответствии с характеристиками. данных. Например, система определит на основе прошлого опыта, что модели с менее чем 20 слоями могут дать хорошие результаты; или, чтобы учесть производительность модели, когда необходимо принять во внимание низкую задержку развертывание, как спроектировать модель с не более чем 50 нейронами Model.

Сердце машины: Можете ли вы описать эволюцию модели?

Цянь Гуанжуй:Платформа DarwinML будет обучать, оценивать и ранжировать случайно сгенерированные модели первого поколения. Затем, в соответствии с правилом эволюционного алгоритма «выживает наиболее приспособленный», выберите вероятность того, что каждый ген может быть «унаследован»: теоретически лучшая особь будет иметь наибольшую возможность произвести новое потомство, чтобы гарантировать, что качество произведенный индивидуум становится все лучше и лучше.

Существует несколько способов создания следующего поколения новых моделей из одного поколения моделей:

Одним из них является операция мутации, которая заменяет несколько «генов» в модели поколения. Либо удалите слой в модели целиком, либо скопируйте его целиком. Во-вторых, это операция кроссовера или наследственности.Например, модели двух поколений делятся на три части, средняя часть модели A удаляется, а средняя часть модели B заменяется. В-третьих, чтобы обеспечить разнообразие, продолжайте генерировать некоторые случайные операции (random) и используйте тот же метод, что и в первом поколении, для случайной генерации новых моделей.

В то же время платформа DarwinML также представляет три метода, основанные на байесовском методе, на основе поиска по дереву Монте-Карло (MCTS) и на основе обучения с подкреплением, чтобы направлять генетический алгоритм для поиска. Байесовские методы используются для расчета распределения вероятности улучшения модели следующего поколения, MCTS обеспечивает проектирование возможных разумных моделей на основе результатов, полученных при поиске по дереву, а обучение с подкреплением не ограничивается полностью самими изменениями модели, а основывается на конкретных эволюция.После процесса оценка модели и другая входная информация обновляют Q-таблицу, чтобы направлять создание более разумной модели и направления эволюции.

Время генерации эволюции определяется объемом данных и вычислительной мощностью.Эволюция генерации генерации на 4 GPU для модели глубокого обучения с размером данных CIFAR занимает около 10-20 минут. Для модели машинного обучения с 4 миллионами фрагментов данных требуется около 5-6 часов для развития поколения на 100 ядрах ЦП.

С точки зрения эволюционной алгебры модели машинного обучения обычно имеют около 15-20 моделей на поколение и не превышают 20 поколений. Модели глубокого обучения обычно относятся к поколению 30-40 или даже больше. В целом, чем сложнее модель, тем больше требуется модельных популяций и эволюционных поколений.

Сердце машины. Можете ли вы представить эволюцию платформы DarwinML?

Сун Ю: На приведенном выше рисунке представлена ​​схема модели процесса эволюции на основе набора данных CIFAR-10. Каждый круг представляет собой модель, размер круга представляет производительность модели, и чем больше круг, тем лучше производительность; положение круга от центра представляет собой алгебру эволюции модели, а внешняя модель сгенерированы позже; красный цвет означает, что модель управляется случайной генерацией, синий означает сгенерирован с помощью операции наследственности, зеленый означает сгенерирован с помощью операции мутации. Из этого рисунка видно, что алгоритм очень эффективен и направлен и развивается в лучшем направлении. В то же время в левом нижнем углу рисунка видно, что производительность следующих поколений моделей относительно стабильна, и большинство из них происходят от одного и того же родителя. В некоторых сложных данных более сложная модель «карта семейства» ясно расскажет нам о процессе эволюции модели.В сочетании с характеристиками модели мы можем лучше изучить, какие «отличные» модули (структуры) наследуются от поколения к поколению. , который обеспечивает поддержку данных для интерпретируемости модели. (Следующий рисунок)

Сон Ю:Следующие две диаграммы представляют собой две схемы расчетов моделей, основанные на одних и тех же данных анализа рисков и автоматически разработанные платформой DarwinML. Первая модель pop3 — лучшая в третьем поколении, а вторая модель pop8 — лучшая в восьмом поколении.

Модель pop3 достигла точности 98%, а pop8 — 99%. Но по сравнению с ним сетевая структура pop3 намного сложнее. Это пример управления процессом эволюции путем добавления штрафного члена в процессе эволюции. Даже если функция потерь или точность аналогичны, разница между итоговой оценкой простой модели и сложной модели будет относительно большой. Введение штрафных условий позволяет системе проектировать более эффективные сети вместо более сложных.

Кроме того, это задача классификации, но машина включает алгоритмы регрессии в процесс проектирования модели. Машина не ограничивает виды генов, поскольку конечной целью является классификация, а поиск оптимального решения в более широком диапазоне. Здесь машина считает, что лучше извлечь признаки методами регрессии, а затем передать их классификатору.

Еще одно интересное явление для Pop8 заключается в том, что метод предварительной обработки данных «Quantile Transformer» применяется перед классификатором и алгоритмом SVC, но не перед алгоритмом K-близости. Это не правило, установленное вручную, а правило, сформулированное машиной после долгих тренировок.

С точки зрения инженеров-людей мы знаем, что преобразование непрерывных переменных в дискретные полезно для классификаторов и алгоритмов SVC, особенно когда размерность данных высока, а распределение разбросано, это хороший способ избежать переполнения. Однако ядром алгоритма K-близости является вычисление расстояния, поэтому квантильное преобразование данных внесет ненужный шум и приведет к деформации распределения данных.

Это наш анализ модели постфактум, а сама модель полностью спроектирована машиной в процессе эволюции, и в ней нет искусственно заданной информации или структуры.

Сердце машины: имеет ли системная платформа DarwinML отраслевую направленность?

Сон Ю:Мы надеемся, что платформа может обслуживать различные отрасли, поэтому наши случаи применения также являются межотраслевыми: мы делаем модели, связанные с контролем рисков в финансовой сфере, модели распознавания изображений в сфере страхования, а также медицинские электронные файлы и профессиональные медицинские записи в медицинской сфере. Распознавание речи терминологии, проверка качества и анализ выхода продукции в производстве.

Цель платформы DarwinML — всесторонне снизить технический порог ИИ, независимо от отрасли. В любой отрасли, если имеется достаточно данных, бизнес-персонал, а не эксперты по алгоритмам, может заниматься «ИИ». Мы надеемся создать полноценную экосистему искусственного интеллекта* на основе *DarwinML*, *включая корпоративные группы обслуживания клиентов, общие облачные платформы и сообщества разработчиков, чтобы удовлетворить ожидания и потребности клиентов корпоративного уровня в искусственном интеллекте во всех аспектах.

Сердце машины. Почему вы решили начать свой бизнес с точки зрения AutoML?

Цянь Гуанжуй:Моя исследовательская работа на докторской стадии была тесно связана с эволюционными алгоритмами и высокопроизводительными вычислениями.В то время моя основная работа заключалась в использовании крупномасштабных вычислительных методов для изучения материаловедения в области высокотемпературных материалов и материалов высокого давления. которые были совершенно неизвестны людям. В то время мы использовали эволюционные алгоритмы. Комбинируя расчеты из первых принципов, мы разработали то, что до сих пор является ведущим в мире пакетом программного обеспечения для предсказания структуры материалов. На этапе IBM мы с Сун Ю разработали платформу искусственного интеллекта для корпоративных пользователей.

Сун Ю: Моим ранним опытом были высокопроизводительные вычисления и базовые базы данных, а позже я разработал платформу моделирования верхнего уровня, которая поддерживает основные среды глубокого обучения, такие как Torch, Caffe и TensorFlow. В процессе мы обнаружили, что дизайн модели был самой сложной частью. В то время мы использовали множество методов настройки гиперпараметров, чтобы попытаться найти лучшую модель за короткий период времени с ограниченной вычислительной мощностью, но проектирование модели все еще было очень проблематичным.

Мы считаем, что в области ИИ есть два направления, которые заслуживают больших человеческих усилий: одно — проектирование самой функции потерь, а другое — как использовать модель ИИ в конкретной прикладной области. Кроме того, проектирование модели и ее настройка являются трудоемкими и бессмысленными задачами. Хотя сегодня это основная работа специалистов по данным и алгоритмов, со временем мы обнаруживаем, что модели очень похожи, и как только мы суммируем это как дифференцируемую и выводимую математическую проблему, тогда «дизайн» машины , скорость «найти лучшее» даже так же быстро, как у человека.

Последний конкурс ImageNet — очень интересный пример. Модель-победитель в этом сеансе на самом деле не была моделью с новой структурой, но Hikvision выполнила точную настройку, используя большую вычислительную мощность. Это доказывает, что с учетом временного ограничения в один год машины превзошли людей в плане настройки параметров. С точки зрения настройки гиперпараметров и даже проектирования структуры модели причина та же: мы твердо верим, что это работа, которую машины могут помочь людям выполнить или даже сделать лучше, чем люди.