Авторы: Баррет Зоф, Виджай Васудеван, Джонатон Шленс и Куок Ле, ученые-исследователи, команда Google Brain
Несколько месяцев назад мы запустилиAutoMLПроекты, способ автоматизации проектирования моделей машинного обучения. Хотя мы обнаружили, что с помощью AutoML можно проектировать небольшие нейронные сети с производительностью, сравнимой с теми, которые разработаны экспертами-людьми, эти результаты по-прежнему ограничены Небольшие академические наборы данных, такие как CIFAR-10 и Penn Treebank. Мы оцениваем этот подход на более крупных и сложных наборах данных (например,ImageNetЛюбопытна производительность по классификации изображений и обнаружению объектов COCO. В академических соревнованиях люди изобрели множество современных архитектур машинного обучения для обработки этих наборов данных.
существуетИзучение переносимых архитектур для масштабируемого распознавания изображенийВ этой статье мы применяем AutoML к классификации изображений ImageNet иCOCOНаборы данных обнаружения объектов — ImageNet и COCO — два наиболее признанных крупномасштабных академических набора данных в области компьютерного зрения. Эти два набора данных представляют для нас очень большую проблему, потому что они на много порядков больше, чем наборы данных CIFAR-10 и Penn Treebank. Например, для применения AutoML непосредственно к ImageNet потребовались бы месяцы обучения нашему методу.
Чтобы иметь возможность применить наш метод к ImageNet, мы внесли две корректировки в подход AutoML, чтобы упростить обработку больших наборов данных:
При классификации изображений ImageNet NASNet достигает точности предсказания 82,7% на проверочном наборе, превосходя все начальные модели, которые мы построили ранее [2, 3, 4]. Кроме того, NASNet достигает повышения точности на 1,2% по сравнению со всеми ранее опубликованными результатами, что соответствует лучшему неопубликованному результату, опубликованному на arxiv.org [5]. NASNet также можно масштабировать для создания ряда моделей, которые могут обеспечить высокую точность при очень низких вычислительных издержках. Например, небольшая версия NASNet может достигать точности 74%, что является улучшением по сравнению с современными моделями сопоставимого масштаба для мобильных платформ. 3,1%. Большой NASNet обеспечивает высочайшую точность при вдвое меньших вычислительных затратах по сравнению с лучшим результатом, опубликованным на arxiv.org, SENet [5].
Мы также переносим изученные функции из ImageNet в обнаружение объектов. В экспериментах, объединяющих функции, изученные в классификации ImageNet, со структурой Faster-RCNN [6], мы превзошли ранее опубликованные лучшие результаты прогнозирования в задаче обнаружения объектов COCO, независимо от того, выполнялась ли задача обнаружения на самой большой модели или на мобильном устройстве. оптимизированная для устройства модель, результаты все те же. Наша самая большая модель достигла среднего уровня точности (mAP) 43,1%, что на 4% лучше лучших опубликованных результатов.
Мы считаем, что функции изображения, изученные NASNet на ImageNet и COCO, могут быть повторно использованы для многих приложений компьютерного зрения. Поэтому мыSlimиобнаружение объектаТензорФлоу NASNet имеет открытый исходный код в кодовой базе, что удобно для всех, чтобы использовать его для рассуждений в классификации изображений и обнаружении объектов. Мы надеемся, что более широкое сообщество машинного обучения будет использовать эти модели для построения работы по решению многих проблем компьютерного зрения, о которых мы еще не думали.
Особая благодарностьДжефф Дин, Ифэн Лу, Джонатан Хуанг, Вивек Ратод, Серджио Гуадаррама, Чен Сун, Джонатан Шен, Виши Тирумалашетти, Сяоцян Чжэн, Кристиан Большая помощь в этом проекте от Sigg и команды Google Brain.
использованная литература
[1] Learning Transferable Architectures for Scalable Image Recognition, Barret Zoph, Vijay Vasudevan, Jonathon Shlens, and Quoc V. Le.Arxiv, 2017.
[2] Going Deeper with Convolutions, Christian Szegedy, Wei Liu, Yangqing Jia, Pierre Sermanet, Scott Reed, Dragomir Anguelov, Dumitru Erhan, Vincent Vanhoucke, and Andrew Rabinovich.CVPR, 2015.
[3] Rethinking the inception architecture for computer vision, Christian Szegedy, Vincent Vanhoucke, Sergey Ioffe, Jonathon Shlens, and Zbigniew Wojna.CVPR, 2016.
[4] Inception-v4, Inception-ResNet and the Impact of Residual Connections on Learning, Christian Szegedy, Sergey Ioffe, Vincent Vanhoucke, and Alex Alemi.AAAI, 2017.
[5] Squeeze-and-Excitation Networks, Jie Hu, Li Shen and Gang Sun.Arxiv, 2017.
[6] Faster R-CNN:Towards Real-Time Object Detection with Region Proposal Networks, Shaoqing Ren, Kaiming He, Ross Girshick and Jian Sun.NIPS, 2015.
Несколько месяцев назад мы запустилиAutoMLПроекты, способ автоматизации проектирования моделей машинного обучения. Хотя мы обнаружили, что с помощью AutoML можно проектировать небольшие нейронные сети с производительностью, сравнимой с теми, которые разработаны экспертами-людьми, эти результаты по-прежнему ограничены Небольшие академические наборы данных, такие как CIFAR-10 и Penn Treebank. Мы оцениваем этот подход на более крупных и сложных наборах данных (например,ImageNetЛюбопытна производительность по классификации изображений и обнаружению объектов COCO. В академических соревнованиях люди изобрели множество современных архитектур машинного обучения для обработки этих наборов данных.
существуетИзучение переносимых архитектур для масштабируемого распознавания изображенийВ этой статье мы применяем AutoML к классификации изображений ImageNet иCOCOНаборы данных обнаружения объектов — ImageNet и COCO — два наиболее признанных крупномасштабных академических набора данных в области компьютерного зрения. Эти два набора данных представляют для нас очень большую проблему, потому что они на много порядков больше, чем наборы данных CIFAR-10 и Penn Treebank. Например, для применения AutoML непосредственно к ImageNet потребовались бы месяцы обучения нашему методу.
Чтобы иметь возможность применить наш метод к ImageNet, мы внесли две корректировки в подход AutoML, чтобы упростить обработку больших наборов данных:
- Мы переработали пространство поиска, чтобы AutoML находил лучшие слои и гибко складывал их несколько раз для создания окончательной сети.
- Мы выполнили поиск архитектуры на CIFAR-10 и передали наиболее изученные архитектуры в классификацию изображений ImageNet и обнаружение объектов COCO.
Наша архитектура NASNet состоит из двух типов слоев: обычных слоев (слева) и слоев восстановления (справа). Оба слоя разработаны AutoML. |
При классификации изображений ImageNet NASNet достигает точности предсказания 82,7% на проверочном наборе, превосходя все начальные модели, которые мы построили ранее [2, 3, 4]. Кроме того, NASNet достигает повышения точности на 1,2% по сравнению со всеми ранее опубликованными результатами, что соответствует лучшему неопубликованному результату, опубликованному на arxiv.org [5]. NASNet также можно масштабировать для создания ряда моделей, которые могут обеспечить высокую точность при очень низких вычислительных издержках. Например, небольшая версия NASNet может достигать точности 74%, что является улучшением по сравнению с современными моделями сопоставимого масштаба для мобильных платформ. 3,1%. Большой NASNet обеспечивает высочайшую точность при вдвое меньших вычислительных затратах по сравнению с лучшим результатом, опубликованным на arxiv.org, SENet [5].
Точность NASNet по сравнению с современными искусственными моделями всех масштабов в классификации изображений ImageNet. |
Мы также переносим изученные функции из ImageNet в обнаружение объектов. В экспериментах, объединяющих функции, изученные в классификации ImageNet, со структурой Faster-RCNN [6], мы превзошли ранее опубликованные лучшие результаты прогнозирования в задаче обнаружения объектов COCO, независимо от того, выполнялась ли задача обнаружения на самой большой модели или на мобильном устройстве. оптимизированная для устройства модель, результаты все те же. Наша самая большая модель достигла среднего уровня точности (mAP) 43,1%, что на 4% лучше лучших опубликованных результатов.
Пример обнаружения объекта с помощью Faster-RCNN с NASNet. |
Мы считаем, что функции изображения, изученные NASNet на ImageNet и COCO, могут быть повторно использованы для многих приложений компьютерного зрения. Поэтому мыSlimиобнаружение объектаТензорФлоу NASNet имеет открытый исходный код в кодовой базе, что удобно для всех, чтобы использовать его для рассуждений в классификации изображений и обнаружении объектов. Мы надеемся, что более широкое сообщество машинного обучения будет использовать эти модели для построения работы по решению многих проблем компьютерного зрения, о которых мы еще не думали.
Особая благодарностьДжефф Дин, Ифэн Лу, Джонатан Хуанг, Вивек Ратод, Серджио Гуадаррама, Чен Сун, Джонатан Шен, Виши Тирумалашетти, Сяоцян Чжэн, Кристиан Большая помощь в этом проекте от Sigg и команды Google Brain.
использованная литература
[1] Learning Transferable Architectures for Scalable Image Recognition, Barret Zoph, Vijay Vasudevan, Jonathon Shlens, and Quoc V. Le.Arxiv, 2017.
[2] Going Deeper with Convolutions, Christian Szegedy, Wei Liu, Yangqing Jia, Pierre Sermanet, Scott Reed, Dragomir Anguelov, Dumitru Erhan, Vincent Vanhoucke, and Andrew Rabinovich.CVPR, 2015.
[3] Rethinking the inception architecture for computer vision, Christian Szegedy, Vincent Vanhoucke, Sergey Ioffe, Jonathon Shlens, and Zbigniew Wojna.CVPR, 2016.
[4] Inception-v4, Inception-ResNet and the Impact of Residual Connections on Learning, Christian Szegedy, Sergey Ioffe, Vincent Vanhoucke, and Alex Alemi.AAAI, 2017.
[5] Squeeze-and-Excitation Networks, Jie Hu, Li Shen and Gang Sun.Arxiv, 2017.
[6] Faster R-CNN:Towards Real-Time Object Detection with Region Proposal Networks, Shaoqing Ren, Kaiming He, Ross Girshick and Jian Sun.NIPS, 2015.