Tucson Future Open Source: полное воспроизведение MXNet Mask R-CNN

22 октября по местному времени на ICCV 2017, крупнейшей международной конференции по компьютерному зрению, были объявлены работы-победители. Исследователь искусственного интеллекта Facebook Хэ Юймин получил награду за лучшую статью, а также является одним из авторов лучшей студенческой статьи. Эта статья является полным воспроизведением лучшей статьи «Mask R-CNN» отечественного стартапа Tucson в области автономного вождения в будущем, и она находится в открытом доступе на Github.

Для друзей в кругу CV самой большой новостью за последние два дня должно быть то, что Год Хэ Юмин выиграл двойную лучшую работу по ICCV! В разных соцсетях все говорили, что «Бог есть Бог, не мне, смертным, сравнивать», а некоторые друзья прямо говорили, что «чужие бумажки быстрее моих»…

Конечно, всеобщий «стыд» на самом деле является скорее выражением преклонения перед великим богом Каймингом и уважением к лучшим академическим исследователям. При этом многих практиков больше волнует вопрос: когда мы сможем увидеть открытый исходный код?

Будущее Тусона также искренне поздравляет Бога Кайминга и взволновано его достижениями. И на этот раз, в дополнение к вызову Kaiming God через платформы социальных сетей, TuSimple также сделал реальную вещь в будущем — полностью воспроизвел результаты статьи He Kaiming (Mask R-CNN и Feature Pyramid Network) и открыл исходный код соответствующего кода. каждому! Это также первый открытый исходный код, который может полностью воспроизвести результаты диссертации Хэ Юмина.

Среда Mask R-CNN для сегментации примеров в документе

Адрес проекта на Github: https://github.com/TuSimple/mx-maskrcnn

MX Mask R-CNN

Это реализация Mask R-CNN. Репозиторий этой реализации в основном основан на реализации Faster RCNN mx-rcnn.

Основные результаты

Cityscapes

Магистраль: Реснет-50-ФПН

COCO

Он будет выпущен в ближайшее время, пожалуйста, следите за обновлениями.

Системные Требования

Мы тестируем код на следующей конфигурации:

Ubuntu 16.04, Python 2.7
numpy(1.12.1), cv2(2.4.9), PIL(4.3), matplotlib(2.1.0), cython(0.26.1), easydict

подготовка к обучению

1. Загрузите данные Cityscapes (gtFine_trainvaltest.zip, leftImg8bit_trainvaltest.zip) и распакуйте в «data/cityscape/». Папки следующие:

2. Загрузите предварительно обученную модель Resnet-50.

bash scripts/download_res50.sh

3. Построение MXNet с использованием оператора ROIAlign

cp rcnn/CXX_OP/* incubator-mxnet/src/operator/

Чтобы собрать MXNet из исходного кода, обратитесь к руководству:

https://mxnet.incubator.apache.org/get_started/build_from_source.html

4. Создайте соответствующий код cython

make

5. Начать обучение

bash scripts/train_alternate.sh

Подготовка оценки

1. Подготовка сценария оценки городских пейзажей

bash scripts/download_cityscapescripts.sh

2. Eval

bash scripts/eval.sh

Demo

1. Модель можно скачать по ссылке ниже, пожалуйста, поместите ее в папку с моделью.

Ссылка на дропбокс: https://www.dropbox.com/s/zidcbbt7apwg3z6/final-0000.params?dl=0
Ссылка на облако Baidu: https://pan.baidu.com/s/1o8n4VMU

2. Убедитесь, что вы поместили данные городских пейзажей в папку «data/cityscapes».

bash scripts/demo.sh

Ссылаться на

Tianqi Chen, Mu Li, Yutian Li, Min Lin, Naiyan Wang, Minjie Wang, Tianjun Xiao, Bing Xu, Chiyuan Zhang, and Zheng Zhang. MXNet: A Flexible and Efficient Machine Learning Library for Heterogeneous Distributed Systems. In Neural Information Processing Systems, Workshop on Machine Learning Systems, 2015

Ross Girshick. "Fast R-CNN." In Proceedings of the IEEE International Conference on Computer Vision, 2015.

Shaoqing Ren, Kaiming He, Ross Girshick, and Jian Sun. "Faster R-CNN: Towards real-time object detection with region proposal networks." In IEEE Transactions on Pattern Analysis and Machine Intelligence, 2016.

Цунг-Йи Лин, Петр Доллар, Росс Гиршик, Кайминг Хе, Бхарат Харихаран, Серж Белонги. «Сети пирамидальных свойств для обнаружения объектов». В компьютерном зрении и распознавании образов, конференция IEEE, 2017 г.

Кайминг Хе, Джорджия Гкиоксари, Петр Доллар, Росс Гиршик, «Mask R-CNN», в материалах Международной конференции IEEE по компьютерному зрению, 2017 г.

Yangqing Jia, Evan Shelhamer, Jeff Donahue, Sergey Karayev, Jonathan Long, Ross Girshick, Sergio Guadarrama, and Trevor Darrell. "Caffe: Convolutional architecture for fast feature embedding." In Proceedings of the ACM International Conference on Multimedia, 2014.

Jia Deng, Wei Dong, Richard Socher, Li-Jia Li, Kai Li, and Li Fei-Fei. "ImageNet: A large-scale hierarchical image database." In Computer Vision and Pattern Recognition, IEEE Conference on, 2009.

Kaiming He, Xiangyu Zhang, Shaoqing Ren, Jian Sun. "Deep Residual Learning for Image Recognition". In Computer Vision and Pattern Recognition, IEEE Conference on, 2016.

Marius Cordts, Mohamed Omran, Sebastian Ramos, Timo Rehfeld, Markus Enzweiler, Rodrigo Benenson, Uwe Franke, Stefan Roth, Bernt Schiele. "The Cityscapes Dataset for Semantic Urban Scene Understanding." In Computer Vision and Pattern Recognition, IEEE Conference on, 2016.