Microsoft открыла исходный код MMLSpark, библиотеки глубокого обучения для Spark.

глубокое обучение открытый источник Microsoft Spark

Майкрософт с открытым исходным кодомMMLSpark, используется дляApache Sparkбиблиотека глубокого обучения. MMLSpark можно использовать сКогнитивный инструментарий МайкрософтиOpenCVИдеальная интеграция.

Microsoft обнаружила, что хотяSparkMLМожно построить масштабируемую платформу машинного обучения, и большая часть энергии разработчиков тратится на вызов базового API. MMLSpark предназначен для упрощения повторяющихся задач в PySpark.

в UCIНабор данных переписи доходов взрослыхНапример, используя другие элементы для прогнозирования доходов:

Если вы используете SparkML напрямую, каждый столбец необходимо обрабатывать отдельно и сортировать по правильному типу данных; в MMLSpark требуется всего две строки кода:

__Tue Oct 24 2017 14:59:05 GMT+0800 (CST)____Tue Oct 24 2017 14:59:05 GMT+0800 (CST)__model = mmlspark.TrainClassifier(model=LogisticRegression(), labelCol=” income”).fit(trainData)
predictions = model.transform(testData)
__Tue Oct 24 2017 14:59:05 GMT+0800 (CST)____Tue Oct 24 2017 14:59:05 GMT+0800 (CST)__

Глубокая нейронная сеть (ГНС) не уступает человеку в области распознавания изображений и речи, но обучение модели ГНС требует профессионалов, а интеграция со SparkML непроста. MMLSpark предоставляет удобный API Python для простого обучения алгоритмов DNN. MMLSpark может легко использовать существующие модели для задач классификации, обучать на распределенных узлах графического процессора и создавать масштабируемые конвейеры обработки изображений с помощью OpenCV.

Следующие 3 строки кода инициализируют модель DNN из набора инструментов Microsoft Cognitive Toolset для извлечения функций из изображений:

__Tue Oct 24 2017 14:59:05 GMT+0800 (CST)____Tue Oct 24 2017 14:59:05 GMT+0800 (CST)__cntkModel = CNTKModel().setInputCol(“images”).setOutputCol(“features”).setModelLocation(resnetModel).setOutputNode(“z.x”)
featurizedImages = cntkModel.transform(imagesWithLabels).select([‘labels’,’features’])
model = TrainClassifier(model=LogisticRegression(),labelCol=”labels”).fit(featurizedImages)
__Tue Oct 24 2017 14:59:05 GMT+0800 (CST)____Tue Oct 24 2017 14:59:05 GMT+0800 (CST)__

MMLSpark был выпущен дляDocker Hub, используйте следующую команду для развертывания на одном компьютере:

__Tue Oct 24 2017 14:59:05 GMT+0800 (CST)____Tue Oct 24 2017 14:59:05 GMT+0800 (CST)__docker run -it -p 8888:8888 -e ACCEPT_EULA=yes microsoft/mmlspark__Tue Oct 24 2017 14:59:05 GMT+0800 (CST)____Tue Oct 24 2017 14:59:05 GMT+0800 (CST)__

MMLSpark находится под лицензией MIT.

Посмотреть оригинальный английский:

GitHub.com/azure/MM LSP…

blogs.tech net.Microsoft.com/machine AR…


благодарныйЦай ФанфанОбзор этой статьи.

Чтобы внести свой вклад в китайскую станцию ​​InfoQ или принять участие в работе по переводу контента, отправьте электронное письмо по адресуeditors@cn.infoq.com. Вы также можете использовать Sina Weibo (@InfoQ,@dingxiaoyun), WeChat (идентификатор WeChat:InfoQChina)Подписывайтесь на нас.