Майкрософт с открытым исходным кодомMMLSpark, используется дляApache Sparkбиблиотека глубокого обучения. MMLSpark можно использовать сКогнитивный инструментарий МайкрософтиOpenCVИдеальная интеграция.
Microsoft обнаружила, что хотяSparkMLМожно построить масштабируемую платформу машинного обучения, и большая часть энергии разработчиков тратится на вызов базового API. MMLSpark предназначен для упрощения повторяющихся задач в PySpark.
в UCIНабор данных переписи доходов взрослыхНапример, используя другие элементы для прогнозирования доходов:
Если вы используете SparkML напрямую, каждый столбец необходимо обрабатывать отдельно и сортировать по правильному типу данных; в MMLSpark требуется всего две строки кода:
__Tue Oct 24 2017 14:59:05 GMT+0800 (CST)____Tue Oct 24 2017 14:59:05 GMT+0800 (CST)__model = mmlspark.TrainClassifier(model=LogisticRegression(), labelCol=” income”).fit(trainData)
predictions = model.transform(testData)
__Tue Oct 24 2017 14:59:05 GMT+0800 (CST)____Tue Oct 24 2017 14:59:05 GMT+0800 (CST)__
Глубокая нейронная сеть (ГНС) не уступает человеку в области распознавания изображений и речи, но обучение модели ГНС требует профессионалов, а интеграция со SparkML непроста. MMLSpark предоставляет удобный API Python для простого обучения алгоритмов DNN. MMLSpark может легко использовать существующие модели для задач классификации, обучать на распределенных узлах графического процессора и создавать масштабируемые конвейеры обработки изображений с помощью OpenCV.
Следующие 3 строки кода инициализируют модель DNN из набора инструментов Microsoft Cognitive Toolset для извлечения функций из изображений:
__Tue Oct 24 2017 14:59:05 GMT+0800 (CST)____Tue Oct 24 2017 14:59:05 GMT+0800 (CST)__cntkModel = CNTKModel().setInputCol(“images”).setOutputCol(“features”).setModelLocation(resnetModel).setOutputNode(“z.x”)
featurizedImages = cntkModel.transform(imagesWithLabels).select([‘labels’,’features’])
model = TrainClassifier(model=LogisticRegression(),labelCol=”labels”).fit(featurizedImages)
__Tue Oct 24 2017 14:59:05 GMT+0800 (CST)____Tue Oct 24 2017 14:59:05 GMT+0800 (CST)__
MMLSpark был выпущен дляDocker Hub, используйте следующую команду для развертывания на одном компьютере:
__Tue Oct 24 2017 14:59:05 GMT+0800 (CST)____Tue Oct 24 2017 14:59:05 GMT+0800 (CST)__docker run -it -p 8888:8888 -e ACCEPT_EULA=yes microsoft/mmlspark__Tue Oct 24 2017 14:59:05 GMT+0800 (CST)____Tue Oct 24 2017 14:59:05 GMT+0800 (CST)__
MMLSpark находится под лицензией MIT.
Посмотреть оригинальный английский:
blogs.tech net.Microsoft.com/machine AR…
благодарныйЦай ФанфанОбзор этой статьи.
Чтобы внести свой вклад в китайскую станцию InfoQ или принять участие в работе по переводу контента, отправьте электронное письмо по адресуeditors@cn.infoq.com. Вы также можете использовать Sina Weibo (@InfoQ,@dingxiaoyun), WeChat (идентификатор WeChat:InfoQChina)Подписывайтесь на нас.