Итоги 2017 года: 15 самых популярных проектов машинного обучения на GitHub

машинное обучение глубокое обучение GitHub HTTPS

Из Analytics Vidhya

Автор: Сунил Рэй

Сборник "Сердце машины"

В этой статье автор перечисляет самые популярные базы знаний на платформе GitHub в 2017 году, включая различные проекты в области науки о данных, машинного обучения и глубокого обучения, надеясь помочь всем научиться и использовать. Кроме того, редактор без зазрения совести добавил проект Github в сердце машины, попросив звездочки и пулл-реквесты.

GitHub — это самое активное сообщество в области компьютерных наук, где люди из всех слоев общества делятся растущим числом программных инструментов и репозиториев. В нем можно не только получить нужные инструменты, но и посмотреть, как пишется и реализуется код.

Как энтузиаст машинного обучения, автор перечисляет самые популярные базы знаний на платформе GitHub в 2017 году в этой статье, содержащей учебные материалы и инструменты. Надеюсь, это будет полезно для вашего обучения и исследований.


содержание


1. Учебные ресурсы

1. Awesome Data Science

2. Machine Learning / Deep Learning Cheat Sheet

3. Oxford Deep Natural Language Processing Course Lectures

4. PyTorch — Учебник

5. Resources of NIPS 2017


2. Инструменты с открытым исходным кодом

1. TensorFlow

2. TuriCreate — библиотека упрощенного машинного обучения

3. OpenPose

4. DeepSpeech

5. Mobile Deep Learning

6. Visdom

7. Deep Photo Style Transfer

8. CycleGAN

9. Seq2seq

10. Pix2code


3. Проект «Сердце машины»

1. AI00 — 100 компаний, влияющих на будущее искусственного интеллекта

2. Artificial-Intelligence-Terminology

3. ML-Tutorial-Experiment


1. Учебные ресурсы


1.1 Awesome Data Science

адрес проекта:GitHub.com/Брути Язли…

Этот репозиторий является важным ресурсом для науки о данных. Ресурсы этого репозитория, начиная с руководств по началу работы, инфографики и заканчивая учетными записями в социальных сетях, на которые вам нужно подписаться, пополнялись за многие годы бесчисленными вкладами. Независимо от того, являетесь ли вы новичком или ветераном отрасли, существует множество ресурсов для изучения.

Его глубину можно увидеть из каталога этого репо.


1.2 Machine Learning / Deep Learning Cheat Sheet

адрес проекта:GitHub.com/Open La Silly Hi Day…

Этот проект знакомит с часто используемыми инструментами и методами машинного обучения/глубокого обучения в виде шпаргалки, от простых инструментов, таких как панды, до методов глубокого обучения. После добавления проекта в закладки или форка вам больше не нужно искать общие советы и досье.

Вкратце, типы шпаргалок включают в себя pandas, numpy, scikit Learn, matplotlib, ggplot, dplyr, tidyr, pySpark и нейронные сети.


1.3 Oxford Deep Natural Language Processing Course Lectures

адрес проекта:GitHub.com/Oxford — в это время…

Курс НЛП в Стэнфорде стал золотым стандартом в обработке естественного языка. Но в последнее время с развитием глубокого обучения с помощью архитектур глубокого обучения, таких как RNN и LSTM, НЛП добился большого прогресса.

Основанный на курсе НЛП Оксфордского университета, этот репозиторий охватывает передовые методы и терминологию, такие как моделирование языка с использованием RNN, распознавание речи, преобразование текста в речь (TTS) и многое другое. Этот репозиторий содержит все для этого курса, от материалов курса до практических ссылок.


1.4 PyTorch — Учебник

адрес проекта:GitHub.com/Yunjin Malicious/py для…

На сегодняшний день PyTorch остается единственным конкурентом TensorFlow, а его функции и репутация делают его конкурентоспособной средой глубокого обучения. Pytorch привлек большое внимание сообщества глубокого обучения своим программированием в стиле Pythonic, динамическими вычислительными графами и более быстрым прототипированием.

Этот репозиторий содержит код для большого количества задач глубокого обучения на PyTorch, включая RNN, GAN и передачу нейронных стилей. Для реализации большинства этих моделей требуется всего 30+ строк кода. Это говорит о способности PyTorch абстрагироваться, позволяя исследователям сосредоточиться на поиске правильной модели, а не погрязнуть в деталях, таких как язык программирования и выбор инструментов.


1.5 Resources of NIPS 2017

адрес проекта:GitHub.com/Hindu Servant AVI…

Этот репозиторий содержит ресурсы и слайды NIPS 2017 для всех приглашенных докладов, руководств и семинаров. NIPS — это ежегодная конференция по машинному обучению и вычислительной нейробиологии.

Большинство прорывных исследований в области науки о данных за последние несколько лет были представлены в виде результатов исследований на конференциях NIPS. Если вы хотите быть в авангарде поля, это отличный ресурс!


2. Библиотеки программного обеспечения с открытым исходным кодом


2.1 TensorFlow

адрес проекта:GitHub.com/tensorflow/…


TensorFlow — это программная библиотека с открытым исходным кодом для числовых вычислений с использованием графов потоков данных. Среди них Tensor представляет, что передаваемые данные представляют собой тензор (многомерный массив), а Flow представляет операцию с использованием вычислительного графа. Графы потоков данных описывают математические операции как ориентированные графы «узлов» и «ребер». «Узел» обычно используется для обозначения прикладной математической операции, но он также может обозначать начальную точку ввода данных и конечную точку вывода или конечную точку чтения/записи постоянных переменных. Ребра представляют отношения ввода/вывода между узлами. Эти ребра данных могут передавать многомерные массивы данных, размеры которых можно динамически регулировать, то есть тензоры.

С момента своего официального выпуска TensorFlow сохраняет свою позицию лучшей библиотеки для «глубокого обучения/машинного обучения». Команда Google Brain и сообщество машинного обучения также вносят активный вклад и остаются в курсе прогресса, особенно в области глубокого обучения.

TensorFlow начинался как программная библиотека с открытым исходным кодом для численных вычислений с использованием графов потоков данных, но с этого момента он стал полноценной основой для построения моделей глубокого обучения. В настоящее время он в основном поддерживает TensorFlow, но также поддерживает такие языки, как C, C++ и Java. Кроме того, в ноябре Google наконец-то выпустила предварительную версию нового инструмента для разработчиков — облегченного решения для TensorFlow для мобильных и встроенных устройств.


2.2 TuriCreate: библиотека упрощенного машинного обучения

адрес проекта:GitHub.com/apple/Повседневная жизнь…

TuriCreate — это проект с открытым исходным кодом, недавно предоставленный Apple, который предоставляет простые в использовании методы создания и развертывания моделей машинного обучения для сложных задач, таких как обнаружение объектов, распознавание поз человека и системы рекомендаций.

Может быть, мы, как энтузиасты машинного обучения, знакомы с GraphLab Create, очень простой и эффективной библиотекой машинного обучения, и когда TuriCreate, компания, создавшая библиотеку, была приобретена Apple, это вызвало большой резонанс.

TuriCreate разработан для Python, и его самой сильной стороной является развертывание моделей машинного обучения в Core ML для разработки таких приложений, как iOS, macOS, watchOS и tvOS.


2.3 OpenPose

адрес проекта:GitHub.com/CMU-восприятие…

OpenPose — это библиотека обнаружения ключевых точек для нескольких человек, которая помогает нам определять положение человека на изображении или видео в режиме реального времени. Библиотека программного обеспечения OpenPose, разработанная и поддерживаемая Лабораторией перцептивных вычислений CMU, является прекрасным примером того, как исследования с открытым исходным кодом могут быть быстро развернуты в промышленности.

Одним из вариантов использования OpenPose является помощь в решении проблемы обнаружения действий, когда действия или действия, выполняемые субъектом, могут быть зафиксированы в режиме реального времени. Эти клавиши и их действия затем можно использовать для анимации. OpenPose не только имеет C++ API, чтобы предоставить разработчикам быстрый доступ к нему, но также имеет простой интерфейс командной строки для работы с изображениями или видео.


2.4 DeepSpeech

адрес проекта:GitHub.com/Mozilla/Ди…

DeepSpeech — это библиотека реализации с открытым исходным кодом, разработанная Baidu, которая предоставляет современную технологию синтеза речи в текст. Он основан на TensorFlow и Python, но также может быть привязан к NodeJS или запускаться из командной строки.

Mozilla была главной исследовательской силой в создании DeepSpeech и программных библиотек с открытым исходным кодом, и Шон Уайт, вице-президент Mozilla по технологической стратегии, написал в блоге: «Только несколько движков распознавания речи коммерческого качества в настоящее время имеют открытый исходный код, и большинство из них доминируют крупные корпорации. Это заставляет стартапы, исследователей и традиционные предприятия настраивать определенные продукты и услуги для своих пользователей. Но мы усовершенствовали библиотеку с открытым исходным кодом со многими разработчиками и исследователями в сообществе машинного обучения, поэтому DeepSpeech уже Используя сложные и передовые методы машинного обучения, создайте механизм преобразования речи в текст».


2.5 Mobile Deep Learning

адрес проекта:GitHub.com/Baidu/Mobil…

В этом репозитории самые современные методы обработки данных перенесены на мобильную платформу. Этот репозиторий был разработан Baidu Research для развертывания моделей глубокого обучения на мобильных устройствах, таких как Android и IOS, с низкой сложностью и высокой скоростью.

В этом репозитории объясняется простой вариант использования — обнаружение объектов. Он может определить точное местоположение объекта (например, телефона на изображении), и это здорово, не так ли?


2.6 Visdom

адрес проекта:GitHub.com/Facebook Рес…

Visdom поддерживает распространение диаграмм, изображений и текста среди сотрудников. Вы можете программно организовать пространство визуализации или создавать информационные панели для оперативных данных через пользовательский интерфейс, проверять результаты эксперимента или отлаживать код эксперимента.

Входные данные функции графика меняются, хотя большая часть входных данных представляет собой тензор данных X (а не сами данные) и (необязательно) тензор Y (содержащий необязательные переменные данных, такие как метки или метки времени). Он поддерживает все основные типы диаграмм для создания визуализаций, поддерживаемых Plotly.

Visdom поддерживает использование PyTorch и Numpy.


2.7 Deep Photo Style Transfer

адрес проекта:GitHub.com/Luanfujun/…

Этот репозиторий основан на недавней статье «Deep Photo Style Transfer», в которой представлен подход глубокого обучения для передачи фотографического стиля, который может обрабатывать большие объемы содержимого изображения при эффективной передаче эталонных стилей. Метод успешно преодолевает искажения и отвечает потребностям передачи фотографического стиля в большом количестве сцен, включая время, погоду, время года, художественный монтаж и другие сцены.


2.8 CycleGAN

адрес проекта:GitHub.com/military training/C-сторона…

CycleGAN — интересная и мощная библиотека, демонстрирующая потенциал этой передовой технологии. В качестве примера на изображении ниже примерно показано, на что способна библиотека: настройка глубины резкости изображения. Интересным моментом здесь является то, что вы не сказали алгоритму заранее, на какую часть изображения обращать внимание. Алгоритм делает все сам!

В настоящее время библиотека написана на Lua, но ее также можно использовать из командной строки.


2.9 Seq2seq

адрес проекта:GitHub.com/Google/porn2…

Seq2seq изначально создавался для машинного перевода, но был разработан для множества других задач, включая генерацию сводок, моделирование диалогов и захват изображений. Пока структура задачи состоит в том, чтобы кодировать входные данные в один формат и декодировать их в другой формат, можно использовать структуру Seq2seq. Он запрограммирован с использованием всех популярных библиотек TensorFlow на основе Python.



2.10 Pix2code

адрес проекта:GitHub.com/Tony Belt RAM…

Этот проект глубокого обучения очень захватывающий, он пытается автоматически генерировать код для данного графического интерфейса. При создании веб-сайта или интерфейса мобильного устройства фронтенд-инженерам часто приходится писать много скучного кода, что отнимает много времени и неэффективно. Это не позволяет разработчикам тратить большую часть своего времени на реализацию реальной функциональности и программной логики. Pix2code стремится преодолеть эту трудность, автоматизировав процесс. Он основан на новом методе, который позволяет генерировать компьютерные токены из одного снимка экрана графического интерфейса в качестве входных данных.

Написанный на Python, Pix2code преобразует захваченные изображения интерфейсов мобильных устройств и веб-сайтов в код.


3. Проект «Сердце машины»

У Heart of the Machine в настоящее время также есть три проекта на GitHub, а именно AI00, который оценивает выдающиеся компании в различных областях искусственного интеллекта, китайскую и английскую терминологию в области искусственного интеллекта, а также проекты по экспериментированию и объяснению моделей.


3.1 AI00 — The Heart of the Machine Топ-100 компаний, влияющих на будущее искусственного интеллекта

адрес проекта:GitHub.com/Сердце машины/…

Искусственный интеллект — это сложная и огромная система, включающая множество дисциплин, а также множество элементов, таких как технологии, продукты, отрасли и капитал. Команда авторов этого отчета представляет только их профессиональные взгляды и имеет свои ограничения. Другие отраслевые эксперты требуется для участия. Заходите, чтобы исправить и улучшить.

Мы глубоко понимаем ограничения качества отчетов, сделанных без профессиональной обратной связи с пользователями, поэтому мы надеемся рассматривать наши отчеты с концепцией «гибкой разработки» в инженерном мире и продолжать собирать профессиональные отзывы для постоянного улучшения качества отчета.

С этой целью мы пригласим ученых, технологов, отраслевых экспертов, профессиональных инвесторов и читателей в области искусственного интеллекта присоединиться к этому долгосрочному исследованию искусственного интеллекта. Мы будем собирать и систематизировать информацию, предоставленную участниками, для ежемесячного обновления этого отчета.



3.2 Artificial-Intelligence-Terminology

адрес проекта:GitHub.com/Сердце машины/…

Мы записали технические термины, с которыми Сердце Машины столкнулось в процессе составления технических статей и документов, надеясь помочь каждому проконсультироваться и перевести (второе издание).

Эта словарная база данных в настоящее время насчитывает в общей сложности 760 профессиональных словарей, в основном это основные понятия и термины машинного обучения, а также основной словарь проекта. Сердце машины продолжит улучшать включение терминологии и построение расширенного чтения.

Обновление словарного запаса в основном делится на два этапа.На первом этапе сердце машины будет продолжать улучшать построение базового словарного запаса, то есть извлекать общие термины из авторитетных учебников или других заслуживающих доверия материалов. На втором этапе «Сердца машины» будет постоянно обновляться глоссарий необычных терминов, которые появляются в собранных статьях или других источниках.

Отзывы читателей и предложения по обновлениям будут предоставляться на всех этапах, и мы будем представлять читателей, которые были активны в проекте, на странице благодарности за проект. Поскольку мы хотим большей точности и уверенности в обновлении термина, мы ожидаем, что читатели будут указывать адрес источника и адрес расширения термина. В результате мы можем обновлять словарный запас более объективно, используя заслуживающие доверия источники и расширения.


3.3 ML-Tutorial-Experiment

адрес проекта:GitHub.com/Сердце машины/…

Этот проект в основном предназначен для демонстрации опыта и объяснений, которые мы получили в экспериментальных моделях машинного обучения, до сих пор мы объясняли и внедряли сверточные нейронные сети, генеративно-состязательные сети и CapsNet. Эти реализации имеют очень подробные статьи, объясняющие структуру модели и код реализации. Ниже приводится описание трех проектов внедрения:

Оригинальная ссылка:Woohoo.аналитика vi.com/blog/2017/1…