Heavyweight | Полный маршрут обучения ИИ, самая подробная схема ресурсов!

Это то, что я рекомендую13хорошая статья

источник:Datawhale

автор:AIUnion

【Введение】

Эта статья подготовлена и подготовлена совместно известными платформами с открытым исходным кодом, технологическими платформами ИИ и экспертами в предметной области: Datawhale, ApacheCN, AI Youdao и доктором Хуан Хайгуаном. обучение, обучение с подкреплением, передовая бумага и пять теоретических областей применения ИИ: обработка естественного языка, компьютерное зрение, системы рекомендаций, модели управления рисками и графики знаний. Это необходимый маршрут обучения и высококачественный учебный ресурс для изучения ИИ от новичка до эксперта.

Базовые знания

математика

Математика бесконечна, и мало кто может изучить основы математики так же основательно, как кандидат наук.Чтобы попасть в область искусственного интеллекта, по сути, нужно лишь освоить необходимые базовые знания. Математическая основа ИИ является наиболее важнойВысшая математика, линейная алгебра, теория вероятностей и математическая статистикаТри курса, эти три курса являются обязательными для магистрантов. Вот простая вводная математическая статья:

Математические основы: продвинутая математика

https://zhuanlan.zhihu.com/p/36311622

Основы математики: линейная алгебра

https://zhuanlan.zhihu.com/p/36584206

Математические основы: теория вероятностей и математическая статистика

https://zhuanlan.zhihu.com/p/36584335

Загрузите «Математические основы машинного обучения»:

1) Математические основы машинного обучения.docx

Китайская версия обобщает формулы трех курсов высшей математики, линейной алгебры, теории вероятностей и математической статистики.

2) Математические основы машинного обучения в Стэнфордском университете.pdf

Исходный материал на английском языке очень обширен, поэтому студентам с хорошим английским рекомендуется изучать этот материал напрямую.

Ссылка для скачивания:

https://pan.baidu.com/s/1LaUlrJzy98CG1Wma9FgBtg Код извлечения: hktx

Зарубежные классические учебники по математике:

По сравнению с отечественной версией учебников по математике Чжэцзянского университета и версией Тунцзи, легче понять и объяснить глубокие вещи простым языком, что удобно для начинающих, чтобы заложить лучшую основу для математики. Ссылка для скачивания:

https://blog.csdn.net/Datawhale/article/details/81744961

статистика

Вводный учебник: Статистика простыми словами

Расширенный учебник: Бизнес и экономическая статистика

Рекомендуемое видео: Статистика Академии Хана

http://open.163.com/special/Khan/khstatistics.html

программирование

Для входа в область искусственного интеллекта Python является первым языком программирования.

1) Установка Python:

Установочный пакет Python, я рекомендую загрузить Anaconda, Anaconda — это дистрибутив Python для научных вычислений, поддерживает системы Linux, Mac, Windows, предоставляет функции управления пакетами и средой, а также может легко разрешить сосуществование и переключение нескольких версий Python и различных третьих -Party проблемы с установкой пакета.

ссылка для скачивания:

HTTPS://woohoo.anaconda.com/download/

Рекомендуется Anaconda (версия python 3.7)

IDE: рекомендуется pycharm, версия для сообщества бесплатна

Адрес для скачивания: https://www.jetbrains.com/

Учебник по установке:

Блокнот Anaconda+Jupyter+Pycharm:

https://zhuanlan.zhihu.com/p/59027692

Конфигурация среды глубокого обучения Ubuntu18.04 (CUDA9+CUDNN7.4+TensorFlow1.8):

https://zhuanlan.zhihu.com/p/50302396

2) Рекомендуемые материалы для начала работы с Python

А. Заметки об изучении питонов Ляо Сюэфэна

https://blog.csdn.net/datawhale/article/category/7779959

примечания к записи b.python

Автор Ли Джин, это файл блокнота jupyter, который один раз демонстрирует основной синтаксис python, который стоит рекомендовать. Ссылка для скачивания:

https://pan.baidu.com/s/1IPZI5rygbIh5R5OuTHajzA Код извлечения: 2bzh

c. Видеоруководство по Python в Нанкинском университете

Этот учебник очень рекомендуется, и в основном рассматриваются основной синтаксис Python и часто используемые библиотеки.

Посмотреть адрес:

https://www.icourse163.org/course/0809NJU004-1001571005?from=study

После прочтения этих трех материалов python в основном достиг начального уровня, и вы можете использовать библиотеки машинного обучения, такие как scikit-learn, для решения задач машинного обучения.

3) Дополнение

Спецификация кода:

https://zhuanlan.zhihu.com/p/59763076

Numpy практические вопросы:

https://zhuanlan.zhihu.com/p/57872490

панды практические вопросы:

https://zhuanlan.zhihu.com/p/56644669

Анализ данных/добыча

Основные книги по анализу данных

«Анализ данных с помощью Python»

Эта книга содержит большое количество практических примеров, и вы узнаете, как использовать различные библиотеки Python (включая NumPy, Pandas, Matplotlib, IPython и т. д.) для эффективного решения различных задач анализа данных. Если вы запустите код один раз, вы сможете решить большинство проблем анализа данных.

разработка функций

https://blog.csdn.net/Datawhale/article/details/83033869

проект интеллектуального анализа данных

https://blog.csdn.net/datawhale/article/details/80847662

машинное обучение

Публичный класс

Ву Энда «Машинное обучение»

Это определенно лучший курс для начала работы с машинным обучением, без исключения! Даже если у вас нет прочной математической основы, такой как теория вероятностей и линейная алгебра, необходимые для надежного машинного обучения, вы можете легко начать этот вводный курс по машинному обучению и испытать бесконечное удовольствие от машинного обучения.

Домашняя страница курса:

https://www.coursera.org/learn/machine-learning

Китайское видео:

NetEase Cloud Classroom провел этот курс и перевел китайские субтитры Хуанга Хайгуана и других.

Китайские примечания и коды присвоения:

https://github.com/fengdu78/Coursera-ML-AndrewNg-Notes

Публичный класс

Нг Энда CS229

Курс Эндрю Нг по машинному обучению CS229 в Стэнфорде похож на курс Эндрю Нг по машинному обучению на Coursera, но имеетДополнительные математические требования и вывод формул, чуть сложнее. Этот курс представляет собой широкое введение в машинное обучение и статистическое распознавание образов.

Домашняя страница курса:

http://cs229.stanford.edu/

Китайское видео:

http://open.163.com/special/opencourse/machinelearning.html

Китайские примечания:

https://kivy-cn.github.io/Stanford-CS-229-CN/#/

Шпаргалка:

Автором этого замечательного ресурса является Шервин Амиди, выпускница Стэнфорда. Автор собрал супер подробную шпаргалку по CS229

https://zhuanlan.zhihu.com/p/56534902

Код работы:

https://github.com/Sierkinhane/CS229-ML-Implements

Публичный класс

Линь Сюаньтянь "Краеугольный камень машинного обучения"

Курс «Краеугольный камень машинного обучения», который читает г-н Линь Сюаньтянь из Национального тайваньского университета, является всеобъемлющим по содержанию и в основном охватывает многие аспекты области машинного обучения. Он очень подходит в качестве вводного и продвинутого материала для машинного обучения. Кроме того, стиль преподавания г-на Линя также очень юмористичен, что всегда позволяет читателям осваивать знания в непринужденной и счастливой атмосфере. Этот класс немного сложнее, чем машинное обучение Нг, и фокусируется на теории машинного обучения.

Китайское видео:

https://www.bilibili.com/video/av36731342

Китайские примечания:

https://redstonewill.com/category/ai-notes/lin-ml-foundations/

Вспомогательные учебники

Вспомогательная книга - «Обучение на основе данных», домашняя страница онлайн-книги: http://amlbook.com/

Публичный класс

Линь Сюаньтянь «Методы машинного обучения»

Курс «Методы машинного обучения» — это продвинутый курс по основам машинного обучения. В основном он представляет некоторые классические алгоритмы в области машинного обучения, включая машины опорных векторов, деревья решений, случайные леса, нейронные сети и т. д. Сложность немного выше, чем у «Краеугольного камня машинного обучения», и она очень практична.

Китайское видео:

https://www.bilibili.com/video/av36760800

Китайские примечания:

https://redstonewill.com/category/ai-notes/lin-ml-techniques/

книги

"Машинное обучение"

«Машинное обучение» Чжоу Чжихуа ласково называют «Арбузной книгой». Эта книга очень классическая. В ней описываются основные математические теории и алгоритмы машинного обучения. Она подходит для школьных учебников или самостоятельного изучения читателями среднего уровня. На начальном этапе изучение этой книги немного сложнее.

Учитесь вместе с «Практикой машинного обучения», эффект лучше!

примечания к учебе:

https://www.cnblogs.com/limitlessun/p/8505647.html#_label0

Вывод формулы:

https://datawhalechina.github.io/pumpkin-book/#/

Занятия после школы:

https://zhuanlan.zhihu.com/c_1013850291887845376

книги

«Статистические методы обучения»

«Статистические методы обучения» Ли Ханга — это классика, содержащая более полные и профессиональные теоретические знания в области машинного обучения, которые очень хороши в качестве надежной теории.

Лекция ППТ:

https://github.com/fengdu78/lihang-code/tree/master/ppt

примечания к учебе:

http://www.cnblogs.com/limitlessun/p/8611103.html

https://github.com/SmirkCao/Lihang

Справочные примечания:

https://zhuanlan.zhihu.com/p/36378498

Код:

https://github.com/fengdu78/lihang-code/tree/master/code

книги

Практическое руководство по машинному обучению с помощью Scikit-Learn и TensorFlow

После предыдущего исследования это «Практическое руководство по машинному обучению Scikit-Learn и TensorFlow» очень подходит для улучшения ваших навыков боевого программирования машинного обучения.

Эта книга разделена на две части: первая часть знакомит с основными алгоритмами машинного обучения, и каждая глава снабжена практическими проектами Scikit-Learn, вторая часть знакомит с нейронными сетями и глубоким обучением, и каждая глава снабжена практическими проектами TensorFlow. . Если это просто машинное обучение, вы можете сначала прочитать первую часть.

Весь код книги:

https://github.com/ageron/handson-ml

настоящий бой

Kaggle соревнования

Соревнование — самый эффективный способ улучшить боевые способности машинного обучения.Предпочтительные соревнования Kaggle.

Домашняя страница Kaggle:

https://www.kaggle.com/

Kaggle маршруты:

https://github.com/apachecn/kaggle

инструмент

Официальная документация Scikit-Learn

Как очень обширная библиотека для машинного обучения, Scikit-Learn представляет собой редкое практическое руководство по программированию.

Официальная документация:

https://scikit-learn.org/stable/index.html

Китайская документация (0.19):

http://sklearn.apachecn.org/#/

глубокое обучение

Публичный класс

Эндрю Нг "Глубокое обучение"

После того, как Ву Энда открыл курс машинного обучения, выпущенный курс «Глубокое обучение» также был хорошо принят.Самая большая особенность курса г-на Ву Энда заключается в том, что он шаг за шагом передает вам знания, что является редким хорошим видеоматериалом для вводного обучение.

Вся тема включает в себя пять курсов: 01. Нейронные сети и глубокое обучение, 02. Улучшение глубоких нейронных сетей — отладка гиперпараметров, регуляризация и оптимизация, 03. Проекты структурированного машинного обучения, 04. Сверточные нейронные сети, 05. Модель последовательностей.

Видео курса

Облачный класс NetEase:

https://mooc.study.163.com/university/deeplearning_ai#/c

Курсера:

https://www.coursera.org/specializations/deep-learning

Примечания к курсу

Я уже писал личные заметки г-на Ву Энда о машинном обучении, и доктор Хайгуан Хуанг руководил командой, чтобы систематизировать заметки на китайском языке:

https://github.com/fengdu78/deeplearning_ai_books

Справочные документы

Г-н Ву Энда упомянул много прекрасных докладов в ходе курса, а д-р Хуан Хайгуан организовал их следующим образом:

https://github.com/fengdu78/deeplearning_ai_books/tree/master/%E5%8F%82%E8%80%83%E8%AE%BA%E6%96%87

Курс PPT и домашнее задание

Курс глубокого обучения Эндрю Нг, включая учебные материалы, домашние задания и некоторые другие материалы:

https://github.com/stormstone/deeplearning.ai

Публичный класс

Fast.ai «Глубокое обучение для программистов»

Когда дело доходит до открытых курсов глубокого обучения, еще один открытый курс, который идет рука об руку с «Глубоким обучением» Ву Энды, — это «Практика глубокого обучения программиста», созданная Fast.ai. Лучшая особенность этого курса в том, что"Низходящий"вместо"вверх дном", — отличный курс для глубокого обучения в реальном бою.

Адрес видео

Адрес станции B (английские субтитры):

https://www.bilibili.com/video/av18904696?from=search&seid=10813837536595120136

Адрес CSDN (китайские субтитры 2017 г.):

https://edu.csdn.net/course/detail/5192

Примечания к курсу

Оригинальное примечание на английском языке:

https://medium.com/@hiromi_suenaga/deep-learning-2-part-1-lesson-1-602f73869197

Перевод на китайский язык организован ApacheCN:

https://github.com/apachecn/fastai-ml-dl-notes-zh

Публичный класс

CS230 Deep Learning

Стэнфордский курс глубокого обучения CS230 начался только 2 апреля, а также был запущен соответствующий полный набор PPT. С точки зрения содержания, курсы этого года не сильно отличаются от прошлогодних, охватывая базовые модели глубокого обучения, такие как CNN, RNN, LSTM, Adam, Dropout, BatchNorm, инициализация Xavier/He и т. д., включая лечение, автономное вождение, распознавание языка жестов, музыкальные поля, такие как генеративная обработка и обработка естественного языка.

Datawhale собрал подробное введение и справочные материалы к курсу:

Урок Эндрю Нг по глубокому обучению CS230 начался! Видео с поддержкой PPT есть все

книги

Нейронные сети и глубокое обучение - Fudan Qiu Xipeng

Эта книга является отличным учебником для начинающих в области глубокого обучения.В основном она знакомит с базовыми знаниями о нейронных сетях и глубоком обучении, основных моделях (сетях с прямой связью, сверточных сетях, рекуррентных сетях и т. д.) приложениях.

Профессор Фудань Цю Сипэн выпустил «Нейронные сети и глубокое обучение» с открытым исходным кодом

книги

«Глубокое обучение»

После завершения вышеуказанного обучения, если вы хотите более систематически установить систему знаний глубокого обучения, правильно прочитать «Глубокое обучение». Эта книга знакомит с базовыми математическими знаниями, опытом машинного обучения, а также теорией и развитием глубокого обучения на этом этапе от простого к глубокому. Она может помочь энтузиастам и практикам в области технологий искусственного интеллекта всесторонне понять глубокое обучение под руководством трех эксперты и ученые...

Введение в книгу

«Глубокое обучение» часто называют Цветочной книгой, самым классическим бестселлером в области глубокого обучения. Написанный тремя всемирно известными экспертами, Яном Гудфеллоу, Йошуа Бенжио и Аароном Курвиллем, это основополагающий классический учебник в области глубокого обучения. Книга известна публике как «Библия ИИ».

читать онлайн

Книгу перевели многие пользователи сети, а электронная версия доступна по следующему адресу:

https://github.com/exacity/deeplearningbook-chinese

книги

«Глубокое обучение 500 вопросов»

Когда вы просмотрели все видео и изучили Библию ИИ, вы должны быть полны вопросительных знаков, В это время лучше подойти к 500 общим вопросам в интервью по глубокому обучению.

Введение в книгу

DeepLearning-500-вопросов, автор - Тан Джиюн, выдающийся выпускник Сычуаньского университета. Проект представляет собой вопросы и ответы для глубокого обучения, собирая 500 вопросов и ответов. Содержание включает такие актуальные темы, как часто используемые знания о вероятностях, линейная алгебра, машинное обучение, глубокое обучение, компьютерное зрение и т. д. Книга еще не закончена, но уже получила 2,4 звезды на Github.

адрес проекта:

https://github.com/scutan90/DeepLearning-500-questions

инструмент

Официальная документация TensorFlow

Изучение глубокого обучения должно быть неотделимо от TensorFlow

Официальная документация:

https://www.tensorflow.org/api_docs/python/tf

Китайский документ:

https://github.com/jikexueyuanwiki/tensorflow-zh

инструмент

Официальная документация PyTorch

PyTorch — еще одна популярная платформа для изучения глубокого обучения.

Официальная документация:

https://pytorch.org/docs/stable/index.html

Китайская документация (версия 0.3):

https://github.com/apachecn/pytorch-doc-zh

обучение с подкреплением

Публичный класс

Reinforcement Learning-David Silver

Как и курс Эндрю Нг для начинающих в области машинного обучения и глубокого обучения, курс Дэвида Сильвера, безусловно, является обязательным для большинства людей, изучающих обучение с подкреплением.

Курс идет от поверхностного к глубокому, и содержание обучения с подкреплением объясняется очень подробно. Однако, из-за сложности самого обучения с подкреплением, определенный порог для прослушивания этого курса все же есть.Это видео рекомендуется посмотреть после того, как вы получите общее представление об этой области.Эффект обучения лучше, и он легче найти фокус обучения.

Адрес видео

Адрес станции B (китайские субтитры):

https://www.bilibili.com/video/av45357759?from=search&seid=9547815852611563503

Оригинальный адрес курса:

https://www.youtube.com/watch?v=2pWv7GOvuf0

Материалы курса

Курс ППТ:

http://www0.cs.ucl.ac.uk/staff/d.silver/web/Teaching.html

Примечания к курсу:

https://www.zhihu.com/people/qqiang00/posts

Публичный класс

Ли Хунъи "Глубокое обучение с подкреплением"

Хотя курс Дэвида Сильвера является подробным, многие передовые материалы не включены.В настоящее время «Глубокое обучение с подкреплением» Ли Хунъи из Национального Тайваньского университета является лучшим выбором для изучения передовой динамики.

Адрес видео

Адрес станции B (китайские субтитры):

https://www.bilibili.com/video/av24724071?from=search&seid=9547815852611563503

Оригинальный адрес курса:

https://www.youtube.com/watch?v=2pWv7GOvuf0

Материалы курса

Курс ППТ:

http://speech.ee.ntu.edu.tw/~tlkagk/courses_MLDS18.html

Примечания к курсу:

https://blog.csdn.net/cindy_1102/article/details/87905272

Пограничная бумага

Arxiv

Arxiv Stats

Адрес домашней страницы последней страницы поиска документов по машинному обучению Arxiv:

https://arxiv.org/list/stat.ML/recent?ref=bestofml.com

Arxiv Sanity Preserver

Андрей Карпати разработал Arxiv Sanity Preserver, чтобы помочь классифицировать, искать и фильтровать функции.

Адрес главной страницы:

http://www.arxiv-sanity.com/?ref=bestofml.com

Papers with Code

Papers with Code(Browse state-of-the-art)

Сайт называется Browse state-of-the-art. Он связывает последние документы по глубокому обучению в ArXiv с открытым исходным кодом на GitHub. В настоящее время проект включает в себя 651 таблицу лидеров, 1016 задач глубокого обучения, 795 наборов данных и 10 257 отличных статей с воспроизводимым кодом. Это просто инструмент для поиска документов и кода. Он делит 1016 задач глубокого обучения на 16 категорий, охватывающих все аспекты глубокого обучения.

Адрес главной страницы:

https://paperswithcode.com/sota

Два примера:

РЕЗЮМЕ:

https://paperswithcode.com/area/computer-vision

НЛП:

https://paperswithcode.com/area/natural-language-processing

Papers with Code(Sorted by stars)

На этом ресурсе собраны все статьи в области ИИ за 2013-2018 годы, отсортированные по количеству звезд на GitHub.

Адрес проекта на GitHub:

https://github.com/zziz/pwc

Маршрут чтения документов по глубокому обучению

Если вы новичок в области глубокого обучения, первый вопрос, который у вас может возникнуть: «Какую статью мне следует начать читать?» Вот дорожная карта чтения для работы по глубокому обучению!

Адрес проекта на GitHub:

https://github.com/floodsung/Deep-Learning-Papers-Reading-Roadmap

Этот документ по глубокому обучениюмаршрут чтенияДелится на три блока:

1 Deep Learning History and Basics

2 Deep Learning Method

3 Applications

Deep Learning Object Detection

Обнаружение объектов является основной областью исследований и важным направлением в области CV глубокого обучения. В период с 2013 по 2019 год, от самых ранних R-CNN и Fast R-CNN до более поздних YOLO v2, YOLO v3 и M2Det в этом году, новые модели появлялись одна за другой, и производительность становилась все лучше и лучше!

Этот ресурс представляет собой систематическое введение в развитие обнаружения целей и связанные с ним статьи за последние годы, а также обобщает сверхполный список литературных статей.

Адрес проекта на GitHub:

https://github.com/hoya012/deep_learning_object_detection

известная конференция

Встреча

Нейрипс: https://nips.cc/

ICML: https://icml.cc/

ICLR: https://iclr.cc/

АААИ: https://aaai.org/Conferences/AAAI-19/

IJCAI: https://www.ijcai.org/

УАИ: http://www.auai.org/uai2019/index.php

Компьютерное зрение:

CVPR: http://cvpr2019.thecvf.com/

ECCV: https://eccv2018.org/program/main-conference/

ICCV: http://iccv2019.thecvf.com/

Обработка естественного языка:

ACL: http://www.aclcargo.com/

ЕМСЛП: https://www.aclweb.org/portal/content/emnlp-2018.

НААКЛ: https://naacl2019.org/

Известные журналы:

ДЖАИР: https://www.jair.org/index.php/jair

JMLR: http://www.jmlr.org/

разное

С точки зрения робототехники есть CoRL (обучение), ICAPS (планирование, включая, но не ограничиваясь роботами), ICRA, IROS, RSS;

Для более теоретических занятий есть AISTATS, COLT, KDD.

теоретическое приложение

обработка естественного языка

Что такое НЛП

Обработка естественного языка (NLP) — это технология, изучающая компьютерную обработку человеческого языка с целью преодоления разрыва между человеческим общением (естественный язык) и компьютерным пониманием (машинный язык). НЛП включает в себя такие области, как синтаксический и семантический анализ, извлечение информации, анализ текста, машинный перевод, поиск информации, ответы на вопросы и диалоговые системы.

Рекомендация курса

CS224n Стэнфордский курс глубокой обработки естественного языка

Версия 17 с китайскими субтитрами:

https://www.bilibili.com/video/av41393758/?p=1

Примечания к курсу:

http://www.hankcs.com/?s=CS224n%E7%AC%94%E8%AE%B0

Домашняя страница курса 2019:

http://Web.Stanford.Amount/class/На данный момент 224 вас/

Обработка естественного языка - Дэн Джурафски и Крис Мэннинг

Станция B с английскими субтитрами:

https://www.bilibili.com/video/av35805262/

Академическая торрент-сеть:

http://academictorrents.com/details/d2c8f8f1651740520b7dfab23438d89bc8c0c0ab

Книга Рекомендации

Обработка естественного языка Python

Для начинающих вся книга охватывает не только манипулирование корпусами, но и традиционные методы, основанные на правилах. Вся книга включает в себя токенизацию, тегирование частей речи (POS), тегирование фрагментов, синтаксический и семантический анализ и т. д. Это хорошее практическое руководство по nlp.

Обзор обработки естественного языка

Дэниел Джурафски и Джеймс Х. Мартин

Эта книга очень авторитетна и является классическим учебником НЛП, охватывающим классическую обработку естественного языка, статистическую обработку естественного языка, распознавание речи и компьютерную лингвистику.

Основы статистической обработки естественного языка

Крис Мэннинг и Хинрих Шютце

Более продвинутые статистические методы НЛП, описанные как в разделе «Основы статистики», так и в разделе «n-gram».

Рекомендация блога

Я люблю обработку естественного языка

Адрес: http://www.52nlp.cn/

TFIDF, сходство документов и т. д. объясняются в простой для понимания форме на этом сайте.

Блог Language Journal (Марк Либерман)

адрес:

HTTP://language log.Lithium battery.u Penn.Amount/Годовая процентная ставка/

блог по обработке естественного языка

Адрес: https://nlpers.blogspot.com/

Блог по обработке естественного языка, который ведет Хэл Дауме III в Соединенных Штатах, часто комментирует последние научные разработки и заслуживает внимания. Ощущения от участия в ACL, NAACL и других научных конференциях и комментарии к статьям

Рекомендация проекта

Китайская система ответов на вопросы на основе LSTM

https://github.com/S-H-Y-GitHub/QA

Генератор текста на основе RNN

https://github.com/karpathy/char-rnn

Генератор текстов песен Ван Фэна на основе char-rnn

HTTPS://GitHub.com/P hunter AU/Wang Feng-like молоко

Генерация рукописных цифр с помощью RNN

https://github.com/skaae/lasagne-draw

Инструментарий НЛП с открытым исходным кодом

Связано с китайским НЛП: https://github.com/crownpku/Awesome-Chinese-NLP

Английский НЛП, связанный с:

НЛТК: http://www.nltk.org/

TextBlob: http://textblob.readthedocs.org/en/dev/

Генсим: http://radimrehurek.com/gensim/

Выкройка: http://www.clips.ua.ac.be/pattern

Спаси: http://spacy.io

Оранжевый: http://orange.biolab.si/features/

Ананас: https://github.com/proycon/pynlpl

Связанные документы

100 обязательных к прочтению статей по НЛП

https://github.com/mhagiwara/100-nlp-papers

компьютерное зрение

Приложения компьютерного зрения

Приложения компьютерного зрения	беспилотный
Нет безопасности
распознавание лица
распознавание номерного знака автомобиля
Поиск по изображению
VR/AR
3D реконструкция
дрон
анализ медицинских изображений
разное

Рекомендация курса

Стэнфорд CS223B

Он больше подходит для основ, подходит для студентов, которые только начинают, и сочетание с глубоким обучением будет относительно меньше, Он не будет учить глубокому обучению во всем курсе, а в основном сосредоточится на компьютерном зрении, которое будет освещено во всех аспектах.

Фейфей Ли: Курс CS231n:

https://mp.weixin.qq.com/s/-NaDpXsxvu4DpXqVNXIAvQ

Книга Рекомендации

1. Вводное обучение:

Компьютерное зрение: модели, обучение и вывод

2. Классические и авторитетные ссылки:

Компьютерное зрение: алгоритмы и приложения

3. Теория и практика:

«Введение в программирование OpenCV3»

Рекомендуемая система

Что такое рекомендательная система

Рекомендательная система — это инструмент для автоматического соединения пользователей и элементов, который может помочь пользователям находить интересующую их информацию в информационно-перегруженной среде, а также может передавать информацию пользователям, которые в них заинтересованы. Система рекомендаций представляет собой приложение для фильтрации информации.

Рекомендуемые курсы

Спецкурс по рекомендательной системе《Специализация по системам рекомендаций》

Эта серия состоит из 4 подкурсов и 1 курса выпускного проекта, в том числе «Введение в системы рекомендаций», «Совместная фильтрация ближайших соседей», «Оценка системы рекомендаций», «Матричная факторизация» и «Усовершенствованные методы».

Смотреть адрес:

https://www.coursera.org/specializations/recommender-systems

Книга Рекомендации

«Практика системы рекомендаций» (Подсветка предметов)

Система рекомендаций (Dietmar Jannach et al., перевод Цзян Фаня)

«Портрет поведения пользователей в сети» (Ниу Вэньцзя и др.)

Справочник по системам рекомендаций (Пол Б. Кантор и др.)

Библиотека алгоритмов

LibRec

LibRec — это Java-версия библиотеки алгоритмов системы рекомендаций с открытым исходным кодом, охватывающая более 70 типов алгоритмов рекомендаций. Она была основана Гуо Гуйбином, местным магнатом рекомендательных систем, и обновлена до версии 2.0. Она эффективно решает две проблемы: Прогноз рейтинга и рекомендации по предметам Большой критический вопрос направления.

Адрес проекта: https://github.com/guoguibing/librec

Адрес официального сайта: https://www.librec.net/

LibMF

Версия C++ системы рекомендаций с открытым исходным кодом в основном реализует систему рекомендаций, основанную на матричной декомпозиции. С целью решения проблемы блокировки и разрыва памяти метода оптимизации SGD (стохастический градиентный спуск) при параллельных вычислениях предлагается эффективный алгоритм декомпозиции матрицы FPSGD (Fast Parallel SGD), который делит блок оценочной матрицы в соответствии с количеством вычислительных узлов. и выделить вычислительные узлы.

адрес проекта:

http://www.csie.ntu.edu.tw/~cjlin/libmf/

SurPRISE

Версия системы рекомендаций с открытым исходным кодом на Python с множеством классических алгоритмов рекомендаций.

Адрес проекта: http://surpriselib.com/

Neural Collaborative Filtering

Реализация Python алгоритма рекомендации нейронной совместной фильтрации

адрес проекта:

https://github.com/hexiangnan/neural_collaborative_filtering

Crab

Программное обеспечение для рекомендаций с открытым исходным кодом, разработанное на основе Python, которое реализует совместную фильтрацию элементов и пользователей.

Адрес проекта: http://muricoca.github.io/crab/

Общие наборы данных

MovieLen

https://grouplens.org/datasets/movielens/

В наборе данных MovieLens пользователи оценивают просмотренные фильмы по шкале от 1 до 5. MovieLens включает в себя две библиотеки разного размера для алгоритмов разного масштаба. Малая библиотека — это данные 10 000 оценок 1682 киноработ от 943 уникальных пользователей, большая библиотека — около 1 000 000 оценок 3 900 киноработ от 6 040 независимых пользователей. Подходит для традиционных рекомендательных задач

Douban

https://www.cse.cuhk.edu.hk/irwin.king.new/pub/data/douban

Douban — это анонимный набор данных Douban, который содержит 120 000 пользователей и данные о фильмах 50 000. Это информация о рейтингах пользователей для фильмов и социальная информация между пользователями, которая подходит для задач социальных рекомендаций.

BookCrossing

http://www2.informatik.uni-freiburg.de/~cziegler/BX/

Этот набор данных представляет собой рейтинги 271 379 книг 278 858 пользователей онлайн-книжного сообщества Book-Crossing, как явные, так и неявные рейтинги. Демографические характеристики, такие как возраст этих пользователей, остаются анонимными и доступны для анализа. Этот набор данных был собран в книжном сообществе Book-Crossing в 2004 году Кай-Николасом Зиглером с помощью поискового робота.

Рекомендуемые документы

Организованы классические обязательные к прочтению статьи, в том числе обзорные статьи, традиционные классические рекомендательные статьи, социальные рекомендательные статьи, статьи о системе рекомендаций, основанные на глубоком обучении, статьи, посвященные решению проблемы холодного запуска, документы, связанные с POI, и использование хеш-технологии для ускорения рекомендации. Статьи и похожие статьи о классических проблемах исследования и использования в рекомендательных системах.

адрес проекта:

https://github.com/hongleizhang/RSPapers

Рекомендуемые товары

1. Знакомство с механизмом системы рекомендаций Toutiao для создателей контента. Разделено: Сян Лян, Архитектор алгоритма рекомендаций Toutiao:

https://v.qq.com/x/page/f0800qavik7.html?

2. 3 минуты, чтобы понять принцип рекомендательной системы Toutiao

https://v.qq.com/x/page/g05349lb80j.html?

3. Как Facebook рекомендует миллиард человек

https://code.facebook.com/posts/861999383875667/recommending-items-to-more-than-a-billion-people/

4. Архитектура системы персонализации и рекомендаций Netflix

http://techblog.netflix.com/2013/03/system-architectures-for.html

Модель контроля риска (модель оценочной карты)

Введение в модель системы показателей

Модель оценочной карты является одной из наиболее распространенных и важных моделей в банках, паевых инвестиционных фондах и других компаниях и предприятиях, связанных с кредитованием. Короче говоря, его функция состоит в том, чтобы оценивать клиентов, чтобы судить о том, являются ли они качественными.

В соответствии с бизнес-стадией применения модели оценочной карты модель оценочной карты в основном делится на три категории: карта A (оценочная карта приложения), оценочная карта приложения, карта B (карта оценки поведения), оценочная карта поведения, карта C (оценка сбора). карточка) коллекция Scorecard. Среди них оценочная карта приложения используется для предварительного кредита, оценочная карта поведения используется для кредита, а оценочная карта сбора используется для пост-кредита Эти три оценочные карты имеют решающее значение во всем жизненном цикле нашего кредитного бизнеса.

Рекомендуемые книги

«Исследование системы показателей кредитного риска — разработка и внедрение на основе SAS»

Процесс моделирования модели системы показателей

отбор проб

Определите окно наблюдения (промежуток времени функции) и окно производительности (промежуток времени метки) обучающей выборки и тестовой выборки, и каково определение метки выборки? При нормальных обстоятельствах метки оценочных карт риска учитывают задержку клиентов в течение определенного периода времени.

Подготовка функций

Исходные функции, производные переменные

Очистка данных

Обрабатывайте отсутствующие значения или выбросы в соответствии с потребностями бизнеса

Отбор функций

Отбор признаков выполняется в соответствии со значением IV признака (вклад признака в модель) и PSI (стабильность признака). Чем меньше PSI, тем лучше (как правило, PSI признака меньше или меньше). равно 0,01 при моделировании)

на функцииконверсия WOE

То есть функции группируются, и при выполнении преобразования WOE следует обращать внимание на интерпретируемость функций.

Моделирование

В процессе построения модели может быть выполнен вторичный скрининг переменных путем оценки качества модели, когда каждая переменная включена или не включена в модель по статистике модели и переменных.

Оценочные показатели

Показатели, на которых обычно ориентируются модели оценочных карт, — это значение KS (которое измеряет разницу между совокупными делениями хороших и плохих выборок), PSI модели (то есть общая стабильность модели) и значение AUC.

График знаний

Что такое граф знаний

Граф знаний — это метод обработки структурированных данных, который включает ряд технологий, таких как извлечение, представление, хранение и поиск знаний. С точки зрения происхождения, это слияние представления знаний и развития различных технологий, таких как рассуждение, база данных, поиск информации и обработка естественного языка.

Рекомендуемая информация

Зачем нужен граф знаний? Что такое граф знаний? —— Прошлая и настоящая жизнь КГ

https://zhuanlan.zhihu.com/p/31726910

Что такое граф знаний?

https://zhuanlan.zhihu.com/p/34393554

Эпоха интеллектуального поиска: в чем ценность графа знаний?

https://zhuanlan.zhihu.com/p/35982177?from=1084395010&wm=9848_0009&weiboauthoruid=5249689143

Baidu Wang Haifeng: Граф знаний — краеугольный камень ИИ

http://www.infoq.com/cn/news/2017/11/Knowledge-map-cornerstone-AI#0-tsina-1-5001-397232819ff9a47a7b7e80a40613cfe1

Перевод|От извлечения знаний к визуализации графа знаний RDF

http://rdc.hundsun.com/portal/article/907.html?hmsr=toutiao.io&utm_medium=toutiao.io&utm_source=toutiao.io

основное содержание

3.1 Извлечение знаний

Первое, что нужно решить при построении кг, — это данные, а извлечение знаний — решить задачу генерации структурированных данных. Мы можем использовать методы обработки естественного языка или правила.

3.1.1 Правила использования

регулярное выражение

Регулярные выражения (regex) — это базовые навыки обработки строк. Сканирование данных, очистка данных, извлечение сущностей и извлечение отношений неотделимы от регулярных выражений.

Рекомендуемые материалы для начала:

Владею регулярными выражениями

визуализация регулярного выражения: пример [a-z]*(\d{4}(\D+))

регулярное выражение онлайн-теста pythex:

HTTP://Пак Ючон Core.org/

Рекомендуемые данные для продвинутых:

re2 :

Python wrapper for Google's RE2 using Cython

https://pypi.python.org/pypi/re2/

Parsley: более удобный синтаксис регулярных выражений.

http://parsley.readthedocs.io/en/latest/tutorial.html

Сегментация китайских слов и теги по частям речи

Сегментация слов также является основой всей последующей обработки.Часть речи (POS) — это классификация слов, таких как глаголы, существительные, прилагательные и т. д., которую все выучили в средней школе. Общие инструменты сегментации слов будут иметь опции тегирования частей речи.

Рекомендуемые материалы для начала:

Пакет сегментации китайских слов jieba

https://github.com/fxsjy/jieba

Китайский набор тегов части речи

https://github.com/memect/kg-beijing/wiki/

Рекомендуемые данные для продвинутых:

гений использует алгоритм условного случайного поля CRF

https://github.com/duanhongyi/genius

Сегментация слов Stanford CoreNLP

https://blog.csdn.net/guolindonggld/article/details/72795022

Распознавание именованных объектов

Распознавание именованных объектов (NER) является важным базовым инструментом в прикладной области извлечения информации.Вообще говоря, задача распознавания именованных объектов состоит в том, чтобы идентифицировать три основные категории (объект, время и число), семь подкатегорий (человек, учреждение, место, время, дата, валюта и процент) именованных объектов.

Рекомендуемая информация:

Stanford CoreNLP для распознавания китайских именованных сущностей

https://blog.csdn.net/guolindonggld/article/details/72795022

3.1.2 Использование глубокого обучения

Метод обработки естественного языка обычно заключается в извлечении триплета (spo) определенного поля из неструктурированных данных с учетом схемы.Например, недавний конкурс, проведенный Baidu, использует модель DL для извлечения информации.

аннотация последовательности

Используя модель генерации последовательности, он в основном отмечает начальное положение субъекта и объекта в триплете, тем самым извлекая информацию.

Рекомендуемая информация:

проблема маркировки последовательности

https://www.cnblogs.com/jiangxinyang/p/9368482.html

seq2seq

Используя сквозную модель seq2seq, он в основном опирается на идею суммирования текста и обрабатывает триплеты как сводки неструктурированных текстов для извлечения, что также включает механизм Attention.

Рекомендуемая информация:

Подробный seq2seq

https://blog.csdn.net/irving_zhang/article/details/78889364

Подробное объяснение от модели Seq2Seq до модели Attention

https://caicai.science/2018/10/06/attention%E6%80%BB%E8%A7%88/

3.2 Представление знаний

Представление знаний (KR, также переводится как представление знаний) — это метод изучения того, как организовать структурированные данные для машинной обработки и понимания человеком.

Вы должны быть знакомы со следующим:

JSON и YAML

json-библиотека:

https://docs.python.org/2/library/json.html

PyYAML: библиотека обработки Yaml в Python.

http://pyyaml.org/wiki/PyYAML

Семантика RDF и OWL:

HTTP://блог. Что традиционно. Can/? Afraid=871

JSON-LD

Домашняя страница: http://json-ld.org/

3.3 Хранилище знаний

Требуется знакомство с распространенными базами данных графов

А. Способ ссылки на знания: строка, внешний ключ, URI

б) PostgreSQL и его расширение JSON

Пакет Psycopg работает на PostgreSQL.

http://initd.org/psycopg/docs/

c. Графическая база данных Neo4j и OrientDB

1. Интерфейс Python Neo4j https://neo4j.com/developer/python/

2. OrientDB: http://orientdb.com/orientdb/

г. База данных RDF Stardog

Официальный сайт Стардога: http://stardog.com/

3.4 Поиск знаний

Требуется знакомство с распространенными методами поиска

Учебник по ElasticSearch:

http://joelabrahamsson.com/elasticsearch-101/

Связанные термины и технические маршруты

Онтология:

https://www.zhihu.com/question/19558514

РДФ:

https://www.w3.org/RDF/

Апач Йена:

https://jena.apache.org/

D2RQ:

http://d2rq.org/getting-started

4.1 Protege строит серию онтологий

протеже:

https://protege.stanford.edu/

использование протеже:

https://zhuanlan.zhihu.com/p/32389370

4.2 Язык разработки

питон или джава

4.3 Технология баз данных графов

Neo4j: https://neo4j.com/

АллегроГраф: https://franz.com/agraph/allegrograph/

4.4 Технология визуализации

d3.js: https://d3js.org/

Cytoscape.js: http://js.cytoscape.org/

4.5 Технология сегментации слов

Уличный боец: https://GitHub.com/flytimes/streetfighter

хелп: https://github.com/hankcs/HanLP

Боевой проект

Вопросы и ответы на основе графа знаний:

https://github.com/kangzhun/KnowledgeGraph-QA-Service

Сельское хозяйство_KnowledgeGraph:

https://github.com/qq547276542/Agriculture_KnowledgeGraph

Платформа вклада

Предоставлено известными платформами с открытым исходным кодом, технологическими платформами искусственного интеллекта и экспертами в предметной области: ApacheCN, Datawhale, AI Youdao и Dr. Huang Haiguang:

1.ApacheCN: Момент, Ли Сянъюй, Фэйлун, Ван Сян

2. Datawhale: Фань Цзинцзин, Ма Цзинминь, Ли Бихан, Ли Фу, Гуанчэн, Цзюй Джу, Кан Бинбин, Чжэн Цзяхао

3. У ИИ есть способ: красный камень

4. Доктор Хуан Хайгуан

Введение в платформу

Datawhale

Организация с открытым исходным кодом, специализирующаяся на области ИИ, национальном инкубационном проекте Шанхайского университета Цзяотун, в настоящее время имеет 7 независимых команд, собрала группу членов команды с духом открытого исходного кода и исследований, объединила выдающихся учащихся из различных университетов и предприятий. , приверженность Чтобы создать круг чистого обучения и высококачественные проекты с открытым исходным кодом, предоставляемое групповое обучение охватывает 16 областей содержания, таких как анализ данных, интеллектуальный анализ данных, машинное обучение, глубокое обучение и программирование.

У ИИ есть способ

Технический публичный аккаунт, посвященный области ИИ. Официальный аккаунт в основном включает в себя передовые знания, сухие заметки и высококачественные ресурсы в области искусственного интеллекта, такие как Python, ML, CV и NLP! Мы стремимся предоставить высококачественные ресурсы ИИ и практические маршруты обучения ИИ для большинства энтузиастов ИИ.

Хуан Бо (новичок в области машинного обучения)

Курсы по машинному обучению недостаточно популярны в Китае. Большинство новичков все еще в замешательстве и пошли по многим окольным путям. Доктор Хуан Хайгуан надеется сделать все возможное, чтобы предоставить платформу для обучения и общения новичков в области машинного обучения.

ApacheCN

Организация с открытым исходным кодом, занимающаяся предоставлением высококачественных проектов с открытым исходным кодом, посвященных переводу документов AI, обмену конкурсами Kaggle, чистке алгоритмов LeetCode, обмену большими данными и другим проектам. Мы надеемся сделать то, что действительно нужно большинству энтузиастов ИИ, и создать действительно ценные работы с длинным хвостом.

Официальный сайт: http://www.apachecn.org/