Это то, что я рекомендую13хорошая статья
источник:Datawhale
автор:AIUnion
【Введение】
Эта статья подготовлена и подготовлена совместно известными платформами с открытым исходным кодом, технологическими платформами ИИ и экспертами в предметной области: Datawhale, ApacheCN, AI Youdao и доктором Хуан Хайгуаном. обучение, обучение с подкреплением, передовая бумага и пять теоретических областей применения ИИ: обработка естественного языка, компьютерное зрение, системы рекомендаций, модели управления рисками и графики знаний. Это необходимый маршрут обучения и высококачественный учебный ресурс для изучения ИИ от новичка до эксперта.
Базовые знания
1
математика
Математика бесконечна, и мало кто может изучить основы математики так же основательно, как кандидат наук.Чтобы попасть в область искусственного интеллекта, по сути, нужно лишь освоить необходимые базовые знания. Математическая основа ИИ является наиболее важнойВысшая математика, линейная алгебра, теория вероятностей и математическая статистикаТри курса, эти три курса являются обязательными для магистрантов. Вот простая вводная математическая статья:
Математические основы: продвинутая математика
https://zhuanlan.zhihu.com/p/36311622
Основы математики: линейная алгебра
https://zhuanlan.zhihu.com/p/36584206
Математические основы: теория вероятностей и математическая статистика
https://zhuanlan.zhihu.com/p/36584335
Загрузите «Математические основы машинного обучения»:
1) Математические основы машинного обучения.docx
Китайская версия обобщает формулы трех курсов высшей математики, линейной алгебры, теории вероятностей и математической статистики.
2) Математические основы машинного обучения в Стэнфордском университете.pdf
Исходный материал на английском языке очень обширен, поэтому студентам с хорошим английским рекомендуется изучать этот материал напрямую.
Ссылка для скачивания:
https://pan.baidu.com/s/1LaUlrJzy98CG1Wma9FgBtg Код извлечения: hktx
Зарубежные классические учебники по математике:
По сравнению с отечественной версией учебников по математике Чжэцзянского университета и версией Тунцзи, легче понять и объяснить глубокие вещи простым языком, что удобно для начинающих, чтобы заложить лучшую основу для математики. Ссылка для скачивания:
https://blog.csdn.net/Datawhale/article/details/81744961
2
статистика
Вводный учебник: Статистика простыми словами
Расширенный учебник: Бизнес и экономическая статистика
Рекомендуемое видео: Статистика Академии Хана
http://open.163.com/special/Khan/khstatistics.html
3
программирование
Для входа в область искусственного интеллекта Python является первым языком программирования.
1) Установка Python:
Установочный пакет Python, я рекомендую загрузить Anaconda, Anaconda — это дистрибутив Python для научных вычислений, поддерживает системы Linux, Mac, Windows, предоставляет функции управления пакетами и средой, а также может легко разрешить сосуществование и переключение нескольких версий Python и различных третьих -Party проблемы с установкой пакета.
ссылка для скачивания:
HTTPS://woohoo.anaconda.com/download/
Рекомендуется Anaconda (версия python 3.7)
IDE: рекомендуется pycharm, версия для сообщества бесплатна
Адрес для скачивания: https://www.jetbrains.com/
Учебник по установке:
Блокнот Anaconda+Jupyter+Pycharm:
https://zhuanlan.zhihu.com/p/59027692
Конфигурация среды глубокого обучения Ubuntu18.04 (CUDA9+CUDNN7.4+TensorFlow1.8):
https://zhuanlan.zhihu.com/p/50302396
2) Рекомендуемые материалы для начала работы с Python
А. Заметки об изучении питонов Ляо Сюэфэна
https://blog.csdn.net/datawhale/article/category/7779959
примечания к записи b.python
Автор Ли Джин, это файл блокнота jupyter, который один раз демонстрирует основной синтаксис python, который стоит рекомендовать. Ссылка для скачивания:
https://pan.baidu.com/s/1IPZI5rygbIh5R5OuTHajzA Код извлечения: 2bzh
c. Видеоруководство по Python в Нанкинском университете
Этот учебник очень рекомендуется, и в основном рассматриваются основной синтаксис Python и часто используемые библиотеки.
Посмотреть адрес:
https://www.icourse163.org/course/0809NJU004-1001571005?from=study
После прочтения этих трех материалов python в основном достиг начального уровня, и вы можете использовать библиотеки машинного обучения, такие как scikit-learn, для решения задач машинного обучения.
3) Дополнение
Спецификация кода:
https://zhuanlan.zhihu.com/p/59763076
Numpy практические вопросы:
https://zhuanlan.zhihu.com/p/57872490
панды практические вопросы:
https://zhuanlan.zhihu.com/p/56644669
Анализ данных/добыча
1
Основные книги по анализу данных
«Анализ данных с помощью Python»
Эта книга содержит большое количество практических примеров, и вы узнаете, как использовать различные библиотеки Python (включая NumPy, Pandas, Matplotlib, IPython и т. д.) для эффективного решения различных задач анализа данных. Если вы запустите код один раз, вы сможете решить большинство проблем анализа данных.
2
разработка функций
https://blog.csdn.net/Datawhale/article/details/83033869
3
проект интеллектуального анализа данных
https://blog.csdn.net/datawhale/article/details/80847662
машинное обучение
Публичный класс
Ву Энда «Машинное обучение»
Это определенно лучший курс для начала работы с машинным обучением, без исключения! Даже если у вас нет прочной математической основы, такой как теория вероятностей и линейная алгебра, необходимые для надежного машинного обучения, вы можете легко начать этот вводный курс по машинному обучению и испытать бесконечное удовольствие от машинного обучения.
Домашняя страница курса:
https://www.coursera.org/learn/machine-learning
Китайское видео:
NetEase Cloud Classroom провел этот курс и перевел китайские субтитры Хуанга Хайгуана и других.
Китайские примечания и коды присвоения:
https://github.com/fengdu78/Coursera-ML-AndrewNg-Notes
Публичный класс
Нг Энда CS229
Курс Эндрю Нг по машинному обучению CS229 в Стэнфорде похож на курс Эндрю Нг по машинному обучению на Coursera, но имеетДополнительные математические требования и вывод формул, чуть сложнее. Этот курс представляет собой широкое введение в машинное обучение и статистическое распознавание образов.
Домашняя страница курса:
http://cs229.stanford.edu/
Китайское видео:
http://open.163.com/special/opencourse/machinelearning.html
Китайские примечания:
https://kivy-cn.github.io/Stanford-CS-229-CN/#/
Шпаргалка:
Автором этого замечательного ресурса является Шервин Амиди, выпускница Стэнфорда. Автор собрал супер подробную шпаргалку по CS229
https://zhuanlan.zhihu.com/p/56534902
Код работы:
https://github.com/Sierkinhane/CS229-ML-Implements
Публичный класс
Линь Сюаньтянь "Краеугольный камень машинного обучения"
Курс «Краеугольный камень машинного обучения», который читает г-н Линь Сюаньтянь из Национального тайваньского университета, является всеобъемлющим по содержанию и в основном охватывает многие аспекты области машинного обучения. Он очень подходит в качестве вводного и продвинутого материала для машинного обучения. Кроме того, стиль преподавания г-на Линя также очень юмористичен, что всегда позволяет читателям осваивать знания в непринужденной и счастливой атмосфере. Этот класс немного сложнее, чем машинное обучение Нг, и фокусируется на теории машинного обучения.
Китайское видео:
https://www.bilibili.com/video/av36731342
Китайские примечания:
https://redstonewill.com/category/ai-notes/lin-ml-foundations/
Вспомогательные учебники
Вспомогательная книга - «Обучение на основе данных», домашняя страница онлайн-книги: http://amlbook.com/
Публичный класс
Линь Сюаньтянь «Методы машинного обучения»
Курс «Методы машинного обучения» — это продвинутый курс по основам машинного обучения. В основном он представляет некоторые классические алгоритмы в области машинного обучения, включая машины опорных векторов, деревья решений, случайные леса, нейронные сети и т. д. Сложность немного выше, чем у «Краеугольного камня машинного обучения», и она очень практична.
Китайское видео:
https://www.bilibili.com/video/av36760800
Китайские примечания:
https://redstonewill.com/category/ai-notes/lin-ml-techniques/
книги
"Машинное обучение"
«Машинное обучение» Чжоу Чжихуа ласково называют «Арбузной книгой». Эта книга очень классическая. В ней описываются основные математические теории и алгоритмы машинного обучения. Она подходит для школьных учебников или самостоятельного изучения читателями среднего уровня. На начальном этапе изучение этой книги немного сложнее.
Учитесь вместе с «Практикой машинного обучения», эффект лучше!
примечания к учебе:
https://www.cnblogs.com/limitlessun/p/8505647.html#_label0
Вывод формулы:
https://datawhalechina.github.io/pumpkin-book/#/
Занятия после школы:
https://zhuanlan.zhihu.com/c_1013850291887845376
книги
«Статистические методы обучения»
«Статистические методы обучения» Ли Ханга — это классика, содержащая более полные и профессиональные теоретические знания в области машинного обучения, которые очень хороши в качестве надежной теории.
Лекция ППТ:
https://github.com/fengdu78/lihang-code/tree/master/ppt
примечания к учебе:
http://www.cnblogs.com/limitlessun/p/8611103.html
https://github.com/SmirkCao/Lihang
Справочные примечания:
https://zhuanlan.zhihu.com/p/36378498
Код:
https://github.com/fengdu78/lihang-code/tree/master/code
книги
Практическое руководство по машинному обучению с помощью Scikit-Learn и TensorFlow
После предыдущего исследования это «Практическое руководство по машинному обучению Scikit-Learn и TensorFlow» очень подходит для улучшения ваших навыков боевого программирования машинного обучения.
Эта книга разделена на две части: первая часть знакомит с основными алгоритмами машинного обучения, и каждая глава снабжена практическими проектами Scikit-Learn, вторая часть знакомит с нейронными сетями и глубоким обучением, и каждая глава снабжена практическими проектами TensorFlow. . Если это просто машинное обучение, вы можете сначала прочитать первую часть.
Весь код книги:
https://github.com/ageron/handson-ml
настоящий бой
Kaggle соревнования
Соревнование — самый эффективный способ улучшить боевые способности машинного обучения.Предпочтительные соревнования Kaggle.
Домашняя страница Kaggle:
https://www.kaggle.com/
Kaggle маршруты:
https://github.com/apachecn/kaggle
инструмент
Официальная документация Scikit-Learn
Как очень обширная библиотека для машинного обучения, Scikit-Learn представляет собой редкое практическое руководство по программированию.
Официальная документация:
https://scikit-learn.org/stable/index.html
Китайская документация (0.19):
http://sklearn.apachecn.org/#/
глубокое обучение
Публичный класс
Эндрю Нг "Глубокое обучение"
После того, как Ву Энда открыл курс машинного обучения, выпущенный курс «Глубокое обучение» также был хорошо принят.Самая большая особенность курса г-на Ву Энда заключается в том, что он шаг за шагом передает вам знания, что является редким хорошим видеоматериалом для вводного обучение.
Вся тема включает в себя пять курсов: 01. Нейронные сети и глубокое обучение, 02. Улучшение глубоких нейронных сетей — отладка гиперпараметров, регуляризация и оптимизация, 03. Проекты структурированного машинного обучения, 04. Сверточные нейронные сети, 05. Модель последовательностей.
Видео курса
Облачный класс NetEase:
https://mooc.study.163.com/university/deeplearning_ai#/c
Курсера:
https://www.coursera.org/specializations/deep-learning
Примечания к курсу
Я уже писал личные заметки г-на Ву Энда о машинном обучении, и доктор Хайгуан Хуанг руководил командой, чтобы систематизировать заметки на китайском языке:
https://github.com/fengdu78/deeplearning_ai_books
Справочные документы
Г-н Ву Энда упомянул много прекрасных докладов в ходе курса, а д-р Хуан Хайгуан организовал их следующим образом:
https://github.com/fengdu78/deeplearning_ai_books/tree/master/%E5%8F%82%E8%80%83%E8%AE%BA%E6%96%87
Курс PPT и домашнее задание
Курс глубокого обучения Эндрю Нг, включая учебные материалы, домашние задания и некоторые другие материалы:
https://github.com/stormstone/deeplearning.ai
Публичный класс
Fast.ai «Глубокое обучение для программистов»
Когда дело доходит до открытых курсов глубокого обучения, еще один открытый курс, который идет рука об руку с «Глубоким обучением» Ву Энды, — это «Практика глубокого обучения программиста», созданная Fast.ai. Лучшая особенность этого курса в том, что"Низходящий"вместо"вверх дном", — отличный курс для глубокого обучения в реальном бою.
Адрес видео
Адрес станции B (английские субтитры):
https://www.bilibili.com/video/av18904696?from=search&seid=10813837536595120136
Адрес CSDN (китайские субтитры 2017 г.):
https://edu.csdn.net/course/detail/5192
Примечания к курсу
Оригинальное примечание на английском языке:
https://medium.com/@hiromi_suenaga/deep-learning-2-part-1-lesson-1-602f73869197
Перевод на китайский язык организован ApacheCN:
https://github.com/apachecn/fastai-ml-dl-notes-zh
Публичный класс
CS230 Deep Learning
Стэнфордский курс глубокого обучения CS230 начался только 2 апреля, а также был запущен соответствующий полный набор PPT. С точки зрения содержания, курсы этого года не сильно отличаются от прошлогодних, охватывая базовые модели глубокого обучения, такие как CNN, RNN, LSTM, Adam, Dropout, BatchNorm, инициализация Xavier/He и т. д., включая лечение, автономное вождение, распознавание языка жестов, музыкальные поля, такие как генеративная обработка и обработка естественного языка.
Datawhale собрал подробное введение и справочные материалы к курсу:
Урок Эндрю Нг по глубокому обучению CS230 начался! Видео с поддержкой PPT есть все
книги
Нейронные сети и глубокое обучение - Fudan Qiu Xipeng
Эта книга является отличным учебником для начинающих в области глубокого обучения.В основном она знакомит с базовыми знаниями о нейронных сетях и глубоком обучении, основных моделях (сетях с прямой связью, сверточных сетях, рекуррентных сетях и т. д.) приложениях.
Профессор Фудань Цю Сипэн выпустил «Нейронные сети и глубокое обучение» с открытым исходным кодом
книги
«Глубокое обучение»
После завершения вышеуказанного обучения, если вы хотите более систематически установить систему знаний глубокого обучения, правильно прочитать «Глубокое обучение». Эта книга знакомит с базовыми математическими знаниями, опытом машинного обучения, а также теорией и развитием глубокого обучения на этом этапе от простого к глубокому. Она может помочь энтузиастам и практикам в области технологий искусственного интеллекта всесторонне понять глубокое обучение под руководством трех эксперты и ученые...
Введение в книгу
«Глубокое обучение» часто называют Цветочной книгой, самым классическим бестселлером в области глубокого обучения. Написанный тремя всемирно известными экспертами, Яном Гудфеллоу, Йошуа Бенжио и Аароном Курвиллем, это основополагающий классический учебник в области глубокого обучения. Книга известна публике как «Библия ИИ».
читать онлайн
Книгу перевели многие пользователи сети, а электронная версия доступна по следующему адресу:
https://github.com/exacity/deeplearningbook-chinese
книги
«Глубокое обучение 500 вопросов»
Когда вы просмотрели все видео и изучили Библию ИИ, вы должны быть полны вопросительных знаков, В это время лучше подойти к 500 общим вопросам в интервью по глубокому обучению.
Введение в книгу
DeepLearning-500-вопросов, автор - Тан Джиюн, выдающийся выпускник Сычуаньского университета. Проект представляет собой вопросы и ответы для глубокого обучения, собирая 500 вопросов и ответов. Содержание включает такие актуальные темы, как часто используемые знания о вероятностях, линейная алгебра, машинное обучение, глубокое обучение, компьютерное зрение и т. д. Книга еще не закончена, но уже получила 2,4 звезды на Github.
адрес проекта:
https://github.com/scutan90/DeepLearning-500-questions
инструмент
Официальная документация TensorFlow
Изучение глубокого обучения должно быть неотделимо от TensorFlow
Официальная документация:
https://www.tensorflow.org/api_docs/python/tf
Китайский документ:
https://github.com/jikexueyuanwiki/tensorflow-zh
инструмент
Официальная документация PyTorch
PyTorch — еще одна популярная платформа для изучения глубокого обучения.
Официальная документация:
https://pytorch.org/docs/stable/index.html
Китайская документация (версия 0.3):
https://github.com/apachecn/pytorch-doc-zh
обучение с подкреплением
Публичный класс
Reinforcement Learning-David Silver
Как и курс Эндрю Нг для начинающих в области машинного обучения и глубокого обучения, курс Дэвида Сильвера, безусловно, является обязательным для большинства людей, изучающих обучение с подкреплением.
Курс идет от поверхностного к глубокому, и содержание обучения с подкреплением объясняется очень подробно. Однако, из-за сложности самого обучения с подкреплением, определенный порог для прослушивания этого курса все же есть.Это видео рекомендуется посмотреть после того, как вы получите общее представление об этой области.Эффект обучения лучше, и он легче найти фокус обучения.
Адрес видео
Адрес станции B (китайские субтитры):
https://www.bilibili.com/video/av45357759?from=search&seid=9547815852611563503
Оригинальный адрес курса:
https://www.youtube.com/watch?v=2pWv7GOvuf0
Материалы курса
Курс ППТ:
http://www0.cs.ucl.ac.uk/staff/d.silver/web/Teaching.html
Примечания к курсу:
https://www.zhihu.com/people/qqiang00/posts
Публичный класс
Ли Хунъи "Глубокое обучение с подкреплением"
Хотя курс Дэвида Сильвера является подробным, многие передовые материалы не включены.В настоящее время «Глубокое обучение с подкреплением» Ли Хунъи из Национального Тайваньского университета является лучшим выбором для изучения передовой динамики.
Адрес видео
Адрес станции B (китайские субтитры):
https://www.bilibili.com/video/av24724071?from=search&seid=9547815852611563503
Оригинальный адрес курса:
https://www.youtube.com/watch?v=2pWv7GOvuf0
Материалы курса
Курс ППТ:
http://speech.ee.ntu.edu.tw/~tlkagk/courses_MLDS18.html
Примечания к курсу:
https://blog.csdn.net/cindy_1102/article/details/87905272
Пограничная бумага
1
Arxiv
Arxiv Stats
Адрес домашней страницы последней страницы поиска документов по машинному обучению Arxiv:
https://arxiv.org/list/stat.ML/recent?ref=bestofml.com
Arxiv Sanity Preserver
Андрей Карпати разработал Arxiv Sanity Preserver, чтобы помочь классифицировать, искать и фильтровать функции.
Адрес главной страницы:
http://www.arxiv-sanity.com/?ref=bestofml.com
2
Papers with Code
Papers with Code(Browse state-of-the-art)
Сайт называется Browse state-of-the-art. Он связывает последние документы по глубокому обучению в ArXiv с открытым исходным кодом на GitHub. В настоящее время проект включает в себя 651 таблицу лидеров, 1016 задач глубокого обучения, 795 наборов данных и 10 257 отличных статей с воспроизводимым кодом. Это просто инструмент для поиска документов и кода. Он делит 1016 задач глубокого обучения на 16 категорий, охватывающих все аспекты глубокого обучения.
Адрес главной страницы:
https://paperswithcode.com/sota
Два примера:
РЕЗЮМЕ:
https://paperswithcode.com/area/computer-vision
НЛП:
https://paperswithcode.com/area/natural-language-processing
Papers with Code(Sorted by stars)
На этом ресурсе собраны все статьи в области ИИ за 2013-2018 годы, отсортированные по количеству звезд на GitHub.
Адрес проекта на GitHub:
https://github.com/zziz/pwc
3
Маршрут чтения документов по глубокому обучению
Если вы новичок в области глубокого обучения, первый вопрос, который у вас может возникнуть: «Какую статью мне следует начать читать?» Вот дорожная карта чтения для работы по глубокому обучению!
Адрес проекта на GitHub:
https://github.com/floodsung/Deep-Learning-Papers-Reading-Roadmap
Этот документ по глубокому обучениюмаршрут чтенияДелится на три блока:
1 Deep Learning History and Basics
2 Deep Learning Method
3 Applications
4
Deep Learning Object Detection
Обнаружение объектов является основной областью исследований и важным направлением в области CV глубокого обучения. В период с 2013 по 2019 год, от самых ранних R-CNN и Fast R-CNN до более поздних YOLO v2, YOLO v3 и M2Det в этом году, новые модели появлялись одна за другой, и производительность становилась все лучше и лучше!
Этот ресурс представляет собой систематическое введение в развитие обнаружения целей и связанные с ним статьи за последние годы, а также обобщает сверхполный список литературных статей.
Адрес проекта на GitHub:
https://github.com/hoya012/deep_learning_object_detection
5
известная конференция
Встреча
Нейрипс: https://nips.cc/
ICML: https://icml.cc/
ICLR: https://iclr.cc/
АААИ: https://aaai.org/Conferences/AAAI-19/
IJCAI: https://www.ijcai.org/
УАИ: http://www.auai.org/uai2019/index.php
Компьютерное зрение:
CVPR: http://cvpr2019.thecvf.com/
ECCV: https://eccv2018.org/program/main-conference/
ICCV: http://iccv2019.thecvf.com/
Обработка естественного языка:
ACL: http://www.aclcargo.com/
ЕМСЛП: https://www.aclweb.org/portal/content/emnlp-2018.
НААКЛ: https://naacl2019.org/
Известные журналы:
ДЖАИР: https://www.jair.org/index.php/jair
JMLR: http://www.jmlr.org/
разное
С точки зрения робототехники есть CoRL (обучение), ICAPS (планирование, включая, но не ограничиваясь роботами), ICRA, IROS, RSS;
Для более теоретических занятий есть AISTATS, COLT, KDD.
теоретическое приложение
обработка естественного языка
1
Что такое НЛП
Обработка естественного языка (NLP) — это технология, изучающая компьютерную обработку человеческого языка с целью преодоления разрыва между человеческим общением (естественный язык) и компьютерным пониманием (машинный язык). НЛП включает в себя такие области, как синтаксический и семантический анализ, извлечение информации, анализ текста, машинный перевод, поиск информации, ответы на вопросы и диалоговые системы.
2
Рекомендация курса
CS224n Стэнфордский курс глубокой обработки естественного языка
Версия 17 с китайскими субтитрами:
https://www.bilibili.com/video/av41393758/?p=1
Примечания к курсу:
http://www.hankcs.com/?s=CS224n%E7%AC%94%E8%AE%B0
Домашняя страница курса 2019:
http://Web.Stanford.Amount/class/На данный момент 224 вас/
Обработка естественного языка - Дэн Джурафски и Крис Мэннинг
Станция B с английскими субтитрами:
https://www.bilibili.com/video/av35805262/
Академическая торрент-сеть:
http://academictorrents.com/details/d2c8f8f1651740520b7dfab23438d89bc8c0c0ab
3
Книга Рекомендации
Обработка естественного языка Python
Для начинающих вся книга охватывает не только манипулирование корпусами, но и традиционные методы, основанные на правилах. Вся книга включает в себя токенизацию, тегирование частей речи (POS), тегирование фрагментов, синтаксический и семантический анализ и т. д. Это хорошее практическое руководство по nlp.
Обзор обработки естественного языка
Дэниел Джурафски и Джеймс Х. Мартин
Эта книга очень авторитетна и является классическим учебником НЛП, охватывающим классическую обработку естественного языка, статистическую обработку естественного языка, распознавание речи и компьютерную лингвистику.
Основы статистической обработки естественного языка
Крис Мэннинг и Хинрих Шютце
Более продвинутые статистические методы НЛП, описанные как в разделе «Основы статистики», так и в разделе «n-gram».
4
Рекомендация блога
Я люблю обработку естественного языка
Адрес: http://www.52nlp.cn/
TFIDF, сходство документов и т. д. объясняются в простой для понимания форме на этом сайте.
Блог Language Journal (Марк Либерман)
адрес:
HTTP://language log.Lithium battery.u Penn.Amount/Годовая процентная ставка/
блог по обработке естественного языка
Адрес: https://nlpers.blogspot.com/
Блог по обработке естественного языка, который ведет Хэл Дауме III в Соединенных Штатах, часто комментирует последние научные разработки и заслуживает внимания. Ощущения от участия в ACL, NAACL и других научных конференциях и комментарии к статьям
5
Рекомендация проекта
Китайская система ответов на вопросы на основе LSTM
https://github.com/S-H-Y-GitHub/QA
Генератор текста на основе RNN
https://github.com/karpathy/char-rnn
Генератор текстов песен Ван Фэна на основе char-rnn
HTTPS://GitHub.com/P hunter AU/Wang Feng-like молоко
Генерация рукописных цифр с помощью RNN
https://github.com/skaae/lasagne-draw
6
Инструментарий НЛП с открытым исходным кодом
Связано с китайским НЛП: https://github.com/crownpku/Awesome-Chinese-NLP
Английский НЛП, связанный с:
НЛТК: http://www.nltk.org/
TextBlob: http://textblob.readthedocs.org/en/dev/
Генсим: http://radimrehurek.com/gensim/
Выкройка: http://www.clips.ua.ac.be/pattern
Спаси: http://spacy.io
Оранжевый: http://orange.biolab.si/features/
Ананас: https://github.com/proycon/pynlpl
7
Связанные документы
100 обязательных к прочтению статей по НЛП
https://github.com/mhagiwara/100-nlp-papers
компьютерное зрение
1
Приложения компьютерного зрения
|
Приложения компьютерного зрения |
беспилотный |
|
Нет безопасности |
|
|
распознавание лица |
|
|
распознавание номерного знака автомобиля |
|
|
Поиск по изображению |
|
|
VR/AR |
|
|
3D реконструкция |
|
|
дрон |
|
|
анализ медицинских изображений |
|
|
разное |
2
Рекомендация курса
Стэнфорд CS223B
Он больше подходит для основ, подходит для студентов, которые только начинают, и сочетание с глубоким обучением будет относительно меньше, Он не будет учить глубокому обучению во всем курсе, а в основном сосредоточится на компьютерном зрении, которое будет освещено во всех аспектах.
Фейфей Ли: Курс CS231n:
https://mp.weixin.qq.com/s/-NaDpXsxvu4DpXqVNXIAvQ
3
Книга Рекомендации
1. Вводное обучение:
Компьютерное зрение: модели, обучение и вывод
2. Классические и авторитетные ссылки:
Компьютерное зрение: алгоритмы и приложения
3. Теория и практика:
«Введение в программирование OpenCV3»
Рекомендуемая система
1
Что такое рекомендательная система
Рекомендательная система — это инструмент для автоматического соединения пользователей и элементов, который может помочь пользователям находить интересующую их информацию в информационно-перегруженной среде, а также может передавать информацию пользователям, которые в них заинтересованы. Система рекомендаций представляет собой приложение для фильтрации информации.
2
Рекомендуемые курсы
Спецкурс по рекомендательной системе《Специализация по системам рекомендаций》
Эта серия состоит из 4 подкурсов и 1 курса выпускного проекта, в том числе «Введение в системы рекомендаций», «Совместная фильтрация ближайших соседей», «Оценка системы рекомендаций», «Матричная факторизация» и «Усовершенствованные методы».
Смотреть адрес:
https://www.coursera.org/specializations/recommender-systems
3
Книга Рекомендации
«Практика системы рекомендаций» (Подсветка предметов)
Система рекомендаций (Dietmar Jannach et al., перевод Цзян Фаня)
«Портрет поведения пользователей в сети» (Ниу Вэньцзя и др.)
Справочник по системам рекомендаций (Пол Б. Кантор и др.)
4
Библиотека алгоритмов
LibRec
LibRec — это Java-версия библиотеки алгоритмов системы рекомендаций с открытым исходным кодом, охватывающая более 70 типов алгоритмов рекомендаций. Она была основана Гуо Гуйбином, местным магнатом рекомендательных систем, и обновлена до версии 2.0. Она эффективно решает две проблемы: Прогноз рейтинга и рекомендации по предметам Большой критический вопрос направления.
Адрес проекта: https://github.com/guoguibing/librec
Адрес официального сайта: https://www.librec.net/
LibMF
Версия C++ системы рекомендаций с открытым исходным кодом в основном реализует систему рекомендаций, основанную на матричной декомпозиции. С целью решения проблемы блокировки и разрыва памяти метода оптимизации SGD (стохастический градиентный спуск) при параллельных вычислениях предлагается эффективный алгоритм декомпозиции матрицы FPSGD (Fast Parallel SGD), который делит блок оценочной матрицы в соответствии с количеством вычислительных узлов. и выделить вычислительные узлы.
адрес проекта:
http://www.csie.ntu.edu.tw/~cjlin/libmf/
SurPRISE
Версия системы рекомендаций с открытым исходным кодом на Python с множеством классических алгоритмов рекомендаций.
Адрес проекта: http://surpriselib.com/
Neural Collaborative Filtering
Реализация Python алгоритма рекомендации нейронной совместной фильтрации
адрес проекта:
https://github.com/hexiangnan/neural_collaborative_filtering
Crab
Программное обеспечение для рекомендаций с открытым исходным кодом, разработанное на основе Python, которое реализует совместную фильтрацию элементов и пользователей.
Адрес проекта: http://muricoca.github.io/crab/
5
Общие наборы данных
MovieLen
https://grouplens.org/datasets/movielens/
В наборе данных MovieLens пользователи оценивают просмотренные фильмы по шкале от 1 до 5. MovieLens включает в себя две библиотеки разного размера для алгоритмов разного масштаба. Малая библиотека — это данные 10 000 оценок 1682 киноработ от 943 уникальных пользователей, большая библиотека — около 1 000 000 оценок 3 900 киноработ от 6 040 независимых пользователей. Подходит для традиционных рекомендательных задач
Douban
https://www.cse.cuhk.edu.hk/irwin.king.new/pub/data/douban
Douban — это анонимный набор данных Douban, который содержит 120 000 пользователей и данные о фильмах 50 000. Это информация о рейтингах пользователей для фильмов и социальная информация между пользователями, которая подходит для задач социальных рекомендаций.
BookCrossing
http://www2.informatik.uni-freiburg.de/~cziegler/BX/
Этот набор данных представляет собой рейтинги 271 379 книг 278 858 пользователей онлайн-книжного сообщества Book-Crossing, как явные, так и неявные рейтинги. Демографические характеристики, такие как возраст этих пользователей, остаются анонимными и доступны для анализа. Этот набор данных был собран в книжном сообществе Book-Crossing в 2004 году Кай-Николасом Зиглером с помощью поискового робота.
6
Рекомендуемые документы
Организованы классические обязательные к прочтению статьи, в том числе обзорные статьи, традиционные классические рекомендательные статьи, социальные рекомендательные статьи, статьи о системе рекомендаций, основанные на глубоком обучении, статьи, посвященные решению проблемы холодного запуска, документы, связанные с POI, и использование хеш-технологии для ускорения рекомендации. Статьи и похожие статьи о классических проблемах исследования и использования в рекомендательных системах.
адрес проекта:
https://github.com/hongleizhang/RSPapers
7
Рекомендуемые товары
1. Знакомство с механизмом системы рекомендаций Toutiao для создателей контента. Разделено: Сян Лян, Архитектор алгоритма рекомендаций Toutiao:
https://v.qq.com/x/page/f0800qavik7.html?
2. 3 минуты, чтобы понять принцип рекомендательной системы Toutiao
https://v.qq.com/x/page/g05349lb80j.html?
3. Как Facebook рекомендует миллиард человек
https://code.facebook.com/posts/861999383875667/recommending-items-to-more-than-a-billion-people/
4. Архитектура системы персонализации и рекомендаций Netflix
http://techblog.netflix.com/2013/03/system-architectures-for.html
Модель контроля риска (модель оценочной карты)
1
Введение в модель системы показателей
Модель оценочной карты является одной из наиболее распространенных и важных моделей в банках, паевых инвестиционных фондах и других компаниях и предприятиях, связанных с кредитованием. Короче говоря, его функция состоит в том, чтобы оценивать клиентов, чтобы судить о том, являются ли они качественными.
В соответствии с бизнес-стадией применения модели оценочной карты модель оценочной карты в основном делится на три категории: карта A (оценочная карта приложения), оценочная карта приложения, карта B (карта оценки поведения), оценочная карта поведения, карта C (оценка сбора). карточка) коллекция Scorecard. Среди них оценочная карта приложения используется для предварительного кредита, оценочная карта поведения используется для кредита, а оценочная карта сбора используется для пост-кредита Эти три оценочные карты имеют решающее значение во всем жизненном цикле нашего кредитного бизнеса.
2
Рекомендуемые книги
«Исследование системы показателей кредитного риска — разработка и внедрение на основе SAS»
3
Процесс моделирования модели системы показателей
отбор проб
Определите окно наблюдения (промежуток времени функции) и окно производительности (промежуток времени метки) обучающей выборки и тестовой выборки, и каково определение метки выборки? При нормальных обстоятельствах метки оценочных карт риска учитывают задержку клиентов в течение определенного периода времени.
Подготовка функций
Исходные функции, производные переменные
Очистка данных
Обрабатывайте отсутствующие значения или выбросы в соответствии с потребностями бизнеса
Отбор функций
Отбор признаков выполняется в соответствии со значением IV признака (вклад признака в модель) и PSI (стабильность признака). Чем меньше PSI, тем лучше (как правило, PSI признака меньше или меньше). равно 0,01 при моделировании)
на функцииконверсия WOE
То есть функции группируются, и при выполнении преобразования WOE следует обращать внимание на интерпретируемость функций.
Моделирование
В процессе построения модели может быть выполнен вторичный скрининг переменных путем оценки качества модели, когда каждая переменная включена или не включена в модель по статистике модели и переменных.
Оценочные показатели
Показатели, на которых обычно ориентируются модели оценочных карт, — это значение KS (которое измеряет разницу между совокупными делениями хороших и плохих выборок), PSI модели (то есть общая стабильность модели) и значение AUC.
График знаний
1
Что такое граф знаний
Граф знаний — это метод обработки структурированных данных, который включает ряд технологий, таких как извлечение, представление, хранение и поиск знаний. С точки зрения происхождения, это слияние представления знаний и развития различных технологий, таких как рассуждение, база данных, поиск информации и обработка естественного языка.
2
Рекомендуемая информация
Зачем нужен граф знаний? Что такое граф знаний? —— Прошлая и настоящая жизнь КГ
https://zhuanlan.zhihu.com/p/31726910
Что такое граф знаний?
https://zhuanlan.zhihu.com/p/34393554
Эпоха интеллектуального поиска: в чем ценность графа знаний?
https://zhuanlan.zhihu.com/p/35982177?from=1084395010&wm=9848_0009&weiboauthoruid=5249689143
Baidu Wang Haifeng: Граф знаний — краеугольный камень ИИ
http://www.infoq.com/cn/news/2017/11/Knowledge-map-cornerstone-AI#0-tsina-1-5001-397232819ff9a47a7b7e80a40613cfe1
Перевод|От извлечения знаний к визуализации графа знаний RDF
http://rdc.hundsun.com/portal/article/907.html?hmsr=toutiao.io&utm_medium=toutiao.io&utm_source=toutiao.io
3
основное содержание
3.1 Извлечение знаний
Первое, что нужно решить при построении кг, — это данные, а извлечение знаний — решить задачу генерации структурированных данных. Мы можем использовать методы обработки естественного языка или правила.
3.1.1 Правила использования
регулярное выражение
Регулярные выражения (regex) — это базовые навыки обработки строк. Сканирование данных, очистка данных, извлечение сущностей и извлечение отношений неотделимы от регулярных выражений.
Рекомендуемые материалы для начала:
Владею регулярными выражениями
визуализация регулярного выражения: пример [a-z]*(\d{4}(\D+))
регулярное выражение онлайн-теста pythex:
HTTP://Пак Ючон Core.org/
Рекомендуемые данные для продвинутых:
re2 :
Python wrapper for Google's RE2 using Cythonhttps://pypi.python.org/pypi/re2/
Parsley: более удобный синтаксис регулярных выражений.
http://parsley.readthedocs.io/en/latest/tutorial.html
Сегментация китайских слов и теги по частям речи
Сегментация слов также является основой всей последующей обработки.Часть речи (POS) — это классификация слов, таких как глаголы, существительные, прилагательные и т. д., которую все выучили в средней школе. Общие инструменты сегментации слов будут иметь опции тегирования частей речи.
Рекомендуемые материалы для начала:
Пакет сегментации китайских слов jieba
https://github.com/fxsjy/jieba
Китайский набор тегов части речи
https://github.com/memect/kg-beijing/wiki/
Рекомендуемые данные для продвинутых:
гений использует алгоритм условного случайного поля CRF
https://github.com/duanhongyi/genius
Сегментация слов Stanford CoreNLP
https://blog.csdn.net/guolindonggld/article/details/72795022
Распознавание именованных объектов
Распознавание именованных объектов (NER) является важным базовым инструментом в прикладной области извлечения информации.Вообще говоря, задача распознавания именованных объектов состоит в том, чтобы идентифицировать три основные категории (объект, время и число), семь подкатегорий (человек, учреждение, место, время, дата, валюта и процент) именованных объектов.
Рекомендуемая информация:
Stanford CoreNLP для распознавания китайских именованных сущностей
https://blog.csdn.net/guolindonggld/article/details/72795022
3.1.2 Использование глубокого обучения
Метод обработки естественного языка обычно заключается в извлечении триплета (spo) определенного поля из неструктурированных данных с учетом схемы.Например, недавний конкурс, проведенный Baidu, использует модель DL для извлечения информации.
аннотация последовательности
Используя модель генерации последовательности, он в основном отмечает начальное положение субъекта и объекта в триплете, тем самым извлекая информацию.
Рекомендуемая информация:
проблема маркировки последовательности
https://www.cnblogs.com/jiangxinyang/p/9368482.html
seq2seq
Используя сквозную модель seq2seq, он в основном опирается на идею суммирования текста и обрабатывает триплеты как сводки неструктурированных текстов для извлечения, что также включает механизм Attention.
Рекомендуемая информация:
Подробный seq2seq
https://blog.csdn.net/irving_zhang/article/details/78889364
Подробное объяснение от модели Seq2Seq до модели Attention
https://caicai.science/2018/10/06/attention%E6%80%BB%E8%A7%88/
3.2 Представление знаний
Представление знаний (KR, также переводится как представление знаний) — это метод изучения того, как организовать структурированные данные для машинной обработки и понимания человеком.
Вы должны быть знакомы со следующим:
JSON и YAML
json-библиотека:
https://docs.python.org/2/library/json.html
PyYAML: библиотека обработки Yaml в Python.
http://pyyaml.org/wiki/PyYAML
Семантика RDF и OWL:
HTTP://блог. Что традиционно. Can/? Afraid=871
JSON-LD
Домашняя страница: http://json-ld.org/
3.3 Хранилище знаний
Требуется знакомство с распространенными базами данных графов
А. Способ ссылки на знания: строка, внешний ключ, URI
б) PostgreSQL и его расширение JSON
Пакет Psycopg работает на PostgreSQL.
http://initd.org/psycopg/docs/
c. Графическая база данных Neo4j и OrientDB
1. Интерфейс Python Neo4j https://neo4j.com/developer/python/
2. OrientDB: http://orientdb.com/orientdb/
г. База данных RDF Stardog
Официальный сайт Стардога: http://stardog.com/
3.4 Поиск знаний
Требуется знакомство с распространенными методами поиска
Учебник по ElasticSearch:
http://joelabrahamsson.com/elasticsearch-101/
4
Связанные термины и технические маршруты
Онтология:
https://www.zhihu.com/question/19558514
РДФ:
https://www.w3.org/RDF/
Апач Йена:
https://jena.apache.org/
D2RQ:
http://d2rq.org/getting-started
4.1 Protege строит серию онтологий
протеже:
https://protege.stanford.edu/
использование протеже:
https://zhuanlan.zhihu.com/p/32389370
4.2 Язык разработки
питон или джава
4.3 Технология баз данных графов
Neo4j: https://neo4j.com/
АллегроГраф: https://franz.com/agraph/allegrograph/
4.4 Технология визуализации
d3.js: https://d3js.org/
Cytoscape.js: http://js.cytoscape.org/
4.5 Технология сегментации слов
Уличный боец: https://GitHub.com/flytimes/streetfighter
хелп: https://github.com/hankcs/HanLP
5
Боевой проект
Вопросы и ответы на основе графа знаний:
https://github.com/kangzhun/KnowledgeGraph-QA-Service
Сельское хозяйство_KnowledgeGraph:
https://github.com/qq547276542/Agriculture_KnowledgeGraph
Платформа вклада
Предоставлено известными платформами с открытым исходным кодом, технологическими платформами искусственного интеллекта и экспертами в предметной области: ApacheCN, Datawhale, AI Youdao и Dr. Huang Haiguang:
1.ApacheCN: Момент, Ли Сянъюй, Фэйлун, Ван Сян
2. Datawhale: Фань Цзинцзин, Ма Цзинминь, Ли Бихан, Ли Фу, Гуанчэн, Цзюй Джу, Кан Бинбин, Чжэн Цзяхао
3. У ИИ есть способ: красный камень
4. Доктор Хуан Хайгуан
Введение в платформу
Datawhale
Организация с открытым исходным кодом, специализирующаяся на области ИИ, национальном инкубационном проекте Шанхайского университета Цзяотун, в настоящее время имеет 7 независимых команд, собрала группу членов команды с духом открытого исходного кода и исследований, объединила выдающихся учащихся из различных университетов и предприятий. , приверженность Чтобы создать круг чистого обучения и высококачественные проекты с открытым исходным кодом, предоставляемое групповое обучение охватывает 16 областей содержания, таких как анализ данных, интеллектуальный анализ данных, машинное обучение, глубокое обучение и программирование.
У ИИ есть способ
Технический публичный аккаунт, посвященный области ИИ. Официальный аккаунт в основном включает в себя передовые знания, сухие заметки и высококачественные ресурсы в области искусственного интеллекта, такие как Python, ML, CV и NLP! Мы стремимся предоставить высококачественные ресурсы ИИ и практические маршруты обучения ИИ для большинства энтузиастов ИИ.
Хуан Бо (новичок в области машинного обучения)
Курсы по машинному обучению недостаточно популярны в Китае. Большинство новичков все еще в замешательстве и пошли по многим окольным путям. Доктор Хуан Хайгуан надеется сделать все возможное, чтобы предоставить платформу для обучения и общения новичков в области машинного обучения.
ApacheCN
Организация с открытым исходным кодом, занимающаяся предоставлением высококачественных проектов с открытым исходным кодом, посвященных переводу документов AI, обмену конкурсами Kaggle, чистке алгоритмов LeetCode, обмену большими данными и другим проектам. Мы надеемся сделать то, что действительно нужно большинству энтузиастов ИИ, и создать действительно ценные работы с длинным хвостом.
Официальный сайт: http://www.apachecn.org/