поговорим о машинном обучении

машинное обучение искусственный интеллект алгоритм Байду

Концепция машинного обучения была очень популярна в последние два года, беспилотные автомобили, распознавание лиц и речи кажутся всемогущими. Но одна вещь была упущена из виду, алгоритм «машинного обучения» — это всего лишь один из многих алгоритмов.Как и быстрая сортировка и красно-черный BST, он имеет свой собственный уникальный сценарий применения и может использоваться только в этом сценарии. И обратите внимание, что его доступность не гарантируется на 100%, как алгоритм сортировки, его границы сомнительны. Это больше похоже на расширение тех фиксированных алгоритмов, когда машине не нужно точно выполнять каждую строку программного кода, а вне программы она преподносит нам некоторые сюрпризы, выходящие за рамки наших усилий.

Любой, кто посещал открытый урок «Машинное обучение», знает Эндрю Нг, который сейчас работает над беспилотными автомобилями в Baidu. Лично я считаю, что применение беспилотных автомобилей в гражданской сфере займет много времени, возможно, после того, как теория искусственного интеллекта совершила прорыв, нынешний алгоритм машинного обучения не может гарантировать полную безопасность и надежность. Эти алгоритмы больше похожи на черный ящик, формирующий черный ящик путем изучения предварительных знаний, а затем использующий этот «молоток», чтобы повсюду находить «гвозди». Конечно, люди также подобны черному ящику, они постоянно учатся с рождения и создают полную систему знаний. Получите водительские права, водите машину по пятому звонку... (пожалуйста, примите решение, ах, ах, пятый звонок...). Почему машины не могут ездить по шоссе, как люди? Это не невозможно, но сложности и вычислительной мощности машины недостаточно, а возможности обработки и предварительного суждения сложной среды ограничены.

На открытом занятии «Машинное обучение» НГ рассказал о вводных знаниях по машинному обучению, включая базовую линейную алгебру, теорию вероятностей и нейронные сети. Машинное обучение похоже на конкретное применение базовой математики в инженерии. Так же, как алгоритм PageRank и фильтр Блума, представленные Ву Цзюнем в «Красоте математики». Ощущение не сложное, а простое и элегантное. Рассел, кажется, что-то сказал,

Чистый как нефрит, чистый как камень.

Но, кажется, это сделано мной...

Давайте рассмотрим типичные сценарии применения алгоритмов машинного обучения.

Прогноз покупки товара

Есть такая сцена: если вы вчера вечером делали покупки на Таобао и увидели букет цветов (конечно, потому что сегодня..., но это может быть не очень полезно...), вы просмотрели этот товар 100 раз; и Другой человек добавил этот товар в свою корзину. Мы можем четко заключить, что оба этих человека с большой вероятностью купят этот товар сегодня.

Теперь Taobao официально предоставляет данные о поведении миллионов мобильных пользователей (мобильные телефоны, планшеты) с 14 числа прошлого месяца по 2 13 числа этого месяца, включая четыре поведения: просмотр, создание закладок, добавление в корзину и покупка. на Таобао Как предсказать, сколько людей будет 14.02, которые купят этот букет цветов? Самый простой и прямой способ — напрямую предсказать, что человек, который вчера добавил цветы в свою корзину, купит их. Это будет иметь определенную точность, потому что добавление корзины для покупок является очень прямой характеристикой покупательского поведения. Но этот метод не является оптимальным. В противном случае Али нанимает инженеров-алгоритмов, чтобы сделать много.

Четыре действия пользователя (просмотр, избранное, добавление в корзину и покупка) повлияют на его поведение на следующий день Что касается влияния, нам необходимо проанализировать данные.

Описанный выше сценарий — соревнование алгоритмов мобильных рекомендаций Али (вы можете увидеть его, прочитав исходный текст). Чиновники предоставили данные о поведении миллионов пользователей некоторых продуктов. Что нам нужно сделать, так это построить модель прогнозирования на основе этих данных, а затем использовать эту модель для прогнозирования того, какой пользователь покупает какой товар. Что касается конкретного метода, вам необходимо разбираться в алгоритмах машинного обучения и разработке признаков.Рекомендуется изучить открытый класс «Машинное обучение». Детали здесь не описаны.

Группа с лучшими результатами предсказывала 10 процентов времени, что означает, что 10 из 100 человек купят букет. Зная это, продавцы могут начать пополнение запасов, выделять складские квоты в сочетании с местоположениями пользователей и даже увеличивать пропускную способность для этих регионов. Технология действительно продуктивна.

Идентификация автора

Идентификация автора, а, можно ли определить, является ли «Яркость и искренность» Хан Хана оригинальной рукописью? Можно ли узнать, какую японскую мангу скопировал "Волшебный город" некой четверки...Почему бы тебе не пойти в кино на "Русалку"? ...А, ты свайпаешь официальный аккаунт в кинотеатре...

В академических кругах принято считать (и я верю), что последние 40 глав «Сна о красных особняках» не были написаны Цао Сюэцинь. В этой статье предпринимается попытка применить методы машинного обучения для анализа авторских формулировок в исходном тексте, чтобы объяснить разницу в стиле письма между первыми 80 и последними 40 главами «Сна о красных особняках» с технической точки зрения, а затем подтвердите, что последние 40 глав не были написаны первоначальным автором.

Каждый автор пишет со своими формулировками и стилем, и даже преднамеренное подражание оставит много следов. В классическом китайском языке классические служебные слова (например, чжиху) распределены равномерно. В каждой главе книги много классических служебных слов. Разница заключается в частоте встречаемости. Мы можем принять частоту классических служебных слов как особенности авторского стиля.

Не только классические китайские служебные слова, но и другие слова часто встречаются во всех хуэйму. Например, выполните статистику частоты слов в 80-м раунде, чтобы получить количество вхождений этих слов:

Сделано: 172 Из: 142 Я: 70 Баоюй: 65 Вы: 61 Дао: 54

Он: 51 также: 50 написал: 48 есть: 40 сказал: 38

Эти высокочастотные слова также можно использовать в качестве признаков.

В данной работе 20~29 эпизодов (поэзия, слова и песни относительно сбалансированы) используются в качестве обучающих образцов категории 1, а 110~119 эпизодов используются в качестве обучающих образцов категории 2. Модель классификации получается путем ввода векторов признаков двух классов в SVM (машину опорных векторов) для обучения. Затем классифицируйте оставшиеся элементы, чтобы увидеть, к какой категории они относятся. Связанные принципы SVM см. в открытом классе NG."Машинное обучение"и"scikit-learn "библиотека.

Связанные научные статьи см.

Ши Цзяньцзюнь (2011 г.) Исследование автора «Мечты о красных особняках», основанное на технологии опорных векторов, Журнал «Мечта о красных особняках», (5), 35–52.

Ли Сяньпин (1978 г.) "Сон о красных особняках" - новая книга. Журнал Фудань (социально-научное издание).

После запуска программы получаю следующие выводы

1~80 раз

[ 1. 1. 1. 1. 1. 2. 2. 1. 1. 2.

2. 1. 1. 1. 1. 1. 1. 1. 1. 1.

1. 1. 1. 1. 1. 1. 1. 1. 1. 1.

1. 1. 1. 1. 1. 1. 1. 1. 1. 1.

1. 1. 1. 1. 1. 1. 1. 1. 1. 1.

1. 1. 1. 1. 1. 1. 1. 1. 1. 2.

2. 2. 1. 1. 1. 1. 1. 2. 1. 1.

1. 1. 1. 1. 1. 1. 1. 1. 1. 1.]

81~120 раз

[ 1. 1. 2. 1. 1. 2. 2. 1. 1. 2.

1. 2. 2. 2. 2. 2. 2. 1. 2. 2.

1. 2. 2. 2. 2. 2. 2. 1. 2. 2.

2. 2. 2. 2. 2. 2. 2. 2. 2. 2.]

1 означает, что товар относится к категории 1, 2 означает, что товар относится к категории 2. можно сделать вывод

  • Первые 80 раз относятся к одной категории, а последние 40 раз относятся к одной категории

  • Около 80 раз является точкой разделения

  • Стиль последних 40 серий отличается от первых 80 серий.

Некоторые из 81–120 серий относятся к 1 категории, что связано с выбором функций и используемой исходной версией. Версия здесь электронная онлайн и оффлайн Версия неизвестна В качестве объекта исследования рекомендуется использовать "Сон о красных особняках" изданный Издательством "Народная литература" в 1982 году. Некоторые из 1~80 эпизодов разделены на 2 категории, и возможно автор последних 40 эпизодов пересмотрел некоторые главы в процессе продолжения.

Эти два сценария могут обеспечить более глубокое понимание типичных характеристик машинного обучения.

Сосредоточиться на машинном обучении не машина, а скорее учиться. - Марсель Пруст