Зачем нужны портреты пользователей и как они помогают вашему бизнесу?
Мы вошли во вторую половину Интернета, и движущей силой роста является управление данными.
Отправной точкой анализа данных является понимание поведения и потребностей пользователей.
Может помочь нам решить три проблемы:
кто они
откуда
куда идти
Какие размеры можно использовать для разработки пользовательских этикеток
Принцип восьми символов: анализ потребительского поведения пользователей
Метки пользователя: пол, возраст, регион, доход, образование, род занятий и т.д.
Ярлыки потребления: привычки потребления, намерения совершить покупку, чувствительны ли они к рекламным акциям.
Ярлыки поведения: период времени, частота, продолжительность, избранное, клики, лайки, рейтинги.
(Поведение пользователя можно разделить на явное поведение и неявное поведение)
Анализ контента: проанализируйте контент, который обычно просматривают пользователи, например, спорт, игры, сплетни.
Три стадии жизненного цикла пользователя
Привлечение клиентов: как привлечь новых клиентов и приобрести клиентов с помощью более точного маркетинга;
Прилипчивые клиенты: персональные рекомендации, сортировка поиска, работа со сценами и т. д.;
Удержание клиентов: предскажите уровень оттока и проанализируйте ключевые узлы, чтобы снизить уровень оттока.
Откуда взялся ярлык
Типичные способы:
• PGC: Экспертное производство
• Пользовательский контент: общее производство
Метки — это абстракции многомерных вещей (уменьшение размерности).
Алгоритмы кластеризации: K-средние, EM-кластеризация, среднее смещение, DBSCAN, иерархическая кластеризация, PCA
• Маркировка (маркировка) требуется для больших объемов данных
•
• Используйте пользовательские теги, чтобы рекомендовать продукты (алгоритм рекомендаций).
Как работает K-средство
К означает:
• Шаг 1, выберите K точек в качестве центральных точек начального класса, эти точки обычно выбираются случайным образом из набора данных;
• Шаг 2, назначьте каждую точку ближайшей центральной точке класса, таким образом сформировав K классов, а затем пересчитайте центральную точку каждого класса;
• Повторяйте Шаг 2 до тех пор, пока класс не изменится, или вы можете установить максимальное количество итераций, поэтому даже если центральная точка класса изменится, оно завершится, как только будет достигнуто максимальное количество итераций.
Методы нормализации данных: Min-max, Z-Score, десятичное масштабирование.
Мин-макс нормализация
Проецировать необработанные данные в указанное пространство [мин, макс]
новое значение = (исходное значение - минимальное значение) / (максимальное значение - минимальное значение)
Когда min=0, max=1, нормализуется до [0,1]
MinMaxScaler в sklearn
Как нормализовать данные:
После нормализации [0, 1] данные объектов разных размеров можно сравнивать по одному и тому же стандарту.
Нормализация Z-оценки
Преобразование необработанных данных в форму нормального распределения
новое значение = (исходное значение - среднее) / стандартное отклонение
preprocessing.scale() в sklearn
Как нормализовать данные:
новое значение = (исходное значение - среднее) / стандартное отклонение
Наиболее часто используемый метод нормализации данных.
Отвечает на вопрос: «сколько стандартных отклонений данных данных от их среднего значения».
Десятичная нормализация масштабирования
Нормализуйте, сдвинув положение десятичной точки
использовать numpy
Как нормализовать данные:
Показатели оценки: показатель точности, показатель отзыва, показатель точности, значение F
Что такое TF-IDF
TF: частота терминов, частота слов.
Важность слова пропорциональна тому, сколько раз оно встречается в документе.
IDF: обратная частота документа, обратная частота документа
Различительная степень слова в документе. Чем меньше документов встречается слово, тем больше степень дискриминации и больше IDF
Шаги рекомендательной системы на основе контента
• Представление товара:
Извлечение функций для каждого элемента
• Особенности обучения по профилю обучения:
Используйте данные о характеристиках элементов, которые пользователю нравились (не нравились) в прошлом, чтобы узнать профиль предпочтений пользователя (профиль);
• Создать список рекомендаций Генерация рекомендаций:
На основе характеристик профиля пользователя и элементов-кандидатов рекомендуется элемент с наибольшей корреляцией.
• Теги можно использовать как профили пользователей или как характеристики предметов.
• Степень соответствия между User=>Item:
ü SimpleTagBased
ü NormTagBased
ü TagBased-TFIDF
ü Кластеризация — это способ уменьшения размерности, определения расстояния
ü Определите размеры портретов пользователей (пользователи, потребление, поведение, контент), чтобы направить бизнес
ü Ведение бизнеса на протяжении всего жизненного цикла пользователя (привлечение клиентов, привлечение клиентов и удержание клиентов)
ü Уровень обработки данных: источник данных => уровень алгоритма => бизнес-уровень
ü Тег — это абстрактная способность. Выполняя профильное обучение на портретах пользователей и извлекая теги для предметов, можно завершить отзыв на основе тегов.
ü Расчет отзыва этикетки прост и относится к стратегии отзыва
10 решений для MNIST
алгоритм
инструмент
Logistic Regression
from sklearn.linear_model import LogisticRegression
CART**, ID3**** (дерево решений)**
from sklearn.tree import DecisionTreeClassifier
LDA
from sklearn.discriminant_analysis import LinearDiscriminantAnalysis
Наивный байесовский
from sklearn.naive_bayes import BernoulliNB
SVM
from sklearn import svm
KNN
from sklearn.neighbors import KNeighborsClassifier
Adaboost
from sklearn.ensemble import AdaBoostClassifier
XGBoost
from xgboost import XGBClassifier
TPOT
from tpot import TPOTClassifier
keras
import keras
TPOT: инструмент AutoML на основе Python
TPOT GitHub.com/Epistas SLA…(6,2 тыс.)
TPOT может решить: выбор функций, выбор модели, но не очистку данных
Очень быстро обрабатываются данные малого масштаба и очень медленно обрабатываются данные большого масштаба. Сначала вы можете попробовать небольшую порцию, используя TPOT.
ТРОТ:
• В настоящее время возможно только контролируемое обучение
• Поддерживаемые классификаторы: байесовский, дерево решений, ансамблевое дерево, SVM, KNN, линейная модель, xgboost.
• Поддерживаемые регрессоры в основном включают дерево решений, дерево ансамбля, линейную модель, xgboost.
• Предварительная обработка данных: бинаризация, кластеризация, уменьшение размерности, стандартизация, регуляризация и т. д.
• Выбор признаков: на основе древовидной модели, на основе дисперсии, на основе процентного значения F-значения.
• Процесс обучения можно экспортировать в виде файла .py в виде пайплайна sklearn с помощью метода export().
Интеллект-карта важных точек знаний: