Начиная с сегодняшнего дня, Xiaoqi будет отсеивать вопросы интервью в различных областях, таких как машинное обучение, глубокое обучение, компьютерное зрение, обработка естественного языка и системы рекомендаций из июльского онлайн-банка вопросов, чтобы вы могли сериализовать их для проверки и просмотра в любое время. когда ищешь работу. (Приглашаем всех заходить каждый день, чтобы учиться) Из-за ограниченного объема эта статья не будет загружать справочные ответы на каждый вопрос, но будет извлекать некоторые тезисы.Для полного анализа см. ссылку банка вопросов:Woohoo.Расстояние также читайте.com/questions/me…Если у вас есть какие-либо вопросы, пожалуйста, не стесняйтесь оставлять сообщение, обсуждать и исправлять их по ссылке банка вопросов.
Источник: банк вопросов для онлайн-интервью за июль.Woohoo.Расстояние также читайте.com/questions/me…
1. Пожалуйста, объясните подробно принцип работы метода опорных векторов (SVM)
Машина опорных векторов, из-за своего английского имени машина опорных векторов, обычно называется SVM, Вообще говоря, это модель классификации с двумя классами, Его базовая модель определяется как линейный классификатор с наибольшим интервалом в пространстве признаков. Его стратегия обучения. Это максимизация интервала, который в конечном итоге может быть преобразован в решение задачи выпуклого квадратичного программирования.
2. Какие алгоритмы машинного обучения не требуют нормализации?
В практических приложениях требуется нормализованная модель: 1. Модель на основе расчета расстояния: KNN. 2. Модели, решаемые методом градиентного спуска: линейная регрессия, логистическая регрессия, метод опорных векторов, нейронные сети. Но древовидные модели не нуждаются в нормализации, потому что их волнует не значение переменной, а распределение переменной и условная вероятность между переменными, например дерево решений, случайный лес.
3. Почему древовидная структура не нуждается в нормализации?
Поскольку числовое масштабирование не влияет на положение точки разделения, оно не влияет на структуру древовидной модели. При сортировке по собственным значениям порядок сортировки неизменен, тогда ветви и точки разделения, которым они принадлежат, не будут отличаться. Более того, древовидная модель не может выполнять градиентный спуск, потому что древовидная модель (дерево регрессии) построена для нахождения оптимальной точки путем нахождения оптимальной точки разделения, поэтому древовидная модель является ступенчатой, а ступенчатая точка не управляема, и нет смысла в выводе, и нет необходимости в нормализации.
4. В k-средних или kNN мы часто используем евклидово расстояние для расчета расстояния между ближайшими соседями, а иногда и манхэттенское расстояние.Пожалуйста, сравните разницу между этими двумя расстояниями.
Евклидово расстояние, наиболее распространенное представление расстояния между двумя или более точками, также известное как евклидова метрика, определяется в евклидовом пространстве.
5. Причины нормализации данных (или стандартизации, обратите внимание, что нормализация и стандартизация разные)
Лучше не нормализовать, если это можно нормализовать.Причина нормализации данных заключается в том, что размеры каждого измерения различны. И его нужно нормализовать в зависимости от ситуации. После того, как некоторые модели масштабируются неравномерно по каждому измерению, оптимальное решение не эквивалентно исходному (например, SVM) и требует нормализации. Некоторое масштабирование модели эквивалентно оригиналу, например: LR не нужно нормализовать, но на практике параметры модели часто решают итеративно.Если целевая функция слишком плоская (представьте себе очень плоскую модель Гаусса), итерационный алгоритм не сойдется. , поэтому данные лучше нормализовать.
6. Кратко опишите процесс полного проекта машинного обучения.
абстрагироваться от математических задач Выявление проблемы — первый шаг в машинном обучении. Процесс обучения машинному обучению обычно занимает очень много времени, а временные затраты на случайные попытки очень велики. Абстракция здесь представляет собой математическую задачу, а это означает, что мы уточняем, какие данные мы можем получить, является ли целью задача классификации, регрессии или кластеризации, если нет, классифицируется ли она как задача определенного типа.
получить данные Данные устанавливают верхнюю границу результатов машинного обучения, а алгоритмы просто пытаются максимально приблизить эту верхнюю границу. Данные должны быть репрезентативными, иначе они неизбежно будут переобуваться. Более того, для задач классификации перекос данных не должен быть слишком сильным, а количество данных в разных категориях не должно иметь разрыв в несколько порядков. Кроме того, есть также оценка величины данных, сколько выборок и сколько признаков, можно оценить степень потребления памяти и судить, можно ли использовать память в процессе обучения. Если вы не можете оторваться от него, вам следует подумать об улучшении алгоритма или использовании некоторых методов уменьшения размерности. Если объем данных слишком велик, необходимо считать их распределенными.
7. Почему логистическая регрессия дискретизирует признаки?
Как сказал июльский онлайн-учитель: ① Нелинейный! Нелинейный! Нелинейный! Логистическая регрессия относится к обобщенной линейной модели, и ее выразительная способность ограничена; после дискретизации одномерной переменной в N каждая переменная имеет отдельный вес, что эквивалентно введению в модель нелинейности, что может улучшить выразительную способность модели и увеличивайте подгонку; ② Быстро! высокоскоростной! высокоскоростной! Умножение разреженного векторного внутреннего произведения выполняется быстро, а результаты вычислений легко хранить и расширять; ③ Надежность! Прочность! Прочность! Дискретизированные признаки очень устойчивы к аномальным данным: например, признак, возраст которого >30, равен 1, в противном случае он равен 0. Если функции не дискретизированы, аномальные данные «возраст 300» вызовут большие помехи в модели; ④ Удобный кроссовер и комбинация функций: кроссовер функций может быть выполнен после дискретизации, перехода от переменных M + N к переменным M * N, дальнейшего введения нелинейности и улучшения способности выражения; ⑤ Стабильность: после дискретизации признаков модель будет более стабильной.Например, если возраст пользователя дискретизирован, в качестве интервала используется 20-30, и пользователь не станет совершенно другим человеком, потому что возраст пользователь на год старше. Конечно, выборки, примыкающие к интервалу, будут как раз наоборот, так что как делить интервал — вопрос знания; ⑥ Упрощенная модель: после того, как функция дискретизирована, она играет роль упрощения модели логистической регрессии и снижает риск переобучения модели.
8. Краткое введение в LR
@rickjin: Расскажите о LR с головы до ног. Моделирование, математический вывод на месте, принцип каждого решения, регуляризация, взаимосвязь между моделями LR и maxent. Есть много людей, которые могут запомнить ответ, и они сбиваются с толку, когда спрашивают логические детали. С принципом все в порядке?Тогда спросите у проекта, как сделать распараллеливание, есть несколько методов распараллеливания, и какие реализации с открытым исходным кодом вы читали. Да, тогда приготовьтесь принять его, и, кстати, поинтересуйтесь историей развития модели LR.
9. Как решить проблему переобучения
Переобучение есть переобучение, и его интуитивное представление показано на рисунке ниже.По мере прохождения процесса обучения сложность модели увеличивается, и ошибка на обучающих данных постепенно уменьшается, но ошибка на проверочном наборе постепенно увеличивается— - Потому что обученная сеть превосходит обучающую выборку, но не работает с данными вне обучающей выборки, что называется плохой производительностью обобщения. Показатели обобщения являются основной целью при оценке тренировочных эффектов, без хорошего обобщения это равносильно обратному, и все бесполезно.
10. Анализ взаимосвязи и различия между LR и SVM И LR, и SVM могут решать проблемы классификации и обычно используются для решения задач линейной бинарной классификации (в случае улучшения могут решаться проблемы множественной классификации). разница: 1. LR — параметрическая модель, svm — непараметрическая модель, а linear и rbf — разница между линейно разделимыми и неразделимыми данными; 2. С точки зрения целевой функции разница заключается в том, что логистическая регрессия использует логистические потери, а SVM использует потери шарнира, Цель этих двух функций потерь состоит в том, чтобы увеличить вес точек данных, которые имеют большее влияние на классификацию и уменьшить связь с классификацией Веса для меньших точек данных. 3. Метод обработки SVM заключается в том, чтобы рассматривать только опорные векторы, то есть несколько точек, наиболее важных для классификации, чтобы изучить классификатор. Логистическая регрессия значительно снижает вес точек, удаленных от плоскости классификации, за счет нелинейного отображения и относительно увеличивает вес точек данных, наиболее важных для классификации.
4. Логистическая регрессия относительно проще и понятнее, особенно для крупномасштабной линейной классификации. Понимание и оптимизация SVM относительно сложны. После того, как SVM преобразуется в двойную задачу, для классификации требуется только вычислить расстояние от нескольких опорных векторов. Это имеет очевидные преимущества при расчете сложной функции ядра, что может значительно упростить модель и расчет. .
5. Что может логика, может svm, но могут быть проблемы с точностью, а какая-то логика, которую умеет svm, не может.
11. Что такое энтропия Судя по названию, энтропия вызывает у людей очень загадочное чувство, я не знаю, что это такое. На самом деле определение энтропии очень простое, то есть оно используется для представления неопределенности случайных величин. Причина, по которой оно вызывает у людей таинственное чувство, вероятно, связана с тем, почему было выбрано такое имя и как его использовать. Понятие энтропии возникло в физике и используется для измерения степени беспорядка в термодинамической системе. В теории информации энтропия является мерой неопределенности.
12. Расскажите о градиентном спуске
1 Что такое градиентный спуск Алгоритм часто встречается в задачах оптимизации в машинном обучении, а именно градиентный спуск Так что же такое градиентный спуск? Определение, данное Википедией, заключается в том, что метод градиентного спуска (Gradient descent) представляет собой алгоритм оптимизации первого порядка, также широко известный как метод наискорейшего спуска. Чтобы использовать градиентный спуск для нахождения локального минимума функции, необходимо выполнить итеративный поиск до точки на указанном расстоянии шага в направлении, противоположном градиенту (или приблизительному градиенту), соответствующему текущей точке функции. И наоборот, если поиск выполняется итеративно в положительном направлении градиента, будет достигнута точка локального максимума функции; этот процесс называется градиентным восхождением.
13. В чем разница между методом Ньютона и методом градиентного спуска? метод Ньютона Метод Ньютона — это метод приближенного решения уравнений в вещественных и комплексных полях. Метод использует первые несколько членов ряда Тейлора функции f(x) для нахождения корней уравнения f(x) = 0. Самая большая особенность метода Ньютона заключается в том, что скорость его сходимости очень высока.
14. Определение энтропии, совместной энтропии, условной энтропии, относительной энтропии, взаимной информации. Для лучшего понимания необходимы следующие знания о вероятности, которые необходимо понять: Заглавная буква X представляет собой случайную величину, а строчная буква x представляет конкретное значение случайной величины X; P(X) представляет собой распределение вероятностей случайной величины X, P(X, Y) представляет собой совместное распределение вероятностей случайных величин X и Y, а P(Y|X) представляет условную вероятность случайной величины Y, когда случайная величина X известна как распределенная; p(X = x) представляет собой вероятность того, что случайная величина X примет определенное значение, сокращенно обозначаемое как p(x); p(X = x, Y = y) представляет совместную вероятность, сокращенно p(x,y), p(Y = y|X = x) представляет условную вероятность, сокращенно p(y|x), и имеет : p(x,y) = p(x) * p(y|x).
15. Расскажите о функции ядра, которую вы знаете
16. Что такое квазиньютоновские методы?
Квазиньютоновский метод — один из наиболее эффективных методов решения задач нелинейной оптимизации — был предложен физиком У. К. Дэвидоном из Аргоннской национальной лаборатории в США в 1950-х годах. Алгоритм, разработанный Дэвидоном, считался одним из самых инновационных изобретений в области нелинейной оптимизации того времени. Вскоре Р. Флетчер и М. Дж. Д. Пауэлл продемонстрировали, что этот новый алгоритм намного быстрее и надежнее других методов, что позволило дисциплине нелинейной оптимизации стремительно развиваться в одночасье.
Существенная идея квазиньютоновского метода состоит в том, чтобы исправить дефект, который метод Ньютона должен каждый раз решать обратной матрицей комплексной матрицы Гессе.Он использует положительно определенную матрицу для аппроксимации обратной матрицы Гессе, тем самым упрощение сложности операции. Квазиньютоновский метод, как и метод наискорейшего спуска, требует только, чтобы градиент целевой функции был известен на каждой итерации. Путем измерения изменения градиента строится модель целевой функции, достаточная для получения сверхлинейной сходимости. Этот класс методов значительно превосходит метод наискорейшего спуска, особенно для сложных задач.
17. Сложность kmeans? Временная сложность: O(tKmn), где t — количество итераций, K — количество кластеров, m — количество записей (которое также можно рассматривать как количество выборок), а n — размерность Пространственная сложность: O((m+K)n), где K — количество кластеров, m — количество записей (которое также можно рассматривать как количество выборок), а n — размерность
18. Пожалуйста, расскажите о проблемах и проблемах стохастического градиентного спуска?
Так как же оптимизировать метод стохастического градиента? Для получения подробной информации нажмите: Первый этап открытого урока: Подробное объяснение различных алгоритмов оптимизации, таких как градиентный спуск (включая видео и загрузку PPT) (ссылка:спрашивайте.Расстояние также читайте.com/question/79…
19. Говорите о методе сопряженных градиентов? Метод сопряженного градиента - это метод между методом градиентного спуска (методом наискорейшего спуска) и методом Ньютона.. Ему нужно использовать только информацию о производной первого порядка, но он преодолевает недостатки медленной сходимости метода градиентного спуска и позволяет избежать необходимости в методе Ньютона.Недостаток хранения и вычисления матрицы Гессе и ее обращения, метод сопряженных градиентов является не только одним из наиболее полезных методов решения больших линейных уравнений, но и одним из наиболее эффективных алгоритмов решения большие нелинейные оптимизации. Среди различных алгоритмов оптимизации очень важным является метод сопряженных градиентов. Его преимущества заключаются в том, что он требует небольшого объема памяти, имеет постепенную сходимость, высокую стабильность и не требует каких-либо внешних параметров.
20. Можно ли для всех задач оптимизации найти лучшие алгоритмы, чем известные в настоящее время?
Теоремы бесплатного обеда не существует: Для обучающих выборок (черные точки) разные алгоритмы A/B имеют разную производительность в разных тестовых выборках (белые точки), что означает: для алгоритма обучения A, если он лучше, чем алгоритм обучения B на некоторых задачах Ну, должно быть какая-то проблема, где B лучше, чем A. То есть: для всех задач, независимо от того, насколько умен алгоритм обучения A и насколько неуклюж алгоритм обучения B, они имеют одинаковую ожидаемую производительность. Однако теоремы о бесплатном обеде не существует. Предполагается, что все проблемы имеют одинаковую вероятность возникновения. В практических приложениях разные сценарии будут иметь разное распределение проблем. Поэтому при оптимизации алгоритма анализ конкретных проблем является ядром оптимизации алгоритма. .
21. Что такое максимальная энтропия
Энтропия является мерой неопределенности случайных величин. Чем больше неопределенность, тем больше значение энтропии; если случайная величина вырождается в фиксированное значение, энтропия равна 0. Если нет внешнего вмешательства, случайная величина всегда имеет тенденцию к беспорядку, и по прошествии достаточного времени для стабильной эволюции она должна достичь максимальной степени энтропии.
Чтобы точно оценить состояние случайных величин, мы обычно максимизируем энтропию, думая, что среди всех возможных вероятностных моделей (распределений) модель с наибольшей энтропией является лучшей моделью. Другими словами, в предпосылке известного частичного знания наиболее разумным выводом о неизвестном распределении является наиболее неопределенный или случайный вывод в соответствии с известным знанием Принцип состоит в том, чтобы допустить известное (знание) и ничего не делать с неизвестным. , Предположим, без всякого предубеждения
22. Разница и связь между LR и линейной регрессией В отрасли LR обычно используется логистическая регрессия (логистическая регрессия), а не линейная регрессия (линейная регрессия).LR применяет сигмовидную функцию к выходному значению диапазона действительных чисел линейной регрессии, чтобы приблизить значение к диапазону от 0 до 1, и его целевая функция также изменяется от квадрата разности.Функция суммы становится логарифмической функцией потерь, чтобы обеспечить производную, необходимую для оптимизации (сигмоидальная функция является бинарным частным случаем функции softmax, и все ее производные имеют форму f*(1-f) значения функции).
Обратите внимание, что LR часто используется для решения задачи бинарной классификации 0/1, но она слишком тесно связана с линейной регрессией, а также неосознанно называется регрессией (жилет везде).Если требуется многомерная классификация, сигмовидная заменена со знаменитым softmax.
23. Кратко объясните разницу между обучением с учителем и обучением без учителя. Обучение с учителем: обучение на размеченных обучающих выборках для максимально возможного прогнозирования классификации данных за пределами обучающей выборки. (ЛР, СВМ, БП, РФ, ГБДТ) Неконтролируемое обучение: обучение и обучение на немаркированных образцах, а не обнаружение структурных знаний в этих образцах. (KMeans, PCA)
24. В чем разница между GBDT и XGBoost (дерево решений, Random Forest, Boosting, Adaboot)?
Ансамбльный объект ансамблевого обучения - учащийся.Бэгинг и Повышение относятся к двум типам методов ансамблевого обучения.Метод Бэгинга отбирает одинаковое количество образцов с заменой для обучения каждого учащегося, а затем интегрируется вместе (простое голосование);Метод бустинга использует все образцы (регулируемые веса) обучает каждого учащегося по очереди, итеративно ансамблем (плавное взвешивание).
Дерево решений является наиболее часто используемым обучающим устройством, и его процесс обучения заключается в построении дерева из корня, то есть о том, как определить разделение конечных узлов.Дерево решений ID3/C4.5 использует информационную энтропию для расчета оптимального разделения, и дерево решений CART использует индекс Джини для расчета оптимального разделения Разделение, дерево решений xgboost использует коэффициенты расширения Тейлора второго порядка для расчета оптимального разделения.
25. Что именно означает регуляризация в машинном обучении?
Регуляризация часто встречается в различных статьях или материалах, например, общая целевая функция содержит следующие два
Среди них функция ошибки/потери побуждает нашу модель максимально соответствовать обучающим данным, чтобы окончательная модель имела меньшую предвзятость. Термин регуляризации поощряет более простые модели. Потому что, когда модель проста, случайность результатов подгонки на основе ограниченных данных относительно мала, и ее нелегко переобучить, что делает прогноз окончательной модели более стабильным. Но не было хорошей статьи, разъясняющей, что такое регуляризация? Когда дело доходит до регуляризации, мы должны начать с проблемы переобучения.
26. Расскажите об общих функциях потерь? Для заданного входа X соответствующий выход Y задается как f(X), а прогнозируемое значение f(X) этого выхода может совпадать или не совпадать с истинным значением Y (знайте, что иногда потери или ошибки неизбежны) , используя функцию потерь для измерения степени ошибки предсказания. Функция потерь, обозначаемая L(Y, f(X)), измеряет, насколько несовместимо предсказанное значение вашей модели f(x) с истинным значением Y.
27. Почему xgboost использует расширение Тейлора и каковы его преимущества? xgboost использует частные производные первого и второго порядка, а производная второго порядка способствует более быстрому и точному градиентному спуску.Используя расширение Тейлора для получения формы производной второго порядка функции в качестве независимой переменной, вы можно выбрать конкретную форму функции потерь. , расчет оптимизации разделения листьев может быть выполнен только на основе значения входных данных, что по существу отделяет выбор функции потерь от оптимизации алгоритма модели/выбора параметров. Это разъединение увеличивает применимость xgboost, позволяя выбирать функцию потерь по запросу, которую можно использовать для классификации или регрессии.
28. В чем разница между ковариацией и корреляцией? Корреляция — это стандартизированный формат ковариации. Сами ковариации трудно сравнивать. Например: если мы посчитаем ковариацию зарплаты ($) и возраста (лет), поскольку эти две переменные имеют разные меры, мы получим разные ковариации, которые нельзя сравнивать.
29. Как xgboost находит оптимальные функции? С заменой или без?
xgboost дает оценку прироста каждой функции в процессе обучения, а функция с наибольшим приростом будет выбрана в качестве основы для разделения, чтобы запомнить важность каждой функции во время обучения модели - от корня до промежуточного узла листа. включает в себя определенное количество признаков ранжируется по важности признака.
30. Говорите о модели переговоров и генеративной модели? Дискриминантный метод: функция принятия решений Y = f(X) определяется непосредственно из данных, или в качестве модели прогнозирования используется условная вероятность распределения P(Y|X), то есть дискриминантная модель. Метод генерации: совместная функция распределения плотности вероятности P(X, Y) изучается из данных, а затем получается условное распределение вероятности P(Y|X) в качестве прогнозируемой модели, то есть генеративной модели. Дискриминативную модель можно получить из генеративной модели, но генеративную модель нельзя получить из дискриминативной модели. Общие дискриминантные модели: K-ближайший сосед, SVM, дерево решений, персептрон, линейный дискриминантный анализ (LDA), линейная регрессия, традиционная нейронная сеть, логистическая регрессия, бустинг, условное случайное поле. Распространенными генеративными моделями являются: наивный байесовский анализ, скрытая марковская модель, модель гауссовой смеси, модель генерации темы документа (LDA), ограниченная машина Больцмана.
31. Отличие линейных классификаторов от нелинейных классификаторов, их плюсы и минусы Линейность и нелинейность основаны на параметрах модели и входных функциях; например, если вход x, модель y=ax+ax^2 является нелинейной моделью, а если вход x и X^2, модель является линейной. Линейный классификатор обладает хорошей интерпретируемостью и низкой вычислительной сложностью, недостатком является относительно слабый эффект подгонки модели. Нелинейный классификатор обладает сильной подгоночной способностью, но недостатком является то, что количество данных недостаточно, его легко переобучить, высокая вычислительная сложность и плохая интерпретируемость. Общие линейные классификаторы: LR, байесовская классификация, однослойный персептрон, линейная регрессия. Общие нелинейные классификаторы: дерево решений, RF, GBDT, многослойный персептрон. SVM имеет оба (см. линейное ядро или ядро Гаусса)
32. Разница между L1 и L2
Норма L1 (норма L1) — это сумма абсолютных значений каждого элемента в указателе, и она также известна как «регуляризация Лассо». Например, вектор A=[1,-1,3], тогда норма L1 вектора A равна |1|+|-1|+|3|. Краткое резюме: Норма L1: это сумма абсолютных значений каждого элемента вектора x. Норма L2: это степень 1/2 суммы квадратов каждого элемента вектора X. Норма L2 также известна как евклидова норма или норма Фробениуса. Lp норма: это степень 1/p суммы абсолютного значения каждого элемента вектора x в степени p
33. Каким распределениям подчиняются обычные априоры L1 и L2? В интервью, какому распределению подчиняются обычные априоры L1 и L2, L1 — это распределение Лапласа, а L2 — распределение Гаусса.
34. Кратко представить логистическую регрессию?
Логистическая регрессия (Logistic Regression) — классификационная модель в машинном обучении, благодаря простоте и эффективности алгоритма широко используемая на практике. Например, в практической работе мы можем столкнуться со следующими проблемами: Предсказать, нажмет ли пользователь на определенный элемент Определить пол пользователя Предсказать, будет ли пользователь покупать данную категорию Определить, положительный отзыв или отрицательный Их можно рассматривать как проблемы классификации, а точнее, как проблемы бинарной классификации. Для решения этих проблем обычно используются некоторые существующие алгоритмы классификации, такие как логистическая регрессия или машины опорных векторов. Все они являются контролируемым обучением, поэтому, прежде чем использовать эти алгоритмы, вы должны сначала собрать пакет размеченных данных в качестве обучающего набора. Некоторые аннотации могут быть получены из журнала (клик пользователя, покупка), некоторые могут быть получены из информации, введенной пользователем (пол), а некоторые могут потребовать ручной аннотации (полярность тональности комментариев).
35. Расскажите об Adaboost, формуле обновления веса. Когда слабым классификатором является Gm, вес каждой выборки равен w1, w2..., напишите формулу окончательного решения.
Учитывая набор обучающих данных T={(x1,y1), (x2,y2)…(xN,yN)}
36. Друзья, которые часто ищут что-то в Интернете, знают, что когда вы случайно вводите несуществующее слово, поисковая система подскажет, хотите ли вы ввести правильное слово, например, когда вы вводите «Julw» в Google, Система угадывает ваше намерение: искать «июль»
Когда пользователь вводит слово, оно может быть написано правильно или неправильно. Если вы пишете c (для правильного написания) для правильного написания и w (для неправильного) для опечаток, то «проверка орфографии» делает следующее: пытается сделать вывод c, когда встречается w. Другими словами: дано w, а затем среди нескольких альтернатив найти наиболее вероятное c.
37. Почему Наивный Байес такой «наивный»?
Потому что предполагается, что роли всех признаков в наборе данных одинаково важны и независимы. Как мы знаем, это предположение совершенно неверно в реальном мире, так что наивный байесовский алгоритм действительно «наивен». Наивный (Наивный) смысл наивной байесовской модели состоит в том, чтобы «очень просто и наивно» предположить, что признаки выборки независимы друг от друга. Это предположение в принципе не существует в действительности, но реальная ситуация, когда корреляция признаков невелика, все еще много, так что эта модель все еще работает просто отлично.
38. Пожалуйста, сравните примерно разницу между plsa и LDA
39. Пожалуйста, объясните подробно алгоритм EM
Что такое алгоритм EM? Объяснение, данное Википедией, таково: Алгоритм максимизации ожидания (алгоритм максимизации ожидания, также переводится как алгоритм максимизации ожидания) — это алгоритм нахождения оценки максимального правдоподобия или максимальной апостериорной оценки параметров в вероятностной модели, где вероятностная модель зависит от ненаблюдаемых скрытых переменных.
40. Как выбирается K в KNN?
О том, что такое KNN, вы можете прочитать в этой статье: «От алгоритма K-ближайших соседей, метрики расстояния до дерева KD, алгоритма SIFT+BBF» (ссылка:blog.CSDN.net/V_July_V/AR…Если выбрано большее значение K, это эквивалентно использованию обучающих примеров в большей области для прогнозирования.Преимущество заключается в том, что ошибка оценки обучения может быть уменьшена, но недостаток заключается в том, что ошибка аппроксимации обучения будет увеличиваться. В это время обучающие экземпляры, которые далеки (не похожи) от входного экземпляра, также будут воздействовать на предиктор, делая прогноз неверным, а увеличение значения K означает, что общая модель становится проще. K=N, совершенно недостаточно, потому что неважно, какой входной экземпляр в это время, это всего лишь простое предсказание, что он принадлежит к самому утомленному в обучающем экземпляре Модель слишком проста и игнорирует много полезного информация в учебном экземпляре. В практических приложениях значение К обычно принимает относительно небольшое значение, например, метод перекрестной проверки (попросту говоря, часть выборок используется как обучающая выборка, а часть — как тестовая) для выбора оптимальное значение К.
41. Методы предотвращения переобучения
Причина переобучения заключается в том, что способность алгоритма к обучению слишком велика; некоторые допущения (такие как независимое и идентичное распределение выборок) могут не выполняться; слишком малое количество обучающих выборок не может оценить распределение всего пространства. Подход: 1 Ранняя остановка: прекратить обучение, если производительность модели значительно не улучшилась после многих итераций обучения. 2 Расширение набора данных: увеличение исходных данных, исходные данные плюс случайный шум, передискретизация 3 Регуляризация, регуляризация может ограничить сложность модели 4 Перекрестная проверка 5 Выбор функций / сокращение функций 6 Создание проверочного набора — самый простой способ предотвратить переоснащение. Цель нашей окончательной обученной модели — хорошо работать на проверочном, а не на тренировочном наборе.
42. Почему в машинном обучении мы часто нормализуем данные?
Модели машинного обучения широко используются в интернет-индустрии, например, для сортировки (см.: Sorting Learning Practices).блог woo woo woo.cn на.com/LBSwhile/afraid/443…Как правило, при выполнении приложений машинного обучения большая часть времени тратится на обработку признаков, и ключевым шагом является нормализация данных признаков. Зачем нормализовать? Многие студенты не понимают объяснение, данное Википедией: 1) После нормализации скорость градиентного спуска для поиска оптимального решения увеличивается; 2) Нормализация может повысить точность.
43. Что такое метод наименьших квадратов?
Мы часто говорим в устах: В общем, в среднем. Например, в среднем здоровье некурящих лучше, чем у курильщиков.Причина добавления слова «средний» в том, что во всем есть исключения.Всегда есть особый человек, который курит, но из-за регулярных физических упражнений его здоровье может быть, было бы лучше, чем его некурящий друг. Одним из простейших примеров наименьших квадратов является среднее арифметическое. Метод наименьших квадратов (также известный как метод наименьших квадратов) — это метод математической оптимизации. Он находит наилучшее функциональное совпадение данных, сводя к минимуму сумму квадратов ошибок. Неизвестные данные могут быть легко получены методом наименьших квадратов, а сумма квадратов ошибок между полученными данными и фактическими данными может быть минимизирована.
44. Находит ли метод градиентного спуска самое быстрое направление спуска?
Метод градиентного спуска не обязательно является самым быстрым направлением глобального спуска, это всего лишь направление самого быстрого спуска целевой функции на касательной плоскости к текущей точке (разумеется, многомерные задачи нельзя называть плоскостями). В практической реализации направление Ньютона (учитывая матрицу Гессе) обычно считается направлением с самым быстрым спадом, которое может достичь сверхлинейной скорости сходимости. Скорость сходимости алгоритмов градиентного спуска обычно является линейной или даже сублинейной (в некоторых задачах со сложными ограничениями). Линь Сяоси (Ууху. Call.com/question/30…
45. Кратко расскажите о теореме Байеса
46. Как понять дерево решений, xgboost может обрабатывать пропущенные значения? Некоторые модели (svm) более чувствительны к пропущенным значениям.
Источник этого анализа:Ууху. Call.com/question/58…Сначала объясните свое замешательство с двух точек зрения: Инструментарий автоматически обрабатывает отсутствующие данные, но это не означает, что конкретный алгоритм может обрабатывать отсутствующие элементы. Для отсутствующих данных: модели, прототипированные с деревьями решений, превосходят модели, основанные на показателях расстояния В ответе также рассматривается, как древовидные модели, такие как Random Forest и xgboost, обрабатывают отсутствующие значения. Статья завершается кратким изложением советов по выбору модели при недостающих значениях.
47. Пожалуйста, приведите пример, чтобы объяснить, что такое стандартизация и нормализация.
1. Стандартизация Проще говоря, нормализация заключается в обработке данных в соответствии со столбцами матрицы признаков, которая преобразует собственные значения выборок в одно и то же измерение путем вычисления z-показателя. Обычно используется формула: (Х-среднее)/стандартное значение, где среднее значение — это среднее значение, а стандартное значение — дисперсия. Из формулы видно, что операция стандартизации заключается в вычитании среднего значения данных по его атрибутам (по столбцам), а затем делении на дисперсию. Геометрическое понимание этого процесса заключается в том, чтобы сначала перевести нулевую ось оси координат на линию среднего значения, а затем выполнить масштабирование, которое включает в себя два действия перевода и масштабирования. Результатом этой обработки является то, что для каждого атрибута (каждого столбца) все данные сгруппированы вокруг 0 с дисперсией 1. Расчет производится отдельно для каждого атрибута/столбца.
48. Как случайный лес обрабатывает пропущенные значения?
@Yieshah: Как мы все знаем, есть много способов справиться с пропущенными значениями в машинном обучении, Однако из заголовка «Как работать с пропущенными значениями в случайных лесах» мы видим, что ключ к проблема заключается в том, как работать со случайными лесами, поэтому давайте кратко представим случайные леса. Случайный лес состоит из множества деревьев решений.Во-первых, должен быть установлен набор данных Bootstrap, то есть некоторые случайно выбранные из исходных данных, в качестве нового набора данных будут повторяющиеся данные в новом наборе данных, а затем для каждый набор данных.Каждый набор данных строит дерево решений, но вместо того, чтобы напрямую использовать все функции для построения дерева решений, для каждого шага из него случайным образом выбираются некоторые функции для построения дерева решений, так что мы строим несколько деревьев решений , состоящий из случайного леса, вводите данные в каждое дерево решений, просматривайте результаты оценки каждого дерева решений, подсчитывайте результаты прогнозирования всех деревьев решений, результаты интеграции пакетов и получайте окончательный результат. Итак, как быть с пропущенными значениями в случайном лесу? По характеристикам создания и обучения случайного леса обработка пропущенных значений случайным лесом является совершенно особенной.
49. Как случайный лес оценивает важность признаков?
Есть два способа измерить важность переменных: уменьшить индекс Джини и уменьшить точность:
- Уменьшить Джини:
Для задач классификации (разделение выборки на определенный класс), то есть задач с дискретными переменными, CART использует значение Джини в качестве критерия. Определяется как Gini=1-∑(P(i)*P(i)), P(i) — это доля выборок i-го типа в наборе данных на текущем узле. Например: разделить на 2 категории, на текущем узле 100 образцов, 70 образцов относятся к первой категории и 30 образцов относятся ко второй категории, тогда Gini=1-0,7×07-0,3×03=0,42, It видно, что чем более средним является распределение классов, тем больше значение Джини, и чем неравномернее распределение классов, тем меньше значение Джини. При поиске наилучших признаков классификации и порогов критериями оценки являются: argmax (Gini-GiniLeft-GiniRight), то есть найти наилучший признак f и порог th, чтобы значение Джини текущего узла минус Джини и правые значения левого дочернего узла Дочерний узел имеет наибольшее значение Джини.
Для задачи регрессии это относительно проще, и argmax (Var-VarLeft-VarRight) непосредственно используется в качестве стандарта оценки, то есть дисперсия Var текущего обучающего набора узлов минус дисперсия VarLeft левого дочернего узла и дисперсия VarRight правого дочернего узла является наибольшей.
- Уменьшить точность:
Для дерева Tb(x) мы можем использовать выборку OOB, чтобы получить ошибку теста, равную 1; затем случайным образом изменить j-й столбец выборки OOB: оставить другие столбцы неизменными и выполнить случайные перестановки вверх и вниз в j-м столбце. получить ошибку 2. Пока что мы можем использовать ошибку 1 — ошибку 2, чтобы охарактеризовать важность переменной j. Основная идея состоит в том, что если переменная j достаточно важна, то ее изменение сильно увеличит ошибку теста; наоборот, если ее изменение не увеличит ошибку теста, значит, переменная не так важна.
50. Расскажите, пожалуйста, об оптимизации Kmeans?
Анализ первый k-значит: в условиях больших данных это будет потреблять много времени и памяти. Предложения по оптимизации k-средних: 1. Уменьшить количество кластеров K. Потому что каждый образец должен рассчитывать расстояние от центра класса. 2. Уменьшите размер элемента выборки. Например, уменьшение размерности через PCA и т.д. 3. Исследуйте другие алгоритмы кластеризации и проверьте производительность различных алгоритмов кластеризации, выбрав игрушечные данные. 4. Кластер Hadoop, алгоритм K-средних легко выполнять параллельные вычисления.