Персональный сайт Red Stone:redstonewill.com
Машинное обучение — это техническая дисциплина с сильным теоретическим и практическим характером. При приеме на работу, связанную с машинным обучением, мы часто сталкиваемся с различными проблемами машинного обучения и недостатками знаний. Чтобы помочь всем разобраться и понять эти точки знаний, чтобы лучше справиться с письменным тестом по машинному обучению, включая собеседование. Red Stone собирается опубликовать серию статей о письменных тестовых вопросах по машинному обучению в общедоступном аккаунте, я надеюсь, что это может быть полезно для всех!
Сегодняшние письменные тестовые вопросы в основном включают в себя точки знаний, в том числе: уменьшение размерности, PCA, выбор признаков, случайный лес, GBDT, ансамблевое обучение и т. д.
Вопрос 1. Мы хотим обучить модель машинного обучения с 1 миллионом выборок и размерностью признаков 5000. Столкнувшись с такими большими данными, как эффективно обучить модель (множественный выбор)?
A. Случайным образом выберите обучающий набор и постройте модель на случайно выбранных данных.
B. Попытка использовать онлайн-алгоритмы машинного обучения
C. Используйте алгоритм PCA для уменьшения размерности объекта
Отвечать: азбука
Разобрать: этот вопрос исследует, как решить проблему чрезмерного размера выборки и размерности признаков.
Как работать с обучающими выборками с большой широтой признаков при ограниченной памяти — очень сложная задача. Для решения этой проблемы можно использовать следующие методы.
-
Мы можем произвольно выбирать набор данных, включая количество выборок и количество признаков. Это означает, что мы можем создать меньший набор данных, скажем, с 1000 признаков и 300 000 выборок для обучения.
-
Используйте алгоритмы онлайн-обучения
-
Используйте анализ основных компонентов (PCA), чтобы выбрать эффективные функции и удалить избыточные функции.
Что касается онлайн-обучения и офлайн-обучения, то офлайн-обучение — это наш наиболее распространенный режим алгоритма машинного обучения, который использует все данные для участия в обучении. После завершения обучения определяется вся модель; в то время как онлайн-обучение обычно использует одни данные или небольшой пакет данных для обучения, каждое обучение оптимизирует модель, и модель находится в состоянии постоянной оптимизации и изменения.
PCA (анализ основных компонентов) — один из наиболее широко используемых алгоритмов сжатия данных. В PCA данные преобразуются из исходной системы координат в новую систему координат, которая определяется самими данными. При преобразовании системы координат направление с наибольшей дисперсией используется как направление оси координат, потому что наибольшая дисперсия данных дает наиболее важную информацию о данных. Первая новая ось выбирает метод с наибольшей дисперсией исходных данных, а вторая новая ось выбирает направление, ортогональное первой новой оси и имеющее следующую наибольшую дисперсию. Этот процесс повторяется, и количество повторений является характеристикой исходных данных.
Что такое избыточные функции? Например, в данных об автомобиле есть и «километры в час», и «миль в час», очевидно, что один из этих двух признаков избыточен.
Вопрос 2. Мы хотим уменьшить количество объектов в наборе данных. Какие из следующих шагов вы могли бы предпринять, чтобы уменьшить количество функций (множественный выбор)?
А. Используйте прямой выбор
B. Используйте обратное исключение
C. Пошаговый метод исключения выбора (Stepwise)
D. Рассчитайте коэффициент корреляции между различными функциями и удалите одну из функций с высоким коэффициентом корреляции.
Отвечать: АВСD
Разобрать: этот вопрос исследует проблему выбора функций в моделях машинного обучения.
Прямой выбор заключается в том, чтобы сначала выбрать функцию, попробовать каждую функцию и выбрать функцию, которая больше всего повышает точность модели; затем добавить еще одну функцию на основе этой функции, метод аналогичен, до тех пор, пока уровень точности модели не перестанет предлагаться сделаны.
Обратное исключение состоит в том, чтобы сначала включить все функции, затем попытаться удалить каждую функцию и, наконец, удалить функцию, которая повышает точность модели (поскольку удаление этой функции повышает точность модели, указывая на то, что это бесполезная функция). И так до тех пор, пока удаление признаков не улучшит модель.
По сравнению с прямым отбором преимущество обратного исключения состоит в том, что оно позволяет некоторым функциям с низким вкладом войти в модель (иногда признаки с низким вкладом могут иметь большее значение вклада в комбинации, и прямой отбор игнорирует это. Возможности комбинирования), поэтому Обратное устранение позволяет избежать вмешательства одной или двух доминирующих функций.
Еще один метод выбора функции — «Пошаговый», который сочетает в себе два вышеуказанных метода.После добавления новой функции попробуйте удалить функцию, пока не будет достигнут заданный стандарт. Недостатком этого метода является то, что заданный стандарт установить непросто, и легко впасть в переобучение.
В дополнение к этому также можно использовать выбор признаков на основе корреляции, который может удалить многолинейные признаки. Например, в предыдущем вопросе «км/ч» и «мили/ч» являются сильно коррелированными функциями, поэтому одну из них можно удалить.
Вопрос 3. Какое из следующих утверждений о случайных лесах и деревьях с усилением градиента верно?
A. Промежуточные деревья Random Forest не являются независимыми друг от друга, в то время как промежуточные деревья Gradient Boosting Trees не зависят друг от друга.
B. Оба используют случайные подмножества признаков для создания промежуточных деревьев.
C. Параллельные деревья могут быть созданы в деревьях повышения градиента, поскольку они независимы друг от друга.
D. Деревья с усилением градиента всегда превосходят случайный лес независимо от любых данных.
Отвечать:Б
Разобрать: этот вопрос исследует базовую вероятность и разницу между случайным лесом и деревом повышения градиента (GBDT).
Случайный лес основан на бэггинге, а градиентные повышающие деревья основаны на бустинге. Разница между бэггингом и бустингом заключается в следующем:
1) О выборке образца:
Бэггинг: тренировочный набор выбирается с заменой в исходном наборе, и каждый раунд тренировочных наборов, выбранных из исходного набора, независим.
Повышение: тренировочный набор каждого раунда не меняется, но меняется вес каждого примера в тренировочном наборе в классификаторе. Веса корректируются в соответствии с результатами классификации предыдущего раунда.
2) Вес образцов:
Бэггинг: используйте равномерную выборку с одинаковым весом для каждого примера.
Повышение: вес образца постоянно корректируется в соответствии с частотой ошибок.Чем выше частота ошибок, тем больше вес.
3) Функция прогнозирования:
Бэггинг: все функции прогнозирования имеют одинаковый вес.
Повышение: каждый слабый классификатор имеет соответствующий вес, а классификатор с небольшой ошибкой классификации будет иметь больший вес.
4) Параллельные вычисления:
Пакетирование: отдельные функции прогнозирования могут создаваться параллельно.
Повышение: каждая функция прогнозирования может быть сгенерирована только последовательно, поскольку для последних параметров модели требуются результаты предыдущего раунда моделей.
Следовательно, промежуточные деревья деревьев повышения градиента не являются независимыми друг от друга, потому что результат предыдущего дерева влияет на следующее дерево. Промежуточные деревья Random Forest не зависят друг от друга, поэтому эти деревья можно генерировать параллельно.
В обоих алгоритмах мы используем случайные наборы признаков для создания промежуточных деревьев.
Деревья с усилением градиента не всегда лучше, чем случайный лес, и зависят от данных.
Q4. «Для признаков, обработанных PCA, должно выполняться предположение о том, что их наивные байесовские признаки независимы друг от друга, поскольку все основные компоненты ортогональны и, следовательно, некоррелированы». Это предложение верно?
A. True
B. False
Отвечать:Б
Разобрать: этот вопрос исследует основную вероятность и разницу между PCA и наивным байесовским алгоритмом.
В этом предложении две ошибки: одна состоит в том, что признаки после преобразования PCA не обязательно нерелевантны, а другая в том, что нерелевантность не эквивалентна независимости друг от друга.
Между ортогональностью и некорреляцией нет необходимой связи, только когда среднее статистическое значение случайной величины равно нулю, ортогональность и некорреляция эквивалентны.
Независимость должна быть нерелевантной, но нерелевантность не обязательно независима друг от друга, только когда она гауссова, независимость и нерелевантность эквивалентны.
В5. Какое из следующих утверждений о PCA верно (множественный выбор)?
A. Перед использованием PCA мы должны нормализовать данные
B. Следует выбрать главный компонент с наибольшей дисперсией
C. Следует выбрать главный компонент с наименьшей дисперсией
D. Данные можно визуализировать в низкоразмерном пространстве с помощью PCA.
Отвечать: АБД
Разобрать: Этот вопрос исследует основные концепции и принципы вывода анализа главных компонентов (PCA).
PCA очень чувствителен к масштабу переменных в данных, поэтому нам необходимо стандартизировать отдельные переменные. Это делается путем вычитания среднего значения соответствующих переменных и деления на стандартное отклонение.
Например, если переменная единица изменена с км на см, что значительно увеличивает ее дисперсию, то переменная может стать главной компонентой. Это то, что мы не хотим видеть большим.
B правильно, потому что мы всегда выбираем главный компонент с наибольшей дисперсией. Таким образом, можно понять, что чем больше дисперсия, тем шире распределение по признаку, тем полезнее признак и тем больше влияние.
PCA иногда полезен для отображения данных в более низких измерениях. Например, мы можем извлечь первые 2 основных компонента, а затем визуализировать данные, используя точечную диаграмму на 2D-плоскости.
Вопрос 6. Каково оптимальное количество основных компонентов на рисунке ниже?
A. 10
B. 20
C. 30
Д. не может быть определен
Отвечать:С
Разобрать: этот вопрос исследует основные концепции PCA.
Очевидно, что при числе главных компонент 30 доля накопленной дисперсии наибольшая.
Вопрос 7. Исследователи данных часто используют несколько алгоритмов для прогнозирования и объединения результатов нескольких алгоритмов машинного обучения (так называемое «ансамблевое обучение») для получения более надежных результатов, которые лучше, чем у всех отдельных моделей. Какое из следующих утверждений верно?
А. Высокая корреляция между базовыми моделями
B. Низкая корреляция между базовыми моделями
C. В ансамблевом методе вместо метода голосования используется средневзвешенное значение.
D. Все базовые модели основаны на одном и том же алгоритме.
Отвечать:Б
Разобрать: этот вопрос исследует основные принципы ансамблевого обучения.
Ансамблевое обучение, как следует из названия, работает путем интеграции/объединения нескольких отдельных учащихся вместе, чтобы они работали вместе для выполнения учебной задачи.
Например, если у вас есть T друзей, и каждый из них рекомендует вам, будет ли акция расти или падать завтра, какого друга вы должны выбрать? Первый метод заключается в том, чтобы выбрать одного из друзей T, которому доверяют больше всего и который лучше всего умеет прогнозировать акции, и просто следовать его советам. Это обычная практика, и она соответствует идее валидации, которая заключается в выборе модели с наименьшей ошибкой. Второй метод, если каждый друг относительно хорош в прогнозировании запасов и имеет свой собственный опыт, тогда рассмотрите предложения T друзей одновременно, проголосуйте за все результаты, один человек, один голос и, наконец, выберите правильный. прогноз по акции. Этот метод соответствует идее равномерности. Третий способ, если уровень у каждого друга разный, кто-то сильнее, то коэффициент голосования должен быть больше, а кто-то относительно беден, и коэффициент голосования должен быть меньше. Затем T друзей по-прежнему голосуют, просто с разным весом голоса для каждого. Такой подход соответствует идее неравномерности. Четвертый метод аналогичен третьему, но вес не фиксирован, и в зависимости от различных условий даются разные веса. Например, если речь идет об акциях в традиционной отрасли, то дайте больший вес голоса друзьям, которые более влиятельны в этой области, а если это сфера услуг, то дайте больший вес голоса друзьям, которые более сильны в этой сфере. эта зона. Все четыре метода, упомянутые выше, представляют собой способы интеграции различных мнений разных людей.Это идея интеграции, то есть объединение нескольких базовых моделей для получения лучших результатов прогнозирования.
Вообще говоря, чем ниже корреляция между базовыми моделями, тем лучше, потому что каждая модель имеет свои особенности, а интеграция мощнее.
Q8.Как использовать алгоритм кластеризации в обучении с учителем (множественный выбор)?
A. Во-первых, можно создавать кластеры, а затем алгоритмы контролируемого обучения можно применять отдельно к разным кластерам.
B. Его идентификатор класса можно использовать в качестве дополнительной функции в пространстве функций перед применением алгоритма обучения с учителем.
C. Кластеры не могут быть созданы, пока не будет применено обучение с учителем
D. Идентификатор класса нельзя использовать в качестве дополнительной функции в пространстве функций до применения алгоритма обучения с учителем.
Отвечать: АБ
Разобрать: этот вопрос посвящен алгоритмам кластеризации и обучению с учителем.
Мы можем создавать независимые модели машинного обучения для разных кластеров и повышать точность прогнозов. Использование идентификатора каждого класса в качестве дополнительной функции в пространстве функций может улучшить результаты точности.
Вопрос 9. Какое из следующих утверждений верно?
A. Чем выше точность модели машинного обучения, тем выше производительность модели.
B. Увеличение сложности модели всегда может уменьшить ошибку тестовой выборки.
C. Увеличение сложности модели всегда может уменьшить ошибку обучающей выборки.
D. Вышеприведенное утверждение неверно
Отвечать:С
Разобрать: этот вопрос исследует показатели оценки моделей машинного обучения.
Чем выше точность модели машинного обучения (Precision), тем лучше производительность модели. Это не обязательно лучше, но также зависит от скорости отзыва (Recall) модели, особенно в случае неравномерного распределения положительных и отрицательных выборок. Как правило, оценка F1 используется для оценки критериев.
Увеличивает сложность модели, что часто приводит к переоснащению. Эффективность переобучения заключается в том, что ошибка обучающей выборки уменьшается, а ошибка тестовой выборки увеличивается.
Вопрос 10. Что касается алгоритма GBDT, какое из следующих утверждений верно (множественный выбор)?
A. Увеличьте минимальное количество выборок, используемых для сегментации, чтобы избежать переобучения.
B. Увеличьте минимальное количество выборок, используемых для сегментации, которая склонна к переобучению.
C. Уменьшите долю выборки каждого базового дерева, что поможет уменьшить дисперсию
D. Уменьшите долю выборки каждого базового дерева, что поможет уменьшить систематическую ошибку.
Отвечать: переменный ток
Разобрать: этот вопрос исследует основные понятия GBDT.
Минимальное количество выборок, необходимое для разделения в узле, используется для контроля переобучения. Слишком высокое значение может привести к недостаточной подгонке, поэтому его следует скорректировать с помощью перекрестной проверки.
Доля выборок, отобранных для каждого базового дерева, определяется методом случайной выборки. Значения меньше 1 уменьшают дисперсию и делают модель устойчивой. Типичное значение 0,8 обычно работает хорошо, но его можно настроить дополнительно.
GBDT проходит через несколько раундов итераций, каждая итерация генерирует слабый классификатор, и каждый классификатор обучается на основе остатков предыдущего раунда классификаторов. Требования к слабым классификаторам, как правило, достаточно просты, с низкой дисперсией и высоким смещением, потому что процесс обучения заключается в постоянном повышении точности окончательного классификатора за счет уменьшения смещения.
использованная литература:
https://www.analyticsvidhya.com/blog/2016/11/solution-for-skilltest-machine-learning-revealed/