Избранные вопросы письменного экзамена по машинному обучению (4)

машинное обучение искусственный интеллект регулярное выражение Bootstrap
Избранные вопросы письменного экзамена по машинному обучению (4)

Персональный сайт Red Stone:redstonewill.com

Машинное обучение — это техническая дисциплина с сильным теоретическим и практическим характером. При приеме на работу, связанную с машинным обучением, мы часто сталкиваемся с различными проблемами машинного обучения и недостатками знаний. Чтобы помочь всем разобраться и понять эти точки знаний, чтобы лучше справиться с письменным тестом по машинному обучению, включая собеседование. Red Stone собирается опубликовать серию статей о письменных тестовых вопросах по машинному обучению в общедоступном аккаунте, я надеюсь, что это может быть полезно для всех!

Сегодня красный камень доставит вас, чтобы продолжить «смертельную борьбу», связанную с письменными экзаменационными вопросами! Разбейте каждую!

Вопрос 1. В n-мерном пространстве (n > 1) какой из следующих методов лучше всего подходит для обнаружения выбросов?

А. График нормальной вероятности

Б. Коробчатый сюжет

C. Расстояние Махаланобиса

D. Диаграмма рассеяния

Отвечать

Разобрать: График нормальной вероятности (Normal Probability Plot) обычно используется для проверки того, подчиняется ли набор данных нормальному распределению. представляет собой точечную диаграмму функциональных отношений между действительными числами и нормально распределенными данными. Если набор действительных чисел следует нормальному распределению, график нормальной вероятности будет прямой линией. Как показано ниже:

这里写图片描述

这里写图片描述

Блочная диаграмма — это статистический график, используемый для отображения дисперсии набора данных. Назван из-за своей формы, похожей на коробку. Как показано ниже:

这里写图片描述

Точечная диаграмма — это описание пространственного распределения дискретных точек данных.

Расстояние Махалонобиса в основном используется для расчета расстояния между точкой выборки и набором данных Преимущество заключается в том, что оно не зависит от масштаба. Формула для расчета расстояния Махаланобиса выглядит следующим образом:

这里写图片描述

где μ — среднее значение выборки, а S — ковариационная матрица выборки. Мы заметили, что формула расстояния Махаланобиса и формула Евклидова расстояния являются просто обратной ковариационной матрицей. Это также является преимуществом расстояния Махаланобиса, которое учитывает различные ковариации между различными признаками и нормализует их, так что мера расстояния не зависит от масштаба.

Приведем простой пример: если рост и вес А равны (170, 60 000), рост и вес В равны (170, 61 000), а рост и вес С равны (160, 60 000), единицы рост и вес см., г. Согласно здравому смыслу, формы тел A и B относительно похожи, но если использовать евклидово расстояние, A и C вычисляются как относительно похожие. Причина в том, что дисперсия измерения высоты меньше, а дисперсия измерения веса больше. Расстояние Махаланобиса просто устраняет влияние различных дисперсий в каждом измерении и нормализует дисперсию, чтобы сделать взаимосвязь между признаками более соответствующей реальной ситуации.

Следовательно, расстояние Махаланобиса больше подходит для оценки позиционного отношения между точками выборки и набором данных и того, является ли оно выбросом. Графики нормальной вероятности, диаграммы разброса и диаграммы рассеяния более интуитивно понятны, и в них легко определить ошибки.

Вопрос 2. В чем разница между логистической регрессией и множественным регрессионным анализом?

A. Логистическая регрессия используется для прогнозирования вероятности наступления события.

B. Логистическая регрессия используется для расчета индекса согласия.

C. Логистическая регрессия используется для оценки коэффициентов регрессии.

Д. Все вышеперечисленное

Отвечать:D

Разобрать: вариант А, логистическая регрессия используется для решения задач классификации и может использоваться для прогнозирования вероятности возникновения события.

Вариант B. В целом, чтобы измерить, насколько хорошо реальная выборка соответствует модели, можно рассчитать индекс согласия с использованием логистической регрессии.

Вариант C, после подбора модели логистической регрессии мы также можем судить о взаимосвязи (положительной или отрицательной корреляции) между каждой независимой функцией и целевым результатом в соответствии со значением коэффициента.

Вопрос 3. Какое из следующих утверждений о начальной загрузке верно?

A. Из общего количества M признаков извлечь m признаков с заменой (m

B. Из общего количества M признаков извлечь m признаков без замены (m

C. Из общего количества N образцов выбрать n образцов с заменой (n

D. Из общего количества N образцов выбрать n образцов без замены (n

Отвечать

Разобрать: Идея начальной загрузки заключается в моделировании похожего, но не точно такого же набора данных из существующего набора данных. В основном для ситуаций, когда недостаточно данных для обучения нескольких моделей.

Метод бутстрапа состоит в том, чтобы предположить, что есть N фрагментов данных D, сначала выбрать из них образец, затем положить его обратно, затем выбрать образец и положить его обратно, повторив в общей сложности n раз. Таким образом, мы получаем новые n фрагментов данных D'. Этот новый набор данных может содержать повторяющиеся точки выборки в исходном наборе данных или может не иметь некоторых выборок в исходном наборе данных. D' подобен D, но не то же самое, что и D'. Стоит отметить, что количество операций извлечения-замены не обязательно должно быть N, а количество операций может быть задано произвольно. Например, есть 10 000 исходных сэмплов, мы можем извлечь-заменить 3 000 раз, а также вполне возможно получить D', содержащий 3 000 сэмплов.

Q4. «В обучении с учителем есть переобучение, но нет переобучения в обучении без учителя», правильно ли это предложение?

А. Правильно

Б. Ошибка

Отвечать

Разобрать: Для неконтролируемого обучения все еще возможно переоснащение. В общем, существует множество показателей для оценки неконтролируемого обучения, например, использование скорректированного рандомного показателя для оценки моделей кластеризации.

В модели кластеризации предполагается, что фактической информацией о категории является C, а результатом кластеризации является K. a указывает, сколько пар элементов в C и K относятся к одной и той же категории, а b указывает, сколько элементов находится в разных категориях в C и K. Да, тогда индекс Рэнда равен:

这里写图片描述

Диапазон значений RI составляет [0,1], и чем больше значение, тем лучше результаты кластеризации соответствуют реальной ситуации.

Однако в случае, когда результаты кластера случайны, Ri не равно 0. Поэтому, чтобы решить эту проблему, скорректируйте СКОРРЕКТИРОВАННУЮ СЛУЧАЙНУЮ ОЦЕНКУ, она имеет более высокую оценку:

这里写图片描述

Диапазон значений ARI составляет [−1, 1], и чем больше значение, тем лучше результаты кластеризации соответствуют реальной ситуации. Вообще говоря, ARI измеряет, насколько хорошо подходят два распределения данных.

Вопрос 5. Какое из следующих утверждений о k-кратной перекрестной проверке верно?

A. Чем больше значение k, тем лучше.Если значение k слишком велико, скорость работы будет снижена.

B. Выбор большего значения k уменьшит отклонение, потому что чем больше значение k, тем ближе обучающая выборка ко всей обучающей выборке.

C. Выберите подходящее значение k, которое может уменьшить дисперсию теста.

D. Все вышеперечисленные утверждения верны

Отвечать:D

Разобрать: В машинном обучении в случае недостаточного размера выборки, чтобы в полной мере использовать набор данных для проверки эффекта алгоритма, набор данных случайным образом делится на k пакетов, и один пакет используется в качестве тестового набора. за раз, оставляя k-1 Пакеты используются в качестве тренировочного набора для обучения.

Значение k для k-кратной перекрестной проверки не может быть слишком большим или слишком маленьким. Если значение k слишком велико, скорость работы будет снижена. Если k совпадает с количеством выборок N, это вариант «Пропустить один». Чем больше значение k, тем ближе обучающая выборка ко всей обучающей выборке, что способствует уменьшению систематической ошибки модели. Как правило, k можно использовать в качестве гиперпараметра для отладки, а соответствующее значение k можно выбрать в зависимости от производительности.

K-кратная перекрестная проверка может эффективно улучшить способность модели к обучению, аналогично увеличению количества обучающих выборок, делая изученную модель более надежной и надежной. Выбор подходящего значения k может эффективно избежать переобучения.

Вопрос 6. Если в регрессионной модели присутствует мультиколлинеарность, как решить эту проблему, не теряя слишком много информации (множественный выбор)?

A. Исключите все коллинеарные переменные

B. Исключите одну из коллинеарных переменных

C. Проверьте степень коллинеарности, рассчитав коэффициент инфляции дисперсии (VIF), и примите соответствующие меры.

D. Удаление коррелированных переменных может привести к потере информации, мы не можем удалить коррелированные переменные, но используем некоторые методы регуляризации для решения проблем мультиколлинеарности, такие как регрессия Риджа или Лассо.

Отвечать: BCD

Разобрать: если в регрессионной модели есть коллинеарные переменные, можно принять соответствующие меры для исключения одной из коллинеарных переменных. Чтобы проверить мультиколлинеарность, мы можем создать корреляционную матрицу для выявления и удаления переменных, которые коррелированы более чем на 75% (пороговый размер может быть установлен искусственно). Кроме того, мы можем проверить наличие мультиколлинеарности, используя рассчитанный коэффициент инфляции дисперсии (VIF). Если VIF 10 означает сильную мультиколлинеарность. Кроме того, мы можем использовать толерантность в качестве индикатора мультиколлинеарности.

Коэффициент инфляции дисперсии (VIF): относится к отношению дисперсии при наличии мультиколлинеарности среди объясняющих переменных к дисперсии при отсутствии мультиколлинеарности. VIF и толерантность находятся в обратной зависимости. Подробности можно узнать в статистике.

Однако удаление коррелирующих переменных может привести к потере информации. Чтобы сохранить эти переменные, мы можем использовать регуляризацию, чтобы «наказать» модели регрессии, такие как регрессия Риджа и Лассо. Кроме того, мы можем добавить некоторые переменные, связанные со случайным шумом, чтобы переменные отличались друг от друга. Однако добавление шума может повлиять на точность предсказания, поэтому этот метод следует использовать с осторожностью.

Вопрос 7. После оценки модели обнаружено, что в модели имеется большое смещение, как мне решить эту проблему?

A. Уменьшите количество функций в модели

B. Увеличьте количество функций в модели

C. Увеличьте размер выборки

D. Все вышеперечисленные утверждения верны

Отвечать

Разобрать: Если есть высокомерное отклонение (высокая смещение), означает, что модель слишком проста. Чтобы сделать модель более надежным, мы можем добавить больше функций в пространстве объектов. Количество образцов будет добавлено для уменьшения отклонения.

这里写图片描述

Вопрос 8. При построении модели дерева решений мы разделяем узел для определенного атрибута На следующих четырех рисунках какой атрибут соответствует наибольшему приросту информации?

这里写图片描述

A. outlook

B. humidity

C. windy

D. temperature

Отвечать: А

Разобрать: В «Статистическом методе обучения» Ли Ханга прирост информации определяется следующим образом: прирост информации g(D,A) признака A для обучающего набора данных D определяется как эмпирическая энтропия H(D) набора D и признака A определяется как Разница между эмпирической условной энтропией H (D | A) D при определенных условиях, а именно

g(D,A) = H(D) - H(D|A)

В этом вопросе мы сначала вычисляем эмпирическую энтропию H(D):

H(D) = -9/14 * log(9/14) - 5/14 * log(5/14) = 0.6518

На рисунке 1 эмпирическая условная энтропия H(D|A):

H(D|A) = 5/14 * (-2/5*log(2/5)-3/5*log(3/5)) + 4/14 *(-1*log(1)-0) + 5/14 * (-3/5*log(3/5)-2/5*log(2/5)) = 0.4807

Прирост информации на рисунке 1:

g(D,A) = H(D) - H(D|A) = 0.6518 - 0.4807 = 0.1711

На рисунке 2 эмпирическая условная энтропия H(D|A):

H(D|A) = 7/14 * (-3/7*log(3/7)-4/7*log(4/7)) + 7/14 * (-6/7*log(6/7)-1/7*log(1/7)) = 0.5465

Прирост информации на рисунке 2:

g(D,A) = H(D) - H(D|A) = 0.6518 - 0.5465 = 0.1053

На рисунке 3 эмпирическая условная энтропия H(D|A):

H(D|A) = 8/14 * (-6/8*log(6/8)-2/8*log(2/8))  + 6/14 * (-3/6*log(3/6)-3/6*log(3/6)) = 0.6184

Прирост информации на рисунке 3:

g(D,A) = H(D) - H(D|A) = 0.6518 - 0.6184 = 0.0334

На рисунке 4 эмпирическая условная энтропия H(D|A):

H(D|A) = 4/14 * (-2/4*log(2/4)-2/4*log(2/4)) + 6/14 *(-4/6*log(4/6)-2/6*log(2/6)) + 4/14 * (-3/4*log(3/4)-1/4*log(1/4)) = 0.6315

Прирост информации на рисунке 4:

g(D,A) = H(D) - H(D|A) = 0.6518 - 0.6315 = 0.0203

Очевидно, что прирост информации, соответствующий прогнозу на Рисунке 1, является наибольшим.

Вопрос 9. Когда дерево решений разделяет узлы, какое из следующих утверждений о получении информации является правильным (множественный выбор)?

A. Узлу с высокой чистотой требуется больше информации для его описания.

B. Прирост информации может быть получен с «1-битной энтропией».

C. Если выбран атрибут со многими собственными значениями, то этот прирост информации смещен.

Отвечать: ДО НАШЕЙ ЭРЫ

Вопрос 10. Если модель SVM не соответствует требованиям, какой из следующих методов может решить проблему?

A. Увеличьте значение параметра штрафа C

B. Уменьшить значение параметра штрафа C

C. Уменьшить коэффициент ядра (гамма-параметр)

Отвечать: А

Разобрать: модель SVM не подходит, что указывает на то, что модель слишком проста и ее сложность необходимо улучшить.

Цели Soft-Margin SVM:

这里写图片描述

Чем больше значение C, тем сложнее соответствующая модель. Далее давайте посмотрим на сложность модели, когда C принимает разные значения.

这里写图片描述

Как видно из приведенного выше рисунка, при C=1 модель относительно проста, и появляется больше точек неправильной классификации, что приводит к недообучению. По мере того, как C становится больше, модель усложняется, а количество ошибочных классификаций уменьшается. Однако, когда значение C велико, хотя точность классификации повышается, вполне вероятно, что шум также обрабатывается, что может привести к переоснащению.

Для функции ядра SVM, опять же, чем больше коэффициент ядра, тем сложнее модель. Например, когда коэффициенты ядра равны 1, 10 и 100, соответствующие эффекты классификации следующие:

这里写图片描述

Из рисунка видно, что когда коэффициент ядра относительно мал, линия классификации относительно гладкая. Когда коэффициент ядра становится все больше и больше, классификационная линия становится все более сложной и искаженной, пока, наконец, классификационная линия не становится небольшой независимой областью. Почему возникает эта разница? Это связано с тем, что чем больше коэффициент ядра, тем четче и тоньше соответствующая функция ядра, поэтому линейная комбинация ограниченного числа функций ядра является относительно дискретной, и эффект классификации не является хорошим. Следовательно, SVM также будет выглядеть с переобучением, и особенно важен правильный выбор коэффициента ядра, который не должен быть ни слишком маленьким, ни слишком большим.

использованная литература:

40 Questions to test a data scientist on Machine Learning

这里写图片描述