Персональный сайт Red Stone:redstonewill.com
Машинное обучение — это техническая дисциплина с сильным теоретическим и практическим характером. При приеме на работу, связанную с машинным обучением, мы часто сталкиваемся с различными проблемами машинного обучения и недостатками знаний. Чтобы помочь всем разобраться и понять эти точки знаний, чтобы лучше справиться с письменным тестом по машинному обучению, включая собеседование. Red Stone собирается опубликовать серию статей о письменных тестовых вопросах по машинному обучению в общедоступном аккаунте, я надеюсь, что это может быть полезно для всех!
Вопрос 1. В модели регрессии, что из следующего оказывает наибольшее влияние на компромисс между недообучением и переоснащением?
А. Полиномиальный порядок
B. При обновлении веса w используйте инверсию матрицы или градиентный спуск.
C. Используйте постоянные термины
Отвечать: А
Анализ: Очень важно выбрать правильный полиномиальный порядок. Если порядок слишком велик, модель будет более сложной и подвержена переоснащению; если порядок мал, модель будет слишком простой и подвержена недообучению. Если вам непонятна концепция переобучения и недообучения, см. рисунок ниже:
Вопрос 2. Предположим, у вас есть следующие данные: и вход, и выход имеют только одну переменную. Используйте модель линейной регрессии (y=wx+b), чтобы подобрать данные. Итак, какова среднеквадратическая ошибка, полученная при перекрестной проверке с исключением одного?
A. 10/27
B. 39/27
C. 49/27
D. 55/27
Отвечать:С
Разобрать: Метод исключения одного, говоря простым языком, предполагается, что имеется N выборок, каждая выборка используется в качестве тестовой, а остальные N-1 выборки используются в качестве обучающих. Таким образом получаются N классификаторов и N результатов испытаний. Используйте среднее значение этих N результатов, чтобы измерить производительность модели.
Для этой задачи мы сначала рисуем координаты 3 точек выборки:
Линейная подгонка с использованием двух точек делится на три случая, как показано на следующем рисунке:
В первом случае регрессионная модель y = 2, а ошибка E1 = 1.
Во втором случае регрессионная модель y = -x + 4 и ошибка E2 = 2.
В третьем случае регрессионная модель y = -1/3x + 2, а ошибка E3 = 2/3.
Тогда общая среднеквадратическая ошибка:
Вопрос 3. Какое из следующих утверждений об оценке максимального правдоподобия (MLE) является правильным (множественный выбор)?
A. MLE может не существовать
B. MLE всегда присутствует
C. Если MLE существует, его решение может быть не единственным
D. Если MLE существует, его решение должно быть уникальным
Отвечать: переменный ток
Разобрать: Если функция максимального правдоподобия L(θ) разрывна при максимальном значении и первая производная не существует, то MLE не существует, как показано на следующем рисунке:
Другой случай состоит в том, что MLE не является уникальным, и максимумы соответствуют двум θ. Как показано ниже:
Вопрос 4. Если мы говорим, что модель «линейной регрессии» идеально соответствует обучающим выборкам (с нулевой ошибкой обучающей выборки), что из следующего верно?
A. Ошибка тестового образца всегда равна нулю
B. Ошибка тестового образца не может быть равна нулю
C. Ни один из приведенных выше ответов не является правильным
Отвечать:С
Разобрать: Учитывая, что ошибка обучающей выборки равна нулю, невозможно сделать вывод, равна ли нулю ошибка тестовой выборки. Стоит отметить, что если выборка тестовой выборки большая, вероятно, произойдет переоснащение, и модель не обладает хорошей способностью к обобщению!
Вопрос 5. В задаче линейной регрессии мы используем R-квадрат для оценки соответствия. На данный момент, если функция добавлена, а модель остается неизменной, какое из следующих утверждений верно?
A. Эта функция имеет смысл, если R-Squared увеличивается
B. Эта функция не имеет смысла, если R-Squared уменьшается
C. Просто взглянув на единственную переменную R-Squared, невозможно определить, имеет ли значение эта функция.
D. Вышеприведенное утверждение неверно
Отвечать:С
Разобрать: В задаче линейной регрессии R-квадрат используется для измерения сходства между уравнением регрессии и выходными данными реальной выборки. Его выражение следующее:
В приведенной выше формуле часть числителя представляет собой сумму квадратов разностей между истинным значением и прогнозируемым значением, аналогично среднеквадратической ошибке MSE; часть знаменателя представляет собой сумму квадратов разностей между истинным значением и средним значением, аналогично дисперсии Var. По значению R-квадрата судят о качестве модели: если результат равен 0, эффект подгонки модели плохой, если результат равен 1, модель безошибочна. Вообще говоря, чем больше R-Squared, тем лучше эффект подгонки модели. R-квадрат отражает, насколько он точен, потому что по мере увеличения количества выборок R-квадрат неизбежно будет увеличиваться, и он не может действительно количественно объяснить степень точности, а может быть только приблизительно количественным.
Для этого вопроса, глядя только на R-Squared, нельзя сделать вывод о том, значимы ли добавленные функции. Вообще говоря, добавляя функцию, R-Squared может стать больше или может остаться без изменений, эти два не обязательно положительно коррелируют.
При использовании скорректированного коэффициента детерминации (скорректированный R-квадрат):
где n — количество выборок, а p — количество признаков. Скорректированный R-Square компенсирует влияние количества выборок на R-Square и достигает истинного значения 0~1, чем больше, тем лучше.
Вопрос 6. Какое из следующих утверждений об остатках (остатках) в линейном регрессионном анализе верно?
A. Остаточное среднее всегда равно нулю
B. Остаточное среднее всегда меньше нуля
C. Остаточное среднее всегда больше нуля
D. Вышеприведенное утверждение неверно
Отвечать: А
Разобрать: В линейном регрессионном анализе цель состоит в том, чтобы минимизировать остатки. Сумма квадратов невязки является функцией параметров.Чтобы найти минимальное значение невязки, пусть частная производная невязки по параметру равна нулю, и сумма невязки будет равна нулю, т. е. остаточное среднее равно нулю.
Вопрос 7. Какое из следующих утверждений о гетероскедастичности верно?
A. Линейная регрессия имеет разные условия ошибки
B. Линейная регрессия имеет тот же член ошибки
C. Погрешность линейной регрессии равна нулю
D. Вышеприведенное утверждение неверно
Отвечать: А
Разобрать: Гетероскедастичность относится к гомоскедастичности. Так называемая гомоскедастичность должна гарантировать, что оценки параметров регрессии обладают хорошими статистическими свойствами, что является важным допущением классической модели линейной регрессии: члены случайных ошибок в общей функции регрессии удовлетворяют гомоскедастичности, то есть все они имеют одинаковую дисперсию. . Если это предположение не выполняется, то есть члены случайной ошибки имеют разные дисперсии, говорят, что модель линейной регрессии имеет гетероскедастичность.
Вообще говоря, появление сингулярных значений приведет к увеличению гетероскедастичности.
Вопрос 8. Что из следующего отражает сильную корреляцию между X и Y?
А. Коэффициент корреляции равен 0,9.
B. Значение p для нулевой гипотезы β=0 равно 0,0001.
C. Значение t для нулевой гипотезы β=0 равно 30.
D. Вышеприведенное утверждение неверно
Отвечать: А
Разобрать: Мы знакомы с понятием коэффициента корреляции, который отражает степень линейной корреляции между различными переменными, обычно представляемыми r.
где Cov(X,Y) — ковариация X и Y, Var[X] — дисперсия X, а Var[Y] — дисперсия Y. Диапазон значений r находится между [-1,1], и чем больше r, тем выше корреляция. В варианте А r=0,9 означает наличие сильной корреляции между X и Y.
Численные значения p и t не являются статистически значимыми, но их сравнивают с определенным порогом, чтобы получить вывод о выборе одного из двух. Например, есть два предположения:
-
Null Hypothesis (нулевая гипотеза) H0: Между двумя параметрами нет «линейной» корреляции.
-
Альтернативная гипотеза (альтернативная гипотеза) H1: существует «линейная» корреляция между двумя параметрами.
Если порог равен 0,05, а рассчитанное p-значение мало, скажем, 0,001, вы можете сказать, что «имеются очень существенные доказательства, чтобы отвергнуть гипотезу H0 и поверить в гипотезу H1». То есть существует «линейная» корреляция между два параметра Значение p используется только для двух оценочных суждений, поэтому нельзя сказать, что p = 0,06 обязательно лучше, чем p = 0,07.
Вопрос 9. Какие из следующих предположений мы использовали при выводе параметров линейной регрессии (множественный выбор)?
A. X и Y имеют линейную зависимость (полиномиальная зависимость)
B. Ошибки модели статистически независимы
C. Ошибки обычно следуют нормальному распределению с нулевым средним и фиксированным стандартным отклонением.
D. X неслучайна и не имеет ошибки в измерении
Отвечать: АВСD
Разобрать: При выводе и анализе линейной регрессии мы предположили, что четыре вышеуказанных условия соблюдены.
Вопрос 10. Какой из следующих графиков подходит для наблюдения и проверки линейной зависимости между Y и X, X является непрерывной переменной?
А. Диаграмма рассеяния
B. Столбчатая диаграмма
С. Гистограмма
Д. Ничего из вышеперечисленного
Отвечать: А
Разобрать: Точечная диаграмма отражает взаимосвязь между двумя переменными, и наиболее интуитивно понятно использовать точечную диаграмму при проверке линейной зависимости между Y и X.
Вопрос 11. В общем, какой из следующих методов обычно используется для прогнозирования непрерывных независимых переменных?
А. Линейная регрессия
Б. Логический обзор
C. И линейная регрессия, и логистическая регрессия работают
D. Вышеприведенное утверждение неверно
Отвечать: А
Разобрать: линейная регрессия обычно используется для предсказания действительных чисел, а логистическая регрессия обычно используется для задач классификации.
Вопрос 12. Корреляция между личным здоровьем и возрастом составляет -1,09. Какое заключение вы можете сделать на основании этого врачу?
А. Возраст — хороший показатель физической подготовки.
B. Возраст плохо влияет на физическую форму.
C. Вышеприведенное утверждение неверно
Отвечать:С
Разобрать: Поскольку диапазон коэффициента корреляции находится между [-1,1], -1,09 не может существовать.
Вопрос 13. Какое из следующих смещений мы используем в случае аппроксимации методом наименьших квадратов? Абсцисса на рисунке — это вход X, а ордината — это выход Y.
А. Вертикальные смещения
B. Перпендикулярные смещения
C. Возможны оба смещения
D. Вышеприведенное утверждение неверно
Отвечать: А
Разобрать: Когда модель линейной регрессии вычисляет функцию потерь, такую как функция потерь среднеквадратичной ошибки, используются смещения по вертикали. Перпендикулярные смещения обычно используются в анализе главных компонентов (PCA).
Вопрос 14. Предположим, мы генерируем некоторые данные, используя полином 3-го порядка, где Y равно X (многочлен 3-го порядка хорошо соответствует данным). Затем, какое из следующих утверждений верно (множественный выбор)?
А. Простая линейная регрессия склонна к большому смещению и низкой дисперсии.
B. Простая линейная регрессия склонна к низкой систематической ошибке и высокой дисперсии
C. Подбор полинома 3-го порядка вызовет низкое смещение (смещение), высокую дисперсию (дисперсию)
D. Полиномиальная аппроксимация 3-го порядка с низким смещением и низкой дисперсией
Отвечать: AD
Разобрать: Смещение и дисперсия — два относительных понятия, точно так же, как недообучение и переоснащение. Если модель слишком проста, это обычно приводит к недообучению с высоким смещением и низкой дисперсией; если модель слишком сложна, это обычно приводит к переоснащению с низким смещением и высокой дисперсией.
Используйте график, чтобы визуализировать взаимосвязь между смещением и дисперсией:
Источник изображения: https://www.zhihu.com/question/27068705
Смещение можно рассматривать как разрыв между предсказанием модели и реальной выборкой.Если вы хотите получить низкое смещение, вам нужно усложнить модель, но легко вызвать переоснащение. Дисперсия может рассматриваться как производительность модели на тестовом наборе.Если вы хотите получить низкую дисперсию, вам нужно упростить модель, но это легко привести к недообучению. В практических приложениях существует компромисс между смещением и дисперсией. Если модель хорошо работает как на обучающей выборке, так и на тестовом наборе, систематическая ошибка и дисперсия будут относительно небольшими, что также является идеальной ситуацией для модели.
Вопрос 15. Если вы обучаете модель линейной регрессии, у вас есть следующие два предложения:
1. Если объем данных невелик, легко может произойти переобучение.
2. Если пространство гипотез мало, может произойти переобучение.
Какое из следующих утверждений верно относительно этих двух предложений?
А. И 1, и 2 неверны
Б. 1 верно, 2 неверно
C. 1 неправильно, 2 правильно
D. И 1, и 2 верны
Отвечать:Б
Разобрать: Давайте сначала посмотрим на первое предложение.Если количество данных невелико, легко найти модель в пространстве гипотез, которая хорошо соответствует обучающим выборкам, что легко вызвать переобучение, и модель не имеет хорошая способность к обобщению.
Давайте посмотрим на второе предложение.Если пространство гипотез невелико, включено меньше возможных моделей, и маловероятно, что будет найдена модель, которая может хорошо соответствовать выборке, что, вероятно, вызовет большое смещение и низкую дисперсию, то есть дооснащение.
использованная литература:
https://www.analyticsvidhya.com/blog/2016/12/45-questions-to-test-a-data-scientist-on-regression-skill-test-regression-solution/