Подборка письменных тестовых вопросов по машинному обучению (2)

машинное обучение искусственный интеллект GitHub регулярное выражение
Подборка письменных тестовых вопросов по машинному обучению (2)

Персональный сайт Red Stone:redstonewill.com

В последней подборке письменных тестовых вопросов по машинному обучению (1) мы подробно проанализировали 15 письменных тестовых вопросов по машинному обучению. Сегодня красный камень доставит вас, чтобы продолжить «смертельную борьбу», связанную с письменными экзаменационными вопросами!

Прошлые отзывы:

Прямо в БАТ! Подборка письменных тестовых вопросов по машинному обучению (1)

Вопрос 1. Предположим, мы используем регрессию Лассо, чтобы подобрать набор данных со 100 входными функциями (X1, X2, ..., X100). Теперь давайте масштабируем одно из собственных значений в 10 раз (например, признак X1) и пересмотрим регрессию Лассо с тем же параметром регуляризации.

Итак, какое из следующих утверждений верно?

A. Функция X1, скорее всего, будет исключена из модели.

B. Функция X1, вероятно, также включена в модель

C. Невозможно определить, отброшена ли функция X1

D. Вышеприведенное утверждение неверно

Отвечать: Б

Разобрать: Регрессия Лассо аналогична линейной регрессии, за исключением того, что она добавляет числовое ограничение размера ко всем параметрам, основанным на линейной регрессии, следующим образом:

min\ \frac1m\sum_{i=1}^m(y_i-\beta_0-x_i^T\beta)^2\ \ subject\ to\ \ ||\beta||_1\leq t

где t — параметр регуляризации. Лассо-регрессия фактически добавляет ограничение β к функции потерь обычной линейной регрессии. Так почему же ограничение β должно использовать эту форму вместо ограничения β-квадрата? Причина в том, что при ограничении первой нормы некоторые коэффициенты регрессии могут быть ограничены равными нулю. Таким образом достигается эффект выделения признаков. Как показано ниже:

Слева — вторая нормальная форма, справа — первая нормальная форма. При первом ограничении нормы β, скорее всего, будет ограничено до 0. Это очень похоже на разницу между регуляризацией L1 и L2.Если вам интересно, прочитайте мою предыдущую статью: Интуитивное объяснение регуляризации L1 и L2 в машинном обучении

Следовательно, регрессия Лассо подходит для случаев с небольшим количеством выборок и большим размером признаков, что удобно для выбора признаков из большего количества признаков. Например, в данных ДНК размер признаков очень велик, и мы надеемся обнаружить фрагменты ДНК, связанные с определенными заболеваниями, только с помощью регрессии Лассо.

В этом вопросе, если значение признака X1 увеличивается в 10 раз, его соответствующий коэффициент регрессии будет соответственно уменьшен, но не до 0, чтобы гарантировать, что ограничение регуляризации β по-прежнему выполняется.

Вопрос 2. Что касается выбора признаков, какое из следующих утверждений верно в отношении регрессии Риджа и регрессии Лассо?

A. Гребневая регрессия подходит для выбора признаков

B. Регрессия Лассо подходит для выбора признаков

C. Оба применимы к выбору функций

D. Вышеприведенное утверждение неверно

Отвечать

Разобрать: Как мы уже говорили в предыдущем вопросе, регрессия Лассо сделает некоторые коэффициенты регрессии просто ограниченными равными 0, что имеет эффект выбора признаков.

Гребневая регрессия, также известная как гребенчатая регрессия, представляет собой обычную линейную регрессию плюс регулярный член L2 для предотвращения переобучения во время обучения. Эффект регуляризации L2 аналогичен левому изображению предыдущего вопроса, а ограниченная область представляет собой круг Таким образом, вероятность того, что полученный коэффициент регрессии будет равен 0, очень мала, а вероятность не равна нулю. Следовательно, по сравнению с регрессией Лассо проще получить разреженные коэффициенты регрессии, что способствует отбрасыванию избыточных или бесполезных функций и подходит для выбора функций.

Вопрос 3. Если в модель линейной регрессии добавляется переменная признака, что может произойти из следующего (множественный выбор)?

A. R-квадрат увеличивается, корректировка R-квадрата увеличивается

B. R-квадрат увеличивается, корректировка R-квадрата уменьшается

C. R-квадрат уменьшается, корректировка R-квадрата уменьшается

D. R-квадрат уменьшается, регулировка R-квадрата увеличивается

Отвечать: АБ

Разобрать: В задаче линейной регрессии R-квадрат используется для измерения сходства между уравнением регрессии и выходными данными реальной выборки. Его выражение следующее:

这里写图片描述

В приведенной выше формуле часть числителя представляет собой сумму квадратов разностей между истинным значением и прогнозируемым значением, аналогично среднеквадратической ошибке MSE; часть знаменателя представляет собой сумму квадратов разностей между истинным значением и средним значением, аналогично дисперсии Var. Вообще говоря, чем больше R-Squared, тем лучше эффект подгонки модели. R-квадрат отражает, насколько он точен, потому что по мере увеличения количества выборок R-квадрат неизбежно будет увеличиваться, и действительно количественно объяснить степень точности невозможно, только приблизительно количественно.

Глядя только на R-Squared, невозможно сделать вывод, имеют ли смысл добавленные функции. Вообще говоря, при добавлении функции функция R-Squared может стать больше или остаться неизменной, эти два параметра не обязательно положительно коррелируют.

При использовании скорректированного коэффициента детерминации (скорректированный R-квадрат):

这里写图片描述

где n — количество выборок, а p — количество признаков. Скорректированный R-квадрат компенсирует влияние количества выборок на R-квадрат, достигая истинного значения 0~1, чем больше, тем лучше.

Добавьте переменную функции.Если функция имеет смысл, скорректированный R-квадрат будет увеличиваться, а если функция является избыточной, скорректированный R-квадрат будет уменьшаться.

Вопрос 4. На следующих трех рисунках показан эффект использования разных моделей для одной и той же обучающей выборки (синяя кривая). Итак, какие выводы мы можем сделать (множественный выбор)?

А. Ошибка обучения первой модели больше, чем у второй и третьей моделей.

B. Лучшая модель — 3-я, потому что она имеет наименьшую ошибку обучения.

C. Вторая модель является наиболее «надежной», поскольку лучше всего подходит для неизвестных образцов.

D. Третья модель переоснащена

E. Все модели работают одинаково, потому что мы не видим тестовых данных.

Отвечать: АКД

Разобрать: Полиномиальные порядки, соответствующие моделям 1, 2 и 3, идут от малого к большему, то есть модели идут от простого к сложному. Чем проще модель, тем легче ее недообучить; чем сложнее модель, тем легче ее переобучить. Первая модель слишком проста и происходит недообучение; третья модель слишком сложна и хорошо подходит к обучающим выборкам, но плохо подходит к тестовым образцам, то есть происходит переобучение; вторая модель самая «надежная», эффект подгонки хорошо работает как на обучающих, так и на тестовых выборках!

Вопрос 5. Какие из следующих показателей можно использовать для оценки модели линейной регрессии (множественный выбор)?

A. R-Squared

B. Adjusted R-Squared

C. F Statistics

D. RMSE / MSE / MAE

Отвечать: АВСD

Разобрать: концепции R-квадрата и скорректированного R-квадрата, которые мы представили в Q3, можно использовать для оценки моделей линейной регрессии. F-статистика относится к статистике, которая соответствует F-распределению при установлении нулевой гипотезы и в основном используется в эконометрической статистике.

RMSE относится к среднеквадратической ошибке:

RMSE=\sqrt{\frac1m\sum_{i=1}^m(y^{(i)}-\hat y^{(i)})^2}

MSE относится к среднеквадратической ошибке:

MSE=\frac1m\sum_{i=1}^m(y^{(i)}-\hat y^{(i)})^2

MAE относится к абсолютной ошибке оценки:

MAE=\frac1m\sum_{i=1}^m|y^{(i)}-\hat y^{(i)}|

Все вышеперечисленные показатели можно использовать для оценки моделей линейной регрессии.

Вопрос 6. В линейной регрессии мы можем использовать нормальное уравнение для решения коэффициентов. Какое из следующих утверждений о нормальных уравнениях верно?

А. Нет необходимости выбирать факторы обучения

B. Когда количество функций велико, скорость работы будет очень низкой.

C. Нет необходимости в итеративном обучении

Отвечать: азбука

Разобрать: Для решения коэффициента линейной регрессии наиболее часто используется метод градиентного спуска, который использует итеративную оптимизацию. В дополнение к этому другим методом является использование нормального уравнения, которое основано на методе наименьших квадратов. Ниже приводится краткий вывод нормального уравнения.

Функция потерь Ein известной модели линейной регрессии:

E_{in}=\frac1m(XW-Y)^2

Чтобы вычислить производную по Ein, пусть ∇Ein=0:

\nabla E_{in}=\frac2m(X^TXW-X^TY)=0

Затем можно рассчитать W:

W=(X^TX)^{-1}X^TY

Выше приведен процесс решения коэффициента W с использованием нормального уравнения. Видно, что нормальный процесс решения уравнения не требует факторов обучения и нет итеративного процесса обучения. Когда количество признаков велико,X^TXИнверсия матрицы может быть медленной, а градиентный спуск лучше.

еслиX^TXМатрица необратима, что, если это сингулярная матрица? На самом деле, большинство программ, вычисляющих обратную матрицу, могут решить эту проблему, а также вычислить обратную матрицу. Следовательно, общая псевдообратная матрица разрешима.

Q7.Если Y является линейной функцией X (X1, X2, ..., Xn):

Y = β0 + β1X1 + β2X2 + ... + βnXn

Какое из следующих утверждений верно (множественный выбор)?

A. Если переменная Xi изменяет малую переменную ΔXi, остальные переменные остаются неизменными. Тогда Y соответственно изменит βi∆Xi.

B. βi фиксировано независимо от того, как изменяется Xi

C. Влияние Xi на Y не зависит друг от друга, а суммарное влияние X на Y равно сумме их соответствующих составляющих Xi

Отвечать: азбука

Разобрать: Этот вопрос очень прост, Y и X (X1, X2, ..., Xn) имеют линейную зависимость, поэтому можно сделать вывод ABC.

Вопрос 8. Сколько коэффициентов (только один признак) требуется для построения простейшей модели линейной регрессии?

А. 1

БИ 2

С. 3

Д. 4

Отвечать

Разобрать: Простейшая модель линейной регрессии только с одним признаком Y = aX + b с двумя коэффициентами a и b.

Вопрос 9. На двух рисунках ниже показаны две подогнанные линии регрессии (A и B), исходные данные были сгенерированы случайным образом. Теперь я хочу вычислить сумму остатков A и B соответственно. Примечание. Масштаб координат на обоих рисунках одинаков.

Какое из следующих утверждений верно относительно суммы соответствующих остатков A и B?

A. A выше, чем B

B. A меньше, чем B

C. A такой же, как B

D. Вышеприведенное утверждение неверно

Отвечать

Разобрать: сумма соответствующих остатков в A и B должна быть одинаковой. Функция потерь модели линейной регрессии:

J=\frac1m(XW-Y)^2

Дифференцируйте функцию потерь и установите ∇J=0, чтобы получить XW-Y=0, то есть сумма остатков всегда равна нулю.

Вопрос 10. Если две переменные связаны, должны ли они быть линейными?

А. Да

Б. не

Отвечать

Разобрать: корреляция не обязательно является линейной, но может быть и нелинейной.

Q11. Две переменные связаны, и их коэффициент корреляции r может быть равен 0. Это предложение верно?

А. Правильно

Б. Ошибка

Отвечать: А

Разобрать: Вообще говоря, коэффициент корреляции r=0 является необходимым и недостаточным условием независимости двух переменных друг от друга. То есть, если две переменные независимы друг от друга, коэффициент корреляции r должен быть равен 0, а если коэффициент корреляции r=0, то они не обязательно независимы друг от друга. Коэффициент корреляции r=0 может указывать только на то, что между двумя переменными нет линейной зависимости, и все же может иметь место нелинейная связь.

Тогда, если две переменные связаны и существует нелинейная связь, то их коэффициент корреляции r равен 0.

Вопрос 12. Добавьте использование логистической регрессии для классификации выборок, чтобы получить точность обучающих выборок и точность тестовых выборок. Теперь к данным добавляется новая функция, а остальные функции остаются прежними. Потом переобучиться тестировать. Какое из следующих утверждений верно?

A. Точность обучающей выборки определенно снизится

B. Точность обучающей выборки должна увеличиться или остаться неизменной

C. Точность тестового образца определенно снизится

D. Точность тестового образца должна увеличиться или остаться неизменной

Отвечать

Разобрать: добавление дополнительных функций в модель обычно повышает точность обучающих выборок и снижает систематическую ошибку. Но точность тестового образца не обязательно увеличивается, если добавленные функции не являются действительными функциями.

Точки знаний, соответствующие этому вопросу, также включают увеличение сложности модели, Хотя это уменьшит ошибку обучающей выборки, оно склонно к переоснащению.

Вопрос 13. Следующее изображение представляет собой простую модель линейной регрессии, и на рисунке отмечена остаточная ошибка между прогнозируемым значением и истинным значением каждой точки выборки. Что такое расчетный SSE?

A. 3.02

B. 0.75

C. 1.01

D. 0.604

Отвечать: А

Разобрать: SSE — это сумма квадратов ошибок, SSE = (-0,2) ^ 2 + (0,4) ^ 2 + (-0,8) ^ 2 + (1,3) ^ 2 + (-0,7) ^ 2 = 3,02

Вопрос 14. Если предположить, что переменные Var1 и Var2 положительно коррелированы, правильная ли следующая картина? На рисунке абсцисса — это Var1, ордината — это Var2, и как Var1, так и Var2 стандартизированы.

A. Plot 1

B. Plot 2

Отвечать

Разобрать: Очевидно, график 2 показывает, что Var2 положительно коррелирует с Var1, например, Var2 = Var1. График 1 показывает, что Var2 отрицательно коррелирует с Var1, например, Var2 = -Var1.

Вопрос 15. Предположим, что медианная заработная плата компании составляет 35 000 долларов, а 25-й и 75-й процентили равны21,000 和53 000. Если чья-то зарплата составляет 1 доллар, можно ли считать ее выбросом?

Банка

Б. не могу

C. Нужно больше информации, чтобы судить

D. Вышеприведенное утверждение неверно

Отвечать

Разобрать: Выбросы относятся к отдельным значениям в выборке, значения которых значительно отклоняются от остальных наблюдений в выборке, к которой они (или они) принадлежат, также известные как аномальные данные, выбросы. В настоящее время люди в основном используют физическую дискриминацию и статистическую дискриминацию, чтобы различать и устранять выбросы.

Так называемый метод физической дискриминации заключается в том, чтобы судить об отклонении измеренных значений данных от нормальных результатов из-за внешних помех, человеческих ошибок и других причин, основанных на существующем понимании людьми объективных вещей, и оценивать и устранять их в любое время в течение эксперимент.

Метод статистической дискриминации заключается в том, чтобы дать доверительную вероятность и определить доверительный предел Любая ошибка, превышающая этот предел, считается находящейся за пределами диапазона случайных ошибок, и она рассматривается как выброс и устраняется. Когда о физической идентификации сложно судить, обычно используется метод статистической идентификации.

В этом вопросе объем предоставленной информации слишком мал, чтобы быть уверенным, что это выброс.