Персональный сайт Red Stone:redstonewill.com
Прошлые отзывы:
Подборка письменных тестовых вопросов по машинному обучению (1)
Подборка письменных тестовых вопросов по машинному обучению (2)
Машинное обучение — это техническая дисциплина с сильным теоретическим и практическим характером. При приеме на работу, связанную с машинным обучением, мы часто сталкиваемся с различными проблемами машинного обучения и недостатками знаний. Чтобы помочь всем разобраться и понять эти точки знаний, чтобы лучше справиться с письменным тестом по машинному обучению, включая собеседование. Red Stone собирается опубликовать серию статей о письменных тестовых вопросах по машинному обучению в общедоступном аккаунте, я надеюсь, что это может быть полезно для всех!
Вопрос 1. Какое из следующих утверждений о «регрессии» и «корреляции» верно? Примечание: x — независимая переменная, а y — зависимая переменная.
A. И регрессия, и корреляция симметричны между x и y.
B. И регрессия, и корреляция асимметричны между x и y.
C. Регрессия асимметрична между x и y, корреляция симметрична между x и y
D. Регрессия симметрична между x и y, а корреляция асимметрична между x и y.
Отвечать:С
Разобрать: Корреляция — это вычисление степени линейной корреляции между двумя переменными, которая является симметричной. То есть коэффициент корреляции между x и y такой же, как коэффициент корреляции между y и x, и нет никакой разницы.
Регрессия обычно использует функцию x для прогнозирования выходных данных y, которые являются однонаправленными и асимметричными.
Вопрос 2. Можно ли рассчитать асимметрию переменной, только зная среднее значение и медиану переменной?
Банка
Б. не могу
Отвечать:Б
Разобрать: асимметрия — это мера направления и степени асимметрии в распределении статистических данных. Асимметрия определяется с использованием момента 3-го порядка и рассчитывается как:
где n — размер выборки. Некоторые частотные распределения статистических данных симметричны, а некоторые — асимметричны, то есть скошены. В асимметричном распределении, когда асимметрия положительна, распределение асимметрично положительно, т. е. мода находится слева от среднего арифметического; когда асимметрия отрицательна, асимметрично распределение отрицательно, т. е. мода по среднему арифметическому справа.
Мы можем использовать взаимосвязь между модой, медианой и средним арифметическим, чтобы определить, является ли распределение асимметричным влево или вправо, но для измерения степени асимметрии распределения нам необходимо вычислить асимметрию.
В3. Предположим, что имеется n наборов наборов данных. В каждом наборе наборов данных среднее значение x равно 9, дисперсия x равна 11, среднее значение y равно 7,50, а коэффициент корреляции между x и y равен 0,816 Все уравнения линейной регрессии имеют вид y = 3,00 + 0,500*x. Так одинаковы ли эти n наборов наборов данных?
А. то же
Б. разные
С. Не уверен
Отвечать:С
Разобрать: Все, что вам нужно знать, это квартет Анскомба. В 1973 году статистик Ф. Дж. Анскомб составил четыре любопытных набора данных. В этих четырех наборах данных среднее значение x равно 9,0, среднее значение y равно 7,5, дисперсия значения x равна 10,0, дисперсия значения y равна 3,75, их корреляция равна 0,816. обе линии линейной регрессии имеют вид y=3+0,5x. Только из этих статистических данных фактическая ситуация, отражаемая четырьмя наборами данных, очень похожа, но на самом деле четыре набора данных очень разные, как показано на следующем рисунке:
Соответствующий код Python:
import seaborn as sns
sns.set(style="ticks")
# Load the example dataset for Anscombe's quartet
df = sns.load_dataset("anscombe")
# Show the results of a linear regression within each dataset
sns.lmplot(x="x", y="y", col="dataset", hue="dataset", data=df,
col_wrap=2, ci=None, palette="muted", size=4,
scatter_kws={"s": 50, "alpha": 1})
Вопрос 4. Как количество наблюдений влияет на переоснащение (множественный выбор)? Примечание. Параметры остаются одинаковыми во всех случаях.
A. Количество наблюдений невелико, и оно склонно к переоснащению
B. Количество наблюдений невелико, и их нелегко переоценить.
C. Количество наблюдений велико, и оно склонно к переоснащению
D. Количество наблюдений велико, и переоснащение не так просто
Отвечать: AD
Разобрать: Если количество выборочных наблюдений невелико, а количество выборок невелико, за счет увеличения сложности модели, например полиномиального порядка, легко очень хорошо подогнать все точки выборки, что приведет к переоснащению. Однако, если количество наблюдений велико и выборка более репрезентативна, в это время, даже если модель сложна, переобучение происходит непросто, и полученная модель может более реалистично отражать реальное распределение данных.
Вопрос 5. Если для подбора выборочных данных используется более сложная регрессионная модель, используйте регрессию Риджа и настройте параметр регуляризации λ, чтобы уменьшить сложность модели. Если λ велико, какое из следующих утверждений о смещении и дисперсии верно?
A. Если λ больше, отклонение уменьшается, а дисперсия уменьшается
B. Если λ больше, отклонение уменьшается, а дисперсия увеличивается
C. Если λ больше, отклонение увеличивается, а дисперсия уменьшается
D. Если λ велико, отклонение увеличивается, а дисперсия увеличивается
Отвечать:С
Разобрать: Если λ велико, это означает, что сложность модели низкая, и в это время, вероятно, произойдет недообучение, соответствующее отклонение увеличивается, а дисперсия уменьшается. Подведем краткий итог:
-
λ мало: смещение уменьшается, дисперсия увеличивается, и существует вероятность переобучения.
-
Больше λ: смещение увеличивается, дисперсия уменьшается, и может произойти недообучение.
Вопрос 6. Если для подбора выборочных данных используется более сложная регрессионная модель, используйте регрессию Риджа и настройте параметр регуляризации λ, чтобы уменьшить сложность модели. Если λ мало, какое из следующих утверждений о смещении и дисперсии верно?
A. Когда λ мало, смещение уменьшается, а дисперсия уменьшается.
B. Если λ мало, отклонение уменьшается, а дисперсия увеличивается
C. Если λ мало, отклонение увеличивается, а дисперсия уменьшается
D. Если λ мало, отклонение увеличивается, а дисперсия увеличивается
Отвечать:Б
Разобрать: см. вопрос 5.
Вопрос 7. Какое из следующих утверждений о регрессии Риджа верно (множественный выбор)?
A. Если λ=0, это эквивалентно общей линейной регрессии.
B. Если λ=0, это не эквивалентно общей линейной регрессии.
C. Если λ=+∞, полученный весовой коэффициент очень мал, близок к нулю
D. Если λ=+∞, то полученный весовой коэффициент очень велик, близок к бесконечности
Отвечать: переменный ток
Разобрать: если λ=0, то есть член регуляризации отсутствует, это эквивалентно общей линейной регрессии, и для решения коэффициентов можно использовать метод наименьших квадратов. Если λ=+∞, то «штраф» члена регуляризации на весовой коэффициент очень велик, а соответствующий весовой коэффициент очень мал, близок к нулю.
Для графического объяснения регуляризации, пожалуйста, обратитесь к этой моей статье:
Интуитивное объяснение регуляризации L1 и L2 в машинном обучении
Вопрос 8. Какой из трех остаточных графиков, приведенных ниже, представляет собой худшую модель по сравнению с другими?
Уведомление:
1. Все остатки стандартизированы
2. По оси абсцисс на рисунке - прогнозируемое значение, по оси ординат - невязка.
A. 1
B. 2
C. 3
д., нельзя сравнивать
Отвечать:С
Разобрать: Между предсказанным значением и остатком не должно быть никакой функциональной связи.Если есть функциональная связь, это указывает на то, что эффект подгонки модели не очень хороший. Соответственно на рисунке, если абсцисса представляет собой прогнозируемое значение, а ордината представляет собой невязку, то невязка должна представлять собой случайное распределение, независимое от прогнозируемой величины. Однако остатки и прогнозируемые значения на рисунке 3 являются квадратичными, что указывает на то, что модель не идеальна.
Q9.Какой из следующих методов не имеет решения в замкнутой форме для коэффициентов?
А. Ридж возвращается
B. Lasso
C. Ридж возвращается и Лассо
Д. Ничего из вышеперечисленного
Отвечать:Б
Разобрать: гребенчатая регрессия — это общая линейная регрессия плюс канонический член L2, который имеет решение в закрытой форме, которое может быть решено на основе метода наименьших квадратов.
Регрессия Лассо - это общая линейная регрессия плюс член регуляризации L1, который делает решение нелинейным и не имеет решения в закрытой форме.
Вопрос 10. Обратите внимание на следующие наборы данных:
Удалите a, b, c, d. Какая точка оказывает наибольшее влияние на подобранную линию регрессии?
A. a
B. b
C. c
D. d
Отвечать:D
Разобрать: линейная регрессия чувствительна к выбросам в данных. Хотя точка c также является выбросом, она близка к линии регрессии с небольшой невязкой. Следовательно, точка d оказывает наибольшее влияние на построенную линию регрессии.
Вопрос 11. В простой модели линейной регрессии (только с одной переменной), если вы измените входную переменную на одну единицу (увеличите или уменьшите), насколько изменится результат?
А. единица
Б. без изменений
С. Перехват
D. Масштабные коэффициенты для регрессионных моделей
Отвечать:D
Разобрать: Очень просто, если предположить, что модель линейной регрессии: y=a+bx, если x изменяется на одну единицу, например, x+1, то y изменяется на b единиц. b — масштабный коэффициент для регрессионной модели.
Вопрос 12. Логистическая регрессия ограничивает выходную вероятность значением [0,1]. Какая из следующих функций делает это?
А. Сигмовидная функция
B. функция Тан
C. Функция ReLU
D. Негерметичная функция ReLU
Отвечать: А
Разобрать: Выражение и график сигмовидной функции следующие:
Выходное значение сигмовидной функции ограничено [0,1].
тан функция:
Функция ReLU:
Негерметичная функция ReLU:
Среди них λ представляет собой переменный параметр, например λ=0,01.
Вопрос 13. В линейной регрессии и логистической регрессии, какое из следующих утверждений верно относительно частной производной функции потерь по весовому коэффициенту?
А. Они не одинаковы
Б. Оба одинаковы
С. Не уверен
Отвечать:Б
Разобрать: Функция потерь линейной регрессии:
Функция потерь для логистической регрессии:
Выходной слой логистической регрессии содержит нелинейную сигмовидную функцию, а частная производная функции потерь по линейному выходу Z перед сигмовидной функцией совпадает с частной производной функции потерь линейной регрессии по линейному выходу Z, обе:
Конкретный процесс вывода относительно прост и здесь не рассматривается.
dZ то же самое В процессе обратного вывода выражения частных производных для всех весовых коэффициентов одинаковы.
Вопрос 14. Предположим, что логистическая регрессия используется для многоклассовой классификации n с использованием классификации «один против остальных». Какое из следующих утверждений верно?
A. Для n классов необходимо обучить n моделей
B. Для n классов необходимо обучить n-1 моделей
C. Для n классов необходимо обучить только 1 модель
D. Вышеприведенное утверждение неверно
Отвечать: А
Разобрать: В таксономии «один против остальных» при условии наличия n категорий будет установлено n биномиальных классификаторов, и каждый классификатор будет классифицировать одну из категорий и остальные категории. При составлении прогнозов используются n биномиальных классификаторов для классификации, чтобы получить вероятность принадлежности данных к текущему классу, и в качестве окончательного результата прогноза выбирается класс с наибольшей вероятностью.
Для простого примера, 3 категории, категории {-1, 0, 1}. Построить 3 бинарных классификатора:
-
-1 и 0, 1
-
0 и -1, 1
-
1 и -1, 0
Если вероятность того, что первый двоичный классификатор получит -1, равна 0,7, вероятность того, что второй двоичный классификатор получит 0, равна 0,2, а вероятность того, что третий двоичный классификатор получит 1, равна 0,4, то окончательный прогнозируемый класс равен -1.
Вопрос 15. На следующем рисунке представлена модель логистической регрессии (зеленый и черный), соответствующая двум различным β0 и β1:
Какое из следующих утверждений верно относительно значений β0 и β1 в двух моделях логистической регрессии?
Примечание: y= β0+β1*x, β0 – точка пересечения, β1 – весовой коэффициент.
A. β1 зеленой модели больше, чем β1 черной модели.
B. β1 зеленой модели меньше, чем β1 черной модели.
C. β1 одинаково для обеих моделей
D. Вышеприведенное утверждение неверно
Отвечать:Б
Разобрать: Модель логистической регрессии в конечном итоге будет проходить через сигмоидальную нелинейную функцию.Сигмовидная функция является возрастающей, и ее график похож на черную модель на рисунке выше. Черная модель представляет собой возрастающую функцию, что указывает на то, что ее β1>0, а зеленая модель представляет собой убывающую функцию, что указывает на то, что ее β1
использованная литература:
https://www.analyticsvidhya.com/blog/2016/12/45-questions-to-test-a-data-scientist-on-regression-skill-test-regression-solution/