Персональный сайт Red Stone:redstonewill.com
Машинное обучение — это техническая дисциплина с сильным теоретическим и практическим характером. При подаче заявок на работу, связанную с машинным обучением, мы часто сталкиваемся с различными проблемами машинного обучения и недостатками знаний. Чтобы помочь всем разобраться и понять эти точки знаний, чтобы лучше справляться с письменным тестом по машинному обучению, включая собеседование. Red Stone собирается опубликовать серию статей о письменных тестовых вопросах по машинному обучению в общедоступном аккаунте, я надеюсь, что это может быть полезно для всех!
Основные знания, связанные с сегодняшними письменными тестовыми вопросами, включают: SVM, ядро Гаусса, оценку F1, перекрестную проверку Leave-One_out, нейронную сеть, скрытую марковскую модель и т. д.
Q1 Предположим, мы визуализируем различные значения гаммы (коэффициент ядра RBF γ) в алгоритме машины опорных векторов (SVM). Почему-то забыли отметить визуализацию значений гаммы. Пусть g1, g2 и g3 соответствуют рисунку 1, рисунку 2 и рисунку 3 ниже соответственно. Какое из следующих утверждений о размерах g1, g2 и g3 верно?
A. g1 > g2 > g3
B. g1 = g2 = g3
C. g1 < g2 < g3
D. g1 > g2 = g3
E. g1 < g2 = g3
Отвечать:С
Разобрать: этот вопрос исследует влияние гаммы γ на форму модели в Kernel SVM.
Чтобы получить более сложную классификационную поверхность и повысить скорость работы в SVM, обычно используется метод функции ядра. Радиальная базисная функция ядра (RBF), также известная как функция ядра Гаусса, является наиболее часто используемой функцией ядра, и выражение ее функции ядра выглядит следующим образом:
Подобно распределению Гаусса по форме, Gamma γ является производной стандартного отклонения Sigma σ в распределении Гаусса. Мы знаем, что в распределении Гаусса чем меньше σ, тем острее и тоньше соответствующая кривая Гаусса. Другими словами, чем больше γ, тем острее и тоньше кривая, соответствующая функции ядра Гаусса. Таким образом, классификационная поверхность SVM, полученная с использованием метода ядра, более извилиста и сложна и даже изолирует множество выборок на одном острове.
Ниже приведен соответствующий эффект классификации SVM, когда γ равно 1, 10 и 100:
Стоит отметить, что если γ слишком мало, легко получить неполную подгонку, а если γ слишком большую, легко вызвать переподгонку.
Вопрос 2. Мы знаем, что результатом бинарной классификации является значение вероятности. Как правило, если выходная вероятность больше или равна 0,5, прогноз относится к положительному классу; если выходная вероятность меньше 0,5, прогноз относится к отрицательному классу. Затем, если порог увеличить на 0,5, например, на 0,6, только те значения, которые больше или равны 0,6, будут считаться положительными. Что тогда произойдет с точностью и отзывом (множественный выбор)?
A. Коэффициент точности (Precision) увеличивается или не изменяется
B. Показатель точности (Precision) снижается
C. Скорость отзыва (Recall) снижается или не меняется
D. Скорость отзыва (Recall) увеличивается
Отвечать: переменный ток
Разобрать: этот вопрос исследует влияние увеличения порога бинарной классификации на точность и полноту.
Во-первых, давайте посмотрим, что такое уровень точности и уровень отзыва, которые представлены соответственно P и R ниже. Возьмем простой пример, чтобы проиллюстрировать, например, предсказать, какие из 20 арбузов являются хорошими дынями, на самом деле среди этих 20 арбузов 15 хороших дынь и 5 плохих дынь. Модель предсказывает 16 хороших дынь и 4 плохих дыни. Среди них 14 из 16 предсказанных хороших дынь действительно являются хорошими дынями, а 3 из 4 предсказанных плохих дынь действительно плохие дыни. Вот схема для иллюстрации:
Таким образом, определение показателя точности P:
Его можно понимать как предсказание доли хороших дынь, которые действительно являются хорошими дынями. В этом примере P = 14/(14+2).
Определение отзыва R:
Его можно понимать как прогнозируемую долю действительно хороших дынь. В этом примере R = 14/(14+1).
Теперь, если увеличить порог бинарной классификации, это эквивалентно более строгим критериям определения хороших дынь. Следовательно, это может привести к уменьшению количества предсказанных хороших дынь, то есть к уменьшению как TP, так и FP. Следовательно, показатель точности может увеличиться.В экстремальных и суровых условиях, если прогнозируется, что только одна дыня будет хорошей дыней, то вероятность того, что дыня является хорошей дыней, будет очень высокой, то есть показатель точности очень высок. . Но если вы выберете только 1 из 15 хороших дынь, процент отзыва снизится.
Ни точность, ни полнота не могут хорошо отражать производительность модели, и показатель F1 обычно используется в качестве критерия уровня прогнозирования модели. Оценка F1 определяется как гармоническое среднее точности и полноты. ,Следующее:
Вопрос 3. Прогнозирование CTR — это проблема положительного и отрицательного дисбаланса выборки (например, 99% кликов отсутствуют, только 1% кликов). Если модель построена на этом несбалансированном наборе данных и обучающие выборки получены в 99% случаев, какое из следующих утверждений верно?
A. Модель имеет высокий показатель точности, и нет необходимости оптимизировать модель
B. Точность модели невысока, и следует установить лучшую модель.
C. Неспособность оценить модель как хорошую или плохую
D. Вышеприведенное утверждение неверно
Отвечать:Б
Разобрать: Этот вопрос продолжает знания о точности и полноте предыдущего вопроса и исследует неравномерное распределение положительных и отрицательных образцов.
Распространенной проблемой является неравномерное распределение положительных и отрицательных образцов во время обучения модели. В настоящее время вы не можете просто смотреть только на показатель точности прогноза. Для этой задачи, если мы предсказываем 100 % отсутствие кликов и 0 % кликов, мы можем сказать, что правильный показатель составляет 99 %, потому что только 1 % кликов прогнозируется неправильно. Однако 1% CTR, который на самом деле нас больше интересует, не прогнозируется. Можно сказать, что такая модель бессмысленна.
В соответствии с дисбалансом положительных и отрицательных выборок необходимо выполнить некоторую обработку данных, включая: выборку, синтез данных, взвешивание штрафных коэффициентов и одну классификацию. Среди них одна классификация означает, что когда распределение положительных и отрицательных образцов крайне несбалансировано, это рассматривается как проблема классификации (обучение в одном классе) или проблема обнаружения аномалий (обнаружение новизны). В центре внимания этого типа метода не улавливание различий между классами, а моделирование одного из них.Классические работы включают SVM с одним классом и так далее.
Q4, Предположим, мы используем kNN для обучения модели, где обучающие данные имеют меньше наблюдений (ниже приведены два атрибута x, y и два обучающих данных, помеченные «+» и «o»). Теперь пусть k = 1, какова частота ошибок перекрестной проверки при исключении одного из них на графике?
A. 0%
B. 20%
C. 50%
D. 100%
Отвечать:D
Разобрать: в этом вопросе рассматривается алгоритм kNN и перекрестная проверка с исключением одного.
Алгоритм kNN является алгоритмом маркировки, он берет k выборок ближайших соседей текущего экземпляра, и категория, которая принадлежит наибольшему количеству k выборок, определяется как категория экземпляра. В этом вопросе, если k = 1, вам нужно только посмотреть, какая выборка ближайшего соседа принадлежит «+» или «o».
Перекрёстная проверка «оставить один из них» — это метод, используемый для обучения и тестирования классификатора.Предполагая, что набор данных имеет выборки N, выборка делится на две части, и первые выборки N-1 используются для обучения классификатора. Для тестирования используется еще 1 образец, и так N раз, все объекты во всех образцах прошли тестирование и обучение.
Наблюдая эти 10 точек по отдельности, можно обнаружить, что ближайший сосед каждой точки экземпляра не является категорией, к которой принадлежит текущий экземпляр, поэтому каждая проверка неверна. Общий процент ошибок составляет 100%.
Вопрос 5. Если вы обучаете дерево решений на большом наборе данных. Чтобы тратить меньше времени на обучение этой модели, что из следующего является правильным?
А. Увеличьте глубину дерева
B. Увеличьте скорость обучения
C. Уменьшить глубину дерева
D. Уменьшить количество деревьев
Отвечать:С
Разобрать: этот вопрос исследует концепции, связанные с деревьями решений.
Как правило, дерево решений используется для классификации, начиная с корневого узла, проверяя определенную функцию экземпляра и назначая экземпляр его дочерним узлам в соответствии с результатами тестирования. В это время каждый дочерний узел соответствует значению признака. Экземпляры проверяются и классифицируются рекурсивно до тех пор, пока не будет достигнут конечный узел. Наконец, экземпляры делятся на классы конечных узлов. — Цитируется по Ли Хангу, «Статистические методы обучения».
Чем глубже дерево решений, тем меньше ошибка на обучающей выборке и выше точность. Но легко вызвать переобучение и увеличить время обучения модели. Сокращение дерева решений и уменьшение глубины дерева может повысить скорость обучения модели и эффективно избежать переобучения.
В одном дереве решений скорость обучения не является допустимым параметром.
Дерево решений — это одно дерево, а случайный лес состоит из нескольких деревьев решений.
Вопрос 6. Какое из следующих утверждений о нейронных сетях верно?
A. Увеличение количества сетевых уровней может увеличить частоту ошибок классификации набора тестов.
B. Увеличение количества сетевых слоев определенно увеличит частоту ошибок классификации обучающего набора.
C. Уменьшение количества сетевых уровней может снизить частоту ошибок классификации набора тестов.
D. Уменьшение количества сетевых слоев определенно уменьшит частоту ошибок классификации обучающего набора.
Отвечать: переменный ток
Разобрать: этот вопрос исследует влияние количества слоев нейронной сети на ошибку обучения и ошибку теста.
Вообще говоря, чем больше слоев нейронной сети, тем сложнее модель и тем лучше эффект классификации данных. Следовательно, начиная с самого простого количества слоев, увеличивая количество слоев сети, можно уменьшить ошибку обучения и ошибку теста. Однако слишком много слоев нейронной сети может легко привести к переобучению, то есть эффект классификации обучающей выборки хороший, а ошибка небольшая, но ошибка теста большая.
Чтобы избежать переобучения, вы должны выбрать подходящее количество слоев нейронной сети и использовать методы регуляризации, чтобы сделать нейронную сеть более надежной.
Вопрос 7. Предположим, мы оптимизируем целевую функцию, используя исходную нелинейно разделимую версию Soft-SVM. Что нам нужно сделать, чтобы полученная модель была линейно разделимой?
A. C = 0
B. C = 1
C. C положительная бесконечность
D. C отрицательная бесконечность
Отвечать:С
Разобрать: этот вопрос исследует условия соединения и преобразования между SVM и Soft-SVM.
Soft-SVM добавляет термин ошибки классификации на основе исходного SVM следующим образом:
Среди них вторым пунктом является пункт ошибки классификации. C — параметр, аналогичный штрафному коэффициенту при регуляризации. Среди них ξn представляет собой степень ошибки, допущенной каждой точкой, ξn = 0, что указывает на отсутствие ошибки, чем больше ξn, тем больше ошибка, то есть тем больше расстояние от точки до границы (отрицательное). Параметр C представляет собой компромисс между выбором как можно более широкой границы и минимально возможной ошибкой, потому что чем шире граница, тем больше точек ошибки имеет тенденцию к увеличению. большой C указывает на то, что вы хотите получить меньше ошибок классификации, то есть вам следует выбрать как можно больше точек, чтобы правильно классифицировать узкую границу; маленький C указывает на то, что вы хотите получить более широкую границу, то есть вам следует выбрать более широкую граница вне зависимости от количества точек ошибки Границы классификации. Следовательно, когда C равно положительной бесконечности, можно получить точки без неправильной классификации, и модель будет линейно разделимой.
С другой стороны, в линейно разделимом SVM двойственная форма решается с лагранжевым множителем αn ≥ 0, тогда как в Soft-SVM двойственная форма решается с лагранжевым множителем 0 ≤ αn ≤ C. Очевидно, что когда C не имеет положительной бесконечности, эти две формы совпадают.
Стоит отметить, что при большом значении C, хотя точность классификации повышается, вполне вероятно, что шум также обрабатывается, что может привести к переоснащению. Другими словами, Soft-SVM также может переобучать, поэтому выбор параметра C очень важен. На следующем рисунке представлена соответствующая классификационная кривая, когда C равно 1, 10 и 100 соответственно:
Вопрос 8. После обучения SVM мы можем оставить только опорные векторы и отбросить все не опорные векторы. Все еще не влияет на способность классификации модели. Это предложение верно?
А. Правильно
Б. Ошибка
Отвечать: А
Разобрать: этот вопрос исследует концептуальное понимание машин опорных векторов (SVM).
На самом деле, когда вы впервые узнали о машинах опорных векторов, у вас возник бы вопрос, почему она так называется. Алгоритм определяет поверхность классификации, как правило, ключевые точки, эти точки строят поверхность классификации, поэтому она называется опорным вектором. Этот алгоритм также называют машиной опорных векторов. После завершения обучения другие неподдерживающие векторы не влияют на классификационную поверхность, поэтому их можно удалить.
Для линейно разделимого SVM можно судить о том, является ли текущая выборка (xn, yn) SV по значению фактора Лагранжа αn.
-
Если αn = 0: не SV
-
Если αn > 0: это SV, и классификация верна
Для Soft-SVM (линейная неразделимость) о том, является ли текущая выборка (xn, yn) SV, можно судить по зависимости между значением лагранжевого фактора αn и параметром C.
-
Если αn = 0: не SV, и классификация верна
-
Если 0
-
Если αn = C: не SV и классифицирован неправильно (или просто на поверхности классификации)
Студенты, которые не очень хорошо понимают концепцию SVM, могут ознакомиться с объяснением SVM от Линь Сюаньтяня в Методах машинного обучения 1-6, которое легко понять и информативно. Соответствующие заметки можно посмотреть в этом официальном аккаунте, а также поставить ссылку на Лекцию 1:
Методы углубленного машинного обучения (1): метод линейных опорных векторов.
Вопрос 9. Какой из следующих алгоритмов можно использовать для построения нейронной сети (множественный выбор)?
A. kNN
Б. Линейная регрессия
C. Логистическая регрессия
Отвечать: ДО НАШЕЙ ЭРЫ
Разобрать: этот вопрос исследует некоторые взаимосвязи между kNN, линейной регрессией, логистической регрессией и нейронными сетями.
kNN — это алгоритм обучения на основе экземпляров, который не имеет параметров обучения. Поэтому его нельзя использовать для построения нейронных сетей.
Для построения моделей нейронных сетей можно использовать как линейную регрессию, так и логистическую регрессию, фактически обе представляют собой нейронные сети с одним нейроном.
Вопрос 10. Какой из следующих наборов данных подходит для скрытых марковских моделей?
А. Генетические данные
B. Данные обзора фильма
C. Цены на фондовом рынке
Д. Все вышеперечисленное
Отвечать:D
Разобрать: этот вопрос исследует, для каких задач подходит Скрытая Марковская модель.
Скрытая марковская модель (HMM) — это вероятностная модель временных рядов, которая описывает процесс, когда скрытая цепь Маркова случайным образом генерирует случайную последовательность ненаблюдаемых состояний, а затем генерирует наблюдение из каждого состояния для генерации случайной последовательности наблюдений. Поэтому скрытые марковские модели подходят для решения задач временных рядов.
использованная литература:
Solutions for Skilltest Machine Learning : Revealed