Разработка функций (конец)

машинное обучение

Серия «Введение в машинное обучение» (2) — Как создать полноценный проект машинного обучения, часть 6!

Первые пять статей цикла:

Это также последняя статья из серии разработки признаков, в которой представлены три задачи: извлечение признаков, выбор признаков и построение признаков.Обычно считается, что проектирование признаков делится на эти три аспекта, но я добавил к этому предыдущую предварительную обработку данных и признаков. ряд.

На самом деле, разработка функций на самом деле требует практики, чтобы лучше овладеть этим навыком.Просто взглянув на теорию, понимание недостаточно глубоко, и когда оно на самом деле применяется к проекту или соревнованию, оно будет иметь более глубокое понимание.


3.4 Выбор функций

определение: процесс выбора подмножества соответствующих функций из заданного набора функций называется выбором функций.

1. Для учебной задачи задается набор признаков, часть из которых может быть критична для обучения, а часть малозначима.

  • Атрибуты или функции, полезные для текущей учебной задачи, называемыеСвязанные функции(соответствующая функция);
  • Атрибуты или функции, которые не полезны для текущей учебной задачи, называютсянерелевантные функции(неактуальная функция).

2. Выбор признаков может снизить прогностическую способность модели, поскольку исключенные признаки могут содержать достоверную информацию, и отбрасывание этой части информации в определенной степени снизит производительность модели. Но это также компромисс между вычислительной сложностью и производительностью модели:

  • Если сохранить как можно больше признаков, производительность модели улучшится, но при этом модель станет более сложной, а также возрастет вычислительная сложность;
  • Если удалить как можно больше функций, производительность модели снизится, но модель станет проще, а вычислительная сложность уменьшится.

3. Общие методы выбора признаков делятся на три категории:

  • фильтр
  • Обертка
  • Встроенный (встраивание)
3.4.1 Принцип выбора признаков

1. Причины использования функции выбора:

  • Проклятие проблемы размерности. Из-за проблемы, вызванной слишком большим количеством атрибутов или функций, если вы можете выбрать важные функции, чтобы только часть функций могла использоваться для построения модели, проблема катастрофы размерности может быть значительно облегчена.В этом смысле выбор функций и методы уменьшения размерности аналогичны мотивации, фактически они также являются двумя основными методами работы с многомерными данными.
  • Удаление нерелевантных функций может снизить сложность задач обучения, а также упростить модель и уменьшить вычислительную сложность..

2. Выбор функций наиболее важенУбедитесь, что важные функции не потеряны, иначе модель с хорошими характеристиками не получится из-за отсутствия важной информации.

  • Учитывая набор данных, разные учебные задачи, вероятно, будут иметь разные связанные характеристики, поэтомуНерелевантные функции относятся к функциям, которые не имеют отношения к текущей учебной задаче..
  • Существует класс признаков, называемыйизбыточная функциясодержащуюся в них информацию можно вывести из других признаков.
    • Избыточные функции обычно не работают, их удаление может снизить нагрузку на обучение модели;
    • Но если избыточная функция соответствует некоторому промежуточному понятию, необходимому для выполнения задачи обучения, это полезно и может уменьшить сложность задачи обучения.

3. Без каких-либо предварительных знаний, то есть знаний предметной области, единственный способ выбрать подмножество признаков, содержащее всю важную информацию из исходного набора признаков, состоит в том, чтобы обойти все возможные комбинации признаков.

Но этот подход не практичен и не осуществим, потому что он столкнется с комбинаторным взрывом, и количество функций будет невозможно.

Необязательное решение:

  • Создайте подмножество кандидатов и оцените его качество.
  • На основе результатов оценки генерируется следующее подмножество кандидатов, и его качество оценивается повторно.
  • Этот процесс продолжается до тех пор, пока не будут найдены лучшие последующие подмножества.

Здесь возникает два вопроса: как получить следующее подмножество функций-кандидатов на основе результатов оценки? Как оценить качество подмножеств признаков-кандидатов?

3.4.1.1 Поиск подмножества

1.Поиск подмножестваЭтапы метода следующие:

  • Учитывая набор функций A={A1,A2,...,Ad} , сначала рассмотрим каждую функцию как подмножество-кандидат (т. е. в каждом подмножестве есть только один элемент), а затем оцените d подмножеств-кандидатов.

    Предполагая, что A2 является оптимальным, A2 затем используется в качестве выбранного подмножества для первого раунда.

  • Затем функция добавляется к выбранному подмножеству из предыдущего раунда, формируя подмножество кандидатов, содержащее обе функции.

    Предполагая, что A2, A5 оптимальны и лучше, чем A2, тогда A2, A5 используются в качестве выбранного подмножества для второго раунда.

  • ....

  • предполагается, что вk+1круглое время,Оптимальное подмножество функций этого раунда не так хорошо, как оптимальное подмножество функций предыдущего раунда., затем прекратите создание подмножеств-кандидатов и используйте подмножество признаков, выбранное в предыдущем раунде, как результат выбора признаков.

2. Эта стратегия постепенного добавления соответствующих функций называетсявпередforwardпоиск

Точно так же, если вы начинаете с полного набора функций и пытаетесь удалить по одной лишней функции за раз, эта стратегия постепенного сокращения функций называетсяназадbackwardпоиск

3. Также возможно комбинировать прямой и обратный поиск, и каждый раунд постепенно увеличивает выбранные релевантные функции (эти функции определены как не удаляемые в последующих итерациях), при этом уменьшая нерелевантные функции, такая стратегия называетсядвустороннийbidirectionalпоиск.

4 Политики являются жадными, поскольку они учитывают только оптимизацию выбранного набора для текущего раунда. Но таких проблем нельзя избежать, если не провести исчерпывающий поиск.

3.4.1.2 Оценка подмножества

1. Метод оценки подмножества заключается в следующем:

Учитывая набор данных D, предположим, что все атрибуты дискретны. Предположим, что для подмножества атрибутов A D делится на V подмножеств в соответствии с его значением:{D_1, D_2, \cdots,  D_V}

Прирост информации для подмножества атрибутов A можно рассчитать:

g(D, A) = H(D) - H(D|A)=H(D)-\sum^V_{v=1}\frac{|D_v|}{|D|}H(D_v)

в,|•|представляет установленный размер,H(•)представляет энтропию.

Чем больше прирост информации, тем больше информации содержит подмножество признаков A, что полезно для классификации.. Следовательно, для каждого подмножества признаков-кандидатов его прирост информации может быть рассчитан на основе обучающего набора D в качестве критерия оценки.

2. В более общем смысле подмножество признаков A фактически определяет правило разделения для набора данных D.

  • Каждая область деления соответствует значению на A, а информация о метке образца y соответствует реальному делению D.
  • А можно оценить, оценив разницу между этими двумя делениями: чем меньше разница между делениями, соответствующими у, тем лучше А.
  • Информационная энтропия — это только способ оценить эту разницу, и другие механизмы, которые могут оценить разницу между двумя подразделениями, могут использоваться для оценки подмножеств признаков..

3.Метод выбора признаков можно получить, объединив механизм поиска подмножества признаков с механизмом оценки подмножества..

  • Фактически деревья решений можно использовать для выбора признаков, а набор атрибутов деления всех узлов дерева является выбранным подмножеством признаков.
  • Другие методы выбора признаков по существу объединяют определенные механизмы поиска подмножества и механизмы оценки подмножества, явно или неявно.

4. Общие методы выбора признаков делятся на следующие три типа.Основное различие заключается в том, использует ли часть выбора признаков последующее обучение.

  • фильтр(фильтр): сначала выполните выбор функций в наборе данных, и этот процесс не имеет ничего общего с последующим учащимся, то есть разработайте некоторую статистику для фильтрации функций без учета последующей проблемы учащегося.
  • завернутый(обертка): на самом деле это классификатор, который использует производительность последующего учащегося в качестве критерия оценки для подмножества функций.
  • встроенный(встраивание): на самом деле учащийся выбирает функции самостоятельно.

5. Самый простой метод выбора признаков:Удалить функции с небольшими изменениями значений.

Если признак имеет только два значения 0 и 1, а 95% всех входных выборок имеют значение признака 1, то можно считать, что признак мало влияет.

Конечно, предпосылкой этого метода является то, что все собственные значениядискретныйИспользуйте только этот метод; если это непрерывный тип, его необходимо дискретизировать перед использованием, и на самом деле вообще не существует функции, которая более 95% функций принимает определенное значение.

Таким образом, этот метод прост, но не очень удобен в использовании, его можно использовать в качестве предобработки выбора признаков: сначала удаляются признаки с небольшими изменениями, а затем выбираются три вышеперечисленных типа методов выделения признаков.

3.4.2 Отфильтрованный выбор

Этот методВыполните выбор функций в наборе данных перед обучением учащегося. Процесс выбора признаков не зависит от последующих обучающихся.

То есть выбор признаков используется для фильтрации исходных признаков, а затем модель обучается с помощью отфильтрованных признаков.

  • ПреимуществоОн вычислительно эффективен и обладает высокой устойчивостью к задачам переобучения.;
  • слабость этоСклонны выбирать избыточные функции, то есть корреляция между признаками не рассматривается.
3.4.2.1 Метод сброса

1.Relief:Relevant FeaturesЭто хорошо известный метод выбора признаков фильтрации. Этот метод проектируетСтатистика корреляции для измерения важности функций.

  • Эта статистика представляет собой вектор, в котором каждый компонент соответствует исходному признаку. Важность подмножеств функций определяетсяОн определяется суммой релевантных статистических компонентов, соответствующих каждому признаку в подмножестве..

  • В конце концов, нужно указать только порог k, а затемвыберите функции, соответствующие компонентам корреляционной статистики больше, чем kВот и все.

    также можетУкажите количество функций m, а затем выберите m объектов с наибольшими релевантными статистическими компонентами.

2.Reliefпредназначен для задач бинарной классификации, а его расширенный вариантRelief-FМожет обрабатывать проблемы с несколькими классификациями.

3.4.2.2 Метод выбора отклонения

Используя метод выбора дисперсии, сначала вычислите дисперсию каждого признака, а затем выберите признаки с дисперсией, превышающей пороговое значение, в соответствии с пороговым значением.

3.4.2.3 Метод коэффициента корреляции

Используя метод коэффициента корреляции, сначала вычислите коэффициент корреляции каждой функции с целевым значением и значением P коэффициента корреляции.

3.4.2.4 Критерий хи-квадрат

Классический тест хи-квадрат предназначен для проверки корреляции между качественными независимыми переменными и качественными зависимыми переменными. Предполагая, что независимая переменная имеет N значений, а зависимая переменная имеет M значений, рассмотрим разницу между наблюдаемым значением и ожидаемой частотой выборки независимой переменной, равной i, и зависимой переменной, равной j, и построим статистику:

X^2 = \sum\frac{(A-E)^2}{E}

   Нетрудно обнаружить, что смысл этой статистики — просто корреляция между независимой переменной и зависимой переменной.

3.4.2.5 Метод взаимной информации

Классическая взаимная информация также оценивает корреляцию между качественными независимыми переменными и качественными зависимыми переменными Формула расчета взаимной информации выглядит следующим образом:

I(X;Y)=\sum_{x\in X}\sum_{y\in Y}p(x,y)log\frac{p(x,y)}{p(x)p(y)}

Для обработки количественных данных,метод максимального информационного коэффициентаБыло предложено.

3.4.3 Варианты упаковки

1. По сравнению с фильтрующим выбором признаков при выборе обертывающих признаков не учитываются последующие обучающиеся.Непосредственно использовать производительность последнего учащегося в качестве принципа оценки подмножества функций.. Цель состоит в том, чтобы выбрать подмножество функций, адаптированных для данного учащегося, которые наиболее полезны для его производительности.

  • Преимущество в том, что он оптимизирован непосредственно для конкретного учащегося с учетом корреляции между функциями, поэтомуОбычно выбор функций-оберток может обучить более эффективного ученика, чем выбор функций фильтрации.,
  • Недостатком является то, что, поскольку процесс выбора признаков требует многократного обучения учащегося, вычислениеГораздо больше накладных расходов, чем выбор фильтрованных функций.

2.LVW:Las Vegas Wrapperявляется типичным методом выбора обернутых функций. этоLas Vegas methodВ этой структуре для поиска подмножеств используется случайная стратегия, а ошибка окончательного классификатора используется в качестве критерия оценки подмножеств признаков.

3. Из-заLVWв алгоритмеКаждая оценка подмножества функций должна обучать учащегося, что очень затратно в вычислительном отношении., поэтому будет разработан параметр управления условием останова T.

Но если количество начальных признаков велико, T задано большим, а каждый раунд обучения занимает много времени, то очень вероятно, что алгоритм будет работать долгое время без остановки. который:Если есть ограничение по времени работы, он может не дать ответа.

5.рекурсивное устранение признаков: Используйте базовую модель для нескольких раундов обучения, после каждого раунда обучения исключайте особенности нескольких весовых коэффициентов, а затем выполняйте следующий раунд обучения на основе нового набора функций.

3.4.4 Встроенный выбор

1. В методах выбора признаков с фильтрацией и упаковкой процесс выбора признаков существенно отличается от процесса обучения учащегося.

Выбор встроенных функций объединяет выбор функций с процессом обучения учащегося, и оба они выполняются в рамках одного и того же процесса оптимизации.То есть выбор признаков выполняется автоматически в процессе обучения обучаемого..

Общие методы включают в себя:

  • Используйте регуляризацию, напримерL_1, L_2Норма, в основном используемая в таких алгоритмах, как линейная регрессия, логистическая регрессия и машины опорных векторов (SVM);
  • Используйте идеи дерева решений, включая деревья решений, случайные леса, градиентное усиление и многое другое.

2. ПредставьтеL_1норма кромеСнизить риск переоснащенияКроме того, есть еще одно преимущество: найденное w будет иметь больше нулевых компонент. который:легче получить разреженные решения.

Итак, на основеL_1Регулярный метод обучения представляет собой встроенный метод выбора функций, Процесс выбора функций интегрирован с процессом обучения учащегося, и оба они выполняются одновременно.

3. Распространенные встроенные модели выбора:

  • существуетLasso, параметр λ управляет разреженностью:
    • Чем меньше λ, тем меньше разреженность и выбирается больше признаков;
    • Наоборот, чем больше λ, тем больше разреженность и тем меньше признаков выбирается;
  • существуетSVMа в логистической регрессии параметрCРазреженность контролируется:
    • еслиCЧем меньше значение, тем больше разреженность и тем меньше признаков выбирается;
    • еслиCЧем он больше, тем меньше разреженность и тем больше признаков выбирается.

3.5 Извлечение признаков

Извлечение признаков обычно предшествует выбору признаков, а извлекаемые объектыНеобработанные данные, цель состоит в том, чтобы автоматически создавать новые функции,Преобразование необработанных данных в набор функций с очевидным физическим значением (таких как Габор, геометрические функции, особенности текстуры) или статистической значимости..

Обычно используемые методы включают уменьшение размерности (PCA, ICA, LDA и т. д.), SIFT, Gabor, HOG и т. д. в изображении, модель мешка слов в тексте, модель встраивания слов и т. д. Вот некоторые основные концепции этих методов.

3.5.1 Снижение размерности

1.PCA(Анализ главных компонентов, Анализ главных компонентов)

PCA — наиболее классический метод уменьшения размерности, целью которого является нахождениеОсновные компоненты данных и использование этих основных компонентов для представления исходных данных для достижения цели уменьшения размерности..

Идея PCA состоит в том, чтобы найти оптимальное подпространство распределения данных посредством преобразования оси координат.

Например, есть ряд точек данных в трехмерном пространстве, которые распределены на плоскости, проходящей через начало координат.Если данные представлены тремя осями x, y и z естественной системы координат, тремя требуются размеры, но на самом деле все эти точки данных находятся в одной и той же двумерной плоскости, если мы можем сделать плоскость, в которой лежат данные, совпадающей с плоскостью x, y посредством преобразования оси координат, мы можем представить исходные данные через новые оси x', y' без каких-либо потерь, это сделано с целью уменьшения размерности, и эти две новые оси являются основными компонентами, которые нам нужно найти.

Таким образом, решение PCA обычно делится на следующие этапы:

  1. Централизованная обработка выборочных данных;
  2. Найдите выборочную ковариационную матрицу;
  3. Выполнить разложение по собственным значениям ковариационной матрицы и расположить собственные значения от большего к меньшему;
  4. Возьмите первые n самых больших соответствующих собственных векторов собственных значенийW1, W2, ..., Wn, который уменьшает исходную m-мерную выборку до n-мерной.

Через PCA можно отбросить признаки с небольшой дисперсией.Здесь собственный вектор можно понимать как направление новой координатной оси в преобразовании координат, а собственное значение представляет собой дисперсию соответствующего собственного вектора,Чем больше собственное значение, тем больше дисперсия и тем больше объем информации.. Вот почему выбираются собственные векторы, соответствующие n наибольшим собственным значениям, потому что эти признаки содержат более важную информацию.

PCA — это метод уменьшения линейной размерности, что также является его ограничением.. Однако существует также много решений, таких как использование отображения ядра для расширения PCA для получения анализа основных компонентов ядра (KPCA) или использование методов уменьшения размерности отображения многообразия, таких как изометрическое отображение, локальное линейное вложение, отображение признаков Лапласа и т. д., и выполнять операции нелинейного уменьшения размерности на некоторых сложных наборах данных с плохим эффектом PCA.

2.LDA(Линейный дискриминантный анализ, Линейный дискриминантный анализ)

LDA — это алгоритм обучения с учителем.По сравнению с PCA, он учитывает информацию о категории данных, в то время как PCA не учитывает ее, а только отображает данные в направлении с относительно большой дисперсией.

Поскольку рассматривается информация о категории данных, цель LDA состоит не только в уменьшении размерности, но и в поиске направления проекции, чтобы спроецированные выборки были максимально разделены в соответствии с исходной категорией, то есть найтиМожет максимизировать межклассовое расстояние и минимизировать внутриклассовое расстояниенаправление.

Преимущества LDA заключаются в следующем:

  • По сравнению с PCA, LDA лучше обрабатывает данные с информацией о категории;
  • Линейные модели более устойчивы к шуму, а LDA является эффективным методом уменьшения размерности.

Соответственно, есть и следующие недостатки:

  • LDA-параРаспределение данных делает сильные предположения, например, данные каждой категории имеют распределение Гаусса, и ковариация каждой категории равна. Эти предположения не обязательно полностью выполняются на практике.
  • Модель LDA проста, и ее выразительность имеет определенные ограничения.. Но это можно сделать, введяФункция ядраРасширьте LDA для обработки данных с более сложным распределением.

3.ICA(Анализ независимых компонентов, Анализ независимых компонентов)

Преобразование признаков PCA уменьшает размерность, а извлеченныене имеющий отношенияЧасть ICA, полученная анализом независимых компонентов, равнаНезависимыйхарактеристики. Суть алгоритма ICA заключается в нахождении линейного преобразованияz = Wx, такой, что zНезависимость между отдельными собственными компонентами является наибольшей..

Обычно PCA используется для уменьшения размерности данных, а затем ICA используется для отделения полезных данных от нескольких измерений. PCA — это метод предварительной обработки данных для ICA.

Для получения дополнительной информации см. этот вопрос и ответ на Zhihu.В чем разница между анализом независимых компонентов (ICA) и анализом главных компонентов (PCA)?.

3.5.2 Извлечение признаков изображения

Извлечение признаков изображения. До того, как глубокое обучение стало популярным, существовало много традиционных методов извлечения признаков, наиболее распространенными из которых являются следующие.

1.SIFTособенность

SIFT — очень широко используемая функция для извлечения признаков изображения. Он содержит следующие преимущества:

  • Он имеет неизменность вращения, масштаба, перевода, угла обзора и яркости, что способствует эффективному выражению информации о целевых функциях;
  • Функции SIFT обладают хорошей устойчивостью к настройке параметров и могут регулировать соответствующее количество точек характеристик для описания функций в соответствии с потребностями сцены для анализа функций.

Извлечение локальных характерных точек изображения с помощью SIFT в основном включает четыре этапа:

  1. Обнаружение предполагаемых характерных точек
  2. Удалить ложные характерные точки
  3. Градиент характерной точки и согласование направления
  4. Генерация векторов описания признаков

Недостатком SIFT является то, что его трудно реализовать без аппаратного ускорения или специального процессора изображений.

2.SURFособенность

Функция SURF — это усовершенствование алгоритма SIFT, которое уменьшает временную сложность и повышает надежность.

Это в основном упрощает некоторые операции SIFT, такие как упрощение гауссовой дифференциальной модели второго порядка в SIFT, так что операцию сглаживания свертки нужно преобразовать только в операции сложения и вычитания. А размер конечного сгенерированного вектора признаков уменьшен со 128 до 64 измерений.

3.HOGособенность

Функция гистограммы ориентированного градиента (HOG) представляет собой функцию гистограммы, предложенную для обнаружения пешеходов в 2005 году. Она реализует описание функции путем вычисления и подсчета гистограммы направления градиента локальных областей изображения.

Шаги извлечения признаков HOG следующие:

  1. нормализация. Сначала преобразуйте изображение в изображение в градациях серого, а затем используйте для этого гамма-коррекцию. Этот шаг предназначен для повышения устойчивости описания характеристик изображения к изменениям освещения и окружающей среды, уменьшения локальных теней, локальной передержки и искажения текстуры на изображении, а также максимально возможного сопротивления шумовым помехам;
  2. Вычислить градиент изображения;
  3. Направление статистического градиента;
  4. Нормализация собственного вектора; Чтобы преодолеть неравномерное изменение освещенности и разницу контрастов между передним планом и фоном, векторы признаков в блоке необходимо нормализовать.
  5. генерировать вектор признаков.

4.LBPособенность

Локальный двоичный шаблон (LBP) — это оператор признаков, описывающий локальную текстуру изображения, который обладает преимуществами инвариантности вращения и инвариантности оттенков серого.

Функция LBP описывает метод обработки изображения в диапазоне оттенков серого, который направлен наВвод в виде 8-битного или 16-битного изображения в градациях серого.

Функция LBP получается путем сопряженияСравните взаимосвязь между центральной точкой окна и соседними точками., перекодирование для формирования новых признаков для устранения влияния внешней сцены на изображение, тем самым решая проблему в определенной степениОсобенности в сложных сценах (преобразование света)Опишите проблему.

По различию оконного поля оно делится на два типа: классическое LBP и круглое LBP. Первое окно представляет собой квадратное окно 3 × 3, а второе расширяет окно от квадратного до любой круглой области.

Для получения более подробной информации, пожалуйста, обратитесь к этой статье--Описание обнаружения функции изображения (1): Принципиальный обзор функций SIFT, SURF, ORB, HOG, LBP и реализация кода OpenCV

Конечно, вышеперечисленные функции являются более традиционными методами извлечения признаков изображения.Теперь изображения в основном напрямую используют CNN (Сверточная нейронная сеть) для выделения и классификации признаков.

3.5.3 Извлечение текстовых признаков

1.модель мешка слов

Наиболее простой моделью представления текста является модель мешка слов.

В частности, весь текст делится на словесные единицы, после чего каждая статья может быть представлена ​​в виде длинного вектора, каждое измерение вектора представляет слово, а вес измерения отражает слово в исходной статье.

обычно используетсяTF-IDFРассчитайте вес, формулаTF-IDF(t, d) = TF(t,d) × IDF(t)

где TF(t, d) представляет частоту слова t в документе d, а IDF(t) — обратную частоту документа, которая используется для измерения важности слова t для выражения семантики, которая выражается как:

IDF(t)=log\frac{文章总数}{包含单词 t 的文章总数+1}

Интуитивное объяснение заключается в том, что если это слово появилось в нескольких статьях, то оно, вероятно, является более общим словом, и его вклад в различение статей относительно невелик, и его вес, естественно, относительно невелик, то есть IDF(t) будет быть относительно небольшим.

2.N-граммовая модель

Модель мешка слов делится на слова, но иногда деление на уровне слов не рекомендуется, ведь некоторые слова объединяются для выражения своего значения, напримерnatural language processing(自然语言处理),computer vision(计算机视觉)Ждать.

Следовательно, фраза (N-грамма), состоящая из последовательных n слов (n

Кроме того, одно и то же слово может иметь несколько изменений частей речи, но иметь одинаковое значение, поэтому в практических приложениях слово также будет изменено.выведение(Word Stemming) обработка, то есть объединение слов разных частей речи в форму одной основы.

3.модель встраивания слов

Встраивание слов — это общий термин для класса моделей, которые векторизируют слова.Каждое слово сопоставляется с плотным вектором (Dense Vector) в низкоразмерном пространстве (обычно K=50~300 измерений)..

Обычно используемые модели встраивания слов:Word2Vec. Это низкоуровневая модель нейронной сети с двумя сетевыми структурами: CBOW (Continues Bag of Words) и Skip-gram.

CBOW основан наСлова, появляющиеся в контексте, предсказывают текущее словоВероятность генерации Skip-gram основана наТекущее слово для прогнозирования вероятности генерации каждого слова в контексте.

Модель встраивания слов отображает каждое слово в вектор размерности K. Если в документе N слов, то каждый документ может быть представлен матрицей N × K, но это представление слишком низкоуровневое. В практических приложениях, если матрица непосредственно вводится в модель как представление признаков исходного текста, обычно трудно получить удовлетворительные результаты.Как правило, матрицу необходимо обрабатывать для извлечения и построения признаков более высокого уровня.

Появление моделей глубокого обучения просто обеспечивает метод автоматической разработки признаков, где каждый скрытый слой эквивалентен признаку на другом уровне абстракции. И сверточные нейронные сети (CNN), и рекуррентные нейронные сети (RNN) достигли хороших результатов в текстовом представлении, поскольку они могут хорошо моделировать текст и извлекать некоторые высокоуровневые семантические функции.

3.5.4 Разница между извлечением признаков и выбором признаков

Извлечение функций и выбор функций предназначены для поиска наиболее эффективных функций из исходных функций.

Разница между ними в том, что извлечение признаков подчеркиваетпреобразование признаковспособ получения набора характеристик очевидной физической или статистической значимости;

Выбор признаков, с другой стороны, выбирает набор признаков с очевидной физической или статистической значимостью из набора признаков.подмножество функций.

оба могутПомогите уменьшить размер функций, избыточность данных, при извлечении признаков иногда можно найти более значимые атрибуты признаков, а процесс выбора признаков часто может указывать на важность каждого признака для построения модели.

3.6 Конструкция функций

Средства создания признаковИскусственно создавать новые функции из исходных данных. Требуется время, чтобы наблюдать за необработанными данными, думать об основной форме и структуре данных проблемы, а также иметь чувствительность данных и опыт машинного обучения, чтобы помочь в построении функций.

Построение признаков требует сильного понимания и аналитических способностей, что требует от нас способности находить некоторые физически значимые признаки из необработанных данных. Предполагая, что исходные данные являются табличными данными, обычно вы можете использоватьСмешанные или комбинированные свойствадля создания новых функций илиРазложите или нарежьте исходные функциидля создания новых функций.

Создание функций требует соответствующих знаний в предметной области или богатого практического опыта для создания более качественных и полезных новых функций.По сравнению с извлечением функций, извлечение функций заключается в преобразовании исходных данных с помощью некоторых готовых методов извлечения функций.Создание функций требует нашего собственного ручного создания функций, например, объединение двух функций или разбиение одной функции на несколько новых функций.


резюме

Содержание разработки функций плюс эта статья написали в общей сложности четыре статьи, от предварительной обработки данных, работы с пропущенными значениями, выбросами, дисбалансом классов и проблемами увеличения данных, до масштабирования функций, кодирования функций и выбора функций, извлечения функций и создания функций. в основном включает контент, связанный с разработкой функций, конечно, могут быть некоторые вещи, которые не включены.

На самом деле, это просто краткое изложение второй главы "", которая включает в себя содержание разработки признаков. Я планирую сделать хорошее резюме. Я не ожидал, что эта часть будет довольно большой. Но для разработки признаков, мой опыт не очень богатый.Я участвовал в конкурсе только один раз, и это считается простым баловством в части контента, поэтому содержание этих статей в основном для организации и сбора контента онлайн-статей, плюс небольшое количество личного опыта, это действительно немного утомительно писать, много контента, я могу только кратко изложить основные концепции и шаги использования, но трудно представить их подробно.

Поэтому рекомендуется после ее прочтения найти какие-то практические проекты или поучаствовать в конкурсах, а теорию и метод фичеинжиниринга применить на практике, у вас будет более глубокий опыт.

С точки зрения конкуренции наиболее известен Kaggle, а в Китае есть Tianchi и DataFountain.

Далее, как построить полный проект машинного обучения, войдет в часть выбора и оценки модели алгоритма, Здесь я также намерен кратко обобщить наиболее часто используемые классические алгоритмы для машинного обучения.


Ссылаться на:


Добро пожаловать, чтобы обратить внимание на мою общедоступную учетную запись WeChat — машинное обучение и компьютерное зрение, или отсканируйте QR-код ниже, давайте общаться, учиться и прогрессировать вместе!

Прекрасная рекомендация в прошлом

Серия машинного обучения
заметки по математике
Рекомендация руководства по проектам и ресурсам Github