10 статистических методов, которыми должны овладеть специалисты по данным

машинное обучение искусственный интеллект Программа перевода самородков Python задняя часть

Десять статистических методов, которыми должны овладеть специалисты по данным

Независимо от того, как вы относитесь к вопросу о том, является ли наука о данных «привлекательной», вы не можете игнорировать тот факт, что данные и наша способность их анализировать, организовывать и контекстуализировать становятся все более и более важными. Благодаря обширным данным о вакансиях и отзывам сотрудников Glassdoor ставит специалистов по обработке и анализу данных в число лучших в стране.25 рабочих местпервый в . Таким образом, хотя эта роль сохранится, нет никаких сомнений в том, что конкретные задачи, которые решают специалисты по данным, будут продолжать развиваться. По мере того, как такие технологии, как машинное обучение, становятся все более популярными, а новые области, такие как глубокое обучение, привлекают огромное внимание исследователей, инженеров и их компаний, специалисты по данным будут продолжать оседлать волну инноваций и технического прогресса, оседлав ветер и волны.

Хотя сильные навыки программирования важны, наука о данных — это не совсем разработка программного обеспечения (на самом деле проще начать, если вы знакомы с Python). Что нужно специалисту по данным, так это тройная способность к программированию, анализу и критическому мышлению. Как Джош Уиллссказал, "У специалистов по данным больше статистических знаний, чем у любого программиста, и больше навыков программирования, чем у любого статистика.. «Насколько мне известно, слишком много инженеров-программистов хотят сменить профессию, чтобы стать учеными данных.Статистическое обучениеТо же самое верно и для этой теоретической основы машинного обучения, основанной на статистике и функциональном анализе.

Зачем изучать статистическую теорию обучения?Важно понимать идеи, лежащие в основе нескольких технологий, чтобы знать, как и когда их использовать. Чтобы понять более сложный метод, нужно сначала понять более простой метод. Очень важно точно оценить производительность метода, что позволяет определить, правильно ли работает работа. И это захватывающая область исследований с очень важными приложениями в области технологий, промышленности и финансов. В конце концов, статистическое обучение является важным элементом обучения современных специалистов по данным. Примеры задач статистического обучения включают:

  • Выявить факторы риска рака предстательной железы.
  • Записанные фонемы классифицируются по логарифмической периодограмме.
  • Предсказать, будет ли у кого-то сердечный приступ, на основе демографических данных, диеты и клинических показателей.
  • Настраиваемая система обнаружения спама в электронной почте.
  • Распознавайте написанные от руки почтовые индексы.
  • Классифицировать образец ткани в один из нескольких видов рака.
  • Установить взаимосвязь между заработной платой и демографическими переменными в данных переписи.

В течение последнего семестра в колледже я научился интеллектуальному анализу данных. Материал для этого курса охватывает содержание этих трех книг:Intro to Statistical Learning(Хасти, Тибширани, Виттен, Джеймс),Doing Bayesian Data Analysis(Крушке) иTime Series Analysis and Applications(Шамвей, Стоффер). Я сделал много упражнений, связанных с байесовским анализом, цепями Маркова, иерархическим моделированием, обучением с учителем и без учителя. Этот опыт углубил мой интерес к академической области интеллектуального анализа данных и убедил меня пойти глубже. Недавно я научился в Стэнфорде LagunitaStatistical Learning online course, который охватываетIntro to Statistical Learning bookвсех материалов. Коснувшись их дважды, я хочу поделиться в этой книге 10 статистическими методами, которые, по моему мнению, должен изучить любой специалист по данным, чтобы более эффективно работать с большими наборами данных.

Прежде чем я начну знакомить вас с этими десятью методами, я хотел бы провести различие между статистическим обучением и машинным обучением. я писал раньшеОдин из самых популярных методов машинного обученияПоэтому я вполне уверен, что у меня есть возможность оценить разницу:

  • Машинное обучение — это отрасль искусственного интеллекта.
  • Статистическое обучение является отраслью статистики.
  • Машинное обучение уделяет большое внимание большим данным и точности прогнозов.
  • Статистическое обучение делает упор на модель и ее интерпретируемость, точность и неопределенность.
  • Но границы между ними стираются, и есть много «междисциплинарного».
  • Машинное обучение более востребовано!

1 — Линейная регрессия:

В статистике линейная регрессия — это метод подбора отношения между независимой переменной и зависимой переменной.оптимальная линейная функцияметод прогнозирования целевой переменной. Когда сумма расстояний между значением, полученным путем подгонки каждой точки, и фактическим наблюдаемым значением является наименьшей, мы можем предположить, чтонаиболее подходящий. При выборе формы говорят, что подгонка этой формы является «лучшей», когда никакое другое положение не приводит к меньшим ошибкам. Два основных типа линейной регрессии:Простая линейная регрессияиМножественная линейная регрессия.Простая линейная регрессияИспользуйте одну независимую переменную, чтобы предсказать зависимую переменную, подбирая оптимальную линейную зависимость.Множественная линейная регрессияОн использует более одной независимой переменной для прогнозирования зависимой переменной путем установки оптимальной линейной функции.

Вы можете выбрать любые две связанные вещи в вашей жизни. Например, у меня есть данные о моих ежемесячных доходах и расходах и поездках за последние три года. Теперь я должен ответить на следующие вопросы:

  • Каковы будут мои ежемесячные расходы в следующем году?
  • Какой фактор (ежемесячный доход или ежемесячные поездки) важнее для определения моих ежемесячных расходов?
  • Какая связь между ежемесячным доходом, ежемесячными поездками и ежемесячными расходами? ?

2 — Классификация:

Классификация — это метод интеллектуального анализа данных, который классифицирует набор данных, чтобы помочь сделать более точные прогнозы и анализ. Классификация, иногда называемая методом дерева решений, является одним из нескольких методов эффективного анализа больших наборов данных. Два основных метода классификации, которые выделяются:логистическая регрессияиДискриминантный анализ.

Когда зависимая переменная является антагонистической (бинарной),логистическая регрессияявляется подходящим методом регрессионного анализа. Как и любой регрессионный анализ, логистическая регрессия является прогностическим анализом. Логистическая регрессия используется для описания данных и объяснения взаимосвязи между зависимой переменной и одной или несколькими категориальными, порядковыми, интервальными или относительными независимыми переменными. Проблемы, которые может решить логистическая регрессия:

  • Как меняется риск развития рака легких (да или нет) на каждый килограмм набранного веса и каждую дополнительную пачку сигарет, выкуриваемых каждый день?
  • Влияют ли вес, потребление калорий, потребление жиров и возраст участников на сердечный приступ (да или нет)?

существуетДискриминантный анализВ , две или более групп или групп или популяций известны априори, и по характеристикам анализа одно или несколько наблюдений классифицируются в известный класс кластеров. Дискриминантный анализ моделирует распределение предиктора X в каждом классе ответов, а затем использует теорему Байеса, чтобы преобразовать его в оценку вероятности для класса ответов для заданного значения X. Эти модели могут бытьлинейный,так же может бытьвторичный.

  • Линейный дискриминантный анализНаблюдения классифицируются по классам переменных ответа путем вычисления «оценки дискриминанта» для каждого наблюдения. Эти оценки получаются путем нахождения линейных комбинаций независимых переменных. Предполагается, что наблюдения в каждом классе происходят из многомерного гауссовского распределения и что ковариации предикторов одинаковы на k уровнях переменной отклика Y.
  • квадратичный дискриминантный анализПредусмотрен другой метод. Как и LDA, QDA предполагает, что наблюдения для каждого класса Y исходят из распределения Гаусса. В отличие от LDA, QDA предполагает, что каждый класс имеет свою собственную ковариационную матрицу. Другими словами, предполагается, что ковариации предикторов не одинаковы на k уровнях переменной отклика Y.

3 — Метод повторной выборки:

Повторная выборка относится к методу извлечения дубликатов выборок из исходных выборок данных. Это непараметрический метод статистического вывода. Другими словами, метод повторной выборки не предполагает использования общей таблицы распределения для вычисления приблизительных значений вероятности для p.

Повторная выборка создает уникальное распределение выборки на основе фактических данных. Он использует экспериментальные, а не аналитические методы для создания этого уникального выборочного распределения. Он производит несмещенную оценку, основанную на несмещенной выборке всех возможных результатов, изученных исследователем. Чтобы понять концепцию повторной выборки, вы должны понятьМетод начальной загрузки (также переводится как метод начальной загрузки, примечание переводчика)иПерекрестная проверка:

  • Начальная загрузкаПрименяется к различным сценариям, таким как проверка производительности прогностической модели, методы ансамбля, оценка смещения и дисперсия модели. Он работает, выполняя выборку данных с заменой в исходных данных, используя "Не выбрано" в качестве тестового примера Мы можем сделать это несколько раз и вычислить среднее значение для оценки производительности нашей модели.
  • С другой стороны, перекрестная проверка используется для проверки производительности модели и выполняется путем разделения обучающих данных на k частей. В качестве тренировочного набора берем первые k-1 частей»,отложить" в качестве тестового набора. Повторите этот шаг k раз с разными методами и, наконец, используйте среднее значение k баллов в качестве оценки производительности.

Как правило, для линейных моделей обычный метод наименьших квадратов является основным критерием, учитываемым при подгонке данных. Следующие три метода могут заменить его и могут обеспечить лучшую точность прогнозирования и интерпретируемость подобранных линейных моделей.

4 — Выбор подмножества:

Этот метод определяет, что мы считаем релевантным для ответаpподмножество предикторов. Затем мы подбираем модель, используя метод наименьших квадратов функций подмножества.

  • Оптимальный выбор подмножества:Мы здесьpПодберите регрессию МНК для каждой возможной комбинации предикторов и посмотрите, насколько хорошо подходит каждая модель. Алгоритм состоит из двух этапов: (1) Подходит для всех моделей, содержащих k предикторов, где k — максимальная длина модели. (2) Используйте потерю прогноза перекрестной проверки, чтобы выбрать одну модель. Важно использоватьпроверятьилиошибка теста,И вы не можете просто использовать ошибку обучения для оценки соответствия модели, потому что RSS и R² монотонно увеличиваются с увеличением переменных. Лучший способ сделать это — выбрать модель с самым высоким R² и самым низким RSS в тестовом наборе и провести ее перекрестную проверку.
  • пошаговый выбор впередИзучается гораздо меньшее подмножество p-предикторов. Он начинается с модели без предикторов и постепенно добавляет предикторы в модель, пока все предикторы не будут включены в модель. Порядок добавления предикторов определяется в соответствии со степенью, в которой различные переменные улучшают производительность подбора модели.Переменные будут добавляться до тех пор, пока больше предикторы не смогут улучшить модель при ошибке перекрестной проверки.
  • пошаговый выбор назадНачните с добавления в модель всех предикторов p, а затем удаляйте наименее полезный фактор на каждой итерации.
  • смешанный методСледуйте прямому пошаговому подходу. Но после добавления каждой новой переменной метод может также удалить переменные, которые не нужны для подбора модели.

5 — Уменьшение характеристик:

Этот метод подходит для модели всех предикторов P. Однако предполагаемый коэффициент будет стремиться к нулю в соответствии с оценкой наименьших квадратов. Это сокращение также называют регуляризацией. Он направлен на уменьшение дисперсии, чтобы предотвратить модель модели. Поскольку мы используем разные методы сходимости, некоторые коэффициенты будут оцениваться как нулевые. Следовательно, этот метод также может выполнять выборку переменных и сводить переменные к нулю, что наиболее важно.Ридж Возвращениеиlassoвозвращение.

  • Ридж ВозвращениеОчень похож на метод наименьших квадратов, за исключением того, что он оценивает коэффициенты путем минимизации немного другого числа. Гребневая регрессия, как и OLS, стремится уменьшить оценки коэффициента RSS. Но они штрафуют за эту усадку, когда значение коэффициента приближается к нулю. Этот штрафной член приводит к уменьшению оценок коэффициентов до нуля. Полезно знать, что гребневая регрессия имеет сходившиеся коэффициенты с минимальной дисперсией в пространстве столбцов без необходимости в математике.Например, в анализе основных компонентов гребневая регрессия проецирует данныеdВ пространстве направлений и больше компонентов с низкой дисперсией сокращаются, чем компоненты с высокой дисперсией, оба из которых эквивалентны наибольшему главному компоненту и наименьшему главному компоненту.
  • Гребневая регрессия имеет как минимум один недостаток: она должна включать всеpпредикторы, главным образом потому, что штрафной член приблизит коэффициенты многих предикторов к нулю, но не обязательно к нулю. Обычно это не является проблемой для точности прогноза, но затрудняет интерпретацию результатов модели.Lassoзатем преодолевает этот недостаток и можетsДостаточно мало, чтобы обнулить коэффициенты некоторых предикторов. так какs= 1 приведет к нормальной регрессии МНК, когдаsПо мере приближения к 0 коэффициенты будут стремиться к нулю. Таким образом, регрессия Лассо также является хорошим способом выбора переменных.

6 - уменьшение размерности:

Алгоритм уменьшения размерности будетp + 1Проблема коэффициентов упрощается доM + 1коэффициентная задача, гдеM < p. Выполнение алгоритма включает вычисление переменныхMразныеЛинейная комбинацияилипроекция(проекция). тогда поставь этоMпроекции используются в качестве предикторов, а модель линейной регрессии аппроксимируется методом наименьших квадратов. Два метода обработкирегрессия главного компонентаичастичные наименьшие квадраты.

  • Основная компонентная регрессия (ПЦР) можно рассматривать как способ получения низкоразмерных множеств функций из больших наборов переменных. Первый главный компонент данных в том, где наблюдаемое значение варьируется больше всего в направлении этой переменной. Другими словами, первый главный компонент представляет собой линию, наиболее близкую к установленным данным, которые могут быть оснащены P разными основными компонентами. Второй основной компонент представляет собой линейную комбинацию переменных, некоррелированных с первым основным компонентом и имеет наибольшую дисперсию при таком ограничении. Основная идея состоит в том, что основные компоненты могут захватывать максимальную дисперсию с использованием линейной комбинации данных в каждом взаимно перпендикулярном направлении. Используя этот метод, мы также можем получить дополнительную информацию от данных, сочетая эффекты коррелированных переменных, после того, как вся одна из коррелированных переменных должна быть отброшена в обычных методах наименьших квадратов.
  • Описанный выше метод ПЦР требует извлечения линейных комбинаций X для получения оптимальной характеристики предикторов. так какXВыводYнельзя использовать для определения направлений главных компонентов, эти комбинации (направление) извлекаются неконтролируемыми методами. который,Yне можетконтролироватьизвлечение главных компонентов, так что нет никакой гарантии, что эти направления являются оптимальным представлением предиктора, или что будет получен оптимальный результат предсказания (хотя это обычно предполагается).Частичные наименьшие квадраты(PLS) являетсяконтролироватьметод как альтернатива ПЦР. Подобно PCR, PLS также является методом уменьшения размерности, который сначала извлекает новый меньший набор признаков (линейная комбинация исходных признаков), а затем подгоняет исходную модель к новой с M признаками по методу наименьших квадратов линейной модели.

7 — Нелинейная регрессия:

В статистике нелинейная регрессия — это форма регрессионного анализа, в которой наблюдаемые данные моделируются с использованием функции нелинейной комбинации параметров модели (в зависимости от одной или нескольких независимых переменных). Он использует последовательное приближение, чтобы соответствовать данным. Вот несколько важных методов работы с нелинейными моделями:

  • ступенчатая функция, переменные являются действительными числами и могут быть записаны в виде конечных линейных комбинаций индикаторных функций интервалов. Неформальное объяснение состоит в том, что ступенчатая функция — это кусочно-постоянная функция, имеющая только конечную часть.
  • кусочная функция(кусочная функция) определяется множеством подфункций, каждая из которых определяется в определенном интервале области определения основной функции. Сегментация на самом деле является способом представления функции, а не характеристикой самой функции, но с дополнительными оговорками ее можно использовать для описания характера функции. Например,кусочно-полиномиальная функцияявляется функцией, которая полиномиальна в каждом подопределении, где каждый полином может быть другим.

  • сплайн— специальная функция, определенная кусочно полиномами. В компьютерной графике сплайн — это кусочно-полиномиальная параметрическая кривая. Сплайны обычно используются из-за простоты их построения, легкости и точности оценки, а также способности аппроксимировать сложные кривые посредством подбора кривых и интерактивного проектирования кривых.
  • обобщенная аддитивная модельпредставляет собой обобщенную линейную модель, в которой линейный предиктор линейно зависит от неизвестных гладких функций некоторых предикторных переменных, и его основная роль заключается в выводе этих гладких функций.

8 — Древовидный подход:

Методы на основе дерева могут использоваться для задач регрессии и классификации, в том числе иерархических или разделения пространства предикторов на несколько простых областей. Поскольку набор правил разделения для пространства предикторов можно представить в виде дерева, такие методы называютсяДрево решенийметод. Приведенные ниже методы представляют собой несколько разных деревьев, которые можно комбинировать для получения единого согласованного прогноза.

  • BaggingМожет уменьшить дисперсию прогнозов путем создания дополнительных данных из исходных данных (путем объединения и повторения нескольких фрагментов данных того же размера, что и исходные данные) для обучения. Прогностическая способность модели не может быть улучшена за счет увеличения обучающей выборки, а только за счет уменьшения дисперсии и тщательной корректировки прогнозов для получения желаемого результата.
  • Boostingэто метод вычисления выходных данных с использованием нескольких различных моделей и последующего усреднения результатов с использованием метода средневзвешенного значения. Объединив сильные и слабые стороны этих подходов, изменив формулу взвешивания, вы можете использовать другие и более точно настроенные модели, дающие хорошую прогностическую силу на более широком диапазоне входных данных.

  • алгоритм случайного лесаФактически, он очень похож на алгоритм бэггинга, который заключается в извлечении случайных выборок начальной загрузки из обучающей выборки. Однако в дополнение к бутстрап-выборкам для обучения одного дерева может быть извлечено случайное подмножество признаков; при бэггинге каждому дереву необходимо передать весь набор признаков. Поскольку выбор признаков является случайным, каждое дерево более независимо друг от друга, чем обычные алгоритмы мешков, что в целом приводит к лучшей прогностической эффективности (из-за лучшего компромисса между дисперсией и погрешностью). Скорость вычислений также выше, поскольку каждому дереву нужно изучить только подмножество функций.

9 — Машины опорных векторов:

Метод опорных векторов (SVM) — это широко используемый метод классификации для обучения с учителем. С точки зрения непрофессионала, он используется для поиска гиперплоскости (гиперплоскости, которая представляет собой линию в 2D-пространстве, поверхность в 3D-пространстве и гиперплоскость в многомерном пространстве), которая лучше всего разделяет два типа наборов точек. состоит в том, что гиперплоскость — это n-1-мерное подпространство n-мерного пространства). Принимая во внимание, что SVM представляет собой разделяющую гиперплоскость, которая сохраняет наибольший запас, поэтому, по сути, это проблема оптимизации с ограничениями, в которой интервал SVM максимизируется при ограничениях для идеальной классификации данных (устройство классификации жестких полей).

Точки данных, которые «поддерживают» гиперплоскость, называются «опорными векторами». На изображении выше закрашенный синий кружок и два закрашенных квадрата являются опорными векторами. В случаях, когда два класса данных не являются линейно разделимыми, точки данных будут проецироваться в пространство более высокого измерения, что делает данные линейно разделимыми. Задачи, содержащие точки данных нескольких классов, можно разложить на несколько задач бинарной классификации «один против одного» или «один против остальных».

10 — Неконтролируемое обучение:

До сих пор мы обсуждали только методы обучения с учителем, когда известны классификации данных, а опыт, предоставляемый алгоритму, представляет собой отношения между сущностями и их классификациями. Когда классификация данных неизвестна, необходимо использовать другой метод. Они называются неконтролируемыми, потому что им необходимо самостоятельно обнаруживать закономерности в данных. Кластеризация — это тип обучения без учителя, при котором данные делятся на кластеры на основе корреляций. Вот некоторые из наиболее часто используемых алгоритмов обучения без учителя:

  • Анализ главных компонентовПомогает создавать низкоразмерные представления наборов данных, определяя линейные связи между объектами с максимальной дисперсией и некоррелированными объектами. Этот метод уменьшения линейной размерности помогает понять скрытые взаимодействия переменных в неконтролируемом обучении.
  • Кластеризация k-средних: Разделите данные на k отдельных кластеров в зависимости от их расстояния от центра кластера.
  • Иерархическая кластеризация: Постройте многоуровневую иерархию кластеров, создав дерево кластеров.

Это базовое применение некоторых основных статистических методов, которые могут помочь руководителям и/или руководителям проектов по обработке и анализу данных лучше понять внутреннюю работу своих групп по анализу данных. На самом деле, некоторые группы специалистов по обработке и анализу данных запускают алгоритмы исключительно с помощью библиотек Python и R. Большинству из них даже не нужно думать об основах математики. Однако понимание основ статистического анализа может дать вашей команде лучший подход. Понимание мельчайших деталей может облегчить манипулирование и абстрагирование. Надеюсь, что это руководство по базовой статистике науки о данных дало вам хорошее понимание!

**Вы можете получить все слайды лекций и курсы RStudio из [мой источник Github] (GitHub.com/Глядя на Хан Хана и удивляясь 1…

Если вы обнаружите ошибки в переводе или в других областях, требующих доработки, добро пожаловать наПрограмма перевода самородковВы также можете получить соответствующие бонусные баллы за доработку перевода и PR. начало статьиПостоянная ссылка на эту статьюЭто ссылка MarkDown этой статьи на GitHub.


Программа перевода самородковэто сообщество, которое переводит высококачественные технические статьи из Интернета сНаггетсДелитесь статьями на английском языке на . Охват контентаAndroid,iOS,внешний интерфейс,задняя часть,блокчейн,продукт,дизайн,искусственный интеллектЕсли вы хотите видеть более качественные переводы, пожалуйста, продолжайте обращать вниманиеПрограмма перевода самородков,официальный Вейбо,Знай колонку.