Автор: Шреяс Рагхаван
Перевод: Лао Ци
Рекомендации по книгам, связанным с этой статьей: "Подготовка данных и проектирование признаков"
Эта книга была опубликована и распространена издательством Electronic Industry Press по адресу:Электронная промышленность Пресс Флагманский магазин Tmall
Не так давно бизнесмены обращались к астрологам, чтобы предсказать, заработают ли они деньги в следующем году.Хотя это необоснованно, а результаты неопределенны, если вы следуете советам экспертов при принятии решений о своей деловой практике, каковы разницы? Сейчас все по-другому, мы меняемся, и теперь можно делать прогнозы на основе фактов и цифр.
Мы живем в мире больших данных. Когда вы идете в магазин Domino, чтобы заказать пиццу, они сначала попросят ваш номер мобильного телефона. Из этого номера мобильного телефона они могут извлечь такую информацию, как ваш адрес, историю покупок и т. д. , но ограничивается ли он перечислением этих данных? Или мы можем что-то сделать с этими данными? Это работа специалиста по данным.
Теперь давайте рассмотрим некоторые инструменты для анализа данных.
-
SAS, сокращение от «Система статистического анализа», может использоваться для расширенного анализа, управления данными, бизнес-аналитики. Это лицензионное программное обеспечение, разработанное NCSU (Университетом штата Северная Каролина) с 1966 по 1976 год, и до сих пор широко используется, особенно это используется компаниями из списка Fortune 500.
-
Язык R — это язык высокого уровня с открытым исходным кодом, который предоставляет множество аналитических и статистических модулей, включая множество библиотек с открытым исходным кодом, а основные операции реализованы в интерфейсе командной строки.
-
Python — мой личный фаворит. Python — это революционный язык, который будет использоваться в этой статье. Это язык программирования высокого уровня, изобретенный Гвидо Ван Россумом, с открытым исходным кодом, и каждый день создается множество библиотек. Python — идеальный язык программирования, если вы планируете сделать карьеру в области машинного обучения и искусственного интеллекта.
Теперь мы рассмотрим применение Python в науке о данных.
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
%matplotlib inline
Здесь мы представили три основные библиотеки. Около 90% ваших проектов будут использовать эти три библиотеки. Каковы их функции?
- Numpy: эта библиотека реализует множество математических функций, таких как умножение матриц, транспонирование и т. д.
- Pandas: очень важная библиотека, такая как загрузка наборов данных, создание объектов DataFrame, Pandas может делать все, что вы хотите, с точки зрения анализа и прогнозирования.
- %matplotlib inline: Напишите это предложение, чтобы вставить созданную визуализацию в Jupyter.
train = pd.read_csv('train.csv')
Выше мы загрузили набор данных,pdправдаpandasпереименовать (import pandas as pd),read_csvэто функция в пандах,train.csvявляется существующим файлом. С помощью приведенной выше команды файл успешно загружен в текущую среду Python, создав объект DataFrame.
train.head()
Что такое голова? Разве это не вершина человеческого тела? Для пандheadФункция состоит в том, чтобы показать нам первые несколько записей в объекте DataFrame, а первые 5 записей отображаются по умолчанию.
еслиhead(20)Он вернет первые 20 записей, разве это не интересно?
Мы также можем использоватьtail()Просмотр последних 5 записей (по умолчанию 5).
Нижеhead()Выходной результат:
На данный момент из набора данных DataFrame получены первые 5 записей.
Далее, важно, чтобы вы понимали набор данных, с которым имеете дело, например размер, форму и описательную статистику, которые очень полезны для дальнейшей обработки данных, то есть мы должны понимать набор данных (Примечание:Этот контент более подробно объясняется в книге «Подготовка данных и проектирование функций», см. ), потому что есть несколько наборов данных, которые очень велики, их обработка — настоящая боль, нам нужно найти в них полезную информацию и отсеять ненужные, что звучит просто, но на самом деле это сложно сделать.
Как видно из вывода, данные, с которыми мы работаем, теперь имеют 891 строку и 12 столбцов, всего 10692 данных.
Давайте еще раз посмотрим на основную статистику:
Представленные здесь статистические данные, такие как подсчеты, средние значения, процентили, стандартные отклонения и т. д., очень важны, когда мы имеем дело с финансовыми данными или изучаем взаимосвязь между данными.
Двигаясь дальше, мы хотим реализовать визуализацию данных, которая является наиболее важным навыком в науке о данных и должна быть освоена. Ранее я импортировал matplotlib, очень широко используемую библиотеку для визуализации данных, если поискать, то можно найти и другие библиотеки, но matplotlib очень популярен.
Самое важное для специалиста по данным — знать, как это выразить, поэтому давайте обсудим это, а затем продемонстрируем код.
способ выражения
Несколько вещей, которые нужно знать о визуализации данных:
- Сколько переменных должно отображаться на одном графике?
- Содержит ли точка данных одну часть информации или несколько?
- Показать данные во времени или сгруппировать их?
Это повлияет на эффект значка.
Изображение выше помогает нам понять, когда и какой тип визуализации использовать.
Для обучения визуализации данных приведенная выше диаграмма очень информативна. Многие компании хотят рассказать нам убедительные истории с помощью данных.
Инструменты визуализации, такие как информационные панели, созданные Tableau, PowerBI и т. д., могут рассказать истории из наших данных.
Теперь мы рассмотрим, как визуализировать данные с помощью matplotlib:
Matplotlib был представлен ранее и имеет псевдоним plt. Начиная с первой строки, с параметромfigsizeУстановите размер значка, обычно мы можем использовать значение по умолчанию. Далее вернитесь к иконке возраста.
Мы можем установить метки,xlableозначает ось x,ylableозначает ось Y,titileИспользуется для установки названия значка.
Из диаграммы мы можем получить некоторую информацию из данных.Можем ли мы сделать следующий вывод?
- Молодые люди больше на палубе.
- Пожилых людей очень мало.
- 22 года максимум.
- 79-летний мужчина также путешествует.
Мы можем сделать вывод о многом из диаграммы.
Конечно, мы также можем использовать этот набор данных для создания других типов статистических графиков.
Был ли человек спасен или нет, определяется в данных бинарным образом, что мы и изучим ниже, используя для прогнозирования статистические модели.
Давайте продолжим и с помощью компьютера предскажем, будет ли спасен пассажир, опираясь на предыдущие данные.
Алгоритмы машинного обучения
До сих пор мы загружали данные, визуализировали данные и делали выводы из данных, теперь мы увидим, какой алгоритм можно использовать для прогнозирования.
В машинном обучении есть два типа алгоритмов:
- Обучение с учителем: если в данных есть столбец меток, можно использовать обучение с учителем, и машина будет искать метку, соответствующую данным.
- Обучение без учителя: обучение без учителя используется, когда нет меток, и машина будет кластеризовать данные и находить взаимосвязь между данными.
Типичным примером контролируемого обучения является регрессия, а байесовское — типичный пример обучения без учителя.
Однако для данных в этой статье мы намерены опробовать их с помощью логистической регрессии. Как это сделать?
Логистическая регрессия может помочь нам предсказать, является ли метка данных истинной или ложной. Основной процесс заключается в том, чтобы ввести заданные данные в машину, затем машина использует модель регрессии для расчета и, наконец, сообщает нам результат в двоичной форме.
Согласно Википедии, логистическая регрессия или логит-регрессия, логит-модель — это регрессионная модель, зависимая переменная которой является категориальной. Зависимая переменная в этой статье выражена в двоичной форме, то есть берутся только два числа: «0» или «1». мертвые или здоровые/больные и т. д. Если зависимая переменная представляет собой категориальные данные с более чем двумя значениями, можно использовать множественную логистическую регрессию. Если упорядочены значения нескольких типов, можно использовать порядковую логистическую регрессию. В экономике логистическая регрессия является примером модели, которая отвечает на качественные или дискретные проблемы.
Итак, что нам дает здесь логистическая регрессия?
У нас уже есть столбцы, представляющие спасенные ситуации в двоичной форме, и это больше не проблема. Однако нам нужно изменить значения столбца гендера на 1 и 0, чтобы мы могли предсказать, будет ли человек спасен или нет, в зависимости от пола.
Нужно импортировать библиотеку sklearn, sklearn очень мощный, это не просто статистический инструмент.
Выполните следующие действия:
from sklearn.linear_model import LogisticRegression
Импортируйте модуль логистической регрессии из библиотеки sklearn.
Чтобы использовать логистическую регрессию, вам сначала нужно иметь два набора данных:
- тренировочный набор: используется для обучения модели
- Набор тестов: обычно небольшого размера, используется для тестирования моделей машинного обучения.
После преобразования пола во вторичную форму можно использоватьLogisticRegressionМодель предсказывает результат.
Во-первых, мы берем столбец «Выжившие» в обучающем наборе как результат модели логистической регрессии.
Для этого набор данных был разделен на обучающую и тестовую выборки.
Вот пошаговый взгляд на описанный выше процесс:
- Возьмите столбец «Выжившие» в качестве метки, то есть вывода. data_train — это входные обучающие данные, которые не содержат столбца Survived.
- Затем введите sklean и создайте экземпляр логистической модели.
- Затем, чтобы обучить модель, компьютер пытается найти шаблон, а затем использует эту модель для прогнозирования заданных данных.
- У нас есть данные, называемые тестовым набором, в котором нет столбца Survived. Далее используется обученная модель для прогнозирования этих данных.
Выше описан процесс того, как компьютер делает прогнозы посредством обучения.Конечно, есть и другие модели.В будущем у нас будет возможность представить методы оценки моделей, такие как оценочные баллы, матричные баллы и т. д.
Надеюсь, эта статья вдохновит вас. В публичном аккаунте WeChat «Laoqi Classroom» также есть много статей о науке о данных и машинном обучении для справки учащимся.
Оригинальная ссылка:к data science.com/how-to-beg я…
Найдите общедоступный номер технических вопросов и ответов: класс Лао Ци
Ответ в публичном аккаунте:Лао Ципросматривать все статьи, книги, курсы.
Если вы считаете, что это выглядит хорошо, ставьте лайк и вперед/сильно>