Специалисты по данным — самая сексуальная профессия 21 века.
задний план
Это внутренний курс нашей компании по интересам к обучению, и он обобщает его, чтобы углубить и закрепить эффект обучения.
1. Что такое наука о данных
1.1 Наука о данных
Наука о данных — это дисциплина, которая использует данные для изучения знаний, и ее цель — производить информационные продукты путем извлечения из данных ценных частей. Он сочетает в себе теорию и методы из многих областей, включая прикладную математику, статистику, распознавание образов, машинное обучение, визуализацию данных, хранение данных и высокопроизводительные вычисления. Наука о данных помогает неспециалистам понять проблемы, используя множество релевантных данных. Технологии науки о данных могут помочь нам правильно обрабатывать данные и помочь нам в исследованиях и исследованиях в области биологии, социальных наук, антропологии и других областях. Кроме того, наука о данных также чрезвычайно полезна для конкуренции в бизнесе.
Компоненты науки о данных можно увидеть на диаграмме Венна ниже. Он включает навыки работы с компьютером, математические и статистические знания, а также значительный опыт.
Вам не обязательно иметь степень в области компьютерных наук, но данные — это товар, которым торгуют в электронном виде, поэтому вам необходимо обладать некоторыми навыками разработки. Эти навыки включают в себя: знание Linux, возможность манипулировать текстовыми файлами в командной строке, понимание векторных операций, алгоритмическое мышление — все эти навыки нужны специалисту по данным.
После того, как вы получили и очистили данные, следующим шагом будет извлечение из них полезных знаний. На этом этапе вам нужно будет применить соответствующие математические и статистические методы. Это не значит, что вы станете кандидатом наук по статистике, но вам необходимо знать такие вещи, как обычная регрессия методом наименьших квадратов, и как интерпретировать ее результаты.
Третьим ключом является наличие знаний в профессиональной сфере. Если анализ данных — это просто ваше хобби, то достаточно просто возиться с математикой, машинным обучением и статистикой. Но если вы работаете в области науки о данных, это требует задавать вопросы из профессионального опыта и проверять их с помощью данных и статистических методов, чтобы действительно обнаруживать и накапливать знания.
Наконец, помните об опасной зоне хакерских навыков и опыта. Здесь описаны те «полведра экспертов по водным ресурсам», которые знают, как получить правильные данные и даже как сделать линейную регрессию в R и сообщить коэффициенты, но они не понимают, что эти коэффициенты на самом деле означают. Опасно выполнять анализ данных без понимания лежащей в его основе статистической значимости, и именно здесь анализом данных часто злоупотребляют.
1.2 Специалисты по данным
Специалист по обработке и анализу данных — это профессионал, который собирает, анализирует и интерпретирует большие объемы данных, чтобы определить, как помочь бизнесу улучшить свою деятельность и получить конкурентное преимущество перед конкурентами.
Роль специалиста по данным является ответвлением роли статистика и включает использование передовых аналитических методов, включая машинное обучение и прогнозное моделирование, для получения информации, выходящей за рамки статистического анализа. Спрос на навыки работы с данными значительно вырос в последние годы, поскольку предприятия стремятся собирать полезную информацию из огромных объемов структурированных, неструктурированных и полуструктурированных данных (вместе именуемых большими данными), которые производятся и собираются большим количеством предприятий. .
1.3 Черты, которые нужны специалистам по данным
-
любопытство— Специалисты по данным склонны видеть мир вокруг себя так, как исследуют данные.
-
способность решать проблемы— Преобразование больших объемов разрозненных данных в структурированные данные для анализа, а также для выявления богатых источников данных, интеграции других, возможно, неполных источников данных и очистки результирующего набора данных.
-
Способность быстро учиться— В новой конкурентной среде задачи постоянно меняются, и постоянно поступают новые данные. Специалисты по данным должны помогать лицам, принимающим решения, ориентироваться в различных видах анализа, от специального анализа данных до непрерывного анализа взаимодействия данных.
-
способность трансформации проблемы— Специалисты по данным сталкиваются с техническими узкими местами, но способны находить нестандартные решения.
-
Деловое мастерство— Когда они что-то обнаруживают, сообщают о своих выводах и предлагают новые направления бизнеса.
-
Демонстрировать коммуникативные навыки— Они творчески представляют визуальную информацию и делают найденные закономерности четкими и убедительными.
В целом способность получать данные, понимать их, обрабатывать, извлекать из них ценность, визуализировать их и сообщать результаты другим людям станет чрезвычайно важным навыком в следующем десятилетии.
Наука о данных
2.1 Что такое данные?
Данные — это наше описание мира, в котором мы живем, и в дополнение к нашим наиболее распространенным числам, включая текст, изображения, голос и видео, это все типы данных.
2.2 Зачем использовать данные?
Данные в компьютерном мире состоят из строк двоичных чисел, а для нас они просто куча холодных данных, которые ничего не могут нам сказать.
данные: Точно так же, как набор данных о температуре ниже, прежде чем я не расскажу вам контекст данных, вы можете подумать, что это запись температуры пациента с высокой температурой. По сути, это записи измерения температуры группы уток, все в пределах нормы. Как упоминалось выше, данные не могут нам ничего сказать без контекста.
41,5 ℃ | 40,6 ℃ | 41,1 ℃ | 39,9 ℃ | 41,9 ℃ | 40,9 ℃ |
---|---|---|---|---|---|
Информация: Информация обычно относится ко всему контенту, передаваемому человеческим обществом. Люди могут понимать и преобразовывать мир, получая и распознавая различную информацию в природе и обществе, чтобы различать разные вещи. Отличие информации от знания в том, что люди могут ежедневно собирать всевозможную информацию, но эта информация не обязательно правдива и достоверна.Ложная информация, очевидно, не может стать знанием.Знанием может называться только информация, признанная обществом. Соберите эти общепризнанные знания, чтобы создать свой собственный свод знаний.
знание: Благодаря нашим собственным знаниям мы можем судить о достоверности некоторой информации, например: Прохожий А сообщает вам, что завтра температура будет 200 ℃, что явно не заслуживает доверия;
Еще один каштан: руководитель фруктово-овощной компании сказал, что в этом году производительность вырастет на 50% по сравнению с прошлым годом, и, возможно, новые сотрудники будут ошеломлены, когда услышат этот показатель производительности. Однако старые сотрудники сделали молчаливый расчет.В прошлом году из-за воздействия стихийных бедствий производительность компании резко упала по сравнению с предыдущим годом.В этом году были обильные дожди и не было стихийных бедствий.Достичь этого несложно. Цель. Основываясь на своей системе знаний в плодоовощной отрасли и контексте катастрофы и сокращения производства в прошлом году, старые сотрудники пришли к противоположному выводу от новых сотрудников.
мудрость: Данные, информация и знания, упомянутые ранее, уже произошли или существовали, и мудрость состоит в том, чтобы добывать информацию, скрытую в данных, и использовать нашу систему знаний для предсказания неизвестных вещей, и это также самая ожидаемая часть.
2.3 Шкала измерения данных
Ссылаясь на приведенную ниже таблицу, легче понять классификацию и порядок. И фиксированное расстояние распространено в градусах Цельсия и нашей эры.Вы не можете сказать, что температура 21 ℃ в два раза выше температуры 10 ℃, вы можете только сказать, что температура 21 ℃ на 11 ℃ выше, чем 10 ℃, и вы можете только выразить их расстояние. Можно сказать, что фиксированное соотношение является кратным, и количество, вес и другие данные могут быть измерены с использованием метода фиксированного отношения.
шкала измерения | Функции | Доступные математические операции | пример | Режим отображения |
---|---|---|---|---|
номинальная шкала | По типу нет различия между высоким и низким | =, != | Пол, категория продукта, способ доставки | Гистограмма, круговая диаграмма, столбец, радар |
порядковая шкала | Сопоставимо, есть уровни | =, !=, >, < | Рейтинг продукта, рейтинг доставки, рейтинг пользователей | коробочный сюжет |
интервальная шкала | Интервал тот же, нет абсолютной точки 0 | =, !=, >, <, +, - | Температура по Цельсию, год нашей эры | линейный график |
Шкала соотношения | Есть абсолютные 0 баллов, которые можно назвать несколькими кратными | =, !=, >, | Кельвин температура, вес, количество | полно …… |
2.4 Временное измерение данных
Для различных потребностей анализа данные обычно можно анализировать в двух временных измерениях:
- Раздел времени: в определенный момент времени данные заказа пользователя.
- Временные ряды: данные о заказах определенного пользователя за последний год.
2.5 Центральная тенденция и разброс данных
- Режим: наиболее часто встречающийся
- Медиана: число в середине после сортировки
- Среднее значение: среднее всех чисел
- Дисперсия: сумма квадратов отличий всех значений от среднего, деленная на количество значений.
- Стандартное отклонение: квадратный корень из дисперсии
Следующий набор данных225
, медиана225
, среднее значение225.10
, стандартное отклонение равно21.07
.
225, 232, 232, 245, 235, 245, 270, 225, 240, 243,
217, 195, 225, 185, 200, 198, 197, 210, 271, 240,
220, 230, 215, 252, 225, 220, 206, 192, 227, 236
2.5 Распространение данных
- нормальное распределениеПри центральности пик нормальной кривой находится в центре, т. е. там, где находится среднее.Например, данные о росте и весе людей соответствуют кривой нормального распределения, и чем ближе к среднему росту, тем больше количество людей.
- распределение мощностиПарето, итальянский экономист 19 века, изучал статистическое распределение личных доходов и обнаружил, что доход немногих людей намного больше, чем у большинства, и предложил знаменитое правило 80/20, то есть 20% населения приходится 80% доходов общественного богатства. Данные соответствуют распределению мощности.
- распределение индексаНа первый взгляд график очень похож на степенное распределение, но на самом деле они очень разные.Экспоненциальное распределение сходится намного быстрее, чем степенное распределение. Экспоненциальное распределение является непрерывным распределением вероятностей. Экспоненциальные распределения можно использовать для представления временного интервала между независимыми случайными событиями, например временного интервала между входом пассажиров в аэропорт.
3. Анализ данных
3.1 Правда о восстановленных данных
-
Метаданные — есть ли контекст сцены?
-
Отсутствующие данные — были ли они собраны? Полны ли собранные данные?
-
Аномалия данных - Судя по знанию данных, сбор данных правильный?
-
Это то, что вы хотите?
3.1 Установка шагов анализа данных
А. Поставьте цель анализа: проанализировать качество работы за последние 6 месяцев.
б) Показатели, влияющие на цель: количество задач, сложность задачи, показатель успешности задачи.
в) Проанализируйте тип каждого индикатора: количество задач относится к типу с фиксированным соотношением, сложность — к типу с фиксированным соотношением, а показатель успешности — к типу с фиксированным соотношением.
г. Найдите формулу, по которой показатель влияет на цель: количество задачсложность задачиКоэффициент успешности миссии.
д. Проверьте полученные результаты.
4. Отображение данных
4.1 Демонстрация ошибок
- Средняя оценка пользователей нашего логистического брата составляет 4,57.
- Жители Шанхая самые счастливые, средний ежемесячный доход семьи составляет 50 000 юаней.
- Оценки Сяомина в средней школе Юцай самые высокие в городе, поэтому качество преподавания в средней школе Юцай очень хорошее.
4.2 Правильная демонстрация
- Пользователи оценили нашего брата-логиста больше всего на 5 баллов, что составляет 81%.
- Жители Шанхая самые счастливые, средний месячный доход всех домохозяйств составляет 9 200 юаней, а мода — 9 000 юаней.
- Средний класс учеников средней школы Юцай занимает первое место в городе, поэтому качество обучения в средней школе Юцай очень хорошее.
резюме
В этом курсе необходимо освоить не только теоретические знания, но и изменение мышления, от «я думаю» или «догадываюсь» к «Исходя из приведенных аргументов, я сужу».
Я продолжу писать некоторые углубленные знания позже, когда у меня будет время.