Предыстория анализа данных
С всесторонней интеграцией компьютерных технологий в социальную жизнь взрывной рост сетевых данных привел людей к новой эре больших данных.
Итак, вопрос в том, как быстро получить ценные данные при таком большом количестве данных в базе данных?
Анализ данных может получить потенциально ценную информацию из массивных данных, чтобы помочь компаниям или отдельным лицам предсказать будущие тенденции и поведение.
Вывод: неважно, в какой отрасли вы работаете, мастерВозможности анализа данных, часто в своем постеБолее конкурентоспособный.
что такое анализ данных
Анализ данных — это процесс использования соответствующих методов статистического анализа для анализа большого количества собранных данных, извлечения из них полезной информации, формирования выводов и проведения детального исследования и обзора.
Цель анализа данных
Полезные данные будут извлечены из большого количества, казалось бы, неорганизованных информационных наборов данных, чтобы выяснить внутренние законы объекта исследования.
Классификация анализа данных
-
Описательный анализ данных
从一组数据中,可以摘要并且描述这份数据的集中和离散情形
-
Исследовательский анализ данных
从海量数据中找出规律,并产生分析模型和研究假设。
-
Подтверждающий анализ данных
验证科研假设测试所需的条件是否达到,以保证验证性分析的可靠性。
Сценарии применения анализа данных
Маркетинговые приложения
Получите личную информацию потребителей в виде членских карточек, чтобы дополнительно изучить покупательские привычки потребителей и выявить различные ценные целевые группы.
Медицинские приложения
Врачи следят за состоянием недоношенных детей и больных детей, записывая и анализируя сердцебиение ребенка, и делают прогнозы о неприятных симптомах, которые могут возникнуть в организме ребенка, что может помочь врачам лучше спасать детей.
приложения в сетевой безопасности
Новая система защиты от вирусов может использовать технологию анализа данных, чтобы установить потенциальную модель идентификации и анализа атак, отслеживать большой объем данных о сетевой активности и соответствующих режимах доступа, а также выявлять подозрительные шаблоны, которые могут помешать вторжению.
Применение в транспорте и логистике
Пользователи могут получать данные через бизнес-систему и систему GPS-позиционирования и использовать эти данные для построения модели прогнозного анализа условий связи, эффективно прогнозировать дорожные условия в реальном времени, условия логистики, транспортный поток и пропускную способность грузов, а затем пополнять запасы товаров в продвигать и формулировать стратегии управления запасами.
процесс анализа данных
Анализ данных можно условно разделить на следующие пять этапов:
четкая цель и идея | Сбор данных | обработка данных | анализ данных | Представление данных |
---|---|---|---|---|
Какую деловую проблему решить | Собирайте и интегрируйте данные | Очистка, обработка и организация данных | Исследуйте и анализируйте данные | Графическое отображение результатов анализа |
Причины выбора Python для анализа данных
При выборе Python для анализа данных основное внимание уделяется тому, что Python имеет следующие преимущества:
- Простой и отточенный синтаксис, подходящий для начинающих
- Имеет большое и активное научное компьютерное сообщество.
- Обладать сильными возможностями программирования общего назначения
- Универсальный язык в эпоху искусственного интеллекта
- Простота подключения к другим языкам
среда анализа данных
Здесь мы используемAnacondaсреда питона.
Мы рекомендуем новичкам в анализе данных установить Anaconda для обучения.
Anaconda — это версия выпуска, которая может легко получать и управлять пакетами, а также управлять средой унифицированным образом.
- Содержит множество популярных библиотек Python для науки, математики, инженерии и анализа данных.
- Полностью с открытым исходным кодом и бесплатно
- Для академического использования вы можете подать заявку на бесплатную лицензию
- Все платформы поддерживают Linux, Windows, Mac OS X
Установите Анаконду в Windows
Ссылка для скачивания выглядит следующим образом
Скачать с официального сайта:www.anaconda.com/download/
Загрузка со станции зеркала Цинхуа:Зеркала. Дыхание. Его четырехлетний план. Квота. Талант/анаконда/AR…
Нажмите «Далее», чтобы принять путь установки по умолчанию,
После установки найдите папку Anaconda3 в меню [Пуск] -> [Все программы] в левом нижнем углу системы, и вы увидите, что этот каталог содержит несколько компонентов.
Интерфейс домашней страницы Anaconda Navigator после ее успешного открытия показан на рисунке ниже.
Управление пакетами Python с помощью Anaconda
Anaconda интегрирует часто используемые пакеты расширений и может легко управлять этими пакетами расширений, например, устанавливать и удалять пакеты, которые все зависят от conda.
conda — это система управления пакетами с открытым исходным кодом и система управления средой, работающая в Windows, Mac OS и Linux для быстрой установки, запуска и обновления пакетов и их зависимостей.
- В системах Windows пользователи могут использовать команду Anaconda Prompt, чтобы проверить, установлена ли conda. Перед этим вам необходимо настроить переменную среды и добавить путь к каталогу сценария в каталоге anaconda в путь к переменной среды.
conda --version
Если вам нужен краткий обзор того, как управлять пакетами с помощью команды conda, вы можете ввести команду «conda -h» или «conda --help» в Anaconda Prompt, чтобы просмотреть справочную документацию.
-
Используйте команду list, чтобы получить информацию о пакетах, установленных в текущей среде.
После выполнения команды терминал отобразит имя пакета и номер версии, установленной в текущей среде.
conda list
- Используйте команду поиска, чтобы найти пакеты, доступные для установки
conda search --full-name 包的全名
В приведенной выше команде --full-name — это точный параметр поиска, за которым следует полное имя пакета.
- Если вы хотите выполнить установку в определенной среде, вы можете явно указать имя среды после команды установки.
conda install --name env_name package_name
В приведенной выше команде параметр env_name указывает имя среды, в которой установлен пакет, а параметр package_name указывает имя устанавливаемого пакета.
- Если вы хотите удалить пакет в указанной среде, вы можете использовать команду удаления, чтобы удалить его в указанной среде.
conda remove --name env_name package_name
Если вы хотите удалить пакет в текущей среде, вы можете использовать команду удаления, чтобы удалить его напрямую.
- Обновление всех пакетов в текущей среде можно выполнить с помощью следующей команды:
conda update --all
- Если вы хотите обновить только определенный пакет или несколько пакетов, вы можете напрямую добавить имя пакета после команды обновления и использовать пробелы для разделения нескольких пакетов.
conda update pandas numpy matplotlib
MINICONDA, которая представляет собой самую маленькую среду установки CODA, содержит только самые основные Python и Conda и соответствующие необходимые зависимости. Для пользователей со строгими требованиями к пространству MINICONDA является вариантом. Он включает в себя только самые основные библиотеки, а другие библиотеки должны быть установлены вручную.
Запустите Jupyter Notebook, который поставляется с Anaconda.
Откройте каталог Anaconda3 в меню «Пуск», найдите и щелкните «Jupyter Notebook», после чего появится окно запуска.
На этом этапе браузер может открыть любую ссылку в красном поле на следующем рисунке.
На следующем рисунке показан основной интерфейс Jupyter Notebook, открытый в браузере.По умолчанию открытый и сохраненный каталог — C:\Users\текущее имя пользователя.
Общие инструменты анализа данных
Сам Python не является неверным возможностями анализа данных, вам необходимо установить некоторые сторонние расширения для повышения его возможностей.
NumPy Pandas Matplotlib Seaborn NLTK
Эпилог
Как первая статья в этой колонке, эта статья сначала знакомит с основами, целью, процессом анализа данных и почему вы выбираете Python для анализа данных; затем она ведет вас к новой среде Python, Anaconda, чтобы научить вас, как установить и управлять пакетами Python; затем научу вас включать Jupyter Notebook и продемонстрирую базовое использование; наконец, я познакомлю вас с некоторыми распространенными инструментами анализа данных. Я надеюсь, что благодаря изучению этой статьи читатели смогут получить предварительное представление об анализе данных и подготовить среду разработки для изучения последующих глав.