Анализ данных веб-сайта (4) — Типы источников данных

сбор данных

Типы источников данных для операций на основе данных включают файлы данных, базы данных, API-интерфейсы, потоковые данные, внешние общедоступные данные и другие источники.

1. Файл данных

Файл данных — это файл, в котором хранятся данные.В широком смысле любая информация, хранящаяся в файле, может называться данными, в узком смысле — структурированные записи данных, хранящиеся в цифровом или текстовом виде в файле данных. Данные в этом разделе относятся к последним.

Большинство структурированных файлов данных поступают из баз данных, например детали заказов с 04.01.2017 по 21.10.2017 экспортируются из MySQL и сохраняются в виде CSV-файлов; также есть рабочие процессы или возвращаемые результаты из систем или инструментов, например Windows. Результаты распознавания текста версии Tesseract будут храниться в текстовом файле txt. Общие форматы файлов данных включают txt, csv, tsv, xls, xlsx и т. д., а также нетрадиционные форматы данных, такие как xml, html, doc и sql. Формат файла зависит от потребностей обработки данных, а также ограничен форматом экспорта исходной системы.

На следующем рисунке показаны форматы данных, которые может экспортировать MySQL 5.0.

В большинстве случаев txt (любой указанный разделитель), cvs (файл данных с разделителями-запятыми), tsv (файл данных, разделенный табуляцией) являются наиболее часто используемыми форматами файлов данных. Когда размер файла данных ниже уровня 100 мегабайт, вы можете использовать такие инструменты, как Excel, чтобы открыть его; когда размер файла данных находится на уровне 100 мегабайт, рекомендуется использовать Блокнот для открытия; когда размер файла данных на уровне G для открытия рекомендуется использовать UltraEdit.

2. База данных

База данных (DataBase) — это хранилище, которое организует, хранит и управляет данными в соответствии со структурой данных. Базы данных широко используются в CMS (система управления контентом), CRM (система управления взаимоотношениями с клиентами), OA (автоматизация офиса), ERP (планирование ресурсов предприятия), финансовая система, DSS (система поддержки принятия решений), хранилище данных и витрина данных, продажи и управление запасами, управление производством, управление складом и другие бизнес-операции.

Основные приложения базы данных включают транзакционную работу, такую ​​как определение данных, хранение, добавление, удаление, обновление и запрос; контроль полномочий данных, поддержание качества данных, гетерогенные базы данных и многосистемная связь и взаимодействие. Базы данных подразделяются на реляционные базы данных и нереляционные базы данных (также известные как базы данных NoSQL) по типу. Реляционные базы данных очень распространены на предприятиях и более популярны на традиционных предприятиях.Обычные реляционные базы данных включают DB2, Sybase, Oracle, PostgreSQL, SQL Server, MySQL и т. д. Сценарии появления больших данных можно разделить на следующие категории в зависимости от приложения. сценарии и структуры:

  • База данных "ключ-значение" для высокопроизводительного одновременного чтения и записи: Преимущество состоит в том, что она имеет чрезвычайно высокую производительность одновременного чтения и записи и высокую скорость поиска Типичными представителями являются Redis, Tokyo Cabinet и Voldemort.
  • База данных документов для больших документов: Преимущество в том, что требования к данным не являются строгими, и нет необходимости заранее определять и поддерживать структуру таблицы.Типичные представители — MongoDB и CouchDB.
  • Столбчатая база данных, ориентированная на масштабируемость: преимуществами являются высокая скорость поиска, сильная масштабируемость и распределенное расширение для адаптации к увеличению объема данных и изменениям в структуре данных, типичными представителями являются Cassandra, HBase, Riak.
  • База данных графов, ориентированная на структуру графа: преимущество заключается в том, что она использует алгоритмы, связанные со структурой графа, для удовлетворения конкретных потребностей в обработке данных, таких как поиск кратчайшего пути, реляционный запрос и т. д. Типичными представителями являются Neo4J, InfoGrid и Infinite Graph.

3. API

API (Application Programming Interface) — это интерфейс прикладного программирования. API в операциях на основе данных обычно делятся на API-интерфейсы служб и API-интерфейсы данных.

API-интерфейсы служб могут реализовывать определенные функции, вызывая API-интерфейсы на основе предопределенных правил. Например, на веб-сайте можно создать картографическое приложение с богатыми функциями и сильной интерактивностью, вызвав API-интерфейс Baidu Map JavaScript. функция).

API данных возвращает данные (или файлы данных) в определенном формате, отправляя запрос данных на сервер с использованием определенного синтаксиса. Например, получить записи данных, соответствующие определенным критериям, отправив запрос в Google Analytics Analytics Reporting API V4.

API-интерфейсы широко используются для взаимодействия с несколькими системами и платформами как внутри предприятия, так и за его пределами. Формат данных, возвращаемый API, в основном представляет собой формат JSON или XML. JSON — это облегченный формат обмена данными, созданный популярным языком программирования JavaScript и широко используемый для взаимодействия с веб-данными. Формат JSON лаконичен и понятен по структуре и использует формат пар ключ-значение (Ключ:Значение) для хранения объектов данных. Key — это свойство объекта данных, а Value — соответствующее значение свойства объекта данных. Например, «пол»: «мужской» — это структура данных «ключ:значение». Пример данных формата JSON выглядит следующим образом:

{
    "category": { 
      "name": "电脑", 
      "brands": {
            "brand": [ 
                "DELL", "THINKPAD" 
                ] 
            } 
    } 
}

XML — это расширяемый язык разметки, обеспечивающий унифицированный способ описания и обмена структурированными данными, который не зависит от приложения или поставщика.Это очень зрелый и мощный формат данных. Как и JSON, XML обеспечивает большую расширяемость, и создатели API могут использовать их для создания собственных структур данных. Пример данных в формате XML выглядит следующим образом:

<?xmlversion="1.0"encoding="utf-8"?>
<category>
    <name>电脑</name><brands>
        <brand>DELL</brand>
        <brand>THINKPAD</brand>
    </brands>
</category>

4. Потоковые данные

Потоковые данные относятся к потокам больших данных, которые обрабатываются в реальном или близком к реальному времени. Обычная обработка потоковых данных использует такие платформы, как Spark, Storm и Samza, которые могут выполнять задания от миллисекунд до нескольких секунд и используются для обработки срочных сценариев, таких как онлайн-системы персонализированных рекомендаций, сбор и анализ поведения пользователей веб-сайтов в режиме реального времени. , Анализ журналов машин IoT в режиме реального времени, борьба с мошенничеством в режиме реального времени, идентификация ненормального человека в реальном времени и т. Д., Области применения сосредоточены в Интернете в реальном времени, мобильном Интернете, Интернете вещей и т. Д.

В зависимости от объектов данных потоковые данные можно разделить на две категории:

Первая категория — это потоки данных о поведении пользователей.Поток данных о поведении пользователей — это поток данных, генерируемый вокруг «людей», включая поток данных, генерируемый пользователями, которые просматривают, ищут, комментируют, делятся, торгуют и работают во внешних Weibo и WeChat на веб-сайтах и ​​в приложениях. Платформу сбора данных о поведении пользователей можно разделить на веб-станции, мобильные станции и приложения (включая iOS, Android, Windows и т. д.). Веб-сайты и мобильные приложения, разработанные на основе HTML5, поддерживают сбор JS-скриптов, Wap-сайты, разработанные ранее, не поддерживающие JS (сейчас их в принципе очень мало), используют метод NoScript, то есть жесткое изображение одного пикселя для отслеживания данных. SDK — это специальный метод и платформа для обеспечения сбора данных для APP. Эти три метода могут удовлетворить текущие потребности в сборе всех данных о поведении пользователей в Интернете.

Вторая категория — поток машинных данных.Поток машинных данных — это поток данных, генерируемый вокруг «вещей», включая все данные, генерируемые в процессе производства, производства, применения, мониторинга и управления машинами, такие как журналы работы машин, данные мониторинга датчиков, данные аудиоколлектора и изображения мониторинга. видео, географические данные GPS и т. д. Поток машинных данных обычно концентрируется в процессе интеллектуальной эксплуатации и управления такими отраслями, как Индустрия 4.0 и умные фабрики. Поток машинных данных играет роль сбора в реальном времени атрибутов целевого объекта, состояний, поведения, сигналов и других данных.

5. Внешние публичные данные

Внешне общедоступные данные относятся к данным, которые являются общедоступными для любой третьей стороны.

Существует множество внешних открытых источников данных и каналов, необходимых для работы с данными, и наиболее распространенными из них являются:

  • Публичные данные, предоставляемые правительством и соответствующими агентствами, например, ежемесячные данные по ИПЦ, предоставляемые Национальным бюро статистики;
  • Конкуренты добровольно раскрывают данные, такие как данные, опубликованные на пресс-конференциях, в Интернете и т. д.;
  • Статистические и информационные данные, предоставленные отраслевыми ассоциациями или соответствующими организациями-платформами, например, данные, опубликованные в отчетах об отраслевых исследованиях, предоставленных iResearch;
  • Данные, относящиеся к бизнес-операциям, раскрытые сторонними организациями или отдельными лицами, например данные о поставщиках и клиентах конкурентов.

6. Другие

В некоторых сценариях существуют другие источники данных, используемые в операциях с корпоративными данными, например данные о продуктах и ​​клиентах, полученные с помощью опросных анкет, данные, приобретенные непосредственно на сторонних платформах, и интерактивные данные, полученные в результате сотрудничества с другими производителями. Так как таких сценариев относительно немного и они не являются основными источниками сбора данных для предприятий, они не будут здесь подробно рассматриваться.

Категории