Руководство по анализу данных — Приложение 1 (Ramsung об инструментах анализа данных)

анализ данных
Руководство по анализу данных — Приложение 1 (Ramsung об инструментах анализа данных)

В этом выпуске мы поговорим об инструментах и ​​небольшом кейсе, а в следующем выпуске поговорим об анализе базовых данных.

Руководство по анализу данных — Приложение 1 (Ramsung об инструментах анализа данных)

Давайте поговорим о программном обеспечении, связанном с анализом данных, и инструментах, которые будут использоваться в этой серии.


Оглядываясь назад на историю:Руководство по анализу данных, Север - Предисловие (01)Краткое введение в то, кто такие владельцы данных и чем занимаются дата-инженеры.Руководство по анализу данных, Север - Предисловие (03)Методология Решение проблемы, научный метод, а что дальше?Руководство по анализу данных North — основы (источники данных и профили)Необходимо знать первоисточник данных и примерную схему (распространение).Руководство по анализу данных North - Fundamentals (одна из основных операций с данными)Как компьютеры обрабатывают табличные данные и некоторые математические задачи начальной школы?


Photo by Kelvyn Ornettte Sol Marte on Unsplash

Официальный аккаунт WeChat: руководство по анализу данных

  • Простая классификация инструментов анализа данных

  • случай

  • KNIME

Простая классификация инструментов анализа данных

Любой человек с научным и инженерным образованием более или менее знаком с инструментами анализа данных. (Студенты класса гуманитарных наук могут войти в яму.)

Инструменты анализа данных можно условно разделить на три категории.

Первая категория ориентирована на запись, а не на анализ, например, Excel и базы данных попадают в эту категорию. Может быть, вы можете написать какой-нибудь VBA для выполнения некоторых основных операций с таблицами в Excel или написать несколько операторов SQL для выполнения статистики по данным в базе данных, но масштабируемость ограничена; вторая категория ориентирована на анализ, например SAS, SPSS. , Lingo, Orange, Knime, Pentaho, Rapidminer, Weka, R, Matlab, инструменты, связанные с Python, и даже команды Linux, sed, awk, достаточно гибкие, некоторые из этих инструментов с открытым исходным кодом, некоторые платные, сложные Степени также различаются; третья категория ориентирована на отображение и визуализацию. В этом плане хорошо поработали инструменты, ставшие популярными в последние годы, такие как Tableau, PowerBI, QlikView или некоторые панели данных.

Эти три категории не разделены полностью, но каждая имеет свою направленность и проникает друг в друга. Но конкретный инструмент для использования полностью зависит от того, чего вы хотите достичь.

случай

Некоторое время назад друг спросил меня, в чем разница между Microsoft PowerBI и Oracle Hypersion или TM1. Я не знаю, как работает Oracle, но это не имеет значения, если кто-то задает такой вопрос, то он не должен понимать свою настоящую проблему.

Основная причина, по которой я говорю это, заключается в том, что если друг уже понимает свои собственные потребности, то о сравнении программного обеспечения просто выполните поиск, Взяв приведенные выше конкретные вопросы в качестве примера, вы определенно можете найти «powerbi vs oracle hypersion», выполнив поиск , Ответить. Но когда он прочитал сравнительную статью и не смог ее понять, это означает, что то, что он увидел, не было ответом на его вопрос.С другой стороны, его настоящий вопрос был не тем, который он только что задал мне. (Что касается вопросов, см.Руководство по анализу данных — Предисловие (02))

(Мой друг занимается финансовым моделированием за границей, поэтому следующие отрывки смешаны с некоторым контентом, который не является китайским или английским. Если вы не знаете конкретных инструментов в диалоге, вы можете пропустить его и посмотреть, не влияя на ваше понимание. )

Сара: Он может в основном обрабатывать данные из разных систем и генерировать нужный отчет или информационную панель, автоматически выполняя сопоставление или очистку данных.

HaveF: На самом деле, подумайте об этом, это очень общая тема, которая включает в себя много контента. Она касается данных из разных систем, называется Интеграция данных. Очистка данных включает в себя анализ качества данных и управление данными или аналитику. Есть только подходящие платформы. для вас. Вам нужно провести собственное исследование. Я могу только дать указания. Вы должны увидеть, какое из них подходит именно вам. Частное облако и общедоступное облако — это разные решения. Если это конкретный сегмент, это зависит от конкретных деталей. Нужны ли инструменты в разных областях программирования, насколько сложно начать работу, как масштабируемость, как поддержка платформ больших данных и приемлема ли эффективность выполнения — все это необходимо рассматривать в соответствии с вашей собственной ситуацией.

Различные инструменты данных

Сара: Основная проблема состоит в том, чтобы сделать дашборд для анализа эффективности и затрат сотрудников. Но источник данных, необходимый для анализа, поступает из разных систем. Я могу использовать power BI для импорта данных для формирования окончательного дэшборда. Но потому что нет нет связи между системами, Как мониторить и время от времени обновлять мой дашборд? Я не могу каждый раз экспортировать новые данные, но мне приходится реэкспортировать их в систему, обновлять мою финансовую модель

HaveF: В вашем случае наиболее практичным способом является автоматизация процесса экспорта, но разве вы уже не подключили системы через power bi?

Сара: Но время от времени я не вижу обновленную панель мониторинга.Например, я буду обращаться к каждой системе, чтобы экспортировать источник данных в следующем месяце, а затем импортировать его в Power BI, чтобы сгенерировать результаты панели мониторинга за новый месяц. Когда я говорю это, это означает, что данные корпоративной системы постоянно меняются, а затем мои информационные панели меняются в любое время. Power BI в основном может импортировать, например, несколько листов Excel или файлов Word для сортировки. Я знаю что каждая система может подключиться к Excel, написав запрос. Все мои источники данных Excel формат в порядке

HaveF: power bi может напрямую подключаться к базе данных, верно? Этот шаг в Excel кажется излишним

Сара: Правда? Здорово иметь возможность подключиться к базе данных Вам нужен профессиональный ИТ для написания программы?

HaveF: как показано на рисунке, power bi может быть напрямую подключен к базе данных.

источник данных Power Bi Connect

Кто отвечает за то, откуда экспортируется ваш excel, спросите у кого угодно, даже база данных очень быстрая, не нужно писать специальную программу

Сара: Понятно, понятно, спасибо.


Мой друг думал, что этот вопрос может быть сложным, но, в конце концов, я не ожидал, что решение будет настолько простым (конечно, нужно время, чтобы узнать, как решить проблему, но важнее понять реальную проблему ).

Есть старая пословица:

Если у вас в руке молоток, все выглядит как гвоздь.

Когда у вас есть проблема, не спешите, не спешите искать молоток. Также вам понадобится не молоток, а отвертка. Хотя молоток хорош, он может решить вашу проблему, но вы не можете себе его позволить.

Photo by Sidney Pearce on Unsplash

KNIME

В этой серии ключевой инструмент, который будет использоваться, называется KNIME (/naɪm/, как и нож, k молчит), это мощный бесплатный инструмент анализа с открытым исходным кодом, разработанный Констанцским университетом в Германии. У него есть некоторые функции, которые требуют отдельной лицензии, но бесплатные функции достаточно эффективны для меня.

Сегодняшнее домашнее задание — найти это программное обеспечение, загрузить и установить его. Доступны версии для Win, Mac и Linux.

отвечать

Отзыв, ретвит или благодарность?