Прежде всего, большие данные отражаются в больших данных.
В 2011 году общий объем данных, хранящихся в интернет-индустрии Китая, достиг 1,9 ЭБ (1 ЭБ-байт эквивалентен 1 миллиарду ГБ). В 2011 году общий объем данных, созданных и реплицированных по всему миру, составил 1,8 ЗБ (1,8 трлн ГБ). В 2015 году общий объем данных, созданных и реплицированных по всему миру, достиг 8,6 ЗБ. В 2020 году объем данных, хранящихся в электронных устройствах по всему миру, возрастет до 40 ЗБ.
Откуда же берутся все эти огромные данные?
С ускорением глобальной оцифровки и создания сетей, а также применением Интернета во всех сферах жизни объем накопленных данных увеличивается. Все эти данные поступают из фрагментов нашей повседневной жизни, которые собираются в BIGDATA.
Каковы характеристики больших данных?
Большие данные — это не только данныемассивный, но и включаетускорить,диверсификацияиценность.
Объем — большое количество
По оценкам IDC, данные растут со скоростью **50%** в год, что означает удвоение каждые два года (Закон Мура для больших данных)
Скорость — быстро
1 второй закон: то есть огромное количество данных должно быть1 секундаПосле завершения внутренней обработки будет создан соответствующий бизнес.ценность. Это также принципиально отличается от традиционных методов интеллектуального анализа данных.
Разнообразие - Разнообразие
Большие данные создаютсяструктурированные и неструктурированныесостоит из данных
- 10% структурированных данных, хранящихся в базах данных
- 90% неструктурированных данных, они тесно связаны с человеческой информацией
Различные типы неструктурированных данных: электронные письма, видео, Weibo, звонки с мобильных телефонов, переходы на веб-страницы и т. д.
Значение — значение
Низкая плотность стоимости и высокая коммерческая ценность. При постоянном непрерывном мониторинге данные, которые могут быть полезны всего секунду-две, имеют большую ценность для бизнеса.
Что могут большие данные?
Большие данные — это новая возможность
То, что он представляет, представляет собой совершенно отличный от традиционных "малых данных" образ мышления. Он не требует здесь точных ответов, но требует способности мышления на макроуровне. Отдельные данные не имеют ценности, но все больше и больше по мере накопления данных количественные изменения приведут к качественным изменениям. Эта новая возможность имеет преимущества, с которыми не может сравниться традиционный анализ данных и хранение данных.От данных на уровне МБ до данных на уровне петабайтов требуемое хранилище и вычисления требуют полной реконструкции с нижнего уровня, что представляет собой новую возможность.
применение больших данных
Благодаря анализу большого количества данных мы можем предсказать тенденцию, проанализировать популярность продуктов, реализовать макроуправление рыночной экономикой, установить умный транспорт и умный дом, добиться точной рекламы и т. д.
резюме
Подводя итог, можно сказать, что большие данные — это постфактум сравнение и обработка данных в реальном времени.Анализ больших данныхтри характеристики:
- Полный образец, а не образец
- Эффективность вместо точности
- корреляция, а не причинность
Отношения любви и ненависти между большими данными и связанными с ними технологиями
От базы данных к большим данным
== Рыбалка в пруду (база данных) и морская рыбалка (большие данные)==
шкала данных
Легче всего заметить разницу между «прудом» и «морем» в масштабе. Размер «пруда» относительно невелик, даже «пруд», который ранее считался относительно большим, например VLDB (Very Large Database), все же мал по сравнению с «морским» XLDB (Extremely Large Database). Объект обработки «пруд» обычно использует МБ в качестве базовой единицы, в то время как «море» часто использует ГБ или даже ТБ, ПБ в качестве базовой единицы обработки.
тип данных
В прошлых «прудах» типы данных были единичными, часто только один или несколько, и эти данные были в основном структурированными данными. В «море» есть много видов данных, их тысячи, и эти данные включают в себя структурированные, полуструктурированные и неструктурированные данные, и доля полуструктурированных и неструктурированных данных становится все больше.
Связь между схемой и данными
В традиционных базах данных сначала создается схема, а затем генерируются данные. Это все равно, что сначала выбрать правильный «пруд», а затем поместить в него «рыбу», подходящую для этой «прудовой» среды. В эпоху больших данных во многих случаях сложно предопределить закономерности, и закономерности можно определить только после появления данных, а закономерности постоянно развиваются с ростом объемов данных. Это похоже на то, что сначала у вас будет небольшое количество рыбы, а со временем разнообразие и количество рыбы постоянно увеличивается. Изменения в рыбе постоянно меняют состав и окружающую среду моря.
объект обработки
Рыбалка в «пруде», где «рыба» является лишь объектом ее улова. В «море», помимо объекта лова, о «рыбе» также можно судить по наличию какой-то «рыбы», чтобы определить, существуют ли другие виды «рыб». То есть данные в традиционной базе данных используются только как объект обработки. В эпоху больших данных данные следует использовать как ресурс, помогающий решать проблемы во многих других областях.
Большие данные и облачные вычисления
лицевая и оборотная стороны монеты
Большие данные и облачные вычисления тесно связаны и дополняют друг друга, ключевые технологии у них общие, а «облачные вычисления» появились раньше.
Среди ключевых технологий облачных вычислений технология хранения массивных данных, технология управления массивными данными и модель программирования MapReduce также являются ключевыми технологиями больших данных.
Связь между большими данными и облачными вычислениями неразрывна, как лицевая и оборотная стороны медали: большие данные не могут быть обработаны одним компьютером.Распределенная архитектура. Его характеристика заключается в распределенном анализе массивных данных. Но он должен полагаться на распределенную обработку, распределенную базу данных и облачное хранилище, а также на технологию виртуализации облачных вычислений.
каштан Вы можете понять взаимосвязь между ними таким образом.Технология облачных вычислений — это контейнер, а большие данные — это вода, хранящаяся в этом контейнере.Большие данные опираются на технологию облачных вычислений для хранения и вычислений.
Непоследовательные цели
- Откройте для себя выгоду и сократите расходы на ИТ
- Облачные вычисления больше фокусируются на «режиме вычислений», тогда как большие данные больше фокусируются на «ресурсах данных».
Проблемы, связанные с большими данными
место хранения
В реальном производстве данные некоторых отраслей включают сотни параметров, и их сложность отражается не только в самой выборке данных, но и в динамике взаимодействия между многоисточниковой неоднородностью, множественностью и многопространственностью, и это трудно использовать традиционные методы Описание и измерение. Как эффективно хранить эти крайне разнородные данные, становится проблемой.
иметь дело с
С наступлением эры больших данных быстрый рост полуструктурированных и неструктурированных данных привел к огромным последствиям и проблемам для традиционных методов анализа. С чем нужно столкнуться:
- Обработка данных в реальном времени (своевременность)
- Дизайн индекса в динамически изменяющейся среде
- Отсутствие предварительных знаний
reference
Базы данных и большие данные Большие данные и облачные вычисления