суббота, 11 июля 2015 г.

SQL: Big Data 5V

Определяющими факторами больших данных являются «пять V»

  • Volume
  • Velocity
  • Variety
  • Veracity
  • Value

Volume - Объем
Этот аспект первым приходит на ум большинству людей, когда они думают о Больших Данных. В последнее время объемы данных возрастают в геометрической прогрессии. Иметь дело с петабайтами данных - уже не редкость для организаций. При этом как правило им требуется анализ по всему множеству данных, а не только по определенному фрагменту или выборке.
Velocity - Скорость
Большие Данные – это не только объем. Не менее важным параметром является скорость изменения данных. Для большого объема статичных данных может быть приемлем анализ, в течение нескольких часов или дней. Но если набор данных растет на терабайт в день, или данные изменяются с высокой скоростью, то время обработки становится гораздо важнее.
Variety – Разнородность
Big Data – это не всегда структурированные данные: они могут включать в себя видео, аудио, электронные письма, неструктурированные документы, сообщения из социальных сервисов и масс-медиа. Поэтому их не всегда легко разместить в реляционной СУБД. Работа с различными структурированными и неструктурированными данными значительно увеличивает сложность хранения и анализа Больших Данных.
Veracity - Достоверность
Имея дело с большим объемом, скоростью поступления/изменения и разнообразием данных, надо быть готовым к тому, что не все данные будет стопроцентно достоверны. Вопрос состоит в том, какая «чистота» данных достаточна для верного анализа? Зачастую данные и не должны быть «совершенными», однако они должны максимально приближаться к требуемому уровню достоверности. В зависимости от сферы применения, верификация данных может иметь важное значение либо быть простой опцией.
Value - Стоимость
Это самый важный аспект больших данных. Реализация ИТ-инфраструктуры систем хранения и обработки больших данных стоит достаточно дорого, и бизнес будет требовать возврата инвестиций. В конце концов, если компания не может извлечь выгоду из своих данных, нет никакого смысла в наращивании потенциала для хранения и управления ими.
Четыре простых шага в управлении большими данными
Процесс управления большими данными можно описать в виде четырех шагов: Сбор – Упорядочивание – Анализ - Вывод. Диаграмма иллюстрирует их последовательность и содержание.

Для реализации процесса управления большими данными создаются специализированные программные и аппаратные решения.

Комментариев нет:

Отправить комментарий