Оглавление:
Определение - Что означают большие данные?
Большие данные относятся к процессу, который используется, когда традиционные методы добычи и обработки данных не могут раскрыть понимание и значение лежащих в основе данных. Данные, которые являются неструктурированными или чувствительными ко времени или просто очень большими, не могут быть обработаны механизмами реляционных баз данных. Этот тип данных требует другого подхода обработки, называемого большими данными, который использует массивный параллелизм на легкодоступном оборудовании.
Техопедия объясняет большие данные
Проще говоря, большие данные отражают меняющийся мир, в котором мы живем. Чем больше меняется, тем больше изменений фиксируется и записывается в виде данных. Возьмите погоду в качестве примера. Для синоптика количество данных, собранных по всему миру о местных условиях, является значительным. Логично, что будет иметь смысл, что локальная среда диктует региональные эффекты, а региональные эффекты диктуют глобальные эффекты, но вполне может быть наоборот. Так или иначе, эти погодные данные отражают атрибуты больших данных, где требуется обработка в реальном времени для огромного количества данных, и где большое количество входных данных может быть сгенерировано машиной, личными наблюдениями или внешними воздействиями, такими как солнечные пятна.
Обработка информации, подобной этой, иллюстрирует, почему большие данные стали такими важными:
- Большая часть собранных данных в настоящее время неструктурирована и требует другого хранения и обработки, чем в традиционных реляционных базах данных.
- Доступная вычислительная мощность невероятно высока, а это означает, что имеется больше возможностей для обработки больших данных.
- Интернет демократизировал данные, неуклонно увеличивая объем доступных данных, а также производя все больше необработанных данных.
Данные в необработанном виде не имеют значения. Данные должны быть обработаны, чтобы быть ценными. Однако в этом и заключается внутренняя проблема больших данных. Стоит ли обрабатывать данные из собственного формата объекта до полезного понимания огромных капитальных затрат на это? Или слишком много данных с неизвестными значениями, чтобы оправдать риск обработки их инструментами больших данных? Большинство из нас согласятся с тем, что возможность предсказывать погоду будет иметь значение, поэтому вопрос в том, может ли это значение перевесить затраты на обработку всех данных в реальном времени в отчете о погоде, на который можно рассчитывать.
