Дом тенденции Как лучше всего масштабировать существующие среды хранилищ данных для удовлетворения потребностей анализа больших данных?

Как лучше всего масштабировать существующие среды хранилищ данных для удовлетворения потребностей анализа больших данных?

Anonim

Q:

Как лучше всего масштабировать существующие среды хранилищ данных для удовлетворения потребностей анализа больших данных?

A:

Отдельные проекты хранилищ данных должны оцениваться в каждом конкретном случае. Как правило, в попытках расширить существующий дизайн хранилища данных для лучшей обработки аналитики больших данных, существует основной процесс определения того, что необходимо сделать. ИТ-специалисты могут назвать это «масштабированием» или «масштабированием».

Вебинар: Big Iron, Meet Big Data: освобождение данных мэйнфреймов с помощью Hadoop & Spark

Зарегистрируйтесь здесь

Масштабирование обычно подразумевает получение достаточной вычислительной мощности, получение достаточного объема памяти и использование более мощных серверных операций для обработки всех более крупных наборов данных, которые будет обрабатывать бизнес. Напротив, масштабирование может означать сбор кластеров серверного оборудования и объединение их в сеть для получения больших данных.

Некоторые ИТ-эксперты считают, что более распространенным методом с Apache Hadoop и другими популярными инструментами и платформами для больших данных является масштабирование и кластеризация оборудования для достижения желаемых результатов. Однако другие отмечают, что при использовании современных технологий хранилище данных может расширяться с использованием стратегии закупок, которая добавляет ресурсы серверу, например, путем получения большего количества процессорных ядер и большего объема оперативной памяти.

Независимо от того, масштабируются они или уменьшаются, хранилищам данных требуются дополнительные физические аппаратные ресурсы, чтобы справляться с большими нагрузками на данные. Они также нуждаются в дополнительном управлении людьми, что означает больше обучения для внутренних команд. В проекте необходимо много планировать, чтобы определить, какое напряжение и давление будут оказывать большие рабочие нагрузки данных на существующую унаследованную систему, чтобы приспособить ее к новой экосистеме больших данных. Одна большая проблема - это узкие места в хранилищах, которые требуют обновления центров хранения, и другие узкие места в производительности, которые могут мешать возникающей системе, если они не будут устранены.

Как лучше всего масштабировать существующие среды хранилищ данных для удовлетворения потребностей анализа больших данных?