Q:
Какие ключевые вопросы следует учитывать в стратегии хранения больших данных?
A:Одной из самых больших проблем, которые игнорируются при хранении больших данных, является доступность для групп, которым это необходимо. Данные регулярно хранятся без документации, в местах, где трудно получить доступ или где соответствующие команды не замечают того факта, что они вообще существуют. В конечном счете, для хранения больших данных должна быть открыта первая стратегия, при которой команды узнают о ее существовании, из чего состоят данные и как получить к ним доступ, чтобы команды могли использовать их в программном обеспечении, если им это необходимо.
Другая критическая проблема, которую я обнаружил, - это качество данных, которые хранятся Данные должны храниться в форме самого высокого качества, в которой они могут существовать в конечном месте хранения. Хранение низкокачественных данных в озере данных, как правило, хорошо, но по мере продолжения в конвейере данных каждый этап должен повышать качество данных, чтобы они сохранялись в форме самого высокого качества в системе, такой как хранилище данных или аналитическая база данных. Это повысит качество систем, которые занимают место отдыха данных.