ETL (извлечение, преобразование и загрузка) является одним из наиболее важных процессов в аналитике больших данных - и в то же время он может быть одним из самых больших узких мест. (Более подробную информацию о больших данных можно найти в 5 полезных курсах по большим данным, которые вы можете пройти онлайн.)
Причина, по которой ETL так важен, заключается в том, что большая часть данных, которые собирает компания, в исходном виде не готова для анализа. Для того чтобы аналитическое решение создавало понимание, необработанные данные должны быть извлечены из приложения, в котором они находятся в данный момент, преобразованы в формат, который может прочитать аналитическая программа, а затем загружены в саму аналитическую программу.
Этот процесс аналогичен приготовлению пищи. Ваши сырые ингредиенты - ваши сырые данные. Они должны быть извлечены (куплены в магазине), преобразованы (приготовлены), а затем загружены (покрыты), прежде чем их можно будет проанализировать (попробовать). Сложность и затраты могут быть непредсказуемыми - легко приготовить для себя mac n 'cheese, но гораздо сложнее создать изысканное меню для 40 человек на званом обеде. Излишне говорить, что ошибка в любой момент может сделать вашу еду неперевариваемой.
