Оглавление:
Определение - Что означает экстракция?
Извлечение - это процесс извлечения релевантной информации из источников данных по определенному шаблону для использования в среде хранилища данных. Извлечение добавляет значение к данным и является первым шагом процесса преобразования данных. Извлечение выбирает только определенные данные, которые соответствуют условию или категории, из огромной коллекции данных, поступающих из различных источников.
Техопедия объясняет добычу
В среде хранилищ данных огромная коллекция данных, поступающих из различных структур и неструктурированных источников, должна быть обработана, преобразована и сохранена для получения значимых выводов и прогнозов. Данные, поступающие из первоисточников, должны систематически импортироваться в систему хранилищ данных, что облегчает выполнение различных операций с данными. Этот процесс называется извлечением. Извлечение добавляет структуру к неструктурированным данным, следуя определенным правилам. Ниже приведены некоторые методы, используемые при извлечении данных:
- Сопоставление с образцом
- Табличный подход
- Текстовая аналитика
