Оглавление:
Определение - Что означает «грязные данные»?
Грязные данные относятся к данным, которые содержат ошибочную информацию. Он также может использоваться при обращении к данным, которые находятся в памяти и еще не загружены в базу данных. Полное удаление грязных данных из источника нецелесообразно или практически невозможно.
Следующие данные могут рассматриваться как грязные данные:
- Вводящие в заблуждение данные
- Дубликаты данных
- Неверные данные
- Неточные данные
- Неинтегрированные данные
- Данные, которые нарушают бизнес-правила
- Данные без обобщенного форматирования
- Неверно акцентированные или записанные данные
Техопедия объясняет грязные данные
В дополнение к неправильному вводу данных, грязные данные могут быть сгенерированы из-за неправильных методов управления данными и их хранения. Некоторые грязные типы данных описаны ниже:
- Неверные данные. Чтобы данные были действительными или правильными, введенное значение должно соответствовать действительным значениям поля. Например, значение, введенное в поле месяца, должно составлять от 1 до 12, или возраст человека должен быть меньше 130. Корректность значения данных может быть программно обеспечена с помощью таблиц поиска или с помощью проверок редактирования.
- Неточные данные. Возможно, что значение данных может быть правильным, но не точным. Время от времени целесообразно проверять другие файлы или поля, чтобы выяснить, является ли значение данных точным в зависимости от используемого контекста. Тем не менее, точность часто может быть подтверждена только ручной проверкой.
- Нарушения бизнес-правил - Данные, которые нарушают бизнес-правила, представляют собой еще один тип грязных данных. Например, дата вступления в силу всегда должна предшествовать дате истечения срока действия. Другим примером нарушения бизнес-правил может быть страховое требование пациента по программе Medicare, когда пациент может быть еще не достиг пенсионного возраста и не имеет права на получение Medicare.
- Несоответствующие данные - непроверенная избыточность данных приводит к несоответствиям данных. На каждую организацию влияют противоречивые и повторяющиеся данные. Это особенно характерно для данных клиентов.
- Неполные данные - данные с пропущенными значениями являются основным типом неполных данных.
- Дублирующиеся данные - дублирующиеся данные могут возникать из-за многократных представлений, неправильного объединения данных или ошибки пользователя.
В целях повышения качества данных и предотвращения их загрязнения организации должны использовать методологии, обеспечивающие полноту, достоверность, согласованность и правильность данных.
