Дом Базы данных Что такое грязные данные? - определение из техопедии

Что такое грязные данные? - определение из техопедии

Оглавление:

Anonim

Определение - Что означает «грязные данные»?

Грязные данные относятся к данным, которые содержат ошибочную информацию. Он также может использоваться при обращении к данным, которые находятся в памяти и еще не загружены в базу данных. Полное удаление грязных данных из источника нецелесообразно или практически невозможно.

Следующие данные могут рассматриваться как грязные данные:

  • Вводящие в заблуждение данные
  • Дубликаты данных
  • Неверные данные
  • Неточные данные
  • Неинтегрированные данные
  • Данные, которые нарушают бизнес-правила
  • Данные без обобщенного форматирования
  • Неверно акцентированные или записанные данные

Техопедия объясняет грязные данные

В дополнение к неправильному вводу данных, грязные данные могут быть сгенерированы из-за неправильных методов управления данными и их хранения. Некоторые грязные типы данных описаны ниже:

  • Неверные данные. Чтобы данные были действительными или правильными, введенное значение должно соответствовать действительным значениям поля. Например, значение, введенное в поле месяца, должно составлять от 1 до 12, или возраст человека должен быть меньше 130. Корректность значения данных может быть программно обеспечена с помощью таблиц поиска или с помощью проверок редактирования.
  • Неточные данные. Возможно, что значение данных может быть правильным, но не точным. Время от времени целесообразно проверять другие файлы или поля, чтобы выяснить, является ли значение данных точным в зависимости от используемого контекста. Тем не менее, точность часто может быть подтверждена только ручной проверкой.
  • Нарушения бизнес-правил - Данные, которые нарушают бизнес-правила, представляют собой еще один тип грязных данных. Например, дата вступления в силу всегда должна предшествовать дате истечения срока действия. Другим примером нарушения бизнес-правил может быть страховое требование пациента по программе Medicare, когда пациент может быть еще не достиг пенсионного возраста и не имеет права на получение Medicare.
  • Несоответствующие данные - непроверенная избыточность данных приводит к несоответствиям данных. На каждую организацию влияют противоречивые и повторяющиеся данные. Это особенно характерно для данных клиентов.
  • Неполные данные - данные с пропущенными значениями являются основным типом неполных данных.
  • Дублирующиеся данные - дублирующиеся данные могут возникать из-за многократных представлений, неправильного объединения данных или ошибки пользователя.

В целях повышения качества данных и предотвращения их загрязнения организации должны использовать методологии, обеспечивающие полноту, достоверность, согласованность и правильность данных.

Что такое грязные данные? - определение из техопедии