Оглавление:
- Определение - Что означает «Обнаружение знаний в базах данных» (KDD)?
- Techopedia объясняет открытие знаний в базах данных (KDD)
Определение - Что означает «Обнаружение знаний в базах данных» (KDD)?
Обнаружение знаний в базах данных (KDD) - это процесс обнаружения полезных знаний из набора данных. Этот широко используемый метод анализа данных представляет собой процесс, который включает в себя подготовку и отбор данных, очистку данных, включение предварительных знаний о наборах данных и интерпретацию точных решений на основе наблюдаемых результатов.
Основные области применения KDD включают маркетинг, обнаружение мошенничества, телекоммуникации и производство.
Techopedia объясняет открытие знаний в базах данных (KDD)
Традиционно сбор данных и обнаружение знаний выполнялись вручную. Со временем объем данных во многих системах превысил размер терабайта и больше не мог поддерживаться вручную. Более того, для успешного существования любого бизнеса обнаружение основных закономерностей в данных считается необходимым. В результате было разработано несколько программных инструментов, позволяющих обнаруживать скрытые данные и делать предположения, которые являются частью искусственного интеллекта.
Процесс KDD достиг своего пика за последние 10 лет. Сейчас в нем много разных подходов к открытию, которые включают индуктивное обучение, байесовскую статистику, оптимизацию семантических запросов, получение знаний для экспертных систем и теорию информации. Конечная цель - извлечь знания высокого уровня из данных низкого уровня.
KDD включает в себя междисциплинарную деятельность. Это включает хранение данных и доступ к ним, алгоритмы масштабирования для массивных наборов данных и интерпретацию результатов. Процесс очистки и доступа к данным, включенный в хранилище данных, облегчает процесс KDD. Искусственный интеллект также поддерживает KDD, обнаруживая эмпирические законы из экспериментов и наблюдений. Шаблоны, распознаваемые в данных, должны быть действительными для новых данных и обладать некоторой степенью достоверности. Эти модели считаются новыми знаниями. Шаги, вовлеченные во весь процесс KDD:
- Определите цель процесса KDD с точки зрения клиента.
- Понимание областей применения и необходимых знаний.
- Выберите целевой набор данных или подмножество выборок данных, для которых будет выполнено обнаружение.
- Очистите и предварительно обработайте данные, выбрав стратегии для обработки пропущенных полей и изменения данных в соответствии с требованиями.
- Упростите наборы данных, удалив нежелательные переменные. Затем проанализируйте полезные функции, которые можно использовать для представления данных, в зависимости от цели или задачи.
- Сопоставьте цели KDD с методами интеллектуального анализа данных, чтобы предложить скрытые шаблоны.
- Выберите алгоритмы интеллектуального анализа данных, чтобы обнаружить скрытые шаблоны. Этот процесс включает в себя принятие решения, какие модели и параметры могут подходить для всего процесса KDD.
- Поиск паттернов интереса в определенной репрезентативной форме, которая включает в себя правила классификации или деревья, регрессию и кластеризацию.
- Интерпретировать основные знания из добытых образцов.
- Используйте знания и включите их в другую систему для дальнейших действий.
- Документируйте это и делайте отчеты для заинтересованных сторон.