Оглавление:
Определение - Что означает кластеризация K-Means?
Кластеризация K-средних - это простой неконтролируемый алгоритм обучения, который используется для решения проблем кластеризации. Далее следует простая процедура классификации данного набора данных в несколько кластеров, определяемых буквой «k», которые заранее фиксируются. Затем кластеры позиционируются как точки, и все наблюдения или точки данных связываются с ближайшим кластером, вычисляются, корректируются, а затем процесс начинается заново с использованием новых настроек, пока не будет достигнут желаемый результат.
Кластеризация K-средних используется в поисковых системах, сегментации рынка, статистике и даже в астрономии.
Техопедия объясняет кластеризацию K-Means
Кластеризация K-средних - это метод, используемый для кластерного анализа, особенно в области анализа данных и статистики. Он направлен на разделение набора наблюдений на несколько кластеров (k), что приводит к разделению данных на ячейки Вороного. Это можно считать методом выяснения, к какой группе действительно относится определенный объект.
Он используется в основном в статистике и может применяться практически в любой отрасли науки. Например, в маркетинге его можно использовать для группировки разных демографических групп людей в простые группы, которые облегчают работу маркетологов. Астрономы используют это, чтобы просеять через огромное количество астрономических данных; поскольку они не могут анализировать каждый объект один за другим, им нужен способ статистического поиска точек интереса для наблюдения и исследования.
Алгоритм:
- K точек помещаются в пространство данных объекта, представляющее начальную группу центроидов.
- Каждый объект или точка данных назначается в ближайший k.
- После того, как все объекты назначены, позиции k центроидов пересчитываются.
- Шаги 2 и 3 повторяются до тех пор, пока позиции центроидов не перестанут двигаться.