11. Задача 3. Кластерный анализ

Кластерный анализ - это совокупность методов классификации многомерных наблюдений или объектов, основанных на определении понятия расстояния между объектами с последующим выделением из них групп наблюдений (кластеров, таксонов).

Выбор конкретного метода кластерного анализа зависит от цели классификации.

Обычной формой представления исходных данных в задачах кластерного анализа служит матрица:

Каждая строка которой, представляет результат измерений k, рассматриваемых признаков на одном из обследованных объектов.

Наиболее трудным считается определение однородности объектов, которые задаются введением расстояния между объектами хi и хj (p(xi, xj)).

Объекты будут однородными в случае p(xi, xj)£ pпор,

Где pпор- заданное пороговое значение.

Выбор расстояния (р) является основным моментом исследования, от которого зависят окончательные варианты разбиения. Наиболее распространенными считаются принципы “ближайшего соседа” или “дальнего соседа”. В первом случае за расстояние между кластерами принимают расстояние между ближайшими элементами этих кластеров, а во втором - между наиболее удаленными друг от друга.

В задачах кластерного анализа часто используют Евклидово и Хемингово расстояния.

Евклидово расстояние определяется по формуле:

;

Сравнивается близость двух объектов по большому числу признаков.

Хемингово расстояние:

;

Используется как мера различия объектов, задаваемых атрибутивными признаками.

© 2011-2024 Контрольные работы по математике и другим предметам!