Автор работы: Пользователь скрыл имя, 05 Сентября 2012 в 15:16, реферат
Кластерный анализ-совокупность математических методов, предназначенных для формирования отдельных друг от друга групп (кластеров) из схожих по информации, свойствам или по какому либо другому критерию объектов. Кластер-это группа элементов, характеризуемых общим свойством. Фактически кластерный анализ- это обобщенное название достаточно большого набора алгоритмов, используемых при создании классификации.
Кластерный
анализ-совокупность математических методов,
предназначенных для
Кластерный анализ
выполняет следующие основные задачи:
- Разработка топологии и классификации.
- Исследование полезных актуальных схем группирования объектов.
- Выдвижение гипотез на основе исследуемых данных.
- Поверка гипотез или исследований для определения, действительно ли типы (группы), выделенные тем или иным способом, актуальны при наших исследованиях и действительно ли они присутствуют в имеющихся данных.
Кластерный анализ предполагает следующие этапы:
- Отбор выборки для кластеризации.
- Определить множество критериев (переменных), по которым будут оцениваться объекты в выборке.
- Вычисление значения того или иного сходства между объектами.
- Применение метода кластерного анализа для создания групп схожих объектов.
- Проверка достоверности результатов кластерного решения.
Для применения кластерного анализа необходимо проверить удовлетворяют ли данные следующим требованиям:
- Показатели не должны быть связаны между собой.
- Показатели не должны быть безразмерными.
- Распределение показателей должно быть близко к нормальному.
- Отсутствие влияния на значение показателей случайных факторов.
- Выборка должна быть однородна.
После получения результатов и их дальнейшего
анализа возможна корректировка выбранной
метрики и метода кластеризации до получения
оптимального результата.
Меры расстояний
Как же отбирать похожие объекты? В первую
очередь необходимо вектор характеристик
для каждого объекта — обычно, это набор
числовых значений, как например, месяц
и год человека. Так же существуют алгоритмы,
работающие категорийными характеристиками.
После определения вектора характеристик,
нужно провести нормализацию, для того
чтобы все составляющие давали одинаковый
вклад при расчете «расстояния». В процессе
нормализации все значения приводятся
к некоторому диапазону, например, [-1, 0]
или [-1, 1].
Следующий шаг, это измерение степень
похожести объектов в каждом кластере.
Существует множество метрик, например:
где p = (p1, p2,…, pn) и q = (q1, q2,…, qn)
За выбор метрики полностью ответственен
исследователь, поскольку результаты
кластеризации могут сильно отличаться
при использовании разных мер.
Классификация алгоритмов
Алгоритм классифицируется как:
Объединение кластеров
В случае использования иерархических
алгоритмов встает необходимость объединения
между собой кластеров и вычисление «расстояния»
между ними. Для этого существует несколько
метрик:
Обзор алгоритмов
Алгоритмы иерархической кластеризации
Среди алгоритмов иерархической кластеризации
можно выделить два основных типа: восходящие
и нисходящие. Нисходящие алгоритмы работают
по принципу «сверху-вниз»: в начале все
объекты помещаются в один кластер, который
затем разбивается на все более мелкие
кластеры. Более распространены восходящие
алгоритмы, которые являются зеркальным
отражением нисходящих. Результаты таких
алгоритмов обычно представляют в виде
дерева – дендрограммы. Классический
пример такого дерева – классификация
животных и растений.
Для вычисления расстояний между кластерами
чаще все пользуются двумя расстояниями:
одиночной связью или полной связью (см.
обзор мер расстояний между кластерами).
Недостатком иерархических алгоритмов
можно считать систему полных разбиений.
Она может быть лишней для решения задачи.
Алгоритмы квадратичной ошибки
Необходимость кластеризации можно рассматривать
как построение оптимального разбиения
объектов на группы. При этом оптимальность
может быть определена как требование
минимизации среднеквадратической ошибки
разбиения:
где cj — «центр масс» кластера j (точка
со средними значениями характеристик
для данного кластера).
Алгоритмы квадратичной ошибки относятся
к типу плоских алгоритмов. Самым распространенным
алгоритмом этой категории является метод
k-средних, который строит заданное число
кластеров, расположенных как можно дальше
друг от друга. Работа алгоритма делится
на несколько этапов:
В качестве критерия остановки работы
алгоритма обычно выбирают min изменение
среднеквадратической ошибки. Так же возможно
останавливать работу алгоритма, если
на шаге 2 не было объектов, переместившихся
из кластера в кластер.
К недостаткам данного алгоритма является
необходимость задавать количество кластеров
для разбиения.
Нечеткие алгоритмы
Наиболее популярным алгоритмом нечеткой
кластеризации является алгоритм c-meаns
(c-средних). Он представляет собой модификацию
метода k-средних. Шаги работы алгоритма:
Этот алгоритм может не подойти, если
заранее неизвестно число кластеров, или
необходимо каждый объект отнести к одному
кластеру.
Алгоритмы, основанные на теории графов
Основа таких алгоритмов заключается
в том, что выборка объектов представляется
в виде графа G=(V, E), вершинам которого
соответствуют объекты, а ребра имеют
вес, равный «расстоянию» между объектами.
Достоинством графовых алгоритмов кластеризации
являются наглядность, простота реализации
и возможность внесения разных усовершенствований,
основанных на геометрических соображениях.
Основными алгоритмам являются алгоритм
выделения связных компонент, алгоритм
построения минимального остовного (покрывающего)
дерева и алгоритм послойной кластеризации.
Алгоритм выделения связных компонент
В алгоритме выделения связных компонент
мы задаем входной параметр R и в графе
удаляются все ребра, для которых «расстояния»
меньше R. Соединенными остаются только
наиболее близкие пары объектов. Смысл
алгоритма заключается в том, чтобы подобрать
такое значение R, лежащее в диапазон
всех «расстояний», при котором граф «развалится»
на несколько связных компонент, которые
и являются кластерами.
Для подбора параметра R обычно строится
гистограмма распределений попарных расстояний.
В задачах с хорошо выраженной кластерной
структурой данных на гистограмме будет
два пика – один соответствует внутрикластерным
расстояниям, второй – межкластерным
расстояния. Параметр R подбираем из
зоны минимума между этими пиками, но при
этом управлять количеством кластеров
при помощи порога расстояния довольно
трудоемко.