Автор работы: Пользователь скрыл имя, 17 Января 2012 в 17:18, курсовая работа
В данном курсовом проекте рассмотрены общие методы кластеризации и подробно рассмотрен и реализован алгоритм кластеризации FOREL.
ВВЕДЕНИЕ……………………………………………………………….4
1 ПРЕДМЕТ КЛАСТЕРНОГО АНАЛИЗА…………………………..…5
2 ПРИМЕНЕНИЕ КЛАСТЕРНОГО АНАЛИЗА…………………….…9
3 МЕТОДЫ КЛАСТЕРНОГО АНАЛИЗА…………….…………….…16
4 АЛГОРИТМ FOREL……………………………………………….…..18
4.1 Принцип работы алгоритма FOREL……………………...…19
4.2 Процедура, реализующая алгоритм FOREL………………..25
ЗАКЛЮЧЕНИЕ………………………………………………….……....28
СПИСОК ИСПОЛЬЗУЕМЫХ ИСТОЧНИКОВ……………………….29
В результате применения кластерного анализа были получены следующие пять групп стран:
Введение
новых индикаторов сверх
2. Деление стран по критерию близости культуры.
Как известно маркетинг должен учитывать культуру стран (обычаи, традиции, и т.д.).
Посредством кластеризации были получены следующие группы стран:
3.
Разработка прогноза
Кластерный анализ играет важную роль на этапе редукции экономико-математической модели товарной конъюнктуры, способствуя облегчению и упрощению вычислительных процедур, обеспечению большей компактности получаемых результатов при одновременном сохранении необходимой точности. Применение кластерного анализа дает возможность разбить всю исходную совокупность показателей конъюнктуры на группы (кластеры) по соответствующим критериям, облегчая тем самым выбор наиболее репрезентативных показателей.
Кластерный
анализ широко используется для моделирования
рыночной конъюнктуры. Практически
основное большинство задач
Например, задача разработки прогноза конъюнктуры рынка цинка.
Первоначально было отобрано 30 основных показателей мирового рынка цинка:
Импорт цинковых руд и концентратов (тыс. тонн)
Экспорт цинковых руд и концентратов (тыс. тонн)
Импорт цинка (тыс. тонн)
Экспорт цинка (тыс. Тонн)
Для определения конкретных зависимостей был использован аппарат корреляционно-регрессионного анализа. Анализ связей производился на основе матрицы парных коэффициентов корреляции. Здесь принималась гипотеза о нормальном распределении анализируемых показателей конъюнктуры. Ясно, что rij являются не единственно возможным показателем связи используемых показателей. Необходимость использования кластерного анализа связано в этой задаче с тем, что число показателей влияющих на цену цинка очень велико. Возникает необходимость их сократить по целому ряду следующих причин:
а) отсутствие полных статистических данных по всем переменным;
б) резкое усложнение вычислительных процедур при введении в модель большого числа переменных;
в)
оптимальное использование
г) стремление к использованию в модели статистически независимых переменных и пр.
Проводить такой анализ непосредственно на сравнительно громоздкой матрице коэффициентов корреляции весьма затруднительно. С помощью кластерного анализа всю совокупность конъюнктурных переменных можно разбить на группы таким образом, чтобы элементы каждого кластера сильно коррелировали между собой, а представители разных групп характеризовались слабой коррелированностью.
Для решения этой задачи был применен один из агломеративных иерархических алгоритмов кластерного анализа. На каждом шаге число кластеров уменьшается на один за счет оптимального, в определенном смысле, объединения двух групп. Критерием объединения является изменение соответствующей функции. В качестве функции такой были использованы значения сумм квадратов отклонений вычисляемые по следующим формулам:
(j = 1, 2, …, m),
где j - номер кластера, n - число элементов в кластере.
rij - коэффициент парной корреляции.
Таким
образом, процессу группировки должно
соответствовать
На первом этапе первоначальный массив данных представляется в виде множества, состоящего из кластеров, включающих в себя по одному элементу. Процесс группировки начинается с объединения такой пары кластеров, которое приводит к минимальному возрастанию суммы квадратов отклонений. Это требует оценки значений суммы квадратов отклонений для каждого из возможных объединений кластеров. На следующем этапе рассматриваются значения сумм квадратов отклонений уже для кластеров и т.д. Этот процесс будет остановлен на некотором шаге. Для этого нужно следить за величиной суммы квадратов отклонений. Рассматривая последовательность возрастающих величин, можно уловить скачок (один или несколько) в ее динамике, который можно интерпретировать как характеристику числа групп «объективно» существующих в исследуемой совокупности. В приведенном примере скачки имели место при числе кластеров равном 7 и 5. Далее снижать число групп не следует, т.к. это приводит к снижению качества модели. После получения кластеров происходит выбор переменных наиболее важных в экономическом смысле и наиболее тесно связанных с выбранным критерием конъюнктуры - в данном случае с котировками Лондонской биржи металлов на цинк. Этот подход позволяет сохранить значительную часть информации, содержащейся в первоначальном наборе исходных показателей конъюнктуры.
3 МЕТОДЫ КЛАСТЕРНОГО АНАЛИЗА
Сегодня существует достаточно много методов кластерного анализа. Остановимся на некоторых из них (ниже приводимые методы принято называть методами минимальной дисперсии).
Пусть Х - матрица наблюдений: Х = (Х1, Х2,..., Хu) и квадрат евклидова расстояния между Хi и Хj определяется по формуле:
Метод полных связей.
Суть данного метода в том, что два объекта, принадлежащих одной и той же группе (кластеру), имеют коэффициент сходства, который меньше некоторого порогового значения S. В терминах евклидова расстояния d это означает, что расстояние между двумя точками (объектами) кластера не должно превышать некоторого порогового значения h. Таким образом, h определяет максимально допустимый диаметр подмножества, образующего кластер.
Метод максимального локального расстояния.
Каждый
объект рассматривается как
Метод Ворда.
В
этом методе в качестве целевой функции
применяют внутригрупповую
Центроидный метод.
Расстояние между двумя кластерами определяется как евклидово расстояние между центрами (средними) этих кластеров:
d2ij = (`X –`Y)Т(`X –`Y)
Кластеризация
идет поэтапно на каждом из n–1 шагов
объединяют два кластера G и p,
имеющие минимальное значение d2ij.Если
n1 много больше n2, то центры объединения
двух кластеров близки друг к другу и характеристики
второго кластера при объединении кластеров
практически игнорируются. Иногда этот
метод иногда называют еще методом взвешенных
групп.
Цель, реализуемая при кластеризации по данному алгоритму - разбить выборку на такое (заранее неизвестное число) таксонов, чтобы сумма расстояний от объектов кластеров до центров кластеров была минимальной по всем кластерам. То есть, основная задача — выделить группы максимально близких друг к другу объектов, которые в силу гипотезы схожести и будут образовывать наши кластеры.
где первое суммирование ведется по всем кластерам выборки, второе суммирование — по всем объектам x, принадлежащим текущему кластеру Kj, а Wj — центр текущего кластера, ρ(x,y) — расстояние между объектами.
Может
быть задана признаковыми описаниями
объектов — линейное пространство либо
матрицей попарных расстояний между объектами.
Замечание: в реальных задачах зачастую
хранение всех данных невозможно или бессмысленно,
поэтому необходимые данные собираются
в процессе кластеризации
Его можно задавать как из априорных соображений (знание о диаметре кластеров), так и настраивать скользящим контролем.
Кластеризация на заранее неизвестное число таксонов
На каждом шаге мы случайным образом выбираем объект из выборки, раздуваем вокруг него сферу радиуса R, внутри этой сферы выбираем центр тяжести и делаем его центром новой сферы. Т.о. мы на каждом шаге двигаем сферу в сторону локального сгущения объектов выборки, то есть стараемся захватить как можно больше объектов выборки сферой фиксированного радиуса. После того как центр сферы стабилизируется, все объекты внутри сферы с этим центром мы помечаем как кластеризованные и выкидываем их из выборки. Этот процесс мы повторяем до тех пор, пока вся выборка не будет кластеризована.
Алгоритм FOREL является примером эвристического дивизимного алгоритма классификации. В основе работы алгоритма FOREL лежит использование гипотезы компактности: близким в содержательном смысле объектам в геометрическом пространстве признаков соответствуют обособленные множества точек, так называемые «сгустки». Если расстояние между центром -го таксона и точкой этого таксона обозначить , то сумма расстояний между центром и всеми точками этого таксона будет равна: