Автор работы: Пользователь скрыл имя, 17 Января 2012 в 17:18, курсовая работа
В данном курсовом проекте рассмотрены общие методы кластеризации и подробно рассмотрен и реализован алгоритм кластеризации FOREL.
ВВЕДЕНИЕ……………………………………………………………….4
1 ПРЕДМЕТ КЛАСТЕРНОГО АНАЛИЗА…………………………..…5
2 ПРИМЕНЕНИЕ КЛАСТЕРНОГО АНАЛИЗА…………………….…9
3 МЕТОДЫ КЛАСТЕРНОГО АНАЛИЗА…………….…………….…16
4 АЛГОРИТМ FOREL……………………………………………….…..18
4.1 Принцип работы алгоритма FOREL……………………...…19
4.2 Процедура, реализующая алгоритм FOREL………………..25
ЗАКЛЮЧЕНИЕ………………………………………………….……....28
СПИСОК ИСПОЛЬЗУЕМЫХ ИСТОЧНИКОВ……………………….29
СОДЕРЖАНИЕ
ВВЕДЕНИЕ……………………………………………
1
ПРЕДМЕТ КЛАСТЕРНОГО АНАЛИЗА………
2
ПРИМЕНЕНИЕ КЛАСТЕРНОГО
3
МЕТОДЫ КЛАСТЕРНОГО АНАЛИЗА…………
4.2
Процедура, реализующая
ЗАКЛЮЧЕНИЕ……………………………………
СПИСОК
ИСПОЛЬЗУЕМЫХ ИСТОЧНИКОВ……………………….29
ВВЕДЕНИЕ
Кластерный анализ (англ. Data clustering) –задача разбиения заданной выборки объектов (ситуаций) на подмножества, называемые кластерами, так, чтобы каждый кластер состоял из схожих объектов, а объекты разных кластеров существенно отличались. Задача кластеризации относится к статистической обработке, а также к широкому классу задач обучения без учителя.
В настоящее время кластерный анализ является наиболее актуальным направлением статистических исследований. С помощью методов кластерного анализа происходит обнаружение новизны в данных, понимание данных и сжатие данных.
В данном курсовом проекте рассмотрены общие методы кластеризации и подробно рассмотрен и реализован алгоритм кластеризации FOREL.
1 ПРЕДМЕТ КЛАСТЕРНОГО АНАЛИЗА
Кластерный анализ – это многомерная статистическая процедура, выполняющая сбор данных, содержащих информацию о выборке объектов, и затем упорядочивающая объекты в сравнительно однородные группы (кластеры) (Q-кластеризация, или Q-техника, собственно кластерный анализ). Кластер –группа элементов, характеризуемых общим свойством, главная цель кластерного анализа–нахождение групп схожих объектов в выборке. Спектр применений кластерного анализа очень широк: его используют в археологии, медицине, психологии, химии, биологии, государственном управлении, филологии, антропологии, маркетинге, социологии и других дисциплинах. «Тематика исследований варьирует от анализа морфологии мумифицированных грызунов в Новой Гвинее до изучения результатов голосования сенаторов США, от анализа поведенческих функций замороженных тараканов при их размораживании до исследования географического распределения некоторых видов лишая в Саскачеване». Однако универсальность применения привела к появлению большого количества несовместимых терминов, методов и подходов, затрудняющих однозначное использование и непротиворечивую интерпретацию кластерного анализа.
Задачи и условия
Кластерный анализ выполняет следующие основные задачи:
Независимо от предмета изучения применение кластерного анализа предполагает следующие этапы:
Кластерный анализ предъявляет следующие требования к данным:
Если
кластерному анализу
Задача
кластерного анализа
Например, пусть G включает n стран, любая из которых характеризуется ВНП на душу населения (F1), числом М автомашин на 1 тысячу человек (F2), душевым потреблением электроэнергии (F3), душевым потреблением стали (F4) и т.д. Тогда Х1 (вектор измерений) представляет собой набор указанных характеристик для первой страны, Х2 - для второй, Х3 для третьей, и т.д. Задача заключается в том, чтобы разбить страны по уровню развития.
Решением
задачи кластерного анализа являются
разбиения, удовлетворяющие некоторому
критерию оптимальности. Этот критерий
может представлять собой некоторый
функционал, выражающий уровни желательности
различных разбиений и
где xj - представляет собой измерения j-го объекта.
Для решения задачи кластерного анализа необходимо определить понятие сходства и разнородности.
Понятно то, что объекты i-ый и j-ый попадали бы в один кластер, когда расстояние (отдаленность) между точками Хi и Хj было бы достаточно маленьким и попадали бы в разные кластеры, когда это расстояние было бы достаточно большим. Таким образом, попадание в один или разные кластеры объектов определяется понятием расстояния между Хi и Хj из Ер, где Ер - р-мерное евклидово пространство. Неотрицательная функция d(Хi , Хj) называется функцией расстояния (метрикой), если:
а) d(Хi , Хj) ³ 0, для всех Хi и Хj из Ер
б) d(Хi, Хj) = 0, тогда и только тогда, когда Хi = Хj
в) d(Хi, Хj) = d(Хj, Хi)
г) d(Хi, Хj) £ d(Хi, Хk) + d(Хk, Хj), где Хj; Хi и Хk - любые три вектора из Ер.
Значение d(Хi, Хj) для Хi и Хj называется расстоянием между Хi и Хj и эквивалентно расстоянию между Gi и Gj соответственно выбранным характеристикам (F1, F2, F3, ..., Fр).
Наиболее часто употребляются следующие функции расстояний:
1. Евклидово расстояние d2(Хi , Хj) =
2. l1 - норма d1(Хi , Хj) =
3. Сюпремум - норма d¥ (Хi , Хj) = sup
k = 1, 2, ..., р
4. lp - норма dр(Хi , Хj) =
Евклидова
метрика является наиболее популярной.
Метрика l1 наиболее легкая для вычислений.
Сюпремум-норма легко
Пусть n измерений Х1, Х2,..., Хn представлены в виде матрицы данных размером p ´ n:
Тогда расстояние между парами векторов d(Хi , Хj) могут быть представлены в виде симметричной матрицы расстояний:
Понятием, противоположным расстоянию, является понятие сходства между объектами Gi. и Gj. Неотрицательная вещественная функция S(Хi ; Хj) = Sij называется мерой сходства, если :
1) 0£ S(Хi , Хj)<1 для Хi ¹ Хj
2) S(Хi , Хi) = 1
3) S(Хi , Хj) = S(Хj , Хi)
Пары
значений мер сходства можно объединить
в матрицу сходства:
Величину Sij называют коэффициентом сходства.
2 ПРИМЕНЕНИЕ КЛАСТЕРНОГО АНАЛИЗА
Рассмотрим некоторые приложения кластерного анализа.
Деление стран на группы по уровню развития.
Изучались 65 стран по 31 показателю (национальный доход на душу населения, доля населения занятого в промышленности в %, накопления на душу населения, доля населения, занятого в сельском хозяйстве в %, средняя продолжительность жизни, число автомашин на 1 тыс. жителей, численность вооруженных сил на 1 млн. жителей, доля ВВП промышленности в %, доля ВВП сельского хозяйства в %, и т.д.)
Каждая
из стран выступает в данном рассмотрении
как объект, характеризуемый определенными
значениями 31 показателя. Соответственно
они могут быть представлены в
качестве точек в 31-мерном пространстве.
Такое пространство обычно называется
пространством свойств
Первый
шаг подобного анализа
Расстояние между вновь полученным кластером и странами полагается равным среднему из расстояний между последними и двумя странами, которые составляют новый кластер. Иными словами, объединенная группа стран рассматривается как целое с характеристиками, примерно равными средним из характеристик входящих в него стран.
Второй шаг анализа заключается в рассмотрении преобразованной таким путем матрицы с 64 строками и столбцами. Снова выявляется пара экономик, расстояние между которыми имеет наименьшее значение, и они, так же как в первом случае, сводятся воедино. При этом наименьшее расстояние может оказаться как между парой стран, так и между какой-либо страной и объединением стран, полученным на предыдущем этапе.
Дальнейшие процедуры аналогичны описанным выше: на каждом этапе матрица преобразуется так, что из нее исключаются два столбца и две строки, содержащие расстояние до объектов (пар стран или объединений – кластеров), сведенных воедино на предыдущей стадии; исключенные строки и столбцы заменяются столбцом и строкой, содержащими расстояния от новых объединений до остальных объектов; далее в измененной матрице выявляется пара наиболее близких объектов. Анализ продолжается до полного исчерпания матрицы (т. е. до тех пор, пока все страны не окажутся сведенными в одно целое). Обобщенные результаты анализа матрицы можно представить в виде дерева сходства (дендограммы), подобного описанному выше, с той лишь разницей, что дерево сходства, отражающее относительную близость всех рассматриваемых нами 65 стран, много сложнее схемы, в которой фигурирует только пять народных хозяйств. Это дерево в соответствии с числом сопоставляемых объектов включает 65 уровней. Первый (нижний) уровень содержит точки, соответствующие каждых стране в отдельности. Соединение двух этих точек на втором уровне показывает пару стран, наиболее близких по общему типу народных хозяйств. На третьем уровне отмечается следующее по сходству парное соотношение стран (как уже упоминалось, в таком соотношении может находиться либо новая пара стран, либо новая страна и уже выявленная пара сходных стран). И так далее до последнего уровня, на котором все изучаемые страны выступают как единая совокупность.