Автор работы: Пользователь скрыл имя, 11 Января 2012 в 10:06, курсовая работа
Целью работы является сравнение ВВП по его компонентам в разрезе стран мира за 2010 год, а так же сопоставление полученной классификации с результатами дискриминантного анализа.
Введение………………………………………………………………2
1 ВВП и его компоненты………………………….………………….4
2 Классификация с помощью кластерного анализа……………….8
3 Классификация с помощью карт Кохонена………………....……9
4 Сопоставление классификаций……………………….…................21
Заключение………………………………………………….………..22
Список использованных источников……………………….………23
Приложение А………………………………………………………..24
Приложение Б………………………………………………………..25
Перед
началом обучения карты необходимо
проинициализировать весовые
Инициализация случайными значениями, когда всем весам даются малые случайные величины.
Инициализация примерами, когда в качестве начальных значений задаются значения случайно выбранных примеров из обучающей выборки
Линейная
инициализация. В этом случае веса инициируются
значениями векторов, линейно упорядоченных
вдоль линейного
Обучение состоит из последовательности коррекций векторов, представляющих собой нейроны. На каждом шаге обучения из исходного набора данным случайно выбирается один из векторов, а затем производится поиск наиболее похожего на него вектора коэффициентов нейронов. При этом выбирается нейрон-победитель, который наиболее похож на вектор входов. Под похожестью в данной задаче понимается расстояние между векторами, обычно вычисляемое в евклидовом пространстве. Таким образом, если обозначить нейрон-победитель как c, то получим
После того, как найден нейрон-победитель производится корректировка весов нейросети. При этом вектор, описывающий нейрон-победитель и вектора, описывающие его соседей в сетке перемещаются в направлении входного вектора. Это проиллюстрировано на рисунке 6 для двумерного вектора.
Рисунок 6 – Корректировка весов нейросети
Подстройка
весов нейрона победителя и
его соседей. Координаты
При этом для модификации весовых коэффициентов используется формула:
,
где t обозначает номер эпохи (дискретное время). При этом вектор x(t) выбирается случайно из обучающей выборки на итерации t. Функция h(t) называется функцией соседства нейронов. Эта функция представляет собой невозрастающую функцию от времени и расстояния между нейроном-победителем и соседними нейронами в сетке. Эта функция разбивается на две части: собственно функцию расстояния и функции скорости обучения от времени, где t определяет положение нейрона в сетке.
Обычно применяется одни из двух функций от расстояния: простая константа , или Гауссова функция . При этом лучший результат получается при использовании Гауссовой функции расстояния. При этом является убывающей функцией от времени. Часто эту величину называют радиусом обучения, который выбирается достаточно большим на начальном этапе обучения и постепенно уменьшается так, что в конечном итоге обучается один нейрон-победитель. Наиболее часто используется функция, линейно убывающая от времени.
Рассмотрим
теперь функцию скорости обучения a(t).
Эта функция также представляет собой
функцию, убывающую от времени. Наиболее
часто используются два варианта этой
функции: линейная и обратно пропорциональная
времени вида
, где A и B это константы. Применение этой
функции приводит к тому, что все вектора
из обучающей выборки вносят примерно
равный вклад в результат обучения.
Обучение состоит из двух основных фаз:
на первоначальном этапе выбирается достаточно
большое значение скорости обучения и
радиуса обучение, что позволяет расположить
вектора нейронов в соответствии с распределением
примеров в выборке, а затем производится
точная подстройка весов, когда значения
параметров скорости обучения много меньше
начальных. В случае использования линейной
инициализации первоначальный этап грубой
подстройки может быть пропущен.
Так
как алгоритм SOM сочетает в себе два
основных направления – векторное кванто
При данном методе отрисовки полученную карту можно представить в виде слоеного пирога. Каждый слой которого представляет собой раскраску, порожденную одной из компонент исходных данных. Полученный набор раскрасок может использоваться для анализа закономерностей, имеющихся между компонентами набора данных. После формирования карты мы получаем набор узлов, который можно отобразить в виде двумерной картинки. При этом каждому узлу карты можно поставить в соответствие участок на рисунке, четырех или шестиугольный, координаты которого определяются координатами соответствующего узла в решетке. Теперь для визуализации осталось только определить цвет ячеек этой картинки. Для этого и используются значения компонент. Самый простой вариант – использование градаций серого. В этом случае ячейки, соответствующие узлам карты, в которые попали элементы с минимальными значениями компонента или не попало вообще ни одной записи, будут изображены черным цветом, а ячейки, в которые попали записи с максимальными значениями такого компонента, будут соответствовать ячейки белого цвета. В принципе можно использовать любую градиентную палитру для раскраски.
Полученные раскраски в совокупности образуют атлас, отображающий расположение компонент, связи между ними, а также относительное расположение различных значений компонент.
Кластером будет являться группа векторов, расстояние между которыми внутри этой группы меньше, чем расстояние до соседних групп. Структура кластеров при использовании алгоритма SOM может быть отображена путем визуализации расстояния между опорными векторами (весовыми коэффициентами нейронов). При использовании этого метода чаще всего используется унифицированная матрица расстояний (u-matrix). При использовании этого метода вычисляется расстояние между вектором весов нейрона в сетке и его ближайшими соседями. Затем эти значения используются для определения цвета, которым этот узел будет отрисован. Обычно используют градации серого, причем чем больше расстояние, тем темнее отрисовывается узел. При таком использовании узлам с наибольшим расстоянием между ними и соседями соответствует черный цвет, а близлежащим узлам – белый.
Имеющиеся статистические данные по 37 объектам сохраняем в файле формата txt. Импортируем данные в среду аналитического пакета.
На первом шаге мастера запускаем мастер обработки и выбираем из списка метод обработки "Карта Кохонена". Далее настраиваем значения столбцов – для каждого столбца выбрать одно из назначений: входное, выходное, не используется и информационное. Укажем всем столбцам, соответствующим показателям уровня ВВП, назначение "Входной". "Выходной" не назначаем.
Следующий шаг предлагает разбить исходное множество на обучающее и тестовое. По умолчанию, программа предлагает разбить множество на обучающее - 95% и тестовое - 5%. Но мы выставляем обучающему множеству 100% значение.
На следующем шаге предлагается настроить параметры карты: количество ячеек по Х и по Y их форму (шестиугольную или четырехугольную). Выбираем значения, задаваемые программой по умолчанию, т.е., шестиугольная форма ячеек, карта размерностью 14*10 (количество ячеек – 140).
На шаге "Настройка параметров остановки обучения", устанавливаем параметры остановки обучения и устанавливаем эпоху, по достижению которой обучение будет прекращено.
На следующем шаге настраиваются другие параметры обучения: способ начальной инициализации, тип функции соседства. Возможны два варианта кластеризации: автоматическое определение числа кластеров с соответствующим уровнем значимости и фиксированное количество кластеров (определяется пользователем). Поскольку мы предполагаем разбиение объектов на класс «лидеров», «стабильных» и «аутсайдеров», то выставляем значение кластеров, равное трем.
Далее запускаем процесс обучения сети - нажимаем на кнопку "Пуск" и дожидаемся окончания процесса обучения. Во время обучения можем наблюдать изменение количества распознанных примеров и текущие значения ошибок. Этот процесс аналогичен обучению нейронных сетей.
На рисунке 7 представлен процесс построения (обучения) карты Кохенена. Как видим, по достижению 122 эпох было распознано 100% обучающего множества, что говорит о хорошем результате обучения.
Рисунок 7 – Обучение карты Кохонена
По окончании обучения в списке визуализаторов выберем «Карту Кохонена», «Профили кластеров», «Обучающий набор» и визуализатор "Что-если". Укажем отображения всех входных, выходных столбцов, кластеров, а также поставим флажок "Границы кластеров" для четкого отображения границ.
На
рисунке 8 показан результат обучения
карты:
Рисунок 8 – Карты Кохенена
В цветовой палитре синим обозначены низкие значения признаков, красным – высокие.
Х1 – фактическое конечное потребление домашних хозяйств;
Х2 – фактическое коллективное потребление государственных учреждений;
Х3 – валовое накопление основного капитала;
Х4 – чистый экспорт товаров и услуг.
Использую
фильтр по кластеру, получим все
объекты, попавшие в интересующий нас
кластер. Во второй кластер, кластер «аутсайдеров»,
с низкими значениями произведенного
ВВП, с низким конечным потреблением домохозяйств
и государственного сектора и страны с
преобладанием импорта над экспортом
(Таблица 1).
В кластер «стабильных» стран мира были определены 10 объектов. Данный кластер характеризуется более высокими показателями, чем во втором кластере.
К классу «лидеров» были отнесены 16 объектов с максимальными характеристиками параметров.
Таблица 1 – Классификация с помощью самоорганизующихся карт Кохонена
Страны с низким уровнем ВВП (кластер 2) | Страны со средним уровнем ВВП (кластер 3) | Страны с высоким уровнем ВВП (кластер 1) |
Венгрия | Германия | Австрия |
Латвия | Греция | Бельгия |
Литва | Испания | Ирландия |
Польша | Италия | Люксембург |
Словакия | Португалия | Нидерланды |
Эстония | Великобритания | Финляндия |
Мексика | Словения | Франция |
Турция | Чехия | Дания |
Болгария | Корея | Швеция |
Россия | Новая Зеландия | Австралия |
Румыния | Канада | |
Норвегия | ||
США | ||
Швейцария | ||
Япония | ||
Израиль |
Унифицированная матрица расстояний применяется для визуализации структуры кластеров, полученных в результате обучения карты. Ее элементы определяют расстояние между весовыми коэффициентами нейрона и его ближайшими соседями. Большое значение говорит о том, что данный нейрон сильно отличается от окружающих и относится к другому классу. В нашем случае такого не наблюдается, все объекты распределены правильно.
Подобное
распределение по классам можно
объяснить тем, что 16 стран-лидеров,
являются государствами с устойчивой
экономической системой, потребляющие
большое количество благ и услуг и соответственно
производящие максимальное количество
внутреннего валового продукта. Причем
данные страны не являются сосредоточением
основной массы крупных промышленных
предприятий, они преимущественно производят
услуги. А страны, попавшие в аутсайдеры,
характеризуются переходной экономикой,
отсутствием развитой банковской системы
и крупных промышленных производств, либо
сменой политического режима в государстве.
4. Сопоставление классификаций
Полученные
распределения стран по компонентам
ВВП и демографическим
Практический расчет коэффициента ранговой корреляции Спирмена включает следующие этапы:
1)
Сопоставить каждому из
2)
Определить разности рангов
3) Возвести в квадрат каждую разность и суммировать полученные результаты.
4)
Вычислить коэффициент
где - сумма квадратов разностей рангов, а - число парных наблюдений.
При
использовании коэффициента ранговой
корреляции условно оценивают тесноту
связи между признаками, считая значения
коэффициента равные 0,3 и менее, показателями
слабой тесноты связи; значения более
0,4, но менее 0,7 - показателями умеренной
тесноты связи, а значения 0,7 и
более - показателями высокой тесноты
связи. В нашем случае значение коэффициента
равно 0,709, что говорит о существенной
тесноте связи между двумя классификациями
(с применением иерархического метода
и с использованием самоорганизующихся
карт).