Автор работы: Пользователь скрыл имя, 24 Декабря 2012 в 17:13, курсовая работа
Наличие множества исходных признаков, характеризующих процесс функционирования объектов, заставляет отбирать из них наиболее существенные и изучать меньший набор показателей. Чаще исходные признаки подвергаются некоторому преобразованию, кото-рое обеспечивает минимальную потерю информации. Такое решение может быть обеспечено методами снижения размерности, куда относят факторный и компонентный анализ. Эти методы позволяют учитывать эффект существенной многомерности данных, дают возможность лако-ничного или более простого объяснения многомерных структур. Они вскрывают объективно существующие, непосредственно не наблюдае-мые закономерности при помощи полученных факторов или главных компонент. Они дают возможность достаточно просто и точно описать наблюдаемые исходные данные, структуру и характер взаимосвязей между ними. Сжатие информации получается за счет того, что число факторов или главных компонент – новых единиц измерения – исполь-зуется значительно меньше, чем было исходных признаков.
Задание……………………………………………………………………………3
Введение……………………………………………………………………….….4
1 Исследование на мультиколлинеарность……………………………..……5
2 Метод главных компонент………………………………………………..….7
2.1 Вычисление главных компонент……………………………………….…7
2.2 Экономическая интерпретация полученных главных компонент…..…12
2.3 Матрица наблюденных значений главных компонент……………...….12
2.4 Классификация объектов…………………………………………………13
2.5 Уравнение регрессии на главные компоненты………………………….13
3 Факторный анализ………………………………...…………………………15
3.1 Преобразование матрицы парных коэффициентов корреляции в редуцированную матрицу, получение матрицы факторных нагрузок и экономическая интерпретация ………………………………………………..…...16
3.2 Графическая классификация объектов по двум общим факторам…….19
3.3 Переход к обобщенным факторам с помощью варимаксного
вращения ……………………………………………………………………...19
3.4 Построение функции регрессии на выделенные общие факторы…......21
Список использованной литературы………………………………………...22
Приложения………………………………………………………..………...…23
Жзддг Министерство образования Российской Федерации
Финансово-экономический факультет
по дисциплине "Многомерные статистические методы"
Компонентный и факторный анализ
студент гр.
Оренбург 2001
Задание……………………………………………………………
Введение…………………………………………………………
2 Метод главных компонент………………………………………………..…
2.1 Вычисление главных компонент……………………………………….…7
2.2 Экономическая интерпретация полученных главных компонент…..…12
2.3 Матрица наблюденных
значений главных компонент…………
2.4 Классификация объектов……………………
2.5 Уравнение регрессии
на главные компоненты………………………
3 Факторный анализ………………………………...………………………
3.1 Преобразование матрицы
парных коэффициентов
3.2 Графическая классификация объектов по двум общим факторам…….19
3.3 Переход к обобщенным
факторам с помощью
вращения ………………………………………………………
3.4 Построение функции регрессии на выделенные общие факторы…......21
Список использованной литературы………………………………………...22
Приложения……………………………………………………
Задание
По имеющимся данным
Y1 – производительность труда;
X5 – удельный вес рабочих в составе ППП;
X6 – удельный вес покупных изделий;
X7 – коэффициент покупных изделий;
X9 – удельный вес потерь от брака;
X17 – непроизводственные расходы.
1. Выявить наличие
2. Снизить размерность
Метод главных компонент:
Метод общих факторов:
Наличие множества исходных признаков, характеризующих процесс функционирования объектов, заставляет отбирать из них наиболее существенные и изучать меньший набор показателей. Чаще исходные признаки подвергаются некоторому преобразованию, которое обеспечивает минимальную потерю информации. Такое решение может быть обеспечено методами снижения размерности, куда относят факторный и компонентный анализ. Эти методы позволяют учитывать эффект существенной многомерности данных, дают возможность лаконичного или более простого объяснения многомерных структур. Они вскрывают объективно существующие, непосредственно не наблюдаемые закономерности при помощи полученных факторов или главных компонент. Они дают возможность достаточно просто и точно описать наблюдаемые исходные данные, структуру и характер взаимосвязей между ними. Сжатие информации получается за счет того, что число факторов или главных компонент – новых единиц измерения – используется значительно меньше, чем было исходных признаков.
1. Исследование на мультиколлинеарность объясняющие переменные.
Приведем результаты по исследованию на мультиколлинеарность:
, где - собственные числа матрицы системы линейных уравнений.
Если число обусловленности велико, то система плохо обусловлена (порядка выше 10).
Собственные числа матрицы =2.292, =1.042, =0.952, =0.659, =0.055.
- велико система плохо обусловлена.
Проверим с уровнем значимость множественных коэффициентов корреляции.
Строим статистику:
Если
Т. к. все то отвергаем нулевую гипотезу, т. е. будем считать, что все генеральные множественные коэффициенты корреляции не равны нулю, т. е. значимы.
Для наибольшего значимого множественного коэффициента корреляции получим оценку уравнения регрессии.
С учётом значимых коэффициентов получим:
Выявили наличие мультиколлениарности, одним из методов ее устранения является метод главных компонент.
Компонентный анализ
относится к многомерным
Учитывая, что объекты исследования в экономике характеризуются большим, но конечным количеством признаков, влияние которых подвергается воздействию большого количества случайных причин.
2.1 Вычисление главных компонент
Первой главной компонентой Z1 исследуемой системы признаков Х1, Х2, Х3 , Х4 ,…, Хn называется такая центрировано – нормированная линейная комбинация этих признаков, которая среди прочих центрировано – нормированных линейных комбинаций этих признаков, имеет дисперсию наиболее изменчивую.
В качестве второй главной компоненты Z2 мы будем брать такую центрировано – нормированную комбинацию этих признаков, которая:
не коррелированны с первой главной компонентой, эта комбинация имеет наибольшую дисперсию.
K-ой главной компонентой Zk (k=1…m) мы будем называть такую центрировано – нормированную комбинацию признаков, которая:
не коррелированны с к-1 предыдущими главными компонентами, эта комбинация имеет наибольшую дисперсию.
Введём ортогональную матрицу U и перейдём от переменных Х к переменным Z, причём
Вектор выбирается т. о., чтобы дисперсия была максимальной. После получения выбирается т. о., чтобы дисперсия была максимальной при условии, что не коррелированно с и т. д.
Так как признаки измерены
в несопоставимых величинах, то удобнее
будет перейти к центрированно-
,
где - несмещенная, состоятельная и эффективная оценка математического ожидания,
-несмещенная, состоятельная и эффективная оценка дисперсии.
Матрица наблюденных значений исходных признаков приведена в Приложении.
Центрирование и нормирование произведено с помощью программы"Stadia".
Так как признаки центрированы и нормированы, то оценку корреляционной матрицы можно произвести по формуле:
.
Перед тем как проводить компонентный анализ, проведем анализ независимости исходных признаков.
Выдвигаем гипотезу:
Н0: незначима
Н1: значима
Строим статистику , распределена по закону с степенями свободы.
=125,7; (0,05;3,3) = 7,8
т.к > , то гипотеза Н0 отвергается и матрица является значимой, следовательно, имеет смысл проводить компонентный анализ.
Проверим гипотезу о диагональности ковариационной матрицы
Выдвигаем гипотезу:
Н0: соv =0,
Н1: соv
Строим статистику , распределена по закону с степенями свободы.
=123,21, (0,05;10) =18,307 т.к > то гипотеза Н0 отвергается и имеет смысл проводить компонентный анализ.
Для построения матрицы факторных нагрузок необходимо найти собственные числа матрицы , решив уравнение .
Используем для этой операции функцию eigenvals системы MathCAD, которая возвращает собственные числа матрицы:
Т.к. исходные данные представляют собой выборку из генеральной совокупности, то мы получили не собственные числа и собственные вектора матрицы, а их оценки. Нас будет интересовать на сколько “хорошо” со статистической точки зрения выборочные характеристики описывают соответствующие параметры для генеральной совокупности.
Доверительный интервал для i-го собственного числа ищется по формуле:
Доверительные интервалы для собственных чисел в итоге принимают вид:
Оценка значения нескольких собственных чисел попадает в доверительный интервал других собственных чисел. Необходимо проверить гипотезу о кратности собственных чисел.
Проверка кратности
, где r-количество кратных корней.
Данная статистика в случае справедливости распределена по закону с числом степеней свободы . Выдвинем гипотезы:
Так как , то гипотеза отвергается, то есть собственные числа и не кратны.
Далее,
:
Так как , то гипотеза отвергается, то есть собственные числа и не кратны.
:
Так как , то гипотеза отвергается, то есть собственные числа и не кратны.
Необходимо выделить главные компоненты на уровне информативности 0,85. Мера информативности показывает какую часть или какую долю дисперсии исходных признаков составляют k-первых главных компонент. Мерой информативности будем называть величину: