Автор работы: Пользователь скрыл имя, 23 Февраля 2012 в 10:21, курсовая работа
Для данной курсовой работы поставлены следующие цели:
1. составить таблицу с исходными данными;
2. провести предварительный анализ переменных;
3. сформулировать гипотезы о влиянии независимых переменных на результирующую переменную (цена жилья);
Введение.............................................................................................................................31 Описание анализируемых показателей........................................................................4
2 Описание статистического аппарата.........................................................................6
2.1 Средние величины....................................................................................................6
2.2 Показатели вариации...............................................................................................7
2.3 Однофакторный дисперсионный анализ................................................................8
2.4 Корреляционный анализ..........................................................................................9
2.5 Множественная корреляция..................................................................................11
2.6 Множественный регрессионный анализ ............................................................13
2.7 Метод наименьших квадратов...............................................................................16
2.8 Проверка на мультиколениарность.......................................................................21
2.9 Кластерный анализ..................................................................................................23
3 Экономический и статистический анализ результатов.............................................26 Заключение.......................................................................................................................45
Список использованных источников.............................................................................46
Гетероскедастичность – дисперсия объясняемой переменной (а следовательно, и случайных ошибок) не постоянна.
Невыполнение предпосылки 3, т.е. нарушение условия гомоскедастичности возмущений, означает, что дисперсия возмущения зависит от значений факторов. Такие регрессионные модели называются моделями с гетероскедастичностью возмущений.
рисунок 2 – Линейная модель регрессии с гетероскедастичностью возмущений
Если имеет место гетероскедастичность возмущений, то оценки параметров модели обычным методом наименьших квадратов не будут эффективными, т. е. их дисперсии не будут наименьшими. Рассчитанные значения стандартных ошибок коэффициентов уравнения регрессии могут быть заниженными, а при проверке статистической значимости коэффициентов может быть ошибочно принято решение об их значимом отличии от нуля, тогда как на самом деле это не так.
Для выявления гетероскедастичности может использоваться тест ранговой корреляции Спирмена. При использовании данного теста предполагается, что дисперсия отклонений будет либо увеличиваться, либо уменьшаться с увеличением Х. Поэтому для регрессии, построенной по МНК, абсолютные отклонения и Хi будут коррелированны. Проверка по некоторому фактору Xj выполняется в следующей последовательности:
1) Все εi и Хi упорядочиваются по возрастанию значений фактора Xj.
2) Расставляем ранги для εi и Хi.
3) Вычисляем коэффициент ранговой корреляции Спирмена по формуле:
,
где n – число сопоставимых пар;
d – разность между рангами коррелирующих признаков ().
Этот коэффициент также, как и линейный коэффициент корреляции, имеет те же свойства и пределы значений (от -1 до +1).
4) Найдем критическое значение по таблице распределения Стьюдента со степенями свободы (n-2), где n – объем выборки.
5) Проверяем Н₀: ρ=0. Если расчетное значение меньше критического, то нулевая гипотеза принимается и делается вывод о том, что гетероскедастичности нет.
Этот способ удобен, если у нас имеется один Х и один Y. Если имеется анализ множественной регрессии, то применяется данный тест к каждой переменной.
4. Возмущения не коррелированны между собой. Это означает, что ковариация между отдельными возмущениями j и k () равна нулю:
(38)
где (j) и (k) равны нулю в силу предпосылки 2.
Матричная форма записи предпосылки 4 имеет вид:
где — ковариационная матрица возмущений
(34)
в которой все элементы, не лежащие на главной диагонали, равны нулю, а все элементы, лежащие на главной диагонали, равны одной и той же дисперсии :
Равенство вытекает из определения дисперсии и предпосылки 2. Так в соответствии с определением, дисперсией 2(Z) некоторой случайной величины Z называется математическое ожидание квадрата ее отклонения от математического ожидания: . Согласно предпосылке 2 , отсюда
(36)
Предпосылка 4 может не выполняться при построении регрессионной модели по временным рядам исследуемых переменных, где ввиду наличия тенденции последующие уровни ряда могут зависеть от предыдущих уровней. В таком случае говорят, что в модели имеется автокорреляция возмущений. Другими причинами автокорреляции являются:
неучет в модели какого-либо важного фактора;
неправильный выбор формы регрессионной зависимости;
наличие ошибок измерения результативного признака;
цикличность значений экономических показателей;
запаздывание изменения значений показателей по отношению к изменению экономических условий.
При наличии автокорреляции возмущений обычный метод наименьших квадратов дает несмещенные и состоятельные оценки параметров модели, которые, однако, неэффективны, т. е. их дисперсии не будут наименьшими. По сравнению с гетероскедастичностью возмущений автокорреляция приводит, наоборот, к завышению стандартных ошибок коэффициентов уравнения регрессии. На основе таких результатов может быть сделан ошибочный вывод о несущественном влиянии исследуемого фактора на зависимую переменную, в то время как на самом деле влияние фактора на нее значимо.
Автокорреляцию возмущений выявляют путем исследования ряда остатков с помощью разных критериев. Наиболее часто для этой цели используется тест Дарбина–Уотсона, основанный на предположении, что если имеется автокорреляция возмущений, то она присутствует и во временном ряду остатков регрессии. Тест основан на расчете d‑статистики:
значение которой сравнивают с критическими значениями d1 и d2. При этом могут возникнуть следующие ситуации:
если , то возмущения признаются некоррелированными;
если , то имеется положительная автокорреляция возмущений;
если , то существует отрицательная автокорреляция;
если или , то это указывает на неопределенность ситуации.
Можно, не обращаясь к таблице критических точек, пользоваться грубой оценкой значения статистики. Если , то автокорреляция отсутствует.
5. Возмущение i есть нормально распределенная случайная величина, а вектор возмущений — нормально распределенный случайный вектор:
Обоснованием такого допущения служит центральная предельная теорема теории вероятностей, согласно которой сумма большого числа случайных величин имеет приближенно нормальное распределение независимо от индивидуального распределения слагаемых. Отклонение фактических значений результата Y от теоретических вызывается, как правило, множеством случайных и неучтенных факторов, каждый из которых не оказывает доминирующего влияния. Поэтому нормальное распределение является приемлемой моделью суммарной погрешности, т. е. возмущения.
Выполнение этой предпосылки может проверяться разными способами, например, с помощью R/S-критерия. [5, стр. 5-9]
2.8 Мультиколлинеарность
Термин «коллинеарность» характеризует линейную связь между двумя объясняющими переменными.
«Мультиколлинеарность» означает линейную связь между более чем двумя объясняющими переменными.
На практике всегда используется один термин – мультиколлинеарность.
Виды мультиколлинеарности:
1. Строгая мультиколлинеарность – наличие линейной функциональной связи между объясняющими переменными (иногда также и зависимой).
2. Нестрогая мультиколлинеарность – наличие сильной линейной корреляционной связи между объясняющими переменными (иногда также и зависимой).
Методы обнаружения мультиколлинеарности:
1) С помощью коэффициентов линейной корреляции Пирсона.
Вычисляем частные коэффициенты корреляции между Y, X1, X2, X3, т.е. rx1y, rx2y, rx3y, rx1x2, rx1x3, rx2x3. Если rx1x2>rx1y или rx1x2>rx2y, то можно предположить, что мультиколлинеарность есть.
2) С помощью представления одного факторного признака в виде линейной комбинации других факторных признаков. Другими словами, проводим регрессионный анализ, где в качестве зависимой переменной выбираем один из факторов. Если уравнение регрессии получается качественным, то мультиколлинеарность есть.
3) С помощью критерия χ².
Для этого следуем алгоритму:
1. Определяем корреляционную матрицу по формуле:
R = ,
где n – объем выборки;
Z – матрица нормированных исходных данных;
– транспонированная матрица нормированных исходных данных.
Элементами этой матрицы являются коэффициенты линейной корреляции между признаками (причем, только между факторными).
2. Вычисляем определитель данной матрицы:
Если , то можно предположить, что мультиколлинеарность есть.
3. Проверяем нулевую гипотезу Н₀: , т.е. мельтиколлинеарности нет. В предположении справедливости нулевой гипотезы рассчитывается статистика:
χ²р = - (n – 1 - * (2*m + 5)) * ln,
где n – объем выборки;
m – количество факторов.
Для нахождения критического значения используем закон распределения со степенями свободы * m*(m – 1).
Если χ²р<χ²кр, то делаем вывод о том, что мультиколлинеарности нет. [4, стр. 5-12]
2.9 Кластерный анализ
Кластерный анализ – один из методов многомерного анализа, предназначенный для группировки (кластеризации) совокупности элементов, которые характеризуются многими факторами, и получения однородных групп (кластеров). Разбиение на кластеры происходит с помощью некоторой метрики, например, евклидова расстояния. Задача кластерного анализа состоит в представлении исходной информации об элементах в сжатом виде без ее существенной потери.
В кластерном анализе разбиение на кластеры существенно зависит от абсолютных значений исходных данных. Эту проблему решают с помощью нормировки (стандартизации). Для этого из всех значений по каждому фактору вычитают выборочное среднее этого фактора и полученные разности делят на среднее квадратическое отклонение.
где – исходное данное;
– выборочное среднее;
– среднее квадратическое отклонение.
При этом стандартизованные значения будут иметь выборочные средние равные нулю, а выборочные дисперсии – равные единице.
Пусть анализируемая совокупность состоит из p элементов, каждый из которых характеризуется значениями n дискриминантных переменных. На первом шаге итеративной процедуры имеется p кластеров, каждый из которых включает по одному элементу. Определяются два наиболее близких или сходных кластера, объединяются в один кластер, количество кластеров сокращается на 1.
Мера близости определяется расстоянием между элементами, заносимыми в симметричную матрицу расстояний D :
Наиболее близкими считаются объекты с наименьшим расстоянием.
Расстояние между точками, между центрами кластеров определяются разными метриками.
В качестве метрики расстояния пакет предлагает различные меры, но наиболее употребительными являются Euclidean distance (евклидово расстояние):
, (44)
где i, z =1,2,3…n;
либо Squared Euclidean distance (квадратическое евклидово расстояние):
.
Что касается целевой функции, то одной из наиболее распространенной целевой функцией является внутригрупповая сумма квадратов. При использовании такой целевой функции алгоритм кластерного анализа может сводится к следующему: если имеется n элементов и матрица расстояний между ними, сначала считается, что каждый элемент есть отдельный кластер. Затем на каждом шаге объединяются такие два кластера, которые приводят к минимальному увеличению целевой функции.
8
3 Экономический и статистический анализ результатов
Таблица исходных данных представлена в приложении А. Для начала дадим характеристику каждого признака при помощи описательной статистики:
Описание результативного признака Цена, Площадь, Срок сдачи двухкомнатной квартиры приведены в таблице 1.
| Цена | Площадь | Срок сдачи | № формулы |
Среднее | 72974,39 | 69,35748 | 9,251825 | 1 |
Стандартная ошибка | 1462,353 | 0,605474 | 0,303214 |
|
Медиана | 63893,92 | 66,35 | 9 | 2 |
Мода | 57736,25 | 65 | 9 | 3 |
Стандартное отклонение | 34232,81 | 14,17379 | 7,098066 | 5 |
Дисперсия выборки | 1,17E+09 | 200,8964 | 50,38254 | 4 |
Интервал | 329657,5 | 134,2 | 33 |
|
Минимум | 40019,2 | 46,8 | 0 |
|
Максимум | 369676,7 | 181 | 33 |
|
Сумма | 39989968 | 38007,9 | 5070 |
|
Счет | 548 | 548 | 548 |
|